このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220114となっている論文です。

PDF登録状況(公開日: 20220114)

TitleAuthorsAbstract論文公表日・翻訳日
# スマートフォンの自動車旅行でバイタルサインをクラウドソーシングする

Crowdsourcing Bridge Vital Signs with Smartphone Vehicle Trips ( http://arxiv.org/abs/2010.07026v4 )

ライセンス: Link先を確認
Thomas J. Matarazzo, D\'aniel Kondor, Sebastiano Milardo, Soheil S. Eshkevari, Paolo Santi, Shamim N. Pakzad, Markus J. Buehler, Carlo Ratti(参考訳) 橋梁の構造状態の監視と管理における重要な課題は、特殊なセンサネットワークに関連するコストが高いことである。 過去10年間、研究者は安価でユビキタスなモバイルセンサーがインフラのメンテナンスに革命をもたらすと予測した。 ここでは, 実橋のモーダル周波数などの重要な物理特性を, 日々のトリップデータから正確に決定できることを示す。 この研究は、制御されたフィールド実験からスマートフォンデータを収集し、UBERは米国内の長期吊り橋に乗り、モーダル特性を正確に回復する分析方法を開発した。 この手法は、イタリアの短距離高架橋で収集された「部分的に制御された」クラウドソースデータに適用できる。 本研究は, 既存のモバイルセンサデータセットが, 商業利用, 公共事業等, その他の目的のために収集され, 重要な構造情報を含むことができることを検証し, 大規模インフラモニタリングに活用できることを示す。 補足的な分析プロジェクトでは、新しい橋のメンテナンス計画にクラウドソースデータを含めることで、追加コストなしで14年以上のサービス(30%の増加)を増やすことができる。 これらの結果は,スマートフォンが収集する大規模かつ安価なデータセットが,既存の交通インフラの健全性を監視する上で重要な役割を担っていることを示唆している。

A key challenge in monitoring and managing the structural health of bridges is the high-cost associated with specialized sensor networks. In the past decade, researchers predicted that cheap, ubiquitous mobile sensors would revolutionize infrastructure maintenance; yet many of the challenges in extracting useful information in the field with sufficient precision remain unsolved. Herein it is shown that critical physical properties, e.g., modal frequencies, of real bridges can be determined accurately from everyday vehicle trip data. The primary study collects smartphone data from controlled field experiments and "uncontrolled" UBER rides on a long-span suspension bridge in the USA and develops an analytical method to accurately recover modal properties. The method is successfully applied to "partially-controlled" crowdsourced data collected on a short-span highway bridge in Italy. This study verifies that pre-existing mobile sensor data sets, originally captured for other purposes, e.g., commercial use, public works, etc., can contain important structural information and therefore can be repurposed for large-scale infrastructure monitoring. A supplementary analysis projects that the inclusion of crowdsourced data in a maintenance plan for a new bridge can add over fourteen years of service (30% increase) without additional costs. These results suggest that massive and inexpensive datasets collected by smartphones could play an important role in monitoring the health of existing transportation infrastructure.
翻訳日:2023-04-29 19:55:33 公開日:2022-01-14
# 一元性フェルミ気体中の回転量子乱流

Rotating quantum turbulence in the unitary Fermi gas ( http://arxiv.org/abs/2010.07464v2 )

ライセンス: Link先を確認
Khalid Hossain, Konrad Kobuszewski, Michael McNeil Forbes, Piotr Magierski, Kazuyuki Sekizawa, Gabriel Wlaz{\l}owski(参考訳) 量子化された渦は回転する超流動の角運動量を持ち、量子乱流現象の鍵となる。 超低温原子技術の進歩により、超流動ヘリウム実験の初期の文脈とは異なり、量子乱流は実験と理論の両方の制御によって研究される。 多くの研究がボゾン系で行われているが、中性子星の回転など他の文脈にも適用可能であるにもかかわらず、フェルミオン量子乱流の詳細な研究は初期段階にある。 本稿では,超流動局所密度近似 (SLDA) と呼ばれる高精度軌道ベース時間依存性密度汎関数理論 (DFT) を用いて, 回転するフェルミオン超流体における量子乱流の大規模研究を行う。 回転するフェルミオン超流動の動的平衡における乱流崩壊の2つのモードを同定し、これらの結果を計算学的に単純な軌道自由度DFTと対比し、散逸を明示的に含めればこれらの崩壊機構を定性的に再現できることを示した。 これらの結果は、フェルミオン性超流動に固有の一体散逸機構が、フェルミオンとボゾン性乱流を区別する重要な役割を担っていることを示しているが、中性子星の中性子超流動のような拡張物理系をモデル化するために、より単純な軌道自由理論を修正できることを示唆している。

Quantized vortices carry the angular momentum in rotating superfluids, and are key to the phenomenon of quantum turbulence. Advances in ultra-cold atom technology enable quantum turbulence to be studied in regimes with both experimental and theoretical control, unlike the original contexts of superfluid helium experiments. While much work has been performed with bosonic systems, detailed studies of fermionic quantum turbulence are nascent, despite wide applicability to other contexts such as rotating neutron stars. In this paper, we present the first large-scale study of quantum turbulence in rotating fermionic superfluids using an accurate orbital based time-dependent density functional theory (DFT) called the superfluid local density approximation (SLDA). We identify two different modes of turbulent decay in the dynamical equilibration of a rotating fermionic superfluid, and contrast these results with a computationally simpler orbital-free DFT, which we find can qualitatively reproduce these decay mechanisms if dissipation is explicitly included. These results demonstrate that one-body dissipation mechanisms intrinsic to fermionic superfluids play a key role differentiating fermionic from bosonic turbulence, but also suggest that simpler orbital-free theories may be corrected so that these more efficient techniques can be used to model extended physical systems such as neutron superfluids in neutron stars.
翻訳日:2023-04-29 00:33:36 公開日:2022-01-14
# SU(N)フェルミオンの持続電流

Persistent Current of SU(N) Fermions ( http://arxiv.org/abs/2011.00916v3 )

ライセンス: Link先を確認
Wayne J. Chetcuti, Tobias Haug, Leong-Chuan Kwek, Luigi Amico(参考訳) リング状電位に拘束された反発的相互作用を有するsu($n$)フェルミオン系の持続電流と有効磁束による貫通について検討した。 そこで,bethe ansatzと数値解析を組み合わせることで,スピン相関の効果として,相互作用と応用磁束を組み合わせることで,系内で特定の現象が生じることを証明した。 その結果、持続的な電流の特異な特徴が生じる。 永続的な電流周期性を修正する基本的なフラックス量子は、1つの粒子から、全ての粒子で1つの量子が共有される分数流量子の極端ケースへと進化することが観察される。 永続電流はスピン成分数n$、粒子数、相互作用の数に依存しており、特定の物理系では普遍性特性を持つ。 整数充填率では、モットスペクトルギャップによる反発相互作用のしきい値を超える持続電流が抑制される。 メソスコピックな性質にもかかわらず、電流は明確な有限サイズのスケーリング挙動を示す。 現在のランドスケープホールドにおける特定のパリティ効果

We study the persistent current in a system of SU($N$) fermions with repulsive interaction confined in a ring-shaped potential and pierced by an effective magnetic flux. By applying a combination of Bethe ansatz and numerical analysis, we demonstrate that, as a combined effect of spin correlations, interactions and applied flux a specific phenomenon can occur in the system: spinon creation in the ground state. As a consequence, peculiar features in the persistent current arise. The elementary flux quantum, which fixes the persistent current periodicity, is observed to evolve from a single particle one to an extreme case of fractional flux quantum, in which one quantum is shared by all the particles. We show that the persistent current depends on the number of spin components $N$, number of particles and interaction in a specific way that in certain physical regimes has universality traits. At integer filling fractions, the persistent current is suppressed above a threshold of the repulsive interaction by the Mott spectral gap. Despite its mesoscopic nature, the current displays a clear finite size scaling behavior. Specific parity effects in the persistent current landscape hold.
翻訳日:2023-04-26 01:49:38 公開日:2022-01-14
# 量子力学におけるリアリズムとメタフィジカル

Realism and metaphysics in quantum mechanics ( http://arxiv.org/abs/2012.03071v2 )

ライセンス: Link先を確認
Raoni Wohnrath Arroyo and Jonas R. B. Arenhart(参考訳) 科学リアリズムによれば、科学は世界がどんなものか、およそ真の記述を与えてくれる。 しかし、それは何を意味するのか? 本章では,この議論のオントロジ的側面とメタ物理的側面に焦点を当てる。 つまり、私たちは次のような疑問に悩まされている: 最高の科学的理論によれば、何があるのか? これらの理論はどのように存在するのでしょうか? 我々は、真の科学的リアリズムがこれらの問題に対処しなければならないという仮定から始まる。 非相対論的量子力学をケーススタディとして、真に現実的なスタンスで現在直面している課題について論じる。 We argue, first, that in the ontological aspect, realists are in the same boat as science, that is, without sufficient epistemic justification to adopt the belief in the entities postulated by a single quantum theory, given that experience (currently) is not able to decide between rival theories; in the metaphysical aspect, realists also encounter problems with theory choice, given the possibility of associating more than one metaphysical theory with the description of the entities postulated by each quantum theory. なぜなら、科学的理論が構造の存在にコミットしているにもかかわらず、物体ではないとしても、我々はまだ構造が何であるか、メタ物理的に知らないからです。 最後に、科学理論のオントロジな仮定に関連するメタ物理学的な代替手段を減少させるメタポピュリアン法(meta-popperian method)との議論を進めた。 正しい代替法が何であるかはわからないが、どのメタフィジカルな代替案が各科学理論と非互換であるかを段階的に確認できた。

According to scientific realism, science gives us an approximately true description of what the world is like. But what does it mean? In this chapter, we focus on the ontological and metaphysical aspects of this discussion. That is, we are concerned with the following questions: what there is, according to our best scientific theories? And how are these things that theories say exist? We start from the assumption that a genuine scientific realism must deal with these issues. Taking non-relativistic quantum mechanics as a case study, we discuss some of the challenges currently faced by a genuinely realistic stance. We argue, first, that in the ontological aspect, realists are in the same boat as science, that is, without sufficient epistemic justification to adopt the belief in the entities postulated by a single quantum theory, given that experience (currently) is not able to decide between rival theories; in the metaphysical aspect, realists also encounter problems with theory choice, given the possibility of associating more than one metaphysical theory with the description of the entities postulated by each quantum theory. The same goes for structuralist alternatives, since, even if we accept that scientific theories are committed to the existence of structures, but not objects, we still do not know what structures are, metaphysically. Finally, we move forward in the discussion with the meta-Popperian method, which serves to reduce the metaphysical alternatives associated with the ontological postulates of scientific theories. We may not know what the correct alternative is, but we have been able to progressively check which metaphysical alternatives are incompatible with each scientific theory.
翻訳日:2023-04-22 00:44:52 公開日:2022-01-14
# 六方晶窒化ホウ素のイオン注入によるスピン欠陥の発生

Generation of Spin Defects by Ion Implantation in Hexagonal Boron Nitride ( http://arxiv.org/abs/2105.12029v2 )

ライセンス: Link先を確認
N.-J. Guo, W. Liu, Z.-P. Li, Y.-Z. Yang, S. Yu, Y. Meng, Z.-A. Wang, X.-D. Zeng, F.-F. Yan, Q. Li, J.-F. Wang, J.-S. Xu, Y.-T. Wang, J.-S. Tang, C.-F. Li and G.-C. Guo(参考訳) 量子情報やセンシング応用の有望なシステムとして、広帯域半導体における光対応可能なスピン欠陥が注目されている。 二次元材料のスピン欠陥は、そのアトマティック厚みから量子センシングにおいてユニークな優位性を持つと考えられている。 ここでは,六方晶窒化ホウ素のスピン特性に優れた負のホウ素荷電空孔 (v$ _\text{b}^{-} $) をイオン注入により生成できることを実証する。 V$ _\text{B}^{-} $ 欠陥のスピン特性を特徴付けるために, 室温で光学的に検出された磁気共鳴測定を行い, ゼロフィルタ分割を$ \sim $ 3.47 GHz とした。 v$ _\text{b}^{-} $ 欠陥の発光強度とスピン特性を比較し, 蛍光, エネルギー, イオン種などの異なる注入パラメータが生成する欠陥について検討した。 適切なパラメータで、v$ _\text{b}^{-} $ 欠陥を高い確率でうまく作成できる。 以上の結果から,hBN のスピン欠陥を簡便かつ実践的に生成する手法が得られた。

Optically addressable spin defects in wide-bandage semiconductors as promising systems for quantum information and sensing applications have attracted more and more attention recently. Spin defects in two-dimensional materials are supposed to have unique superiority in quantum sensing since their atomatic thickness. Here, we demonstrate that the negatively boron charged vacancy (V$ _\text{B}^{-} $) with good spin properties in hexagonal boron nitride can be generated by ion implantation. We carry out optically detected magnetic resonance measurements at room temperature to characterize the spin properties of V$ _\text{B}^{-} $ defects, showing zero-filed splitting of $ \sim $ 3.47 GHz. We compare the photoluminescence intensity and spin properties of V$ _\text{B}^{-} $ defects generated by different implantation parameters, such as fluence, energy and ion species. With proper parameters, we can create V$ _\text{B}^{-} $ defects successfully with high probability. Our results provide a simple and practicable method to create spin defects in hBN, which is of great significance for integrated hBN-based devices.
翻訳日:2023-03-29 20:50:10 公開日:2022-01-14
# フラストレーションのないハミルトニアンのクラスにおける異常な流体力学

Anomalous hydrodynamics in a class of scarred frustration-free Hamiltonians ( http://arxiv.org/abs/2107.13612v3 )

ライセンス: Link先を確認
Jonas Richter, Arijeet Pal(参考訳) 非定型的固有状態は、保存法則による量子的傷跡やヒルベルト空間の断片化は、障害のない熱化への障害を与える。 双極子と$U(1)$保存を持つある種のモデルでは、断片化は部分拡散輸送をもたらす。 本稿では, 変形モツキン鎖と呼ばれる1次元スピン・1ドルフラストレーションフリープロジェクタのクラスにおいて, フラストリングと弱い断片化の相互作用が異常な流体力学を引き起こすことを明らかにする。 これらの鎖の基底状態と低い励起は、大きな絡み合いと臨界減速を示す。 高いエネルギーで、プロジェクターの特定の形式が開境界条件に対する非連結クリロフ部分空間の出現を引き起こし、それぞれの部分空間に正確な量子的傷が埋め込まれ、特定の非平衡初期状態に対する絡み合いと局所化ダイナミクスが遅くなることを示す。 さらに, スピン輸送は非拡散性であり, 拘束された確率セルオートマトン回路のシミュレーションにより相関することを示した。 双極子モーメント保存系と比較して、変形したモツキン鎖は異なる普遍性クラスに属し、異なる動的輸送指数と多項式的に多くのクリロフ部分空間を持つ。

Atypical eigenstates in the form of quantum scars and fragmentation of Hilbert space due to conservation laws provide obstructions to thermalization in the absence of disorder. In certain models with dipole and $U(1)$ conservation, the fragmentation results in subdiffusive transport. In this paper we study the interplay between scarring and weak fragmentation giving rise to anomalous hydrodynamics in a class of one-dimensional spin-$1$ frustration-free projector Hamiltonians, known as deformed Motzkin chain. The ground states and low-lying excitations of these chains exhibit large entanglement and critical slowdown. We show that at high energies the particular form of the projectors causes the emergence of disjoint Krylov subspaces for open boundary conditions, with an exact quantum scar being embedded in each subspace, leading to slow growth of entanglement and localized dynamics for specific out-of-equilibrium initial states. Furthermore, focusing on infinite temperature, we unveil that spin transport is subdiffusive, which we corroborate by simulations of constrained stochastic cellular automaton circuits. Compared to dipole moment conserving systems, the deformed Motzkin chain appears to belong to a different universality class with distinct dynamical transport exponent and only polynomially many Krylov subspaces.
翻訳日:2023-03-20 16:43:13 公開日:2022-01-14
# 例外点近接による位相量子状態制御

Topological quantum state control through exceptional-point proximity ( http://arxiv.org/abs/2108.05365v3 )

ライセンス: Link先を確認
Maryam Abbasi, Weijian Chen, Mahdi Naghiloo, Yogesh N. Joglekar, and Kater W. Murch(参考訳) 放散型超伝導トランスモン回路の部分多様体として実現される非エルミート量子ビットの量子進化の研究を行った。 異常点を囲むためのシステムパラメータのリアルタイムチューニングは、非相互量子状態移動をもたらす。 さらに、状態輸送下で蓄積されたキラルな幾何学的位相を観察し、複雑なエネルギー景観における進化の量子コヒーレントな性質を検証し、異常点を囲むコヒーレントな効果と非コヒーレントな効果を区別する。 本研究は,量子状態ベクトルを制御するための全く新しい方法を示し,動的非エルミート制御によって実現される量子浴工学の新しい側面を強調する。

We study the quantum evolution of a non-Hermitian qubit realized as a submanifold of a dissipative superconducting transmon circuit. Real-time tuning of the system parameters to encircle an exceptional point results in non-reciprocal quantum state transfer. We further observe chiral geometric phases accumulated under state transport, verifying the quantum coherent nature of the evolution in the complex energy landscape and distinguishing between coherent and incoherent effects associated with exceptional point encircling. Our work demonstrates an entirely new method for control over quantum state vectors, highlighting new facets of quantum bath engineering enabled through dynamical non-Hermitian control.
翻訳日:2023-03-18 19:10:44 公開日:2022-01-14
# 重力重力計の従来の地球利用は量子技術で可能か? side view (複数形 side views)

Can Traditional Terrestrial Applications of Gravity Gradiometry Rely Upon Quantum Technologies ? A Side View ( http://arxiv.org/abs/2108.05519v3 )

ライセンス: Link先を確認
Alexey V. Veryaskin and Michael E. Tobar(参考訳) 1890年、ハンガリーの貴族で有能な物理学者・技術者であるロラン・フォン・e・オトヴォス(lorand von e\"otv\"os)男爵(baron lorand von e\"otv\"os)が、初めて重力勾配測定装置であるトーションバランス(torsion balance)を発明した。 その後、テキサス(アメリカ)で石油が発見された。 100年後、カセヴィチとチュは重力勾配の測定に量子物理学を使用した。 それ以来、低温原子重力勾配計(物質波重力勾配計)は世界中のトップクラスの大学のほとんどすべての物理学部門で開発が進められてきた。 1992年にkasevich and chuが最初の量子重力放射計を発行してからさらに30年が経ったが、その研究と開発は数年前に非常に活発になった。 この論文は、重力勾配法の歴史の約130年間に開発された非量子技術によって伝統的に占有されてきた応用物理学と精密工学の分野への量子侵入について理解し、説明しようとする試みである。

The era of practical terrestrial applications of gravity gradiometry begun in 1890 when Baron Lorand von E\"otv\"os, a Hungarian nobleman and a talented physicist and engineer, invented his famous torsion balance - the first practical gravity gradients measuring device. It was credited for the major oil discoveries later in Texas (USA). A 100 years later Kasevich and Chu pioneered the use of quantum physics for gravity gradient measurements. Since then cold-atom gravity gradiometers, or matter-wave gravity gradiometers, had been under development at almost every physics department of top-rated universities around the globe. After another 30 years since the Kasevich and Chu publication in 1992, which had led to the first ever quantum gravity gradiometer, the corresponding research and development ceased from being profoundly active a few years back. This article is an attempt to understand and explain what may have happened to the Quantum Invasion into the area of applied physics and precision engineering that traditionally has been occupied by non-quantum technologies developed for about a 130 years of the history of gravity gradiometry.
翻訳日:2023-03-18 17:21:43 公開日:2022-01-14
# スペクトル障害を有する動的変調tavis-cummingモデルにおけるスーパーラジアンス

Superradiance in dynamically modulated Tavis-Cumming model with spectral disorder ( http://arxiv.org/abs/2108.08397v2 )

ライセンス: Link先を確認
Alexander D. White, Rahul Trivedi, Kalyan Narayanan, Jelena Vu\v{c}kovi\'c(参考訳) 超放射は、同じ光学モードに結合した量子エミッタからの光子の放出を増強するものである。 しかし、量子エミッタの共鳴周波数の障害は、この効果を摂動させることができる。 本稿では,動的に変調されたtavis-cummingsモデルにおける超放射とスペクトル障害の相互作用について検討する。 数値シミュレーションと解析計算により,光モードの共振周波数を変調する量子制御プロトコルを用いて,常に多数のエミッタ上に形成される超放射モードの効果的な協調性を乗算的に拡張できることが示されている。 本研究は, 固体量子光学系における超放射効果の実験的実証に関係し, 光子を介するエミッタ-エミッタカップリングの実現に向けて, スペクトル障害は重要な技術的障害となる。

Superradiance is the enhanced emission of photons from quantum emitters collectively coupling to the same optical mode. However, disorder in the resonant frequencies of the quantum emitters can perturb this effect. In this paper, we study the interplay between superradiance and spectral disorder in a dynamically modulated Tavis-Cummings model. Through numerical simulations and analytical calculations, we show that the effective cooperativity of the superradiant mode, which is always formed over an extensive number of emitters, can be multiplicatively enhanced with a quantum control protocol modulating the resonant frequency of the optical mode. Our results are relevant to experimental demonstration of superradiant effects in solid-state quantum optical systems, wherein the spectral disorder is a significant technological impediment towards achieving photon-mediated emitter-emitter couplings.
翻訳日:2023-03-18 03:09:11 公開日:2022-01-14
# 超伝導量子回路および量子ビット用低損失誘電体としての六方晶窒化ホウ素(hbn)

Hexagonal Boron Nitride (hBN) as a Low-loss Dielectric for Superconducting Quantum Circuits and Qubits ( http://arxiv.org/abs/2109.00015v2 )

ライセンス: Link先を確認
Joel I-J. Wang, Megan A. Yamoah, Qing Li, Amir H. Karamlou, Thao Dinh, Bharath Kannan, Jochen Braumueller, David Kim, Alexander J. Melville, Sarah E. Muschinske, Bethany M. Niedzielski, Kyle Serniak, Youngkyu Sung, Roni Winik, Jonilyn L. Yoder, Mollie Schwartz, Kenji Watanabe, Takashi Taniguchi, Terry P. Orlando, Simon Gustavsson, Pablo Jarillo-Herrero, and William D. Oliver(参考訳) マイクロ波周波数での損失が低い誘電体は、高コヒーレンス固体量子コンピューティングプラットフォームに必須である。 NbSe$_{2}$-hBN-NbSe$_{2}$ヘテロ構造体を超伝導回路に集積したパラレルプレートコンデンサ(PPC)の品質係数を測定し, マイクロ波系における六方晶窒化ホウ素(hBN)薄膜の誘電損失について検討した。 抽出したhBNのマイクロ波損失接点は、低温の単一光子状態において、少なくとも10$^{-6}$の範囲で有界である。 共振器の測定値から推定されるhBN損失接点と一致し,コヒーレンス時間25$\mu$sのトランスモン量子ビットを実現するために,hBN PPCとアルミニウムジョセフソン接合を統合した。 hBN PPCは、従来のオールアルミニウムコプラナートランスモンと比較して、量子ビットの特徴サイズを約2倍に縮小する。 我々はhBNを,フットプリントを大幅に削減した高コヒーレンス量子回路を構築するための有望な誘電体として確立した。

Dielectrics with low loss at microwave frequencies are imperative for high-coherence solid-state quantum computing platforms. We study the dielectric loss of hexagonal boron nitride (hBN) thin films in the microwave regime by measuring the quality factor of parallel-plate capacitors (PPCs) made of NbSe$_{2}$-hBN-NbSe$_{2}$ heterostructures integrated into superconducting circuits. The extracted microwave loss tangent of hBN is bounded to be at most in the mid-10$^{-6}$ range in the low temperature, single-photon regime. We integrate hBN PPCs with aluminum Josephson junctions to realize transmon qubits with coherence times reaching 25 $\mu$s, consistent with the hBN loss tangent inferred from resonator measurements. The hBN PPC reduces the qubit feature size by approximately two-orders of magnitude compared to conventional all-aluminum coplanar transmons. Our results establish hBN as a promising dielectric for building high-coherence quantum circuits with substantially reduced footprint and, with a high energy participation that helps to reduce unwanted qubit cross-talk.
翻訳日:2023-03-16 16:00:59 公開日:2022-01-14
# 次世代セル無線ネットワークにおける量子アニーリングのコストと電力効率解析

A Cost and Power Feasibility Analysis of Quantum Annealing for NextG Cellular Wireless Networks ( http://arxiv.org/abs/2109.01465v3 )

ライセンス: Link先を確認
Srikar Kasi, P.A. Warburton, John Kaewell, Kyle Jamieson(参考訳) 現在の4Gネットワークと5Gネットワークは、携帯電話ユーザーのデータ要求の増大に対応するため、主にスペクトル効率の最大化を目的として設計されている。 この点で進展しているものの、このようなネットワークのカーボンフットプリントと運用コストの制御は、ネットワーク設計者の間では長年の課題である。 本稿では,ネットワークがセルベースバンド処理に量子アニールを利用するNextGシナリオを想定して,この問題を概観する。 我々は、消費電力、計算スループット、レイテンシ、スペクトル効率、運用コスト、量子技術を取り巻く実現可能性タイムラインに関する洞察を収集し、合成する。 これらのデータを用いて、将来の量子アニーリングハードウェアを対象とする定量的性能の分析と予測を行い、cmosハードウェアに対する計算能力とパワーの優位性を提供するとともに、ネットワーク全体のスペクトル効率を一致させる。 量子アニーリングのハードウェアは102$\mu$s問題と3.1m qubitsで動作し、400mhzの帯域幅と64アンテナの代表的な5g基地局シナリオでは消費電力を41 kw (45%)削減しつつ、cmos計算と同等のスペクトル効率を実現し、200mhzの帯域幅5gシナリオでは1.5m qubitsを用いて8 kwの電力削減 (16%以下) を行う。

In order to meet mobile cellular users' ever-increasing data demands, today's 4G and 5G networks are designed mainly with the goal of maximizing spectral efficiency. While they have made progress in this regard, controlling the carbon footprint and operational costs of such networks remains a long-standing problem among network designers. This paper takes a long view on this problem, envisioning a NextG scenario where the network leverages quantum annealing for cellular baseband processing. We gather and synthesize insights on power consumption, computational throughput and latency, spectral efficiency, operational cost, and feasibility timelines surrounding quantum technology. Armed with these data, we analyze and project the quantitative performance targets future quantum annealing hardware must meet in order to provide a computational and power advantage over CMOS hardware, while matching its whole-network spectral efficiency. Our quantitative analysis predicts that with quantum annealing hardware operating at a 102 $\mu$s problem latency and 3.1M qubits, quantum annealing will achieve a spectral efficiency equal to CMOS computation while reducing power consumption by 41 kW (45% lower) in a representative 5G base station scenario with 400 MHz bandwidth and 64 antennas, and an 8 kW power reduction (16% lower) using 1.5M qubits in a 200 MHz-bandwidth 5G scenario.
翻訳日:2023-03-16 06:27:11 公開日:2022-01-14
# ランダム量子回路における有限時間テレポーテーション相転移

Finite time teleportation phase transition in random quantum circuits ( http://arxiv.org/abs/2110.06963v2 )

ライセンス: Link先を確認
Yimu Bao, Maxwell Block and Ehud Altman(参考訳) ジェネリックユニタリダイナミクスによって進化した量子回路の2つの遠方量子ビットを絡むのにどのくらい時間がかかるのか? 時間進化が2つの無限に分離されたテストキュービットを除く全ての測定に従えば、それらの間の絡み合いは相転移を起こし、有限臨界時間$t_c$で非ゼロとなる。 入力量子ビットから無限遠出力量子ビットへの量子状態のテレポーティングの忠実性は、同じ臨界オンセットを示す。 特に、これらの有限時間遷移は、短距離相互作用2次元ランダムユニタリ回路と十分な長距離相互作用1次元回路で起こる。 位相遷移は、ランダムな連続時間進化を有効スピンハミルトニアンの有限温度温度状態にマッピングすることで理解され、逆温度は回路の進化時間と等しい。 この枠組みでは、t>t_c$の時に2つの遠方量子ビット間の絡み合いは、臨界温度以下の長距離強磁性スピン相関の出現に対応する。 これらの予測をクリフォード回路の数値シミュレーションを用いて検証し,既存プラットフォームにおける量子シミュレーションの実現可能性を提案する。

How long does it take to entangle two distant qubits in a quantum circuit evolved by generic unitary dynamics? We show that if the time evolution is followed by measurement of all but the two infinitely separated test qubits, then the entanglement between them can undergo a phase transition and become nonzero at a finite critical time $t_c$. The fidelity of teleporting a quantum state from an input qubit to an infinitely distant output qubit shows the same critical onset. Specifically, these finite time transitions occur in short-range interacting two-dimensional random unitary circuits and in sufficiently long-range interacting one-dimensional circuits. The phase transition is understood by mapping the random continuous-time evolution to a finite temperature thermal state of an effective spin Hamiltonian, where the inverse temperature equals the evolution time in the circuit. In this framework, the entanglement between two distant qubits at times $t>t_c$ corresponds to the emergence of long-range ferromagnetic spin correlations below the critical temperature. We verify these predictions using numerical simulation of Clifford circuits and propose potential realizations in existing platforms for quantum simulation.
翻訳日:2023-03-11 14:25:52 公開日:2022-01-14
# 量子臨界点に到達した指数精度

Exponential precision by reaching a quantum critical point ( http://arxiv.org/abs/2112.11264v2 )

ライセンス: Link先を確認
Louis Garbe, Obinna Abah, Simone Felicetti, Ricardo Puebla(参考訳) 量子メトロジーは、古典的パラメータ推定プロトコルで見られる精度の基本的な限界を克服することができることを示す。 プロトコルの持続時間に関して、達成可能な精度の上限を提供する量子フィッシャー情報のスケーリングは、そのパフォーマンスを評価する上で主に重要である。 古典的なプロトコルでは、量子フィッシャー情報は時間とともに線形にスケールするが、典型的な量子強化戦略は二次的(ハイゼンベルク)あるいは高階多項式スケーリングを達成する。 本稿では,多項式スケーリングを超越し,指数関数的優位性が得られるプロトコルを報告する。 このような指数関数的優位性は接近によって達成されるが、交差しなければ、熱力学極限における完全連結モデルの量子相転移の臨界点となる。 指数関数的な利点は、臨界点に近い断熱状態の崩壊に起因する。 この指数的スケーリングは、arXiv:2110.04144で導かれた新しい境界によってよく捉えられ、それによって、正確な数値シミュレーションと一致する量子フィッシャー情報の近似解析式を得ることができる。 さらに,有限サイズシステムとデコヒーレンス効果に対するロバスト性を考慮した場合の指数スケーリングの限界についても論じる。 そこで本研究では,提案手法の持続時間に関してパラダイム的ハイゼンベルク限界を超える精度スケーリングを行う新しい量子メロジカルプロトコルを提示する。

Quantum metrology shows that by exploiting nonclassical resources it is possible to overcome the fundamental limit of precision found for classical parameter-estimation protocols. The scaling of the quantum Fisher information -- which provides an upper bound to the achievable precision -- with respect to the protocol duration is then of primarily importance to assess its performances. In classical protocols the quantum Fisher information scales linearly with time, while typical quantum-enhanced strategies achieve a quadratic (Heisenberg) or even higher-order polynomial scalings. Here we report a protocol that is capable of surpassing the polynomial scaling, and yields an exponential advantage. Such exponential advantage is achieved by approaching, but without crossing, the critical point of a quantum phase transition of a fully-connected model in the thermodynamic limit. The exponential advantage stems from the breakdown of the adiabatic condition close to a critical point. As we demonstrate, this exponential scaling is well captured by the new bound derived in arXiv:2110.04144, which in turn allows us to obtain approximate analytical expressions for the quantum Fisher information that agree with exact numerical simulations. In addition, we discuss the limitations to the exponential scaling when considering a finite-size system as well as its robustness against decoherence effects. Hence, our findings unveil a novel quantum metrological protocol whose precision scaling goes beyond the paradigmatic Heisenberg limit with respect to the protocol duration.
翻訳日:2023-03-03 22:38:12 公開日:2022-01-14
# 効率よく実装可能なコンタクトトラクションと分離のためのマルコフ決定プロセスフレームワーク

A Markov Decision Process Framework for Efficient and Implementable Contact Tracing and Isolation ( http://arxiv.org/abs/2112.15547v2 )

ライセンス: Link先を確認
George Li, Arash Haddadan, Ann Li, Madhav Marathe, Aravind Srinivasan, Anil Vullikanti, Zeyu Zhao(参考訳) 効果的な接触追跡と隔離は疫病の予防に有効な戦略である。 エボラ出血熱の流行時に効果的に使われ、進行中の新型コロナウイルスのパンデミックで世界のいくつかの地域で成功を収めた。 接触追跡における重要な考慮事項は、隔離を求める人数の予算であり、社会経済的な理由から予算は限られている。 本稿では,限られた人数に隔離を依頼しながら,接触追跡による感染拡大の低減を図ったマルコフ決定プロセス(MDP)フレームワークを提案する。 我々は,MPPの各ステップを組合せ問題であるMinExposedとして定式化し,NP-Hardを証明し,その結果,LPに基づく近似アルゴリズムを開発した。 このアルゴリズムはMinExposedを直接解くが、情報制約のため実世界では実用的ではないことが多い。 この目的のために,先行アルゴリズムの分析から得られた洞察に基づいて,より解釈可能な欲望的アプローチを開発する。 greedyアルゴリズムの重要な特徴は、基盤となるソーシャルコンタクトネットワークの完全な情報を必要としないことである。 これにより、ヒューリスティックな実装が可能となり、重要な考慮事項となる。 最後に,実世界のネットワーク上で実行されるmdpのシミュレーション実験を行い,そのアルゴリズムが分離個体数を制限しながら流行曲線を曲げる上でどのように役立つかを示す。 実験の結果,グリーディアルゴリズムとその変種は,接触グラフや特定の伝達確率が不明な場合など,様々な現実的なシナリオにおいて,特に有効で堅牢で実用的であることが示された。 すべてのコードはgithubリポジトリにある。 https://github.com/gzli929/contacttracing。

Efficient contact tracing and isolation is an effective strategy to control epidemics. It was used effectively during the Ebola epidemic and successfully implemented in several parts of the world during the ongoing COVID-19 pandemic. An important consideration in contact tracing is the budget on the number of individuals asked to quarantine -- the budget is limited for socioeconomic reasons. In this paper, we present a Markov Decision Process (MDP) framework to formulate the problem of using contact tracing to reduce the size of an outbreak while asking a limited number of people to quarantine. We formulate each step of the MDP as a combinatorial problem, MinExposed, which we demonstrate is NP-Hard; as a result, we develop an LP-based approximation algorithm. Though this algorithm directly solves MinExposed, it is often impractical in the real world due to information constraints. To this end, we develop a greedy approach based on insights from the analysis of the previous algorithm, which we show is more interpretable. A key feature of the greedy algorithm is that it does not need complete information of the underlying social contact network. This makes the heuristic implementable in practice and is an important consideration. Finally, we carry out experiments on simulations of the MDP run on real-world networks, and show how the algorithms can help in bending the epidemic curve while limiting the number of isolated individuals. Our experimental results demonstrate that the greedy algorithm and its variants are especially effective, robust, and practical in a variety of realistic scenarios, such as when the contact graph and specific transmission probabilities are not known. All code can be found in our GitHub repository: https://github.com/gzli929/ContactTracing.
翻訳日:2023-03-02 19:03:52 公開日:2022-01-14
# 強結合ハイブリッド光学系における単光子散乱スペクトル

Spectrum of Single-Photon Scattering in a Strong-Coupling Hybrid Optomechanical System ( http://arxiv.org/abs/2201.05370v1 )

ライセンス: Link先を確認
S. Y. Yang, W. Z. Jia and H. Yuan(参考訳) 2レベル系(TLS)を機械共振器(MR)に結合し,Jaynes-Cummings型ポラリトンダブレットを生成する強結合ハイブリッド光学系の単一光子励起・透過スペクトルを理論的に解析する。 我々のモデルでは、最適結合とTLS-MR結合はどちらも強い。 このパラメータ領域では、ポラロンによる励起と再放出の過程はキャビティの単一光子励起と出力スペクトルに強く影響する。 各サイドバンドの微細構造は, 単一量子レベルにおいてもTLS-MRと有効TLS-光子結合を特徴付けることができる。 したがって、スペクトル構造は、マクロ的な機械的要素の量子的性質を敏感に探究することができる。 さらに、単一光子透過スペクトルを用いてTLSの状態のトモグラフィー再構成が可能なアプローチを提案する。

We analyze theoretically the single-photon excitation and transmission spectra of a strong-coupling hybrid optomechanics, where a two-level system (TLS) is coupled to the mechanical resonator (MR), generating the Jaynes-Cummings-type polariton doublets. In our model, both the optomichanical coupling and the TLS-MR coupling are strong. In this parameter region, the polaron-assisted excitation and reemission processes can strongly affect the single-photon excitation and output spectra of the cavity. We find that the fine structure around each sideband can be used to characterize the TLS-MR and the effective TLS-photon couplings, even at single-quantum level. Thus, the spectrum structures may make it possible to sensitively probe the quantum nature of a macroscopic mechanical element. We further provide a possible approach for tomographic reconstruction of the state of a TLS, utilizing the single-photon transmission spectra.
翻訳日:2023-03-01 04:41:02 公開日:2022-01-14
# より公平なデジタルマーケティングモデルに向けて

Towards a Fairer Digital Marketing Model ( http://arxiv.org/abs/2201.05368v1 )

ライセンス: Link先を確認
Leo Ardon and Dario Morelli and Francesco Villani and David Wheatley(参考訳) インターネットブームを皮切りに、デジタルマーケティング業界は近年指数関数的に成長し、大手テクノロジー企業の財政的成功の源流となってきた。 本稿では,この産業の現状と,技術革新とインテリジェントな買収によってgoogleが長年にわたって獲得してきた独占性について考察する。 次に、デジタルマーケティング業界をより公平なモデルに移行するための、潜在的手段を提案する。

Surfing on the internet boom, the digital marketing industry has seen an exponential growth in the recent years and is often at the origin of the financial success of the biggest tech firms. In this paper we study the current landscape of this industry and comment on the monopoly that Google has managed to gain over the years through technical innovations and intelligent acquisitions. We then propose potential avenues to explore in an effort to help moving the digital marketing industry towards a fairer model.
翻訳日:2023-03-01 04:40:45 公開日:2022-01-14
# 非エルミート物理とマスター方程式

Non-Hermitian physics and master equations ( http://arxiv.org/abs/2201.05367v1 )

ライセンス: Link先を確認
Federico Roccati, G. Massimo Palma, Fabio Bagarello, Francesco Ciccarello(参考訳) 開マルコフ量子系の進化を特徴づける長年の道具は、GKSL(Gorini-Kossakowski-Sudarshan-Lindblad)マスター方程式である。 しかし、いくつかのケースでは、開量子系は非エルミート的ハミルトニアン(英語版)によって効果的に記述され、この20年間、例外点の出現など、多くの非慣習的性質のために大きな関心を寄せてきた。 本稿では,これら2つのアプローチを概観し,その関係を強調し,非エルミートハミルトニアンと全密度行列のgkslマスター方程式を接続する方法について概観する。

A longstanding tool to characterize the evolution of open Markovian quantum systems is the GKSL (Gorini-Kossakowski-Sudarshan-Lindblad) master equation. However, in some cases, open quantum systems can be effectively described with non-Hermitian Hamiltonians, which have attracted great interest in the last twenty years due to a number of unconventional properties, such as the appearance of exceptional points. Here, we present a short review of these two different approaches aiming in particular to highlight their relation and illustrate different ways of connecting non-Hermitian Hamiltonian to a GKSL master equation for the full density matrix.
翻訳日:2023-03-01 04:40:38 公開日:2022-01-14
# 温暖原子からの単一モード量子非ガウス光

Single-mode Quantum Non-Gaussian Light from Warm Atoms ( http://arxiv.org/abs/2201.05366v1 )

ライセンス: Link先を確認
Jarom\'ir Mika, Luk\'a\v{s} Lachman, Tom\'a\v{s} Lamich, Radim Filip, Luk\'a\v{s} Slodi\v{c}ka(参考訳) 量子プラットフォームの分散量子情報処理とハイブリダイゼーションは、光間相互作用の品質と効率的な量子インターフェースの実現に対する要求を増大させる。 これは、基本的な量子非ガウス(QNG)の側面を持つ必要状態にとって特に困難になる。 量子技術のほとんどの強力な応用における最重要資源に対応している。 単一モード環境における波長可変温和原子アンサンブルによるqng特性を有する光の発生を実証する。 この光は、大きな原子熱運動によるデコヒーレンス効果の存在下で、自発的な4波混合過程において発生する。 余剰ノイズに対する感度が高いにもかかわらず、高速共振励起、大きなスペクトル帯域、およびソースジオメトリーによって保証される共振光子の低吸収損失の組み合わせにより、シーリングされたQNG光の直接観測が可能となった。

The distributed quantum information processing and hybridization of quantum platforms raises increasing demands on the quality of light-matter interaction and realization of efficient quantum interfaces. This becomes particularly challenging for needed states possessing fundamental quantum non-Gaussian (QNG) aspects. They correspond to paramount resources in most potent applications of quantum technologies. We demonstrate the generation of light with provably QNG features from a tunable warm atomic ensemble in a single-mode regime. The light is generated in a spontaneous four-wave mixing process in the presence of decoherence effects caused by a large atomic thermal motion. Despite its high sensitivity to any excess noise, a direct observability of heralded QNG light could be achieved due to a combination of a fast resonant excitation, large spectral bandwidth, and a low absorption loss of resonant photons guaranteed by the source geometry.
翻訳日:2023-03-01 04:40:26 公開日:2022-01-14
# 不平衡干渉計における量子フィッシャー情報最大化

Quantum Fisher information maximization in an unbalanced interferometer ( http://arxiv.org/abs/2201.05362v1 )

ライセンス: Link先を確認
Stefan Ataman(参考訳) 本稿では,任意の純粋入力状態と一般の不均衡なマッハ・ツェンダー干渉計を与えられた場合,第1ビームスプリッタの伝送係数は量子フィッシャー情報(QFI)を最大化するか? 本稿では, 単一パラメータQFIと2パラメータQFIの両方について, あるいは外部位相参照へのアクセスの有無を問う。 関連するすべてのシナリオの分析結果を提供します。 多くの入力状態に対して、バランスのとれた(50/50)シナリオは最適な2パラメータQFIをもたらすが、これは普遍的な真実とは程遠い。 単一パラメータQFIに関しては、バランスの取れたシナリオが最適であることはめったになく、バランスの取れない干渉計はバランスの取れたケースに対して大きな優位性をもたらす。 また、入力状態に課される条件を、外部位相参照を通じて、メトロジー上の利点を活用できるように記述する。 最後に,ガウシアンと非ガウシアンの両方の入力状態を含む,いくつかの例を通じてアサーションを説明し,議論する。

In this paper we provide the answer to the following question: given an arbitrary pure input state and a general, unbalanced, Mach-Zehnder interferometer, what transmission coefficient of the first beam splitter maximizes the quantum Fisher information (QFI)? We consider this question for both single- and two-parameter QFI, or, in other words, with or without having access to an external phase reference. We give analytical results for all involved scenarios. It turns out that, for a large class of input states, the balanced (50/50) scenario yields the optimal two-parameter QFI, however this is far from being a universal truth. When it comes to the single-parameter QFI, the balanced scenario is rarely the optimal one and an unbalanced interferometer can bring a significant advantage over the balanced case. We also state the condition imposed upon the input state so that no metrological advantage can be exploited via an external phase reference. Finally, we illustrate and discuss our assertions through a number of examples, including both Gaussian and non-Gaussian input states.
翻訳日:2023-03-01 04:40:13 公開日:2022-01-14
# 2つの巨大原子を含む導波路qed構造における単一光子輸送の操作

Manipulating single-photon transport in a waveguide-QED structure containing two giant atoms ( http://arxiv.org/abs/2201.05329v1 )

ライセンス: Link先を確認
S. L. Feng, W. Z. Jia(参考訳) 2つの巨大原子を含む導波路qed構造におけるコヒーレント単光子輸送の研究を行った。 異なる位相配置に適用可能な単一光子散乱振幅の統一解析式を導出した。 異なるパラメータ系,特に非対称ファノ線形状および電磁誘導透過性(EIT)様スペクトルの分光特性を詳細に分析した。 具体的には, ファノ線形状の出現は, 結合点間の位相遅延だけでなく, システムのトポロジにも影響されることがわかった。 また,eit類似スペクトルの出現に関する一般的な条件を主方程式を解析し,それに対応する散乱スペクトルの解析式をチェックすることにより検証する。 これらの現象は、将来の量子ネットワークにおける光子輸送を制御および操作するための強力なツールとなるかもしれない。

We investigate coherent single-photon transport in a waveguide-QED structure containing two giant atoms. The unified analytical expressions of the single-photon scattering amplitudes applicable for different topological configurations are derived. The spectroscopic characteristics in different parameter regimes, especially the asymmetric Fano line shapes and the electromagnetically induced transparency (EIT)-like spectra, are analyzed in detail. Specifically, we find that the appearance of Fano line shapes is influenced by not only the phase delays between coupling points but also the topologies of system. We also summarize the general conditions for appearance of EIT-like spectra by analyzing the master equation and verify these conditions by checking the corresponding analytical expressions of the scattering spectra. These phenomena may provide powerful tools for controlling and manipulating photon transport in future quantum networks.
翻訳日:2023-03-01 04:39:51 公開日:2022-01-14
# 位置依存質量と局所フェルミ速度の影響下でのモルスカリウムを用いたディラック方程式

Dirac equation with Morse potetnial under the influence of position-dependent mass and local Fermi velocity ( http://arxiv.org/abs/2201.05296v1 )

ライセンス: Link先を確認
Bijan Bagchi, Rahul Ghosh(参考訳) 質量関数における位置依存性の可能性を考慮し、1次元ディラック方程式を解く。 また, フェルミ速度を局所変数とし, ダイラック方程式のモースポテンシャルに対する可解性に対する2つの組み合わせ効果について検討した。 波動関数とそのような拡張スキームに対応するエネルギー準位に対する結果は閉形式で示される。

We solve the one-dimensional Dirac equation by taking into account the possibility of position-dependence in the mass function. We also take the Fermi velocity to act as a local variable and examine the combined effects of the two on the solvability of the Dirac equation with respect to the Morse potential. Our results for the wave functions and the energy levels corresponding to such an extended scheme are furnished in closed forms.
翻訳日:2023-03-01 04:39:38 公開日:2022-01-14
# 1次元結合ボース・ハバード模型における2粒子状態

Two-particle States in One-dimensional Coupled Bose-Hubbard Models ( http://arxiv.org/abs/2201.05536v1 )

ライセンス: Link先を確認
Yabo Li, Dominik Schneble, Tzu-Chieh Wei(参考訳) 動的に結合した1次元ボース・ハバード模型を研究し, 2粒子固有状態の波動関数とエネルギーを求める。 波動関数はbethe ansatzの形式に直接従わないが、種内相互作用と種間相互作用を持つモデルに対するchoy-haldane状態の組み合わせとして表現するための直感的な構成を記述する。 一般的な相互作用を持つ系の2粒子スペクトルは、一般に4つの異なる連続体と3つのダブルロン分散を含む。 ダブルロンの存在は、2種のボソン間の結合強度$\Omega$に依存し、そのエネルギーは$\Omega$と相互作用強度によって変化する。 我々は、ある特定の極限、すなわち無限の相互作用の詳細を与え、全ての種類の2粒子状態とその空間的および絡み合い特性のスペクトルを導出する。 異なる結合強度下での時間発展の差を実証し,システムの長時間挙動と二重分散の関係について検討した。 これらの力学は原則として低温原子で観測でき、デジタル量子コンピュータでシミュレートすることもできる。

We study dynamically coupled one-dimensional Bose-Hubbard models and solve for the wave functions and energies of two-particle eigenstates. Even though the wave functions do not directly follow the form of a Bethe Ansatz, we describe an intuitive construction to express them as combinations of Choy-Haldane states for models with intra- and inter-species interaction. We find that the two-particle spectrum of the system with generic interactions comprises in general four different continua and three doublon dispersions. The existence of doublons depends on the coupling strength $\Omega$ between two species of bosons, and their energies vary with $\Omega$ and interaction strengths. We give details on one specific limit, i.e., with infinite interaction, and derive the spectrum for all types of two-particle states and their spatial and entanglement properties. We demonstrate the difference in time evolution under different coupling strengths, and examine the relation between the long-time behavior of the system and the doublon dispersion. These dynamics can in principle be observed in cold atoms and might also be simulated by digital quantum computers.
翻訳日:2023-03-01 04:32:42 公開日:2022-01-14
# セマンティック情報理論に向けて(量子ロールの導入)

Towards a Semantic Information Theory (Introducing Quantum Corollas) ( http://arxiv.org/abs/2201.05478v1 )

ライセンス: Link先を確認
Philip Tetlow, Dinesh Garg, Leigh Chase, Mark Mattingley-Scott, Nicholas Bronn, Kugendran Naidoo, Emil Reinert(参考訳) 情報理論の分野は、エントロピーに関するクロード・シャノンの独創的な考えに基づいている。 にもかかわらず、彼のよく知られた意味の回避(シャノン、1948年)は現在も継続しており、情報理論は明確な情報内容と意味論への依存を持つ多くの分野と結びついていない。 本稿では, 量子エンタングルメントと情報エントロピーを, 差異と等価性の両面から意味論をモデル化する言語ツールとして応用する量子情報理論の拡張を提案する。 この拡張は、分布表現とCorollaとして知られる部分データトリプルに基づくモデルを通じて、記述意味論と情報理論を統合する。

The field of Information Theory is founded on Claude Shannon's seminal ideas relating to entropy. Nevertheless, his well-known avoidance of meaning (Shannon, 1948) still persists to this day, so that Information Theory remains poorly connected to many fields with clear informational content and a dependence on semantics. Herein we propose an extension to Quantum Information Theory which, subject to constraints, applies quantum entanglement and information entropy as linguistic tools that model semantics through measures of both difference and equivalence. This extension integrates Denotational Semantics with Information Theory via a model based on distributional representation and partial data triples known as Corolla.
翻訳日:2023-03-01 04:31:37 公開日:2022-01-14
# 2要素構造に基づく効率的多目的最適化アルゴリズム

An Efficient Multi-Indicator and Many-Objective Optimization Algorithm based on Two-Archive ( http://arxiv.org/abs/2201.05435v1 )

ライセンス: Link先を確認
Ziming Wang, Xin Yao(参考訳) 従来の多目的最適化アルゴリズムは、多目的最適化問題を解くために、支配と分解の難しさに基づく。 しかし、従来の指標に基づく多目的最適化アルゴリズムは以下の欠陥に悩まされている。 1) 環境選択プロセスには長い時間がかかる。 2) 追加パラメータは通常必要となる。 そこで本研究では,2階層(SRA3)に基づく多目的最適化アルゴリズムを提案する。このアルゴリズムは,指標性能に基づく環境選択において,優れた個人を効率よく選別し,追加パラメータを設定することなく,親の選別に適応パラメータ戦略を用いる。 そして, アルゴリズムを正規化し, 正規化前後のパフォーマンスを比較し, 正規化によりアルゴリズムの性能が大幅に向上した。 また、正規化が指標に基づくアルゴリズムに与える影響を分析し、正規化$I_{\epsilon+}$インジケータは極端な解を見つけるのに適しており、それぞれの目的の異なるコントリビューション範囲の影響を低減することができることを示した。 しかし、極性解も好まれており、この解集合が極性に収束する原因となる。 その結果、正規化についていくつか提案する。 そして, dtlz問題, wfg問題において5, 10, 15の目標で39の問題を実験し, 高効率を維持しつつ, sra3の収束性と多様性が良好であることを示した。 最後に,dtlz問題とwfg問題を20,25の目的で実験し,目的数の増加に伴い,本論文で提案するアルゴリズムが他のアルゴリズムよりも競争力が高いことを発見した。

Indicator-based algorithms are gaining prominence as traditional multi-objective optimization algorithms based on domination and decomposition struggle to solve many-objective optimization problems. However, previous indicator-based multi-objective optimization algorithms suffer from the following flaws: 1) The environment selection process takes a long time; 2) Additional parameters are usually necessary. As a result, this paper proposed an multi-indicator and multi-objective optimization algorithm based on two-archive (SRA3) that can efficiently select good individuals in environment selection based on indicators performance and uses an adaptive parameter strategy for parental selection without setting additional parameters. Then we normalized the algorithm and compared its performance before and after normalization, finding that normalization improved the algorithm's performance significantly. We also analyzed how normalizing affected the indicator-based algorithm and observed that the normalized $I_{\epsilon+}$ indicator is better at finding extreme solutions and can reduce the influence of each objective's different extent of contribution to the indicator due to its different scope. However, it also has a preference for extreme solutions, which causes the solution set to converge to the extremes. As a result, we give some suggestions for normalization. Then, on the DTLZ and WFG problems, we conducted experiments on 39 problems with 5, 10, and 15 objectives, and the results show that SRA3 has good convergence and diversity while maintaining high efficiency. Finally, we conducted experiments on the DTLZ and WFG problems with 20 and 25 objectives and found that the algorithm proposed in this paper is more competitive than other algorithms as the number of objectives increases.
翻訳日:2023-03-01 04:30:22 公開日:2022-01-14
# オープンデザイン運動による現代システムの概要

Overview of contemporary systems driven by open-design movement ( http://arxiv.org/abs/2201.05698v1 )

ライセンス: Link先を確認
Aditya M. Medhi, Abhishek D. Patange, Sujit S. Pardeshi, R. Jegadeeshwaran, Mustafa Kuntoglu(参考訳) オープンデザインの運動は、デザイン情報を用いた機械、物理システム、製品の作成に焦点を当てている。 オープンソースハードウェアとソフトウェアを組み込んだシステムの開発であり、簡単にかつ自由にカスタマイズおよび実装できる。 一般に、この動きはインターネットを通じて採用され、通常経済的な補償なしに実行される。 この運動の目的とアイデアはオープンソース運動に似ているが、ソフトウェアシステムのみではなく物理システムの設計と開発に使われている。 このデザインは、例えばプライベートビジネスのような屋外投資家の代わりに、ユーザーが設計するであろうエンドプロダクトを共同で作成する必要がある。 これに合わせて、多様なアプリケーションのためのオープンデザイン運動によって駆動される様々な現代システムについて包括的なレビューを行う。

The movement for open-design focuses on the creation of machines, physical systems, and products using design information shared publicly. It consists of the development of systems incorporating open-source hardware and software which can be easily/freely customized and implemented. Generally, this movement is adopted through the Internet and usually executed without economic recompense. The aim and idea of this movement is similar to the open-source movement, however is employed for designing & developing physical systems instead of software system alone. This design necessitates co-creating the end product, which is expected to be designed by the users, in place of an outdoor investor for example a private business. In tune with this, the comprehensive review is carried out wherein a variety of contemporary systems driven by open-design movement for diverse applications is discussed.
翻訳日:2023-03-01 04:24:48 公開日:2022-01-14
# キャビティを介するマグノン間のレベルアトラクションと反発

Cavity mediated level attraction and repulsion between magnons ( http://arxiv.org/abs/2201.05685v1 )

ライセンス: Link先を確認
Jayakrishnan M. P. Nair, Debsuvra Mukhopadhyay, Girish S. Agarwal(参考訳) マイクロ波共振器の空洞内磁場を媒介とするマグノン・マグノン相互作用の特異な特徴と,その実験可能な分岐特性を特徴付ける。 一般に,2つの広く異なるパラメータ領域が,レベル分割とレベル交差の対照的な可能性をもたらすことを予見する。 前者は強いマグノン-光子カップリングの過程、特に3つのモードが同様の緩和速度を持つときに観察される。 この特徴は、キャビティドライブに対するスペクトル応答における3つの区別可能な非収束ポラリトン枝の出現によって特徴づけられる。 しかし、素モードが共鳴し、結合が完全に対称である場合、スペクトルピークの1つが消去される。 この偏光応答の異常な消滅は、2つの周波数シフトした明るいモードと共に顕著な暗黒モードの存在に遡ることができる。 マグノンモードがキャビティに弱い結合状態にある代替パラメータでは、キャビティモードに対する大きな緩和速度となるレベルアトラクションの特性が広がる。 同時に、マグノンモードの非対称な変形に対して、透過窓は存在し、マグノンからの無視できる散逸の限界に透明性を示す。 レベルアトラクションの出現は、キャビティ・フィールドが急速に定常状態に崩壊するときにマグノン・マグノン・サブシステムのダイナミクスを具現化する理論モデルと調和することができる。 この限界では、マグノンモード間の純粋に散逸的な結合を識別する。

We characterize some of the distinctive hallmarks of magnon-magnon interaction mediated by the intracavity field of a microwave cavity, along with their testable ramifications. In general, we foreground two widely dissimilar parameter domains that bring forth the contrasting possibilities of level splitting and level crossing. The former is observed in the regime of strong magnon-photon couplings, particularly when the three modes bear comparable relaxation rates. This character is marked by the appearance of three distinguishable and non-converging polariton branches in the spectral response to a cavity drive. However, when the bare modes are resonant and the couplings perfectly symmetrical, one of the spectral peaks gets wiped out. This anomalous extinction of polaritonic response can be traced down to the existence of a conspicuous dark mode alongside two frequency-shifted bright modes. In an alternate parameter regime, where the magnon modes are weakly coupled to the cavity, features of level attraction unfold, subject to a large relaxation rate for the cavity mode. Concurrently, for antisymmetric detunings to the magnon modes, a transmission window springs into existence, exhibiting transparency in the limit of negligible dissipation from the magnons. The emergence of level attraction can be reconciled with a theoretical model that embodies the dynamics of the magnon-magnon subsystem when the cavity field decays rapidly into its steady state. In this limit, we identify a purely dissipative coupling between the magnon modes.
翻訳日:2023-03-01 04:24:37 公開日:2022-01-14
# ツイスト型格子手術における回路レベルプロトコルと解析

A circuit-level protocol and analysis for twist-based lattice surgery ( http://arxiv.org/abs/2201.05678v1 )

ライセンス: Link先を確認
Christopher Chamberland and Earl T. Campbell(参考訳) 格子手術は2次元のフォールトトレラント量子計算を行うための計測に基づく手法である。 表面符号を使用する場合、最も一般的な格子手術はツイスト欠陥と呼ばれる格子不規則性を必要とする。 しかし、ツイストベースの格子手術を実装するには、追加のデバイス接続などの追加リソースが必要となり、表面コードのしきい値と全体的な性能が低下する可能性がある。 ここでは、明示的なツイストに基づく格子手術プロトコルとその必要な接続レイアウトを提供する。 また、選択したゲートスケジューリングと互換性のあるツイスト欠陥を測定するための新しい安定化器測定回路も提供する。 偏光雑音モデルを用いたツイストベース格子手術における第1次回路レベルの誤差補正シミュレーションを行った。 その結果, バルクにねじれ欠陥のない格子状手術プロトコルと比較して, 時間的論理的故障の閾値はわずかに低下した。 しかし、しきい値以下(例えばCNOTの不忠実度が5 \times 10^{-3}$未満)では、性能劣化は軽度であり、実際には代替のツイストフリースキームよりも好ましい。 最後に、我々は、以前のスキームで必要であった特定のステップをバイパスする表面符号の境界に沿ってy$演算子を測定する効率的なスキームを提供する。

Lattice surgery is a measurement-based technique for performing fault-tolerant quantum computation in two dimensions. When using the surface code, the most general lattice surgery operations require lattice irregularities called twist defects. However, implementing twist-based lattice surgery may require additional resources, such as extra device connectivity, and could lower the threshold and overall performance for the surface code. Here we provide an explicit twist-based lattice surgery protocol and its requisite connectivity layout. We also provide new stabilizer measurement circuits for measuring twist defects which are compatible with our chosen gate scheduling. We undertake the first circuit-level error correction simulations during twist-based lattice surgery using a biased depolarizing noise model. Our results indicate a slight decrease in the threshold for timelike logical failures compared to lattice surgery protocols with no twist defects in the bulk. However, comfortably below threshold (i.e. with CNOT infidelities below $5 \times 10^{-3}$), the performance degradation is mild and in fact preferable over proposed alternative twist-free schemes. Lastly, we provide an efficient scheme for measuring $Y$ operators along boundaries of surface codes which bypasses certain steps that were required in previous schemes.
翻訳日:2023-03-01 04:24:03 公開日:2022-01-14
# 恒星収縮による問合せアルゴリズムの切断

Cut query algorithms with star contraction ( http://arxiv.org/abs/2201.05674v1 )

ライセンス: Link先を確認
Simon Apers, Yuval Efron, Pawe{\l} Gawrychowski, Troy Lee, Sagnik Mukhopadhyay, Danupon Nanongkai(参考訳) カットクエリを用いた単純なグラフのエッジ接続を決定する複雑さについて検討する。 私たちはそれを示します (i)$O(n)$ cutクエリでエッジ接続を計算する有界エラーランダム化アルゴリズムがあり、 (ii)$\~O(\sqrt{n})$ cutクエリでエッジ接続を計算する有界エラー量子アルゴリズムがある。 これらの結果は、非自明な最小カットを保ちながら、グラフのエッジをランダムに収縮させる「星収縮」と呼ばれる新しい手法を用いて証明する。 恒星収縮頂点では、ランダムに選択された頂点の小さなセットでエッジインシデントをランダムに収縮する。 Ghaffari, Nowicki, Thorup [SODA'20] の関連する2段階の縮約技術とは対照的に、星の縮約は頂点不整合星サブグラフのみを縮約し、カットクエリによって効率よく実装できる。 アイテムから縛られた$o(n)$ i) は接続性の単純な問題でさえも知られておらず、Rubinstein, Schramm, Weinberg [ITCS'18] による$O(n\log^3 n)$バウンドを改善する。 この境界は、接続のランダム化通信の複雑さが$\omega(n\log n)$であるという合理的な予想のもとに厳密であり、これはbabai, frankl, simon [focs'86] の独創的な研究以来のオープン問題である。 境界はまた、対称部分モジュラー関数を最小化するために超線形ランダム化クエリ下限を証明するために単純なグラフ上のエッジ接続を使用することも除外する。 項目 (ii) ランダム化複雑性とほぼ二乗分離を与え、Lee, Santha, Zhang [SODA'21] のオープンな疑問に対処する。 このアルゴリズムは、随伴行列に対して$\~o(\sqrt{n})$ matrix-vector乗算クエリを作ることもできる。 最後に,頂点到達設定におけるエッジ接続性を計算するための1パスセミストリーミングアルゴリズムを設計することにより,カットクエリ設定の外部でのスター収縮の利用を実証する。 これは、2つのパスが必要なエッジ到着設定とは対照的である。

We study the complexity of determining the edge connectivity of a simple graph with cut queries. We show that (i) there is a bounded-error randomized algorithm that computes edge connectivity with $O(n)$ cut queries, and (ii) there is a bounded-error quantum algorithm that computes edge connectivity with $\~O(\sqrt{n})$ cut queries. We prove these results using a new technique called "star contraction" to randomly contract edges of a graph while preserving non-trivial minimum cuts. In star contraction vertices randomly contract an edge incident on a small set of randomly chosen vertices. In contrast to the related 2-out contraction technique of Ghaffari, Nowicki, and Thorup [SODA'20], star contraction only contracts vertex-disjoint star subgraphs, which allows it to be efficiently implemented via cut queries. The $O(n)$ bound from item (i) was not known even for the simpler problem of connectivity, and improves the $O(n\log^3 n)$ bound by Rubinstein, Schramm, and Weinberg [ITCS'18]. The bound is tight under the reasonable conjecture that the randomized communication complexity of connectivity is $\Omega(n\log n)$, an open question since the seminal work of Babai, Frankl, and Simon [FOCS'86]. The bound also excludes using edge connectivity on simple graphs to prove a superlinear randomized query lower bound for minimizing a symmetric submodular function. Item (ii) gives a nearly-quadratic separation with the randomized complexity and addresses an open question of Lee, Santha, and Zhang [SODA'21]. The algorithm can also be viewed as making $\~O(\sqrt{n})$ matrix-vector multiplication queries to the adjacency matrix. Finally, we demonstrate the use of star contraction outside of the cut query setting by designing a one-pass semi-streaming algorithm for computing edge connectivity in the vertex arrival setting. This contrasts with the edge arrival setting where two passes are required.
翻訳日:2023-03-01 04:23:37 公開日:2022-01-14
# フォトニクス量子状態工学プロセスの動的学習

Dynamical learning of a photonics quantum-state engineering process ( http://arxiv.org/abs/2201.05635v1 )

ライセンス: Link先を確認
Alessia Suprano, Danilo Zia, Emanuele Polino, Taira Giordani, Luca Innocenti, Alessandro Ferraro, Mauro Paternostro, Nicol\`o Spagnolo and Fabio Sciarrino(参考訳) 高次元量子状態の実験工学は、いくつかの量子情報プロトコルにとって重要な課題である。 しかし、既存の量子状態工学プロトコルを適用するためには、実験ノイズ装置の特性評価において高い精度が必要である。 これはしばしば実践的なシナリオに欠け、エンジニアリングされた状態の品質に影響を与えます。 ここでは、フォトニック軌道角運動(OAM)状態を設計するための自動適応最適化プロトコルを実験的に実装する。 対象の出力状態が与えられたプロトコルは、出力測定統計に基づいて、現在生成された状態の品質をオンラインに推定し、実験パラメータをチューニングして状態生成を最適化する方法を決定する。 これを実現するためには、生成装置自体の記述をアルゴリズムに埋め込む必要がなくなる。 むしろ、完全にブラックボックスのシナリオで動作し、このスキームは様々な状況で適用できる。 アルゴリズムによって制御されるハンドルは一連のウェーブプレートの回転角であり、任意の4次元OAM状態を生成するために確率的に使用できる。 我々は, 古典的および量子的に, 異なる対象状態に関するスキームを提示し, 制御パラメータの外部摂動に対するロバスト性を証明する。 このアプローチは、量子情報プロトコルや技術のためのノイズの多い実験タスクの自動最適化のための強力なツールである。

Experimentally engineering high-dimensional quantum states is a crucial task for several quantum information protocols. However, a high degree of precision in the characterization of experimental noisy apparatus is required to apply existing quantum state engineering protocols. This is often lacking in practical scenarios, affecting the quality of the engineered states. Here, we implement experimentally an automated adaptive optimization protocol to engineer photonic Orbital Angular Momentum (OAM) states. The protocol, given a target output state, performs an online estimation of the quality of the currently produced states, relying on output measurement statistics, and determines how to tune the experimental parameters to optimize the state generation. To achieve this, the algorithm needs not be imbued with a description of the generation apparatus itself. Rather, it operates in a fully black-box scenario, making the scheme applicable in a wide variety of circumstances. The handles controlled by the algorithm are the rotation angles of a series of waveplates and can be used to probabilistically generate arbitrary four-dimensional OAM states. We showcase our scheme on different target states both in classical and quantum regimes, and prove its robustness to external perturbations on the control parameters. This approach represents a powerful tool for automated optimizations of noisy experimental tasks for quantum information protocols and technologies.
翻訳日:2023-03-01 04:22:35 公開日:2022-01-14
# 画素埋め込み型ネットワーク : 画像分類におけるノイズ耐性向上の一手法

Networks with pixels embedding: a method to improve noise resistance in images classification ( http://arxiv.org/abs/2005.11679v3 )

ライセンス: Link先を確認
Yang Liu, Hai-Long Tu, Chi-Chun Zhou, Yi Liu and Fu-Lin Zhang(参考訳) 画像分類のタスクでは、通常、ネットワークはノイズに敏感である。 例えば、ノイズのある猫の画像は、ダチョウと誤分類されることがある。 従来、ノイズの問題を克服するために、トレーニングデータセットにより多くの画像を追加してノイズを識別するようにネットワークに教えるために、データ拡張のテクニックを使用する。 本研究では,画素埋め込み手法を導入することにより,画像分類におけるノイズ耐性ネットワークを提供する。 我々は,手書き桁のmnistデータベース上で,PEを用いたネットワークと略される画素埋め込みを用いてネットワークをテストする。 PEを用いたネットワークは,ノイズのある画像上で従来のネットワークよりも優れていた。 画素埋め込み技術は、画像分類の多くのタスクでノイズ耐性を改善するために使用できる。

In the task of image classification, usually, the network is sensitive to noises. For example, an image of cat with noises might be misclassified as an ostrich. Conventionally, to overcome the problem of noises, one uses the technique of data augmentation, that is, to teach the network to distinguish noises by adding more images with noises in the training dataset. In this work, we provide a noise-resistance network in images classification by introducing a technique of pixel embedding. We test the network with pixel embedding, which is abbreviated as the network with PE, on the mnist database of handwritten digits. It shows that the network with PE outperforms the conventional network on images with noises. The technique of pixel embedding can be used in many tasks of image classification to improve noise resistance.
翻訳日:2022-11-29 13:23:14 公開日:2022-01-14
# ネットワークデータからのハイパーグラフ再構成

Hypergraph reconstruction from network data ( http://arxiv.org/abs/2008.04948v4 )

ライセンス: Link先を確認
Jean-Gabriel Young, Giovanni Petri, Tiago P. Peixoto(参考訳) ネットワークは、システム内のエンティティのペアが接続されているかを指定することで、様々な複雑なシステムの構造を記述することができる。 このようなペアワイズ表現は柔軟であるが、基本相互作用が同時に2つ以上の実体を含む場合、必ずしも適切ではない。 しかしながら、高次相互作用はネットワークデータに明示的に記録されないことが多いため、ペアワイズ表現はユビキタスである。 本稿では,通常のペアワイズネットワークデータから潜在高次相互作用を再構築するベイズ的手法を提案する。 本手法はparsimonyの原理に基づいており,統計学的証拠が十分ある場合にのみ高次構造を含む。 合成および実験の両方において、幅広いデータセットに適用可能であることを示す。

Networks can describe the structure of a wide variety of complex systems by specifying which pairs of entities in the system are connected. While such pairwise representations are flexible, they are not necessarily appropriate when the fundamental interactions involve more than two entities at the same time. Pairwise representations nonetheless remain ubiquitous, because higher-order interactions are often not recorded explicitly in network data. Here, we introduce a Bayesian approach to reconstruct latent higher-order interactions from ordinary pairwise network data. Our method is based on the principle of parsimony and only includes higher-order structures when there is sufficient statistical evidence for them. We demonstrate its applicability to a wide range of datasets, both synthetic and empirical.
翻訳日:2022-10-31 12:31:14 公開日:2022-01-14
# Bandit データ駆動最適化

Bandit Data-Driven Optimization ( http://arxiv.org/abs/2008.11707v2 )

ライセンス: Link先を確認
Zheyuan Ryan Shi, Zhiwei Steven Wu, Rayid Ghani, Fei Fang(参考訳) 非営利団体や公共セクターにおける機械学習の応用は、データ取得、予測、介入の最適化の反復的なワークフローを特徴とすることが多い。 小さなデータ、デフォルトの介入の下でのみ収集されたデータ、通信ギャップによる未モデリングの目的、そして予期せぬ介入の結果である。 本稿では,これらの問題点に対処するための最初の反復予測記述フレームワークであるbandit data-driven optimizationを提案する。 banditのデータ駆動最適化は、オンラインのバンディット学習とオフラインの予測分析の利点を統合フレームワークで組み合わせる。 我々は,このフレームワークの新たなアルゴリズムであるpromiseを提案し,それに対してregretがないことを正式に証明する。 数値シミュレーションにより, ProOF は既存のベースラインよりも優れた性能を示した。 また,PROOFを食品支援ボランティア推奨の詳細なケーススタディに適用し,NPOおよび公共セクター向け実世界のAIにおけるMLモデルの複雑度に相応しいフレームワークとしてPROOFが有効であることを示す。

Applications of machine learning in the non-profit and public sectors often feature an iterative workflow of data acquisition, prediction, and optimization of interventions. There are four major pain points that a machine learning pipeline must overcome in order to be actually useful in these settings: small data, data collected only under the default intervention, unmodeled objectives due to communication gap, and unforeseen consequences of the intervention. In this paper, we introduce bandit data-driven optimization, the first iterative prediction-prescription framework to address these pain points. Bandit data-driven optimization combines the advantages of online bandit learning and offline predictive analytics in an integrated framework. We propose PROOF, a novel algorithm for this framework and formally prove that it has no-regret. Using numerical simulations, we show that PROOF achieves superior performance than existing baseline. We also apply PROOF in a detailed case study of food rescue volunteer recommendation, and show that PROOF as a framework works well with the intricacies of ML models in real-world AI for non-profit and public sector applications.
翻訳日:2022-10-24 20:44:48 公開日:2022-01-14
# 逐次データに対する畳み込み符号

Convolutional Signature for Sequential Data ( http://arxiv.org/abs/2009.06719v2 )

ライセンス: Link先を確認
Ming Min, Tomoyuki Ichiba(参考訳) シグナチャ(Signature)は、幾何学的粗い経路を特徴づける統計の無限級数列であり、有界な変動を持つ経路を含む。 このオブジェクトは、主に低次元のケースで機械学習にうまく研究されている。 高次元の場合、トランカットされたシグネチャ変換の特徴の数が指数関数的に増加する。 本稿では,この問題を解決するために,畳み込みニューラルネットワークのアイデアを取り入れた新しいニューラルネットワークモデルを提案する。 我々のモデルは、データ依存的な方法で効率的に機能の数を減らします。 我々のモデルをサポートするための実証実験がいくつか提供されている。

Signature is an infinite graded sequence of statistics known to characterize geometric rough paths, which includes the paths with bounded variation. This object has been studied successfully for machine learning with mostly applications in low dimensional cases. In the high dimensional case, it suffers from exponential growth in the number of features in truncated signature transform. We propose a novel neural network based model which borrows the idea from Convolutional Neural Network to address this problem. Our model reduces the number of features efficiently in a data dependent way. Some empirical experiments are provided to support our model.
翻訳日:2022-10-18 11:50:04 公開日:2022-01-14
# Thin:成長可能な情報ネットワークと野生における表情認識への応用

THIN: THrowable Information Networks and Application for Facial Expression Recognition In The Wild ( http://arxiv.org/abs/2010.07614v3 )

ライセンス: Link先を確認
Estephe Arnaud, Arnaud Dapogny, Kevin Bailly(参考訳) 多くの機械学習問題に対して、異種変数は異なるクラスの外観に大きく影響を与えるように特定でき、理想的な分類器はこの変数に不変であるべきである。 そのような外因性変数の例は、表情認識(FER)が考慮されている場合のアイデンティティである。 本稿では,二つの外因性/内因性表現を提案する。 前者は外因性変数をキャプチャし、後者は手元にあるタスク(例えば表情)をモデル化する。 我々は,外来表現によって条件づけられた木構造深層アンサンブルを用いた予測層を設計する。 また,内因性表現から外因性情報を取り除くために外因性解離損失を提案する。 したがって、外因性情報は投棄可能な方法で2回使用され、第1は目標タスクの条件変数として、第2は内因性表現内で不変性を生成する。 この手法をthin, stand for throwable information networksと呼ぶ。 複数の文脈においてTHINを実験的に検証し、例えば大きな回転数での数字認識や複数のスケールでの形状認識など、外因性情報を特定する。 また、同一性を外生変数とするFERにも適用する。 我々は、THINがいくつかの挑戦的なデータセットに対する最先端のアプローチを大幅に上回ることを示した。

For a number of machine learning problems, an exogenous variable can be identified such that it heavily influences the appearance of the different classes, and an ideal classifier should be invariant to this variable. An example of such exogenous variable is identity if facial expression recognition (FER) is considered. In this paper, we propose a dual exogenous/endogenous representation. The former captures the exogenous variable whereas the second one models the task at hand (e.g. facial expression). We design a prediction layer that uses a tree-gated deep ensemble conditioned by the exogenous representation. We also propose an exogenous dispelling loss to remove the exogenous information from the endogenous representation. Thus, the exogenous information is used two times in a throwable fashion, first as a conditioning variable for the target task, and second to create invariance within the endogenous representation. We call this method THIN, standing for THrowable Information Networks. We experimentally validate THIN in several contexts where an exogenous information can be identified, such as digit recognition under large rotations and shape recognition at multiple scales. We also apply it to FER with identity as the exogenous variable. We demonstrate that THIN significantly outperforms state-of-the-art approaches on several challenging datasets.
翻訳日:2022-10-07 04:20:51 公開日:2022-01-14
# KrigHedge: デルタヘッジのガウスプロセスサロゲート

KrigHedge: Gaussian Process Surrogates for Delta Hedging ( http://arxiv.org/abs/2010.08407v4 )

ライセンス: Link先を確認
Mike Ludkovski and Yuri Saporito(参考訳) ガウス過程(gp)サロゲートに基づくギリシャの近似を選択できる機械学習手法について検討した。 この方法は、不当に観測されたオプション価格を採用し、非パラメトリックな入出力マップに適合し、分析的に後者を区別して様々な価格感受性を得る。 私たちのモチベーションは、局所的ボラティリティモデルのような直接計算が高価な場合や、ほぼ不可能である場合にギリシア語を計算することです。 我々は,カーネルファミリーの選択,シミュレーション設計,トレンド関数の選択,ノイズの影響など,gpサロゲートの多くの側面について詳細な分析を行う。 また、デルタ近似の品質と離散時間ヘッジ損失を関連付ける新しいLemmaを含むデルタヘッジへの応用についても論じる。 その結果, デルタ, セタ, ガンマの推定, ベンチマーク近似の品質と不確実性定量化を, 様々な統計指標を用いて検討した。 重要な点としては、Maternカーネルの使用の推奨、境界条件をキャプチャする仮想トレーニングポイントのメリット、ストックパスベースのデータセットでトレーニングする際の忠実性の大幅な低下などがあります。

We investigate a machine learning approach to option Greeks approximation based on Gaussian process (GP) surrogates. The method takes in noisily observed option prices, fits a nonparametric input-output map and then analytically differentiates the latter to obtain the various price sensitivities. Our motivation is to compute Greeks in cases where direct computation is expensive, such as in local volatility models, or can only ever be done approximately. We provide a detailed analysis of numerous aspects of GP surrogates, including choice of kernel family, simulation design, choice of trend function and impact of noise. We further discuss the application to Delta hedging, including a new Lemma that relates quality of the Delta approximation to discrete-time hedging loss. Results are illustrated with two extensive case studies that consider estimation of Delta, Theta and Gamma and benchmark approximation quality and uncertainty quantification using a variety of statistical metrics. Among our key take-aways are the recommendation to use Matern kernels, the benefit of including virtual training points to capture boundary conditions, and the significant loss of fidelity when training on stock-path-based datasets.
翻訳日:2022-10-06 21:51:13 公開日:2022-01-14
# (参考訳) 12誘導標準心電図解析による心房細動予測のための深部人工ニューラルネットワーク

Deep artificial neural network for prediction of atrial fibrillation through the analysis of 12-leads standard ECG ( http://arxiv.org/abs/2202.05676v1 )

ライセンス: CC BY 4.0
A. Scagnetto, G. Barbati, I. Gandin, C. Cappelletto, G. Baj, A. Cazzaniga, F. Cuturello, A. Ansuini, L. Bortolussi, A. Di Lenarda(参考訳) 心房細動(英: atrial Fibrillation, AF)は、心臓不整脈であり、脳卒中の重要な危険因子であり、したがって心電図検査でAFを予測することは、リスクの高い患者を積極的に標的にすることに大きな影響を与える。 本研究では、畳み込みニューラルネットワークを用いて、心電図を分析し、リアルなデータセットから心房細動を予測し、他の研究よりも心電図が少ないことを考慮し、心電図と心電図診断との間の最大距離を延ばす。 75.5% (0.75) aucを達成し,まずシフト法を用いてデータセットサイズを増加させ,次に畳み込みニューラルネットワークの拡張パラメータを用いた。 また,検査でAFを報告している臨床医が一般的に使用しているものとは対照的に,AFを予測するための最も有益な手がかりはD1,avRである。 同様に、チェックすべき最も重要な周波数は5-20Hzの範囲にある。 最後に、心電図信号と電子健康記録を同時に管理できるネットを開発し、異なるデータソース間の統合が利益につながることを示す。 実際、この純利益の2.8%は78.6%(0.77以上)のAUCをもたらす。 今後の作業では、ソースの統合と、avRが最も有意義なリードであると主張する理由の両方を強化します。

Atrial Fibrillation (AF) is a heart's arrhythmia which, despite being often asymptomatic, represents an important risk factor for stroke, therefore being able to predict AF at the electrocardiogram exam, would be of great impact on actively targeting patients at high risk. In the present work we use Convolution Neural Networks to analyze ECG and predict Atrial Fibrillation starting from realistic datasets, i.e. considering fewer ECG than other studies and extending the maximal distance between ECG and AF diagnosis. We achieved 75.5% (0.75) AUC firstly increasing our dataset size by a shifting technique and secondarily using the dilation parameter of the convolution neural network. In addition we find that, contrarily to what is commonly used by clinicians reporting AF at the exam, the most informative leads for the task of predicting AF are D1 and avR. Similarly, we find that the most important frequencies to check are in the range of 5-20 Hz. Finally, we develop a net able to manage at the same time the electrocardiographic signal together with the electronic health record, showing that integration between different sources of data is a profitable path. In fact, the 2.8% gain of such net brings us to a 78.6% (std 0.77) AUC. In future works we will deepen both the integration of sources and the reason why we claim avR is the most informative lead.
翻訳日:2022-02-20 18:24:53 公開日:2022-01-14
# (参考訳) ランドスケープ写真上の木間距離をセマンティックセグメンテーションで推定できるスカイラインのバリエーション

Skyline variations allow estimating distance to trees on landscape photos using semantic segmentation ( http://arxiv.org/abs/2201.08816v1 )

ライセンス: CC BY 4.0
Laura Martinez-Sanchez, Daniele Borio, Rapha\"el d'Andrimont, Marijn van der Velde(参考訳) 近似距離推定は、複雑さや開度を含む基本的な景観特性を決定するために用いられる。 ランドスケープ写真のスカイラインの変動は,地平線上の木々との距離を推定するために利用できることを示す。 スカイラインのバリエーションに基づく手法が開発され、スカイラインオブジェクトの距離との潜在的な関係を調べるために使用されている。 ランド・ユース/コーバー・エリア・フレーム・サーベイ(LUCAS)のランドスケープ写真から,ピクセルで表現されたスカイラインの高さによって定義されるスカイライン信号を抽出した。 写真は意味的にDeepLabV3+でセグメンテーションされ、Common Objects in Context (COCO)データセットでトレーニングされた。 これにより、スカイラインを形成する物体のピクセルレベルの分類が可能となった。 スカイライン信号の詳細を増やすために,条件付きランダムフィールド (CRF) アルゴリズムも適用された。 スカイライン信号の変動を捉えることができる3つの指標が分析のために検討された。 これらの指標は、輪郭がフラクタルの性質を持つ木々の分類における距離と機能的関係を示す。 特に475枚のオルソ写真に基づく距離測定に対して回帰分析を行い, 最善の場合には0.47と等しいr2スコアを得た。 これは、距離関連情報を推測するためのスカイライン変動指標の可能性を示す励振的な結果である。

Approximate distance estimation can be used to determine fundamental landscape properties including complexity and openness. We show that variations in the skyline of landscape photos can be used to estimate distances to trees on the horizon. A methodology based on the variations of the skyline has been developed and used to investigate potential relationships with the distance to skyline objects. The skyline signal, defined by the skyline height expressed in pixels, was extracted for several Land Use/Cover Area frame Survey (LUCAS) landscape photos. Photos were semantically segmented with DeepLabV3+ trained with the Common Objects in Context (COCO) dataset. This provided pixel-level classification of the objects forming the skyline. A Conditional Random Fields (CRF) algorithm was also applied to increase the details of the skyline signal. Three metrics, able to capture the skyline signal variations, were then considered for the analysis. These metrics shows a functional relationship with distance for the class of trees, whose contours have a fractal nature. In particular, regression analysis was performed against 475 ortho-photo based distance measurements, and, in the best case, a R2 score equal to 0.47 was achieved. This is an encouraging result which shows the potential of skyline variation metrics for inferring distance related information.
翻訳日:2022-01-30 13:37:22 公開日:2022-01-14
# アクティブ予測符号化ネットワーク:参照フレームと部分ホール階層の学習問題のニューラルネットワーク

Active Predictive Coding Networks: A Neural Solution to the Problem of Learning Reference Frames and Part-Whole Hierarchies ( http://arxiv.org/abs/2201.08813v1 )

ライセンス: Link先を確認
Dimitrios C. Gklezakos, Rajesh P. N. Rao(参考訳) ニューラルネットワークはどのようにしてオブジェクトの固有参照フレームを学習し、視覚的なシーンをパースツリー内のノードを動的に割り当てることで、全階層にパースできるのか? 1)ハイパーネットワークは、高次オブジェクト指向埋め込みベクトルを条件とした内在参照フレーム内の部分とその位置を予測するリカレントニューラルネットワークを動的に生成するために使用され、(2)モデルパラメータのエンドツーエンド学習のためのバックプロパゲーションと組み合わせて強化学習が使用される。 APCNアーキテクチャは自然に多階層的学習に結びつき、皮質関数の予測符号化モデルと密接に関連している。 MNIST、Fashion-MNIST、Omniglotのデータセットを用いて、APCNsが可能であることを示す。 (a)部分階層に画像を解析することを学ぶ。 (b)構成表現を学び、 (c) 知識を見えないオブジェクトのクラスに転送する。 オブジェクトの部分的な位置を持つ解析木を動的に生成する能力によって、APCNは、解釈可能性と構成性を維持しながらディープラーニングの進歩を活用する、説明可能なAIのための新しいフレームワークを提供する。

We introduce Active Predictive Coding Networks (APCNs), a new class of neural networks that solve a major problem posed by Hinton and others in the fields of artificial intelligence and brain modeling: how can neural networks learn intrinsic reference frames for objects and parse visual scenes into part-whole hierarchies by dynamically allocating nodes in a parse tree? APCNs address this problem by using a novel combination of ideas: (1) hypernetworks are used for dynamically generating recurrent neural networks that predict parts and their locations within intrinsic reference frames conditioned on higher object-level embedding vectors, and (2) reinforcement learning is used in conjunction with backpropagation for end-to-end learning of model parameters. The APCN architecture lends itself naturally to multi-level hierarchical learning and is closely related to predictive coding models of cortical function. Using the MNIST, Fashion-MNIST and Omniglot datasets, we demonstrate that APCNs can (a) learn to parse images into part-whole hierarchies, (b) learn compositional representations, and (c) transfer their knowledge to unseen classes of objects. With their ability to dynamically generate parse trees with part locations for objects, APCNs offer a new framework for explainable AI that leverages advances in deep learning while retaining interpretability and compositionality.
翻訳日:2022-01-30 11:36:37 公開日:2022-01-14
# 1発と1発のショットから学ぶ

Learning from One and Only One Shot ( http://arxiv.org/abs/2201.08815v1 )

ライセンス: Link先を確認
Haizi Yu, Igor Mineyev, Lav R. Varshney, James A. Evans(参考訳) 人間はごく少数の例から、類似したタスクの事前学習から一般化することができる。 しかし、機械学習(ML)は通常、学習するために大きなデータを必要とする。 ナティビズムに触発されて,文字認識や人形認識などの抽象視覚タスクにおいて,人間固有のプライオリティを直接モデル化する。 これによりホワイトボックスのモデルでは、人間が自然に物体を「歪め」る様子を模倣することで、2つのイメージが一般にどのように見えるかという一般的な外観の類似性を学ぶことができる。 この類似性空間上の最寄りの分類器を用いて、クラスごとの1~10例のみを用いて人間レベルの文字認識を行う(事前学習なし)。 これは、重要な事前学習を使用する少数ショット学習(FSL)とは異なる。 標準ベンチマークのMNIST/EMNISTとOmniglotチャレンジでは、大規模データで事前トレーニングされたFSLを含む、ニューラルネットワークベースのMLと古典的なMLの両方よりもパフォーマンスが優れています。 このモデルは教師なし学習も可能にする: k-meansスタイルで非ユークリッド的で一般的な類似性空間を学習することで、人間直観的なアーチタイプをクラスタ ``centroids'' として生成することができる。

Humans can generalize from only a few examples and from little pre-training on similar tasks. Yet, machine learning (ML) typically requires large data to learn or pre-learn to transfer. Inspired by nativism, we directly model basic human-innate priors in abstract visual tasks e.g., character/doodle recognition. This yields a white-box model that learns general-appearance similarity -- how any two images look in general -- by mimicking how humans naturally "distort" an object at first sight. Using simply the nearest-neighbor classifier on this similarity space, we achieve human-level character recognition using only 1--10 examples per class and nothing else (no pre-training). This differs from few-shot learning (FSL) using significant pre-training. On standard benchmarks MNIST/EMNIST and the Omniglot challenge, we outperform both neural-network-based and classical ML in the "tiny-data" regime, including FSL pre-trained on large data. Our model enables unsupervised learning too: by learning the non-Euclidean, general-appearance similarity space in a k-means style, we can generate human-intuitive archetypes as cluster ``centroids''.
翻訳日:2022-01-30 11:36:12 公開日:2022-01-14
# (参考訳) Corrigendum と addendum: ポピュリストはパルティザン? 監視機械学習を用いた党宣言におけるポピュリズムのデグリーの測定

Corrigendum and addendum to: How Populist are Parties? Measuring Degrees of Populism in Party Manifestos Using Supervised Machine Learning ( http://arxiv.org/abs/2201.07972v1 )

ライセンス: CC BY 4.0
Jessica Di Cocco and Bernardo Monechi(参考訳) 本論文は,先述した論文 "how populist are parties? measuring degrees of populism in party manifestos using supervised machine learning" のコリゲンダムと付加体である (政治分析,1-17. doi:10.1017/pan.2021.29)。 これらのcorrigendumとaddendumは、データラベリングのエラーを訂正し、以前の論文には含まれていない洞察を示す。 ここでは、これらの補正を報告し、当事者ごとのラベルリシャッフルの効果に着目し、適切な場所に新しい数字を提示することによって、さらなる結論を示す。 本論文で提案する簡易ラベル付け手法は,エキスパートスコアとの相関に偏りを生じさせるが,ランダムラベル付けは相関を著しく減少させる。 これは、手動で符号化されたデータセットに基づく相関にも当てはまる。 これらの修正は、将来の出版物で詳細に報告された他の証拠と結果に基づいている。

This paper is a corrigendum and addendum to the previously published article: 'How Populist are Parties? Measuring Degrees of Populism in Party Manifestos Using Supervised Machine Learning' (Political Analysis, 1-17. doi:10.1017/pan.2021.29). These corrigendum and addendum were prepared to correct errors in data labelling and show some extra insights not included in the previously published paper. Here, we report these corrections and point to some additional conclusions by focusing on the effects of the label reshuffling per parties and years and presenting new figures wherever appropriate. We show that although the simplified labelling method proposed in the previously-published article can induce biases in the correlations with expert scores, random labelling reduces correlations significantly. We show that this is also true for correlations based on a manually-coded data set. These modifications are based on other evidence and results reported in detail in a future publication.
翻訳日:2022-01-23 18:59:26 公開日:2022-01-14
# (参考訳) クラウドとIoT間の階層的な地理分散コンピューティング

Layerwise Geo-Distributed Computing between Cloud and IoT ( http://arxiv.org/abs/2201.07215v1 )

ライセンス: CC BY 4.0
Satoshi Kamo, Yiqiang Sheng(参考訳) 本稿では,クラウドとIoT(Internet of Things)間の効率的な地理分散コンピューティングを実現するために,k-degree layer-wise networkと呼ばれるディープラーニングシステムのための新しいアーキテクチャを提案する。 地理的分散コンピューティングは、クラウドをIoTの隣のネットワークの地理的領域にまで拡張する。 提案の基本的な考え方は、k度制約と層次制約である。 k次制約は、h層上の各頂点の次数が、既存の深層信念ネットワークを拡張し通信コストを制御するためにちょうどk(h)となるように定義される。 層毎の制約は、層毎の次数が正の方向に単調に減少し、データの次元が徐々に減少するように定義される。 従来のディープニューラルネットワークは密度が高いが、k度層毎ネットワークは疎いことを証明している。 m-distributed mnistデータベースの評価では、通信コストとスケーラビリティの学習時間の観点から、最先端モデルよりも優れている。

In this paper, we propose a novel architecture for a deep learning system, named k-degree layer-wise network, to realize efficient geo-distributed computing between Cloud and Internet of Things (IoT). The geo-distributed computing extends Cloud to the geographical verge of the network in the neighbor of IoT. The basic ideas of the proposal include a k-degree constraint and a layer-wise constraint. The k-degree constraint is defined such that the degree of each vertex on the h-th layer is exactly k(h) to extend the existing deep belief networks and control the communication cost. The layer-wise constraint is defined such that the layer-wise degrees are monotonically decreasing in positive direction to gradually reduce the dimension of data. We prove the k-degree layer-wise network is sparse, while a typical deep neural network is dense. In an evaluation on the M-distributed MNIST database, the proposal is superior to a state-of-the-art model in terms of communication cost and learning time with scalability.
翻訳日:2022-01-23 18:52:10 公開日:2022-01-14
# (参考訳) 広域ネットワークインテリジェンスとマルチメディアサービスへの応用

Wide Area Network Intelligence with Application to Multimedia Service ( http://arxiv.org/abs/2201.07216v1 )

ライセンス: CC BY 4.0
Satoshi Kamo, Yiqiang Sheng(参考訳) ネットワークインテリジェンス(英: network intelligence)は、ネットワークシステムの能力に基づいて、変化する環境で高品質なサービスを提供するためのネットワークリソースを使用することによって、インテリジェントに行動する分野である。 広域ネットワークインテリジェンスは、インターネットのコアとエッジをカバーする広域ネットワークにおけるネットワークインテリジェンスのクラスである。 本稿では,広域ネットワークインテリジェンスのための機械学習に基づくシステムを提案する。 システム全体は、事前トレーニング用のコアマシンと、より高速な応答を実現するための多くの端末マシンで構成されている。 各機械は左右の半球からなる二重半球モデルの1つである。 左半球は端末応答によるレイテンシ向上に、右半球はデータ生成による通信改善に使用される。 マルチメディアサービス上のアプリケーションでは,提案手法は,精度,レイテンシ,通信に関して,データセンタ内の最新のディープフィードフォワードニューラルネットワークよりも優れている。 評価は端末機数に関してスケーラブルな改善を示している。 評価はまた、改善のコストが学習時間より長いことを示している。

Network intelligence is a discipline that builds on the capabilities of network systems to act intelligently by the usage of network resources for delivering high-quality services in a changing environment. Wide area network intelligence is a class of network intelligence in wide area network which covers the core and the edge of Internet. In this paper, we propose a system based on machine learning for wide area network intelligence. The whole system consists of a core machine for pre-training and many terminal machines to accomplish faster responses. Each machine is one of dual-hemisphere models which are made of left and right hemispheres. The left hemisphere is used to improve latency by terminal response and the right hemisphere is used to improve communication by data generation. In an application on multimedia service, the proposed model is superior to the latest deep feed forward neural network in the data center with respect to the accuracy, latency and communication. Evaluation shows scalable improvement with regard to the number of terminal machines. Evaluation also shows the cost of improvement is longer learning time.
翻訳日:2022-01-23 18:40:40 公開日:2022-01-14
# (参考訳) 言語のダークサイド:ダークネットで事前訓練されたトランスフォーマー

The Dark Side of the Language: Pre-trained Transformers in the DarkNet ( http://arxiv.org/abs/2201.05613v1 )

ライセンス: CC BY 4.0
Leonardo Ranaldi, Aria Nourbakhsh, Arianna Patrizi, Elena Sofia Ruzzetti, Dario Onorati, Francesca Fallucchi Fabio Massimo Zanzotto(参考訳) 事前訓練されたトランスフォーマーは多くの自然言語処理タスクにおいて人間のパフォーマンスに挑戦している。 事前トレーニングに使用される巨大なデータセットは、既存のタスクの成功の鍵であるようだ。 本稿では,DarkNetコーパス上の分類タスクによって提供される,真に新規で未探索なデータに基づいて,事前学習された自然言語理解モデルがどのように機能するかを検討する。 驚くべきことに、構文的および語彙的ニューラルネットワークは、トレーニング済みのトランスフォーマーをほとんど上回っている。 これは、事前訓練されたトランスフォーマーが急進的に新しいテキストに適応するのに非常に困難であることを示唆している。

Pre-trained Transformers are challenging human performances in many natural language processing tasks. The gigantic datasets used for pre-training seem to be the key for their success on existing tasks. In this paper, we explore how a range of pre-trained natural language understanding models perform on truly novel and unexplored data, provided by classification tasks over a DarkNet corpus. Surprisingly, results show that syntactic and lexical neural networks largely outperform pre-trained Transformers. This seems to suggest that pre-trained Transformers have serious difficulties in adapting to radically novel texts.
翻訳日:2022-01-22 22:00:30 公開日:2022-01-14
# (参考訳) Semantic Web Technology Index

A Semantic Web Technology Index ( http://arxiv.org/abs/2201.07034v1 )

ライセンス: CC BY 4.0
Gongjin Lan, Ting Liu, Xu Wang, Xueli Pan, Zhisheng Huang(参考訳) セマンティックウェブ(sw)技術は医学、医療、金融、地質学など多くの分野に広く適用されてきた。 現在、研究者は主にsw技術の開発と評価のために自らの経験と好みに依存している。 SW技術の一般的なアーキテクチャ(例えばTim Berners-LeeのSemantic Web Layer Cake)は何年も前に提案され、広く知られているが、SW技術の標準化のための具体的なガイドラインはいまだに欠けている。 本稿では,sw技術の作業が良好に設計されていることを保証するための開発を標準化し,sw技術の作業品質を定量的に評価するためのsw技術指標を提案する。 この指標は、スコア0~10として品質を定量化する10の基準からなる。 我々は3つの側面から明確に説明するために、それぞれの基準を詳細に述べる。 1)基準は何ですか? 2)なぜこの基準を考えるのか。 3) 現状の研究はどのようにしてこの基準を満たすのか。 最後に、この指標を検証事例に適用する方法の例を示すことにより、この指標の妥当性を示す。 我々は,この指標がSW技術における作業のガイドおよび評価に有用な標準であると結論付けた。

Semantic Web (SW) technology has been widely applied to many domains such as medicine, health care, finance, geology. At present, researchers mainly rely on their experience and preferences to develop and evaluate the work of SW technology. Although the general architecture (e.g., Tim Berners-Lee's Semantic Web Layer Cake) of SW technology was proposed many years ago and has been well-known, it still lacks a concrete guideline for standardizing the development of SW technology. In this paper, we propose an SW technology index to standardize the development for ensuring that the work of SW technology is designed well and to quantitatively evaluate the quality of the work in SW technology. This index consists of 10 criteria that quantify the quality as a score of 0 ~ 10. We address each criterion in detail for a clear explanation from three aspects: 1) what is the criterion? 2) why do we consider this criterion and 3) how do the current studies meet this criterion? Finally, we present the validation of this index by providing some examples of how to apply the index to the validation cases. We conclude that the index is a useful standard to guide and evaluate the work in SW technology.
翻訳日:2022-01-22 21:51:12 公開日:2022-01-14
# (参考訳) 表現領域独立な材料発見のための公式グラフセルフアテンションネットワーク

Formula graph self-attention network for representation-domain independent materials discovery ( http://arxiv.org/abs/2201.05649v1 )

ライセンス: CC BY 4.0
Achintha Ihalage and Yang Hao(参考訳) 材料特性予測における機械学習(ml)の成功は、学習のための材料表現の仕方に大きく依存する。 物質ディスクリプタには2つの支配的な種類があり、一つは表象の結晶構造をエンコードし、もう一つは、新しい材料の発見を希望して、統計学的情報のみを使用するものである。 特にグラフニューラルネットワーク(GNN)は、化学的精度で材料特性を予測するのに優れている。 しかしながら、現在のGNNは、各材料表現間の重複がほとんどないため、上記の2つの経路のうちの1つに限られている。 本稿では,統計量のみと構造に基づく材料記述子を統一する公式グラフの新たな概念を提案する。 さらに、式グラフを同化した自己注意統合GNNを開発し、提案アーキテクチャが2つの領域間で伝達可能な材料埋め込みを生成することを示す。 本モデルは,従来の構造ベースgnnおよび構造非依存のgnnを実質的に上回り,試料効率が向上し,より高速に収束する。 最後に、このモデルは難解な例に応用され、物質の複雑な誘電関数を予測し、エプシロン近傍ゼロ現象を示す可能性のある新しい物質を推薦する。

The success of machine learning (ML) in materials property prediction depends heavily on how the materials are represented for learning. Two dominant families of material descriptors exist, one that encodes crystal structure in the representation and the other that only uses stoichiometric information with the hope of discovering new materials. Graph neural networks (GNNs) in particular have excelled in predicting material properties within chemical accuracy. However, current GNNs are limited to only one of the above two avenues owing to the little overlap between respective material representations. Here, we introduce a new concept of formula graph which unifies both stoichiometry-only and structure-based material descriptors. We further develop a self-attention integrated GNN that assimilates a formula graph and show that the proposed architecture produces material embeddings transferable between the two domains. Our model substantially outperforms previous structure-based GNNs as well as structure-agnostic counterparts while exhibiting better sample efficiency and faster convergence. Finally, the model is applied in a challenging exemplar to predict the complex dielectric function of materials and nominate new substances that potentially exhibit epsilon-near-zero phenomena.
翻訳日:2022-01-22 21:37:34 公開日:2022-01-14
# (参考訳) CLUE:ビデオ講義におけるユーザエンゲージメントのコンテキスト統一型説明可能な学習

CLUE: Contextualised Unified Explainable Learning of User Engagement in Video Lectures ( http://arxiv.org/abs/2201.05651v1 )

ライセンス: CC BY 4.0
Sujit Roy, Gnaneswara Rao Gorle, Vishal Gaur, Haider Raza, Shoaib Jameel(参考訳) ビデオにおけるコンテクスト化されたエンゲージメントの予測は、様々な計算方法を用いて、ビュー数や関連するいいね! この10年間、オンライン学習リソースが急増し、パンデミックの間、品質管理のないオンライン教育ビデオが指数関数的に増加している。 クリエーターがコンテンツに対して建設的なフィードバックを得ることができれば、コンテンツの品質が向上する可能性がある。 ビデオに対するフィードバックを提供するために、ドメインエキスパートのボランティアの軍隊を雇うことは、スケールしないかもしれない。 その結果、ユーザーエンゲージメントスコアを予測するための計算手法の開発が急上昇しており、それはユーザーのエンゲージメントの何らかの形態、すなわち、ユーザーがコンテンツと関わりやすいレベルを示す。 現在の方法の欠点は、さまざまな機能を個別にモデル化することであり、カスケードなアプローチでは、エラーの伝播が容易である。 さらに、そのほとんどは、クリエイターがコンテンツを改善する方法に関する重要な説明を提供していない。 そこで本稿では,無料オンライン授業ビデオから抽出した特徴から学習し,ユーザエンゲージメントスコアとともに動画に対する説明可能なフィードバックを提供する,教育領域のための新しい統一モデルであるcucumer for the educational domainを提案する。 タスクの複雑さを考えると、我々の統合されたフレームワークは、異なる事前訓練されたモデルを用いて分類器のアンサンブルとして動作する。 本モデルは,言語,文脈に依存しない情報,提供内容のテキスト感情,アニメーション,話者のピッチ,音声感情をモデル化するために,様々なマルチモーダル特徴を利用する。 転送学習のセットアップでは、統一空間における全体的なモデルは、下流アプリケーション用に微調整されます。

Predicting contextualised engagement in videos is a long-standing problem that has been popularly attempted by exploiting the number of views or the associated likes using different computational methods. The recent decade has seen a boom in online learning resources, and during the pandemic, there has been an exponential rise of online teaching videos without much quality control. The quality of the content could be improved if the creators could get constructive feedback on their content. Employing an army of domain expert volunteers to provide feedback on the videos might not scale. As a result, there has been a steep rise in developing computational methods to predict a user engagement score that is indicative of some form of possible user engagement, i.e., to what level a user would tend to engage with the content. A drawback in current methods is that they model various features separately, in a cascaded approach, that is prone to error propagation. Besides, most of them do not provide crucial explanations on how the creator could improve their content. In this paper, we have proposed a new unified model, CLUE for the educational domain, which learns from the features extracted from freely available public online teaching videos and provides explainable feedback on the video along with a user engagement score. Given the complexity of the task, our unified framework employs different pre-trained models working together as an ensemble of classifiers. Our model exploits various multi-modal features to model the complexity of language, context agnostic information, textual emotion of the delivered content, animation, speaker's pitch and speech emotions. Under a transfer learning setup, the overall model, in the unified space, is fine-tuned for downstream applications.
翻訳日:2022-01-22 21:09:05 公開日:2022-01-14
# (参考訳) 機械学習とウサギ心電図を用いた薬剤性TdPリスクの予測

Prediction of Drug-Induced TdP Risks Using Machine Learning and Rabbit Ventricular Wedge Assay ( http://arxiv.org/abs/2201.05669v1 )

ライセンス: CC BY 4.0
Nan Miles Xi and Dalong Patrick Huang(参考訳) TdP(Torsades de pointes)リスクの評価は薬物安全性評価において重要である。 本研究では,前臨床データを用いた薬物性tdpリスク予測における機械学習のアプローチについて検討する。 具体的には, 家兎心室粗末測定法を用いて, ランダム森林モデルを訓練した。 モデル予測性能はin vitro proarrhythmia assayイニシアチブの28薬について測定した。 残留1ドラッグアウトのクロスバリデーションは、モデル性能のバイアスのない推定を提供する。 階層化ブートストラップは漸近モデル予測の不確かさを明らかにした。 本研究は,前臨床データから薬物性tdpリスクを予測するための機械学習手法の有用性を検証した。 本手法は他の前臨床プロトコルにも拡張でき,薬物安全性評価の補足的評価として機能する。

The evaluation of drug-induced Torsades de pointes (TdP) risks is crucial in drug safety assessment. In this study, we discuss machine learning approaches in the prediction of drug-induced TdP risks using preclinical data. Specifically, the random forest model was trained on the dataset generated by the rabbit ventricular wedge assay. The model prediction performance was measured on 28 drugs from the Comprehensive In Vitro Proarrhythmia Assay initiative. Leave-one-drug-out cross-validation provided an unbiased estimation of model performance. Stratified bootstrap revealed the uncertainty in the asymptotic model prediction. Our study validated the utility of machine learning approaches in predicting drug-induced TdP risks from preclinical data. Our methods can be extended to other preclinical protocols and serve as a supplementary evaluation in drug safety assessment.
翻訳日:2022-01-22 20:53:37 公開日:2022-01-14
# (参考訳) 適応型情報信念空間計画

Adaptive Information Belief Space Planning ( http://arxiv.org/abs/2201.05673v1 )

ライセンス: CC BY 4.0
Moran Barenboim and Vadim Indelman(参考訳) 不確実性に関する推論は多くの実生活の自律システムにおいて不可欠である。 しかし、現在の最先端の計画アルゴリズムは、不確実性を明確に判断するか、高い計算負荷でそれを実行できない。 ここでは,不確実性を明示的に扱う報酬機能を用いて,インフォームドな意思決定を効率的に行うことに注力する。 計算コストを軽減するためにアグリゲーションスキームを用いた近似、すなわち抽象観測モデルを定式化する。 我々は、期待情報理論的な報酬関数と、その結果、値関数の境界を導出する。 次に,計算時間のごく一部で同一の動作選択を達成するために,集約を洗練する手法を提案する。

Reasoning about uncertainty is vital in many real-life autonomous systems. However, current state-of-the-art planning algorithms cannot either reason about uncertainty explicitly, or do so with a high computational burden. Here, we focus on making informed decisions efficiently, using reward functions that explicitly deal with uncertainty. We formulate an approximation, namely an abstract observation model, that uses an aggregation scheme to alleviate computational costs. We derive bounds on the expected information-theoretic reward function and, as a consequence, on the value function. We then propose a method to refine aggregation to achieve identical action selection with a fraction of the computational time.
翻訳日:2022-01-22 20:39:29 公開日:2022-01-14
# (参考訳) 動作中のトランスフォーマー:weaklysupervised action segmentation

Transformers in Action:Weakly Supervised Action Segmentation ( http://arxiv.org/abs/2201.05675v1 )

ライセンス: CC BY 4.0
John Ridley, Huseyin Coskun, David Joseph Tan, Nassir Navab, Federico Tombari(参考訳) ビデオアクションセグメンテーションタスクは、フレームワイドラベルよりもアクションのリストの取得が容易な転写監督など、弱い形式の監督下で定期的に探索される。 この定式化では, 動作遷移点, 長周期長, フレームの文脈化に重点を置いたシーケンスモデリング手法の課題が提示され, トランスフォーマーに適している。 トランスフォーマーが線形にスケールできることを前提として,salient action transition regionに着目した注意機構を備えた,等価なrnnベースのモデルに対する動作アライメント精度の向上にどのように適用できるかを,我々のアーキテクチャを通して実証する。 さらに,近年の推論時間に焦点をあてて,推論時間より早く書き起こしを選択するための補足的書き起こし埋め込み手法を提案する。 さらに、このアプローチが全体的なセグメンテーション性能を改善できることを示す。 最後に、このビデオ駆動弱教師付きタスクにおけるトランスフォーマーの適用性と転写選択の重要性をよりよく理解するために、ベンチマークデータセット間で提案手法を評価した。

The video action segmentation task is regularly explored under weaker forms of supervision, such as transcript supervision, where a list of actions is easier to obtain than dense frame-wise labels. In this formulation, the task presents various challenges for sequence modeling approaches due to the emphasis on action transition points, long sequence lengths, and frame contextualization, making the task well-posed for transformers. Given developments enabling transformers to scale linearly, we demonstrate through our architecture how they can be applied to improve action alignment accuracy over the equivalent RNN-based models with the attention mechanism focusing around salient action transition regions. Additionally, given the recent focus on inference-time transcript selection, we propose a supplemental transcript embedding approach to select transcripts more quickly at inference-time. Furthermore, we subsequently demonstrate how this approach can also improve the overall segmentation performance. Finally, we evaluate our proposed methods across the benchmark datasets to better understand the applicability of transformers and the importance of transcript selection on this video-driven weakly-supervised task.
翻訳日:2022-01-22 19:35:03 公開日:2022-01-14
# (参考訳) 時間データの記号表現のための効率的な集約法

An efficient aggregation method for the symbolic representation of temporal data ( http://arxiv.org/abs/2201.05697v1 )

ライセンス: CC BY 4.0
Xinye Chen and Stefan G\"uttel(参考訳) 記号表現は時間データの次元削減に有用なツールであり、時系列からの効率的な記憶と情報検索を可能にする。 また、ノイズ低減とハイパーパラメータへの感度の低減を通じて、時系列データによる機械学習アルゴリズムのトレーニングを強化することもできる。 適応的ブラウンブリッジベースアグリゲーション (ABBA) 法はそのような効果的で堅牢なシンボル表現であり、時系列における重要な傾向や形状を正確に捉えることを実証している。 しかし、現在の方法では、非常に大きな時系列を処理するのに苦労している。 ここでは、ABBA法の新しい変種であるfABBAを提案する。 この変種は、時系列の断片表現に合わせた新しい集約アプローチを利用する。 ABBAで使用されるk平均クラスタリングをソートベースアグリゲーション技術に置き換えることで、繰り返し発生する2乗誤差計算を避けることにより、計算複雑性を著しく低減する。 従来の手法とは対照的に、新しいアプローチでは事前に指定する時系列シンボルの数を必要としない。 大規模なテストにより,新しい手法はABBAよりも大幅に性能が向上し,SAXおよび1d-SAX表現の再現精度も優れていた。 さらに、fABBAが画像などの他のデータ型を圧縮できることを実証する。

Symbolic representations are a useful tool for the dimension reduction of temporal data, allowing for the efficient storage of and information retrieval from time series. They can also enhance the training of machine learning algorithms on time series data through noise reduction and reduced sensitivity to hyperparameters. The adaptive Brownian bridge-based aggregation (ABBA) method is one such effective and robust symbolic representation, demonstrated to accurately capture important trends and shapes in time series. However, in its current form the method struggles to process very large time series. Here we present a new variant of the ABBA method, called fABBA. This variant utilizes a new aggregation approach tailored to the piecewise representation of time series. By replacing the k-means clustering used in ABBA with a sorting-based aggregation technique, and thereby avoiding repeated sum-of-squares error computations, the computational complexity is significantly reduced. In contrast to the original method, the new approach does not require the number of time series symbols to be specified in advance. Through extensive tests we demonstrate that the new method significantly outperforms ABBA with a considerable reduction in runtime while also outperforming the popular SAX and 1d-SAX representations in terms of reconstruction accuracy. We further demonstrate that fABBA can compress other data types such as images.
翻訳日:2022-01-22 19:08:00 公開日:2022-01-14
# (参考訳) 低リソースニューラルマシン翻訳におけるコスト効率の訓練

Cost-Effective Training in Low-Resource Neural Machine Translation ( http://arxiv.org/abs/2201.05700v1 )

ライセンス: CC BY 4.0
Sai Koneru, Danni Liu, Jan Niehues(参考訳) ニューラルネットワーク翻訳(NMT)では、アクティブラーニング(AL)技術が研究されているが、限られた数の文が翻訳できる低いアノテーション予算に対処することに注力する研究はほとんどない。 このような状況は特に困難であり、人間の注釈がほとんどない絶滅危惧言語や、大量のデータをラベル付けするためのコスト制約によって起こりうる。 alは大規模な予算で役立つことが示されているが、低リソース環境で高品質な翻訳システムを構築するには不十分である。 本研究では,少数の注釈文と辞書エントリを用いたNMTモデルの性能向上のための費用対効果トレーニング手法を提案する。 本手法は,単言語データと自己教師対象データと,ALを適用する前にNMTモデルを初期化するための小型かつ安価な辞書を利用する。 これらの知識源の組み合わせによるモデルの改善は、AL戦略の活用と低リソース条件での利得向上に不可欠であることを示す。 また,NMTのドメイン適応にインスパイアされた新たなAL戦略を提案し,低予算で有効であることを示す。 ラベル付きデータから多様な文を抽出し,ラベル付きデータに最も近い文を抽出できる,新しいハイブリッドデータ駆動手法を提案する。 最後に,NMTモデルの初期化とAL戦略のさらなる活用により,従来のAL手法と比較して最大13ドルBLEUの利益が得られることを示す。

While Active Learning (AL) techniques are explored in Neural Machine Translation (NMT), only a few works focus on tackling low annotation budgets where a limited number of sentences can get translated. Such situations are especially challenging and can occur for endangered languages with few human annotators or having cost constraints to label large amounts of data. Although AL is shown to be helpful with large budgets, it is not enough to build high-quality translation systems in these low-resource conditions. In this work, we propose a cost-effective training procedure to increase the performance of NMT models utilizing a small number of annotated sentences and dictionary entries. Our method leverages monolingual data with self-supervised objectives and a small-scale, inexpensive dictionary for additional supervision to initialize the NMT model before applying AL. We show that improving the model using a combination of these knowledge sources is essential to exploit AL strategies and increase gains in low-resource conditions. We also present a novel AL strategy inspired by domain adaptation for NMT and show that it is effective for low budgets. We propose a new hybrid data-driven approach, which samples sentences that are diverse from the labelled data and also most similar to unlabelled data. Finally, we show that initializing the NMT model and further using our AL strategy can achieve gains of up to $13$ BLEU compared to conventional AL methods.
翻訳日:2022-01-22 18:46:00 公開日:2022-01-14
# (参考訳) トランスニューラルネットワークを用いた拡散テンソル推定

Diffusion Tensor Estimation with Transformer Neural Networks ( http://arxiv.org/abs/2201.05701v1 )

ライセンス: CC BY 4.0
Davood Karimi and Ali Gholipour(参考訳) 拡散テンソルイメージング(DTI)は、脳白質の発生と変性を研究するために最も広く用いられるツールである。 しかし、標準dti推定法は多数の高品質な測定値に依存する。 これは長いスキャン時間が必要であり、新生児のような特定の患者集団では特に困難である。 本稿では,6つの拡散重み付き測定値から拡散テンソルを正確に推定する手法を提案する。 本手法は,隣り合うボクセルの拡散信号とテンソルの関係を学習することでこれを実現する。 我々のモデルはトランスフォーマーネットワークに基づいており、シーケンス内の信号間の関係をモデル化する技術の現状を表している。 特に、我々のモデルは2つのネットワークから構成される。 第1のネットワークは、ボクセル近傍の拡散信号に基づいて拡散テンソルを推定する。 第2のネットワークは、拡散信号と隣接するボクセルの第1のネットワークで推定されるテンソルの関係を学習することにより、より正確なテンソル推定を提供する。 提案手法は, 3つのデータセットを用いた実験により, 拡散テンソルの高精度な推定が可能であり, 競合する3つの方法よりも有意に優れていることを示す。 6つの測定値を用いた推定は、標準推定法と30-88個の測定値と同等である。 したがって, 新生児や乳児などの非協力的な患者では, 脳白質のスキャン時間が短く, 信頼性の高い評価が期待できる。

Diffusion tensor imaging (DTI) is the most widely used tool for studying brain white matter development and degeneration. However, standard DTI estimation methods depend on a large number of high-quality measurements. This would require long scan times and can be particularly difficult to achieve with certain patient populations such as neonates. Here, we propose a method that can accurately estimate the diffusion tensor from only six diffusion-weighted measurements. Our method achieves this by learning to exploit the relationships between the diffusion signals and tensors in neighboring voxels. Our model is based on transformer networks, which represent the state of the art in modeling the relationship between signals in a sequence. In particular, our model consists of two such networks. The first network estimates the diffusion tensor based on the diffusion signals in a neighborhood of voxels. The second network provides more accurate tensor estimations by learning the relationships between the diffusion signals as well as the tensors estimated by the first network in neighboring voxels. Our experiments with three datasets show that our proposed method achieves highly accurate estimations of the diffusion tensor and is significantly superior to three competing methods. Estimations produced by our method with six measurements are comparable with those of standard estimation methods with 30-88 measurements. Hence, our method promises shorter scan times and more reliable assessment of brain white matter, particularly in non-cooperative patients such as neonates and infants.
翻訳日:2022-01-22 18:33:03 公開日:2022-01-14
# (参考訳) NIST CPSフレームワークのレンズによるCPSの特定と推論

Specifying and Reasoning about CPS through the Lens of the NIST CPS Framework ( http://arxiv.org/abs/2201.05710v1 )

ライセンス: CC0 1.0
Thanh Hai Nguyen, Matthew Bundas, Tran Cao Son, Marcello Balduccini, Kathleen Campbell Garwood, Edward R. Griffor(参考訳) 本稿では,国立標準技術研究所(NIST)が提唱したCPSフレームワークの精神に,サイバー物理システム(CPS)の形式的定義を導入する。 この定義を用いることで、cpsにおける関心に関する様々な問題を正確に形式化し、解集合プログラミング(asp)を用いて実装できることを示す。 これには、依存関係や懸念間の衝突、問題の緩和方法、特定の問題に対する最も適切な緩和戦略などに関する問題が含まれます。 次に、上記の問題に対処する実装を開発するためにASPがどのように使用できるかを示す。 この論文は、提案手法の可能性を議論して締めくくっている。

This paper introduces a formal definition of a Cyber-Physical System (CPS) in the spirit of the CPS Framework proposed by the National Institute of Standards and Technology (NIST). It shows that using this definition, various problems related to concerns in a CPS can be precisely formalized and implemented using Answer Set Programming (ASP). These include problems related to the dependency or conflicts between concerns, how to mitigate an issue, and what the most suitable mitigation strategy for a given issue would be. It then shows how ASP can be used to develop an implementation that addresses the aforementioned problems. The paper concludes with a discussion of the potentials of the proposed methodologies.
翻訳日:2022-01-22 18:16:46 公開日:2022-01-14
# (参考訳) taylor-lagrange neural normal differential equation:高速トレーニングとニューラルネットワークの評価に向けて

Taylor-Lagrange Neural Ordinary Differential Equations: Toward Fast Training and Evaluation of Neural ODEs ( http://arxiv.org/abs/2201.05715v1 )

ライセンス: CC0 1.0
Franck Djeumou, Cyrus Neary, Eric Goubault, Sylvie Putot, and Ufuk Topcu(参考訳) ニューラルネットワークを用いた微分方程式のパラメトリゼーションであるニューラル常微分方程式(ノード)は、データから未知の連続時間力学系の学習モデルにおいて非常に有望である。 しかしながら、ノードの前方評価には、システムダイナミクスをキャプチャするために使用されるニューラルネットワークの数値的統合が必要であり、そのトレーニングは極めて高価である。 既存の作業では、トレーニングに十分な精度を得るためには、基礎となる動的ネットワークの過度な評価を必要とする場合が多い。 対照的に,データ駆動アプローチを数値積分に提案することにより,ノードの評価とトレーニングを高速化する。 提案したTaylor-Lagrange NODEs (TL-NODEs) は数値積分のために固定階Taylor拡張を使用し、拡張の近似誤差を推定する。 その結果,提案手法は低次テイラー展開のみを用いながら適応ステップサイズスキームと同等の精度を実現し,ノード統合に必要な計算コストを大幅に削減した。 動的システムのモデリング、画像分類、密度推定を含む一連の数値実験により、TL-NODEは最先端のアプローチよりも桁違いに高速に訓練でき、性能が損なわれないことを示した。

Neural ordinary differential equations (NODEs) -- parametrizations of differential equations using neural networks -- have shown tremendous promise in learning models of unknown continuous-time dynamical systems from data. However, every forward evaluation of a NODE requires numerical integration of the neural network used to capture the system dynamics, making their training prohibitively expensive. Existing works rely on off-the-shelf adaptive step-size numerical integration schemes, which often require an excessive number of evaluations of the underlying dynamics network to obtain sufficient accuracy for training. By contrast, we accelerate the evaluation and the training of NODEs by proposing a data-driven approach to their numerical integration. The proposed Taylor-Lagrange NODEs (TL-NODEs) use a fixed-order Taylor expansion for numerical integration, while also learning to estimate the expansion's approximation error. As a result, the proposed approach achieves the same accuracy as adaptive step-size schemes while employing only low-order Taylor expansions, thus greatly reducing the computational cost necessary to integrate the NODE. A suite of numerical experiments, including modeling dynamical systems, image classification, and density estimation, demonstrate that TL-NODEs can be trained more than an order of magnitude faster than state-of-the-art approaches, without any loss in performance.
翻訳日:2022-01-22 18:15:50 公開日:2022-01-14
# Digital Twin: 概念から実践へ

Digital Twin: From Concept to Practice ( http://arxiv.org/abs/2201.06912v1 )

ライセンス: Link先を確認
Ashwin Agrawal, Martin Fischer, Vishal Singh(参考訳) 近年の人工知能(AI)の技術開発と進歩により、高度な能力がDigital Twin(DT)の一部となり、作業プロセスのあらゆる側面に自動化を導入することが可能になった。 DTが提供できる可能性を考えると、実践者はDTを実際にデプロイしながらどの機能を選択すべきかという、ますます難しい決定に直面しています。 この分野での研究の欠如も役に立たなかった。 その結果、DTに必要な構成要素として、予測、シミュレーション、AI、マシンラーニング(ML)といった新興技術機能のブランド変更と再利用が実現した。 DTにおける機能の不適切な選択は、機会の欠如、戦略的不一致、期待が膨らむこと、そして実践者によって単に誇大広告として拒否されるリスクをもたらす可能性がある。 この課題を軽減するために,デザインサイエンスリサーチ(DSR)手法を18ヶ月にわたって適用して設計・開発するデジタル化フレームワークを提案する。 このフレームワークは、各レベルの長所と短所を測り、デジタルツインシステムの評価基準を決定し、選択したDTが組織プロセスや戦略、価値創造に与える影響を評価することにより、実践者がDTの適切な高度化のレベルを選択するのに役立つ。 実生活における3つのケーススタディは、フレームワークの適用と有用性を示している。

Recent technological developments and advances in Artificial Intelligence (AI) have enabled sophisticated capabilities to be a part of Digital Twin (DT), virtually making it possible to introduce automation into all aspects of work processes. Given these possibilities that DT can offer, practitioners are facing increasingly difficult decisions regarding what capabilities to select while deploying a DT in practice. The lack of research in this field has not helped either. It has resulted in the rebranding and reuse of emerging technological capabilities like prediction, simulation, AI, and Machine Learning (ML) as necessary constituents of DT. Inappropriate selection of capabilities in a DT can result in missed opportunities, strategic misalignments, inflated expectations, and risk of it being rejected as just hype by the practitioners. To alleviate this challenge, this paper proposes the digitalization framework, designed and developed by following a Design Science Research (DSR) methodology over a period of 18 months. The framework can help practitioners select an appropriate level of sophistication in a DT by weighing the pros and cons for each level, deciding evaluation criteria for the digital twin system, and assessing the implications of the selected DT on the organizational processes and strategies, and value creation. Three real-life case studies illustrate the application and usefulness of the framework.
翻訳日:2022-01-19 18:41:47 公開日:2022-01-14
# 対象を比較する数学

The Mathematics of Comparing Objects ( http://arxiv.org/abs/2201.07032v1 )

ライセンス: Link先を確認
Marcus Weber, Konstantin Fackeldey(参考訳) 2つの異なる犯罪記事を読んだ後、人工知能は両方の物語で、警察が犯人をランダムに発見したと結論づける。 '' -- 何が拡張され、どの仮定の下で、これは現実的なシナリオの説明となるのか?

`After reading two different crime stories, an artificial intelligence concludes that in both stories the police has found the murderer just by random.'' -- To what extend and under which assumptions this is a description of a realistic scenario?
翻訳日:2022-01-19 17:56:08 公開日:2022-01-14
# TCR-GAN:赤外画像を用いた熱帯サイクロン受動マイクロ波降雨予測

TCR-GAN: Predicting tropical cyclone passive microwave rainfall using infrared imagery via generative adversarial networks ( http://arxiv.org/abs/2201.07000v1 )

ライセンス: Link先を確認
Fan Meng, Tao Song, Danya Xu(参考訳) 熱帯サイクロン(tc)は一般的に大量の水蒸気を持ち、大規模な極端な降雨を引き起こすことがある。 マイクロ波センサの低時間分解能のため,高空間分解能,高時間分解能のTCMのパッシブマイクロ波降雨(PMR)推定はTTCの災害警報に不可欠であるが,依然として課題である。 本研究は、TCの衛星赤外線画像から直接PMRを予測することにより、この問題を解決する。 我々は, 赤外線画像をPMRに変換するGAN(Generative Adversarial Network)を開発し, TCクラウドトップの明るい温度とPMRのマッピング関係を確立し, そのアルゴリズムをTCR-GANと呼ぶ。 一方、ベンチマークとして利用可能な新しいデータセットとして、熱帯サイクロンのIR-to-Rainfall Prediction(TCIRRP)が確立され、この方向に人工知能の発展が進むことが期待されている。 実験の結果,IRから重要な特徴を効果的に抽出できることが示唆された。 エンドツーエンドのディープラーニングアプローチは、グローバルに適用可能なテクニックとしての可能性を示し、衛星による熱帯性サイクロン降雨予測の新たな視点を提供する。

Tropical cyclones (TC) generally carry large amounts of water vapor and can cause large-scale extreme rainfall. Passive microwave rainfall (PMR) estimation of TC with high spatial and temporal resolution is crucial for disaster warning of TC, but remains a challenging problem due to the low temporal resolution of microwave sensors. This study attempts to solve this problem by directly forecasting PMR from satellite infrared (IR) images of TC. We develop a generative adversarial network (GAN) to convert IR images into PMR, and establish the mapping relationship between TC cloud-top bright temperature and PMR, the algorithm is named TCR-GAN. Meanwhile, a new dataset that is available as a benchmark, Dataset of Tropical Cyclone IR-to-Rainfall Prediction (TCIRRP) was established, which is expected to advance the development of artificial intelligence in this direction. Experimental results show that the algorithm can effectively extract key features from IR. The end-to-end deep learning approach shows potential as a technique that can be applied globally and provides a new perspective tropical cyclone precipitation prediction via satellite, which is expected to provide important insights for real-time visualization of TC rainfall globally in operations.
翻訳日:2022-01-19 17:10:25 公開日:2022-01-14
# マスク付きオートエンコーダによる時系列生成

Time Series Generation with Masked Autoencoder ( http://arxiv.org/abs/2201.07006v1 )

ライセンス: Link先を確認
Mengyue Zha(参考訳) 本稿では,InterpoMAE (InterpoMAE) を用いたマスク付きオートエンコーダが,時系列のスケーラブルな自己教師型ジェネレータであることを示す。 インターポマエは入力時系列からランダムなパッチをマスクし、補間器によって潜在空間の欠落したパッチを復元する。 中心となる設計は、interpomaeはマスクトークンではなくインターポレータを使用して、潜在スペースに欠落しているパッチの潜在表現を復元する。 この設計により、双方向情報による時間的ダイナミクスのより効率的かつ効果的なキャプチャが可能になる。 InterpoMAEは、マスクされたパッチのサイズと数を変更することで、合成データの多様性を明確に制御できる。 我々のアプローチは、複数の実データセット上の時系列生成における教師なし学習の最先端(SoTA)ベンチマークを一貫して大幅に上回る。 生成した合成データは、データ拡張、インプット、復調など、さまざまな下流タスクで有望なスケーリング動作を示す。

This paper shows that masked autoencoders with interpolators (InterpoMAE) are scalable self-supervised generators for time series. InterpoMAE masks random patches from the input time series and restore the missing patches in the latent space by an interpolator. The core design is that InterpoMAE uses an interpolator rather than mask tokens to restore the latent representations for missing patches in the latent space. This design enables more efficient and effective capture of temporal dynamics with bidirectional information. InterpoMAE allows for explicit control on the diversity of synthetic data by changing the size and number of masked patches. Our approach consistently and significantly outperforms state-of-the-art (SoTA) benchmarks of unsupervised learning in time series generation on several real datasets. Synthetic data produced show promising scaling behavior in various downstream tasks such as data augmentation, imputation and denoise.
翻訳日:2022-01-19 17:10:01 公開日:2022-01-14
# OrchestRAN: Open RANにおけるオーケストレーションインテリジェンスによるネットワーク自動化

OrchestRAN: Network Automation through Orchestrated Intelligence in the Open RAN ( http://arxiv.org/abs/2201.05632v1 )

ライセンス: Link先を確認
Salvatore D'Oro, Leonardo Bonati, Michele Polese, and Tommaso Melodia(参考訳) 次世代のセルネットワークの特徴は、ネットワークインテリジェンスを実現するために分析と制御ノブを暴露するソフトウォーマ、オープン、非凝集アーキテクチャである。 しかし、このビジョンを実現する方法は、主にオープンな問題である。 本稿では,これらの課題に対する実用的な解決策を提供するために,Open RANパラダイムを取り入れ,構築する新しいオーケストレーションフレームワークであるOrchestRANを提示し,プロトタイピングすることで,決定的な一歩を踏み出す。 OrchestRANは、非リアルタイムRAN Intelligent Controller(RIC)で実行するために設計されており、ネットワークオペレーター(NOs)が高レベルな制御/推論の目的(すなわち、ニューヨーク中心街の基地局のほぼリアルタイムでのスケジューリングと予測能力)を指定することができる。 OrchestRANは、最適なデータ駆動アルゴリズムセットとその実行場所を自動的に計算し、所望のタイミング要件を満たしながら、NOが指定した意図を達成する。 オープンRANにおけるインテリジェンスを編成する問題はNPハードであり、現実のアプリケーションをサポートするために低複雑さのソリューションを設計する。 OrchestRANをプロトタイプとしてColosseumで大規模にテストしています。 7つのベースステーションと42のユーザからなるネットワーク上の実験結果から,orchestornは最小限のコントロールオーバーヘッドとレイテンシで,オンデマンドでデータ駆動サービスをインスタンス化できることが分かりました。

The next generation of cellular networks will be characterized by softwarized, open, and disaggregated architectures exposing analytics and control knobs to enable network intelligence. How to realize this vision, however, is largely an open problem. In this paper, we take a decisive step forward by presenting and prototyping OrchestRAN, a novel orchestration framework that embraces and builds upon the Open RAN paradigm to provide a practical solution to these challenges. OrchestRAN has been designed to execute in the non-real-time RAN Intelligent Controller (RIC) and allows Network Operators (NOs) to specify high-level control/inference objectives (i.e., adapt scheduling, and forecast capacity in near-real-time for a set of base stations in Downtown New York). OrchestRAN automatically computes the optimal set of data-driven algorithms and their execution location to achieve intents specified by the NOs while meeting the desired timing requirements. We show that the problem of orchestrating intelligence in Open RAN is NP-hard, and design low-complexity solutions to support real-world applications. We prototype OrchestRAN and test it at scale on Colosseum. Our experimental results on a network with 7 base stations and 42 users demonstrate that OrchestRAN is able to instantiate data-driven services on demand with minimal control overhead and latency.
翻訳日:2022-01-19 17:09:01 公開日:2022-01-14
# 技術支援レビューにおける手作業負荷削減に向けて--ランキングパフォーマンスの推定

Towards Reducing Manual Workload in Technology-Assisted Reviews: Estimating Ranking Performance ( http://arxiv.org/abs/2201.05648v1 )

ライセンス: Link先を確認
Grace E. Lee and Aixin Sun(参考訳) 体系的レビュー(SR)の実行は、複数のタスクで構成される。 (i)デジタル図書館(例えば、pubmed)から関連性の高いであろう文書(証書)を収集する。 (二 文書を関係又は無関係と手動で読み、表示すること。) (iii)関連研究から情報を抽出すること、及び (iv)情報を分析し合成し、SRの結論を導出する。 研究者が研究にラベルをつけると、関連する文書が無関係のものよりも高いランクの文書をスクリーニングすることができる。 このプラクティスは、スクリーニング優先順位付け(文書ランク付けアプローチ)と呼ばれ、関連する文書とラベル付けされたドキュメントがより早く次のタスクに移行するため、SRを実行するプロセスを高速化する。 しかし、画面へのドキュメントの合計数が同じであるため、手動作業の削減には制限がある。 スクリーニングプロセスにおける手作業量の削減に向けて,SRの文書ランキングの品質について検討する。 これは、ランキングに関連する研究の場所がどこにあるかを研究者に知らせ、スクリーニングをどこで止めるかを決めることができる。 異なるランキングモデルからSR文書のランキングを広範囲に分析した結果、SRのランキング品質に影響を与える要因として「トピックワイドネス」を仮定した。 最後に,話題の広さを推定する手法を提案し,提案手法がsrsの文書ランキングの質を予測するための単純かつ効果的な手法であることを実証する。

Conducting a systematic review (SR) is comprised of multiple tasks: (i) collect documents (studies) that are likely to be relevant from digital libraries (eg., PubMed), (ii) manually read and label the documents as relevant or irrelevant, (iii) extract information from the relevant studies, and (iv) analyze and synthesize the information and derive a conclusion of SR. When researchers label studies, they can screen ranked documents where relevant documents are higher than irrelevant ones. This practice, known as screening prioritization (ie., document ranking approach), speeds up the process of conducting a SR as the documents labelled as relevant can move to the next tasks earlier. However, the approach is limited in reducing the manual workload because the total number of documents to screen remains the same. Towards reducing the manual workload in the screening process, we investigate the quality of document ranking of SR. This can signal researchers whereabouts in the ranking relevant studies are located and let them decide where to stop the screening. After extensive analysis on SR document rankings from different ranking models, we hypothesize 'topic broadness' as a factor that affects the ranking quality of SR. Finally, we propose a measure that estimates the topic broadness and demonstrate that the proposed measure is a simple yet effective method to predict the qualities of document rankings for SRs.
翻訳日:2022-01-19 16:48:56 公開日:2022-01-14
# クロスドメイン海馬セグメンテーションを可能にするジエンタングルメント

Disentanglement enables cross-domain Hippocampus Segmentation ( http://arxiv.org/abs/2201.05650v1 )

ライセンス: Link先を確認
John Kalkhof, Camila Gonz\'alez, Anirban Mukhopadhyay(参考訳) 限定されたラベル付きトレーニングデータは、医療画像における一般的な問題である。 これにより、よく一般化されたモデルをトレーニングすることが難しくなり、しばしば未知のドメインで失敗する。 MRIによる海馬分画は神経精神疾患の診断と治療に重要である。 コントラストや形状のドメイン差はセグメンテーションに大きく影響する。 我々は,T1強調MRI像を内容と領域に切り離し,この問題に対処する。 この分離により、ドメイン転送を実行し、新たなソースからトレーニングドメインへのデータ変換が可能になります。 このステップは、セグメンテーション問題を単純化し、より高い品質セグメンテーションをもたらす。 本稿では,提案手法である"Content Domain Disentanglement GAN"を用いて,GAN固有のアーティファクトを扱うために,変換出力に基づいてUNetをトレーニングすることを提案する。 これらの変更により、未確認領域の性能を6-13%向上させ、最先端ドメイン転送方法より優れる。

Limited amount of labelled training data are a common problem in medical imaging. This makes it difficult to train a well-generalised model and therefore often leads to failure in unknown domains. Hippocampus segmentation from magnetic resonance imaging (MRI) scans is critical for the diagnosis and treatment of neuropsychatric disorders. Domain differences in contrast or shape can significantly affect segmentation. We address this issue by disentangling a T1-weighted MRI image into its content and domain. This separation enables us to perform a domain transfer and thus convert data from new sources into the training domain. This step thus simplifies the segmentation problem, resulting in higher quality segmentations. We achieve the disentanglement with the proposed novel methodology 'Content Domain Disentanglement GAN', and we propose to retrain the UNet on the transformed outputs to deal with GAN-specific artefacts. With these changes, we are able to improve performance on unseen domains by 6-13% and outperform state-of-the-art domain transfer methods.
翻訳日:2022-01-19 15:09:36 公開日:2022-01-14
# 物理インフォームドニューラルネットワークによる科学機械学習:我々は今どこにいて、次は何になるのか

Scientific Machine Learning through Physics-Informed Neural Networks: Where we are and What's next ( http://arxiv.org/abs/2201.05624v1 )

ライセンス: Link先を確認
Salvatore Cuomo, Vincenzo Schiano di Cola, Fabio Giampaolo, Gianluigi Rozza, Maizar Raissi and Francesco Piccialli(参考訳) physic-informed neural networks(pinn)は、ニューラルネットワーク自体の一部として偏微分方程式(pde)のようなモデル方程式を符号化するニューラルネットワーク(nn)である。 PINNは現在、PDE、分数方程式、積分微分方程式を解くために使われている。 この手法は、NNがPDE残差を低減しつつ観測データに適合しなければならないマルチタスク学習フレームワークとして登場した。 本研究の主な目的は、これらのネットワークとその関連する利点と欠点を特徴づけることであったが、このレビューは、損失関数ではなく、NN構造に直接初期条件または境界条件が埋め込まれる物理制約ニューラルネットワーク(PCNN)を含む、より広範な問題に関する出版を組み込むことも試みている。 この研究は、ほとんどの研究が、異なるアクティベーション関数、勾配最適化技術、ニューラルネットワーク構造、損失関数構造によるPINNのカスタマイズに焦点を当てていることを示している。 PINNが使われている幅広い応用にもかかわらず、有限要素法(FEM)のような古典的な数値技術よりも、いくつかの文脈で実現可能であることを示すことによって、進歩は依然として可能であり、最も顕著な理論上の問題は未解決のままである。

Physic-Informed Neural Networks (PINN) are neural networks (NNs) that encode model equations, like Partial Differential Equations (PDE), as a component of the neural network itself. PINNs are nowadays used to solve PDEs, fractional equations, and integral-differential equations. This novel methodology has arisen as a multi-task learning framework in which a NN must fit observed data while reducing a PDE residual. This article provides a comprehensive review of the literature on PINNs: while the primary goal of the study was to characterize these networks and their related advantages and disadvantages, the review also attempts to incorporate publications on a larger variety of issues, including physics-constrained neural networks (PCNN), where the initial or boundary conditions are directly embedded in the NN structure rather than in the loss functions. The study indicates that most research has focused on customizing the PINN through different activation functions, gradient optimization techniques, neural network structures, and loss function structures. Despite the wide range of applications for which PINNs have been used, by demonstrating their ability to be more feasible in some contexts than classical numerical techniques like Finite Element Method (FEM), advancements are still possible, most notably theoretical issues that remain unresolved.
翻訳日:2022-01-19 15:08:15 公開日:2022-01-14
# 継続的データ更新によるモデル安定性

Model Stability with Continuous Data Updates ( http://arxiv.org/abs/2201.05692v1 )

ライセンス: Link先を確認
Huiting Liu, Avinesh P.V.S., Siddharth Patwardhan, Peter Grasch, Sachin Agarwal(参考訳) 本稿では、機械学習モデル(ML)の「安定性」を、連続的なトレーニングデータ更新を伴う大規模で複雑なNLPシステムのコンテキスト内で研究する。 本研究では,様々な実験条件下でモデル安定性を評価する手法を提案する。 ネットワークアーキテクチャや入力表現を含むモデル設計の選択は,4つのテキスト分類タスクと2つのシーケンスラベリングタスクの実験を通じて,安定性に重大な影響を与えることがわかった。 分類タスクでは、非RNNモデルの方がRNNモデルよりも安定であり、エンコーダデコーダモデルはシーケンスラベリングタスクではより安定である。 さらに、事前学習されたfasttext埋め込みに基づく入力表現は他の選択よりも安定性に寄与する。 また、アンサンブルモデルとインクリメンタルトレーニングという2つの学習戦略が安定性に大きな影響を与えていることも示しています。 モデリングの選択を行う際に、MLモデルデザイナが正確さとジッタのトレードオフを考慮することを推奨する。

In this paper, we study the "stability" of machine learning (ML) models within the context of larger, complex NLP systems with continuous training data updates. For this study, we propose a methodology for the assessment of model stability (which we refer to as jitter under various experimental conditions. We find that model design choices, including network architecture and input representation, have a critical impact on stability through experiments on four text classification tasks and two sequence labeling tasks. In classification tasks, non-RNN-based models are observed to be more stable than RNN-based ones, while the encoder-decoder model is less stable in sequence labeling tasks. Moreover, input representations based on pre-trained fastText embeddings contribute to more stability than other choices. We also show that two learning strategies -- ensemble models and incremental training -- have a significant influence on stability. We recommend ML model designers account for trade-offs in accuracy and jitter when making modeling choices.
翻訳日:2022-01-19 15:06:28 公開日:2022-01-14
# 時間スライス合成マイノリティオーバーサンプリング法による欠落観測の示唆

Imputing Missing Observations with Time Sliced Synthetic Minority Oversampling Technique ( http://arxiv.org/abs/2201.05634v1 )

ライセンス: Link先を確認
Andrew Baumgartner, Sevda Molani, Qi Wei and Jennifer Hadlock(参考訳) 本稿では,データセットの各サンプルに対して均一な不規則時系列を構築することを目的とした,単純かつ新しい時系列インプテーション手法を提案する。 具体的には、観察時間の重複しないビン(スライス)の中間点で定義されたグリッドを修正し、各サンプルが所定の時間にすべての機能に対して値を持つことを保証する。 これにより、完全に欠落した観察をインプットし、データ全体の時系列の均一な分類を可能にし、特別な場合には個々の欠落した特徴をインプットすることができる。 そのため、よく知られたクラス不均衡アルゴリズムであるSMOTE \cite{smote} を少し一般化し、欠落した特徴が存在しない場合に相関を保ったコンポーネントワイズ近傍補間を可能にする。 2次元非結合高調波発振器の簡易設定でこの手法を可視化した。 次に、tSMOTEを用いて、異なる2次元発振器の異なる軌跡を予測・分類するために、ロジスティック回帰を用いてエンコーダ/デコーダ長短項メモリ(LSTM)モデルを訓練する。 この文脈で tSMOTE の有用性を説明した後、我々は同じアーキテクチャを用いて、インプットされたデータセット上で、COVID-19 病重症度に関する臨床モデルを訓練する。 本実験は, 患者軌跡のより広いクラスをモデルに認識させることにより, 標準的な平均値と中央値の計算手法の改善, および集約分類モデルの改善を示す。

We present a simple yet novel time series imputation technique with the goal of constructing an irregular time series that is uniform across every sample in a data set. Specifically, we fix a grid defined by the midpoints of non-overlapping bins (dubbed "slices") of observation times and ensure that each sample has values for all of the features at that given time. This allows one to both impute fully missing observations to allow uniform time series classification across the entire data and, in special cases, to impute individually missing features. To do so, we slightly generalize the well-known class imbalance algorithm SMOTE \cite{smote} to allow component wise nearest neighbor interpolation that preserves correlations when there are no missing features. We visualize the method in the simplified setting of 2-dimensional uncoupled harmonic oscillators. Next, we use tSMOTE to train an Encoder/Decoder long-short term memory (LSTM) model with Logistic Regression for predicting and classifying distinct trajectories of different 2D oscillators. After illustrating the the utility of tSMOTE in this context, we use the same architecture to train a clinical model for COVID-19 disease severity on an imputed data set. Our experiments show an improvement over standard mean and median imputation techniques by allowing a wider class of patient trajectories to be recognized by the model, as well as improvement over aggregated classification models.
翻訳日:2022-01-19 14:44:37 公開日:2022-01-14
# 厳密な探索とウェイカー推定を改善した信頼性の高い因果発見

Reliable Causal Discovery with Improved Exact Search and Weaker Assumptions ( http://arxiv.org/abs/2201.05666v1 )

ライセンス: Link先を確認
Ignavier Ng, Yujia Zheng, Jiji Zhang, Kun Zhang(参考訳) 因果発見法の多くは漸近的正しさを保証するために忠実性仮定に依存している。 しかし、仮定は様々な点でほぼ破られ、準最適解が導かれる。 ベイズネットワーク構造学習には、明確に定義されたスコア関数を持つ厳密な探索法のような仮定の弱化に焦点を当てた一連の研究があるが、大きなグラフではうまくスケールしない。 本研究では,線形ガウス設定において,正確なスコアベース手法のスケーラビリティを向上させるためのいくつかの戦略を紹介する。 特に,忠実性よりも厳密に弱い仮定を必要とする逆共分散行列の支持に基づく超構造推定法を開発し,厳密な探索の探索空間を制限するために適用する。 また,各変数とその近傍が生成する局所クラスタを,上位構造内の2つのホップ内で正確に探索する局所探索戦略を提案する。 数値実験により提案手法の有効性を検証し,高い精度で数百個のノードにスケールアップできることを実証した。

Many of the causal discovery methods rely on the faithfulness assumption to guarantee asymptotic correctness. However, the assumption can be approximately violated in many ways, leading to sub-optimal solutions. Although there is a line of research in Bayesian network structure learning that focuses on weakening the assumption, such as exact search methods with well-defined score functions, they do not scale well to large graphs. In this work, we introduce several strategies to improve the scalability of exact score-based methods in the linear Gaussian setting. In particular, we develop a super-structure estimation method based on the support of inverse covariance matrix which requires assumptions that are strictly weaker than faithfulness, and apply it to restrict the search space of exact search. We also propose a local search strategy that performs exact search on the local clusters formed by each variable and its neighbors within two hops in the super-structure. Numerical experiments validate the efficacy of the proposed procedure, and demonstrate that it scales up to hundreds of nodes with a high accuracy.
翻訳日:2022-01-19 14:44:11 公開日:2022-01-14
# 責任あるAIエンジニアリングのためのツールと実践

Tools and Practices for Responsible AI Engineering ( http://arxiv.org/abs/2201.05647v1 )

ライセンス: Link先を確認
Ryan Soklaski, Justin Goodwin, Olivia Brown, Michael Yee and Jason Matterer(参考訳) Responsible Artificial Intelligence(AI) – 堅牢性や説明可能性といった重要な性質を兼ね備えた,正確なAIシステムの開発,評価,維持を行うプラクティス – は,標準的なマシンラーニングツールやフレームワーク,テストメソッドをその限界を越えて拡張する,多面的な課題を表している。 本稿では,AIエンジニアリングにおける重要なニーズに対処する2つの新しいソフトウェアライブラリであるHydra-zenとrAI-toolboxを提案する。 hydra-zenは複雑なAIアプリケーションを構成しやすくするプロセスを劇的に単純化する。 rAI-toolboxは、スケーラブルで、他の一般的なMLフレームワークで自然に構成される方法で、AIモデルの堅牢性を評価し、強化するための方法を可能にするように設計されている。 我々は、ツール自体の信頼性を高めるためにプロパティベースのテストを使用するなど、これらのツールを効果的にする設計原則と方法論について説明する。 最後に,逆ロバスト性や説明可能なaiといったさまざまなユースケースを,使い慣れたapiで簡潔に実装できることを示すことにより,ツールの構成可能性と柔軟性を示す。

Responsible Artificial Intelligence (AI) - the practice of developing, evaluating, and maintaining accurate AI systems that also exhibit essential properties such as robustness and explainability - represents a multifaceted challenge that often stretches standard machine learning tooling, frameworks, and testing methods beyond their limits. In this paper, we present two new software libraries - hydra-zen and the rAI-toolbox - that address critical needs for responsible AI engineering. hydra-zen dramatically simplifies the process of making complex AI applications configurable, and their behaviors reproducible. The rAI-toolbox is designed to enable methods for evaluating and enhancing the robustness of AI-models in a way that is scalable and that composes naturally with other popular ML frameworks. We describe the design principles and methodologies that make these tools effective, including the use of property-based testing to bolster the reliability of the tools themselves. Finally, we demonstrate the composability and flexibility of the tools by showing how various use cases from adversarial robustness and explainable AI can be concisely implemented with familiar APIs.
翻訳日:2022-01-19 14:19:12 公開日:2022-01-14
# 遠近変換層

Perspective Transformation Layer ( http://arxiv.org/abs/2201.05706v1 )

ライセンス: Link先を確認
Nishan Khatri, Agnibh Dasgupta, Yucong Shen, Xin Zhong, Frank Shih(参考訳) 近年,観測者と物体間の相対的な位置変化をコンピュータビジョンやディープラーニングモデルに反映した幾何学的変換が注目されている。 しかし、既存の提案は主に視点の変化を完全に示さないアフィン変換に焦点を当てている。 さらに、現在のソリューションでは、ニューラルネットワークモジュールを単一のトランスフォーメーションマトリックスの学習に適用することが多く、さまざまな視点の可能性を無視して、追加のto-be-trainedモジュールパラメータを生成する。 本稿では,アフィン変換におけるジオメトリをモデル化するだけでなく,視点変化を反映した視点変換を学習するために,層(PT層)を提案する。 さらに、畳み込み層のような従来の層のような勾配降下で直接トレーニングできるので、単一のpt層はモジュールパラメータをトレーニングすることなく、調整可能な複数の視点を学習することができる。 実験および評価により, 提案するpt層の優性が確認された。

Incorporating geometric transformations that reflect the relative position changes between an observer and an object into computer vision and deep learning models has attracted much attention in recent years. However, the existing proposals mainly focus on affine transformations that cannot fully show viewpoint changes. Furthermore, current solutions often apply a neural network module to learn a single transformation matrix, which ignores the possibility for various viewpoints and creates extra to-be-trained module parameters. In this paper, a layer (PT layer) is proposed to learn the perspective transformations that not only model the geometries in affine transformation but also reflect the viewpoint changes. In addition, being able to be directly trained with gradient descent like traditional layers such as convolutional layers, a single proposed PT layer can learn an adjustable number of multiple viewpoints without training extra module parameters. The experiments and evaluations confirm the superiority of the proposed PT layer.
翻訳日:2022-01-19 13:59:07 公開日:2022-01-14
# ゼロショットマシンアンラーニング

Zero-Shot Machine Unlearning ( http://arxiv.org/abs/2201.05629v1 )

ライセンス: Link先を確認
Vikram S Chundawat, Ayush K Tarun, Murari Mandal, Mohan Kankanhalli(参考訳) 機械学習(ML)アプリケーションに必要な規制コンプライアンスの必要性が高まっているため、新しいプライバシ規則の導入により、機械学習は新たな研究課題になりつつある。 現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。 これはストレージアーカイブからだけでなく、MLモデルからもデータを削除する必要がある。 忘れられる権利は、すでに訓練済みのMLモデルから特定のセットまたはクラスのデータを削除する形で与えられる。 実際の考慮事項は、削除されたデータのスクラッチからモデルの再トレーニングを妨げる。 既存の研究では、トレーニングデータ全体、トレーニングデータのサブセット、トレーニング中に保存されたメタデータを使用して、アンラーニングのためのモデルの重み付けを更新する。 しかし、厳格な規制順守には、データのタイムバウンド削除が必要である。 したがって、多くの場合、未学習目的であっても、トレーニングプロセスやトレーニングサンプルに関するデータにアクセスできない。 ですから私たちは,トレーニングサンプルをゼロにすることで,アンラーニングを達成できますか? 本稿では,ゼロ・ショット・マシン・アンラーニング(ゼロ・ショット・マシン・アンラーニング)という,ゼロ・オリジナル・データ・サンプルが利用できる極端に実用的なシナリオを提案する。 次にゼロショットマシンアンラーニングのための2つの新しい解法を提案する。 (a)誤差最小化・最大化ノイズ、及び (b)強制的な知識移転 また,新しい評価指標である anamnesis index (ain) を導入し,アンラーニング手法の品質を効果的に測定する。 この実験は、ベンチマークビジョンデータセット上でのディープラーニングモデルの学習を未学習にするための有望な結果を示す。 ソースコードは一般公開される予定だ。

With the introduction of new privacy regulations, machine unlearning is becoming an emerging research problem due to an increasing need for regulatory compliance required for machine learning (ML) applications. Modern privacy regulations grant citizens the right to be forgotten by products, services and companies. This necessitates deletion of data not only from storage archives but also from ML model. The right to be forgotten requests come in the form of removal of a certain set or class of data from the already trained ML model. Practical considerations preclude retraining of the model from scratch minus the deleted data. The few existing studies use the whole training data, or a subset of training data, or some metadata stored during training to update the model weights for unlearning. However, strict regulatory compliance requires time-bound deletion of data. Thus, in many cases, no data related to the training process or training samples may be accessible even for the unlearning purpose. We therefore ask the question: is it possible to achieve unlearning with zero training samples? In this paper, we introduce the novel problem of zero-shot machine unlearning that caters for the extreme but practical scenario where zero original data samples are available for use. We then propose two novel solutions for zero-shot machine unlearning based on (a) error minimizing-maximizing noise and (b) gated knowledge transfer. We also introduce a new evaluation metric, Anamnesis Index (AIN) to effectively measure the quality of the unlearning method. The experiments show promising results for unlearning in deep learning models on benchmark vision data-sets. The source code will be made publicly available.
翻訳日:2022-01-19 13:42:09 公開日:2022-01-14
# 登録及び法的文書から情報を抽出するシーケンス・ツー・シーケンスモデル

Sequence-to-Sequence Models for Extracting Information from Registration and Legal Documents ( http://arxiv.org/abs/2201.05658v1 )

ライセンス: Link先を確認
Ramon Pires and F\'abio C. de Souza and Guilherme Rosa and Roberto A. Lotufo and Rodrigo Nogueira(参考訳) 典型的な情報抽出パイプラインは、トークンまたはスパンレベルの分類モデルと、一連の前処理および後処理スクリプトで構成される。 運用パイプラインでは、クラスの追加と削除によって要件が頻繁に変更されるため、ソースコードに対する非自明な変更とバグの可能性がある。 本研究では,法的および登録文書の情報抽出のためのトークンレベルの分類手法の代替としてシーケンス・ツー・シーケンス・モデルを評価する。 情報を抽出し、既に構造化されたフォーマットで出力するモデルを微調整する。 後処理ステップはトレーニング中に学習され、ルールベースのメソッドの必要性を排除し、パイプラインを簡素化する。 さらに,出力を入力テキストと整合させる新しい手法を提案することで,システムの検査と監査が容易になる。 実世界の4つのデータセットに対する実験により,提案手法が古典的なパイプラインに代わるものであることを示す。

A typical information extraction pipeline consists of token- or span-level classification models coupled with a series of pre- and post-processing scripts. In a production pipeline, requirements often change, with classes being added and removed, which leads to nontrivial modifications to the source code and the possible introduction of bugs. In this work, we evaluate sequence-to-sequence models as an alternative to token-level classification methods for information extraction of legal and registration documents. We finetune models that jointly extract the information and generate the output already in a structured format. Post-processing steps are learned during training, thus eliminating the need for rule-based methods and simplifying the pipeline. Furthermore, we propose a novel method to align the output with the input text, thus facilitating system inspection and auditing. Our experiments on four real-world datasets show that the proposed method is an alternative to classical pipelines.
翻訳日:2022-01-19 13:13:43 公開日:2022-01-14
# (参考訳) Manifoldron: Manifold Discoveryによる直接の宇宙分割

Manifoldron: Direct Space Partition via Manifold Discovery ( http://arxiv.org/abs/2201.05279v1 )

ライセンス: CC BY 4.0
Dayang Wang, Feng-Lei Fan, Bo-Jian Hou, Hao Zhang, Rongjie Lai, Hengyong Yu, Fei Wang(参考訳) 広く使われているReLU活性化を持つニューラルネットワークは、サンプル空間を予測のために多くの凸ポリトープに分割することが示されている。 しかしながら、ニューラルネットワークやその他の機械学習モデルが空間を分割するために使用するパラメータ化手法には、複雑なモデルに対する妥協された解釈可能性、モデルの汎用的な特徴による決定境界構築の柔軟性、ショートカットソリューションに閉じ込められるリスクなど、不完全性がある。 対照的に、非パラメータモデルではこれらの問題を好ましく避けたり、軽視したりすることはできるが、それらは通常、単純化されたり、データの多様体構造に適応できないために、不十分に強力である。 本稿ではまず,データから決定境界を直接導出し,多様体構造探索により空間を分割する,Manifoldronと呼ばれる新しい機械学習モデルを提案する。 次に, 可視性, 多様体キャラクタリゼーション能力, ニューラルネットワークとのリンクなど, 多様体論の重要な特性を体系的に解析する。 9個の大規模データセットと11個の大規模データセットにおける実験結果から,提案手法が主流の機械学習モデルと競合することが示された。 コードをhttps://github.com/wdayang/manifoldronで無料でダウンロードして評価しています。

A neural network with the widely-used ReLU activation has been shown to partition the sample space into many convex polytopes for prediction. However, the parameterized way a neural network and other machine learning models use to partition the space has imperfections, e.g., the compromised interpretability for complex models, the inflexibility in decision boundary construction due to the generic character of the model, and the risk of being trapped into shortcut solutions. In contrast, although the non-parameterized models can adorably avoid or downplay these issues, they are usually insufficiently powerful either due to over-simplification or the failure to accommodate the manifold structures of data. In this context, we first propose a new type of machine learning models referred to as Manifoldron that directly derives decision boundaries from data and partitions the space via manifold structure discovery. Then, we systematically analyze the key characteristics of the Manifoldron including interpretability, manifold characterization capability, and its link to neural networks. The experimental results on 9 small and 11 large datasets demonstrate that the proposed Manifoldron performs competitively compared to the mainstream machine learning models. We have shared our code https://github.com/wdayang/Manifoldron for free download and evaluation.
翻訳日:2022-01-17 23:18:41 公開日:2022-01-14
# (参考訳) 線形変換による領域シフト適応

Domain-shift adaptation via linear transformations ( http://arxiv.org/abs/2201.05282v1 )

ライセンス: CC BY 4.0
Roberto Vega, Russell Greiner(参考訳) ソースドメイン(A)のデータから学習した予測子$f_A : X \to Y$は、分布が異なる場合、ターゲットドメイン(B)上で正確でない可能性がある。 ドメイン適応は、この分布ミスマッチの悪影響を減らすことを目的としている。 ここで、$p_a(y\ |\ x) \neq p_b(y\ |\ x)$, $p_a(x) \neq p_b(x)$ but $p_a(y) = p_b(y)$; ここで、すべての分布を等価にする$x$のアフィン変換が存在する。 本研究では,(1)各領域の経験的共分散行列の固有ベクトルに領域を投影し,(2)二つの領域の射影間の最大平均差を最小化する直交行列を求めることにより,ソース領域と対象領域を低次元の共通空間に投影する手法を提案する。 任意のアフィン変換に対しては、半教師付きの場合で緩和できる非教師付き領域適応を実行する際に固有の不特定性問題が存在する。 シミュレーションデータおよび二進数分類タスクにおける本手法の有効性を示し,データの領域シフトを補正する場合の精度を最大48%向上させた。

A predictor, $f_A : X \to Y$, learned with data from a source domain (A) might not be accurate on a target domain (B) when their distributions are different. Domain adaptation aims to reduce the negative effects of this distribution mismatch. Here, we analyze the case where $P_A(Y\ |\ X) \neq P_B(Y\ |\ X)$, $P_A(X) \neq P_B(X)$ but $P_A(Y) = P_B(Y)$; where there are affine transformations of $X$ that makes all distributions equivalent. We propose an approach to project the source and target domains into a lower-dimensional, common space, by (1) projecting the domains into the eigenvectors of the empirical covariance matrices of each domain, then (2) finding an orthogonal matrix that minimizes the maximum mean discrepancy between the projections of both domains. For arbitrary affine transformations, there is an inherent unidentifiability problem when performing unsupervised domain adaptation that can be alleviated in the semi-supervised case. We show the effectiveness of our approach in simulated data and in binary digit classification tasks, obtaining improvements up to 48% accuracy when correcting for the domain shift in the data.
翻訳日:2022-01-17 22:50:35 公開日:2022-01-14
# (参考訳) demystifying swarm learning: ブロックチェーンベースの分散フェデレーション学習の新しいパラダイム

Demystifying Swarm Learning: A New Paradigm of Blockchain-based Decentralized Federated Learning ( http://arxiv.org/abs/2201.05286v1 )

ライセンス: CC BY 4.0
Jialiang Han, Yun Ma, Yudong Han, Ying Zhang, Gang Huang(参考訳) フェデレーテッド・ラーニング(FL)は、将来有望なプライバシー保護機械学習パラダイムであり、研究者や開発者から注目を集めている。 flはユーザの個人データをデバイスに保持し、ローカルモデルの勾配を交換して、中央のカストディアンの共有ディープラーニング(dl)モデルを協調的にトレーニングする。 しかし、その中央カストディアン機構や星型アーキテクチャは悪意のある攻撃やソフトウェア障害に対して脆弱である可能性があるため、flのセキュリティとフォールトトレランスはますます議論されている。 これらの問題に対処するため、Swarm Learning(SL)では、メンバを安全に参加させ、リーダを動的に選択する権限付きブロックチェーンを導入している。 slに非常に注目されているのに対して、slやブロックチェーンベースの分散flには、ベストプラクティスに関する包括的知識と現実のシナリオにslをデプロイするための予防策を提供する、実証的な研究がほとんどありません。 したがって、私たちは、SLデプロイメントと開発者の間の知識ギャップを埋めるために、今までにない、SLの包括的な研究を行いました。 本稿では,5つの研究課題の3つの公開データセットについて様々な実験を行い,その背景にある理由を定量的に分析し,実践的な提案を行う。 この結果から,データセットのバランス,汚染,あるいは無関係な機能に対する偏りに関わらず,SLがほとんどのアプリケーションシナリオに適していることが証明された。

Federated learning (FL) is an emerging promising privacy-preserving machine learning paradigm and has raised more and more attention from researchers and developers. FL keeps users' private data on devices and exchanges the gradients of local models to cooperatively train a shared Deep Learning (DL) model on central custodians. However, the security and fault tolerance of FL have been increasingly discussed, because its central custodian mechanism or star-shaped architecture can be vulnerable to malicious attacks or software failures. To address these problems, Swarm Learning (SL) introduces a permissioned blockchain to securely onboard members and dynamically elect the leader, which allows performing DL in an extremely decentralized manner. Compared with tremendous attention to SL, there are few empirical studies on SL or blockchain-based decentralized FL, which provide comprehensive knowledge of best practices and precautions of deploying SL in real-world scenarios. Therefore, we conduct the first comprehensive study of SL to date, to fill the knowledge gap between SL deployment and developers, as far as we are concerned. In this paper, we conduct various experiments on 3 public datasets of 5 research questions, present interesting findings, quantitatively analyze the reasons behind these findings, and provide developers and researchers with practical suggestions. The findings have evidenced that SL is supposed to be suitable for most application scenarios, no matter whether the dataset is balanced, polluted, or biased over irrelevant features.
翻訳日:2022-01-17 22:36:42 公開日:2022-01-14
# (参考訳) Argus++: 重複立方体提案による制約のないビデオストリームのロバストリアルタイムアクティビティ検出

Argus++: Robust Real-time Activity Detection for Unconstrained Video Streams with Overlapping Cube Proposals ( http://arxiv.org/abs/2201.05290v1 )

ライセンス: CC BY 4.0
Lijun Yu, Yijun Qian, Wenhe Liu, and Alexander G. Hauptmann(参考訳) アクティビティ検出は、広くインストールされたカメラでキャプチャされたビデオストリームを利用する魅力的なコンピュータビジョンタスクの1つである。 性能は優れているが、従来のアクティビティ検出アルゴリズムは通常、トリミングやオブジェクト中心のビデオクリップを入力として使用するなど、一定の制約の下で設計されている。 そのため、実世界の制約のないビデオストリームにおけるマルチスケールのマルチインスタンスのケースには対処できなかった。 ストリーミング解析のリアルタイム要求も、そのブルート力拡張を不可能にしている。 これらの問題を解決するために,制約のない動画ストリームを解析する堅牢なリアルタイムアクティビティ検出システムArgus++を提案する。 argus++の設計では、オーバーサンプリングによるアクティビティ検出のカバレッジと完全性を保証するアクティビティ提案の中間概念として、時空間キューブの重複が導入されている。 システム全体としては、スタンドアロンのコンシューマレベルのハードウェア上でのリアルタイム処理に最適化されている。 CVPR ActivityNet ActEV 2021、NIST ActEV SDL UF/KF、TRECVID ActEV 2020/2021、ICCV ROAD 2021などの一連のアクティビティ検出ベンチマークにおいて、さまざまな監視および運転シナリオに関する大規模な実験は、その優れた性能を示した。

Activity detection is one of the attractive computer vision tasks to exploit the video streams captured by widely installed cameras. Although achieving impressive performance, conventional activity detection algorithms are usually designed under certain constraints, such as using trimmed and/or object-centered video clips as inputs. Therefore, they failed to deal with the multi-scale multi-instance cases in real-world unconstrained video streams, which are untrimmed and have large field-of-views. Real-time requirements for streaming analysis also mark brute force expansion of them unfeasible. To overcome these issues, we propose Argus++, a robust real-time activity detection system for analyzing unconstrained video streams. The design of Argus++ introduces overlapping spatio-temporal cubes as an intermediate concept of activity proposals to ensure coverage and completeness of activity detection through over-sampling. The overall system is optimized for real-time processing on standalone consumer-level hardware. Extensive experiments on different surveillance and driving scenarios demonstrated its superior performance in a series of activity detection benchmarks, including CVPR ActivityNet ActEV 2021, NIST ActEV SDL UF/KF, TRECVID ActEV 2020/2021, and ICCV ROAD 2021.
翻訳日:2022-01-17 22:14:48 公開日:2022-01-14
# (参考訳) 多変数セマンティックオーバーラップタスクの評価とベンチマーク

Multi-Narrative Semantic Overlap Task: Evaluation and Benchmark ( http://arxiv.org/abs/2201.05294v1 )

ライセンス: CC BY 4.0
Naman Bansal, Mousumi Akter and Shubhra Kanti Karmaker Santu(参考訳) 本稿では,MNSO(Multi-Narrative Semantic Overlap)と呼ばれる,複数物語のセマンティックオーバーラップを生成する重要なNLPタスクを紹介する。 このタスクでベンチマークデータセットが利用できないため、Webから2,925の物語ペアをクロールして作成し、人間のアノテータを係合させることで、411の異なる地味のセマンティックオーバーラップを手作業で作成するという面倒なプロセスを経ました。 このタスクを評価する方法として,まずテキスト要約文献から一般的なルージュ計量を借用して体系的な研究を行い,ルージュが課題に適さないことを発見した。 その後、200の文書レベルと1,518の文レベルの基底ラベルを作成し、sem-f1(semantic f1)と呼ばれる新しい精度リコールスタイル評価指標の作成に役立った。 実験結果から,提案したSEM-F1測定値が,ROUGE測定値よりも高い相関性を示した。

In this paper, we introduce an important yet relatively unexplored NLP task called Multi-Narrative Semantic Overlap (MNSO), which entails generating a Semantic Overlap of multiple alternate narratives. As no benchmark dataset is readily available for this task, we created one by crawling 2,925 narrative pairs from the web and then, went through the tedious process of manually creating 411 different ground-truth semantic overlaps by engaging human annotators. As a way to evaluate this novel task, we first conducted a systematic study by borrowing the popular ROUGE metric from text-summarization literature and discovered that ROUGE is not suitable for our task. Subsequently, we conducted further human annotations/validations to create 200 document-level and 1,518 sentence-level ground-truth labels which helped us formulate a new precision-recall style evaluation metric, called SEM-F1 (semantic F1). Experimental results show that the proposed SEM-F1 metric yields higher correlation with human judgement as well as higher inter-rater-agreement compared to ROUGE metric.
翻訳日:2022-01-17 22:00:10 公開日:2022-01-14
# (参考訳) 何千もの単語が写真より価値がある: 自然言語中心の視覚的質問応答

A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering ( http://arxiv.org/abs/2201.05299v1 )

ライセンス: CC BY 4.0
Feng Gao, Qing Ping, Govind Thattai, Aishwarya Reganti, Ying Nian Wu, Prem Natarajan(参考訳) out-knowledge visual question answering (ok-vqa) では、エージェントが画像を理解し、web全体から関連する知識を活用し、すべての情報を消化して質問に答える必要がある。 以前の作品の多くは、多くの外部知識とのさらなる融合には柔軟性がないマルチモーダル空間におけるイメージと疑問を最初に解き明かすことでこの問題に対処した。 そこで本稿では,OK-VQAタスクのパラダイムシフトを提案し,画像をプレーンテキストに変換することにより,自然言語空間における知識通路の検索と生成的質問応答を可能にする。 このパラダイムは巨大な知識基盤の膨大な量と事前学習された言語モデルの豊かさを活用する。 Transform-Retrieve-Generate Framework (TRiG) フレームワークが提案されている。 実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。

Outside-knowledge visual question answering (OK-VQA) requires the agent to comprehend the image, make use of relevant knowledge from the entire web, and digest all the information to answer the question. Most previous works address the problem by first fusing the image and question in the multi-modal space, which is inflexible for further fusion with a vast amount of external knowledge. In this paper, we call for a paradigm shift for the OK-VQA task, which transforms the image into plain text, so that we can enable knowledge passage retrieval, and generative question-answering in the natural language space. This paradigm takes advantage of the sheer volume of gigantic knowledge bases and the richness of pre-trained language models. A Transform-Retrieve-Generate framework (TRiG) framework is proposed, which can be plug-and-played with alternative image-to-text models and textual knowledge bases. Experimental results show that our TRiG framework outperforms all state-of-the-art supervised methods by at least 11.1% absolute margin.
翻訳日:2022-01-17 21:39:18 公開日:2022-01-14
# (参考訳) ガウス変異を用いた粒子群最適化を用いた骨格に基づく新しい人間活動探索手法

A Novel Skeleton-Based Human Activity Discovery Technique Using Particle Swarm Optimization with Gaussian Mutation ( http://arxiv.org/abs/2201.05314v1 )

ライセンス: CC BY 4.0
Parham Hadikhani, Daphne Teck Ching Lai and Wee-Hong Ong(参考訳) 人間の活動発見は、各活動の定義に関する事前情報なしで、人間が行う活動を区別することを目的としている。 人間の行動認識で提示されるほとんどの方法は、システムのトレーニングを行うためのラベル付き入力が存在する。 実際には、その膨大な量と、人間による様々な活動のために、データのラベル付けが困難である。 本稿では,3次元スケルトン配列で人間の活動の発見を行うための新しい非教師なしアプローチを提案する。 まず、重要なフレームを運動エネルギーに基づいて選択する。 次に、その活動情報を表すために、関節の変位、統計、角度、方位の特徴を抽出する。 全ての特徴が有用な情報を持っているわけではないので、PCAを用いて特徴の次元を縮小する。 提案された人間の活動の発見は、完全には監督されていない。 彼らはアクティビティを分類する前に、事前セグメンテーションされたビデオを使用する。 これに対処するために,断片化スライディングタイムウインドウ法を用いて,重複するアクティビティの時系列を分割した。 次に,ガウス突然変異アルゴリズムを用いた新しいハイブリッド粒子群最適化法により,局所的な最適値に留まらないようにする。 最後に、pSOの遅い速度を克服するために、結果セントロイドにk平均が適用される。 3つのデータセットに関する実験を行い, 提案手法は, 評価パラメータのすべてにおいて, 従来の手法と比較して優れたアクティビティ検出性能を示し, 平均4 %以上の精度向上を示した。 https://github.com/parhamhadikhani/Human-Activity-Discovery-HPGMK

Human activity discovery aims to distinguish the activities performed by humans, without any prior information of what defines each activity. Most methods presented in human activity recognition are supervised, where there are labeled inputs to train the system. In reality, it is difficult to label data because of its huge volume and the variety of activities performed by humans. In this paper, a novel unsupervised approach is proposed to perform human activity discovery in 3D skeleton sequences. First, important frames are selected based on kinetic energy. Next, the displacement of joints, set of statistical, angles, and orientation features are extracted to represent the activities information. Since not all extracted features have useful information, the dimension of features is reduced using PCA. Most human activity discovery proposed are not fully unsupervised. They use pre-segmented videos before categorizing activities. To deal with this, we used the fragmented sliding time window method to segment the time series of activities with some overlapping. Then, activities are discovered by a novel hybrid particle swarm optimization with a Gaussian mutation algorithm to avoid getting stuck in the local optimum. Finally, k-means is applied to the outcome centroids to overcome the slow rate of PSO. Experiments on three datasets have been presented and the results show the proposed method has superior performance in discovering activities in all evaluation parameters compared to the other state-of-the-art methods and has increased accuracy of at least 4 % on average. The code is available here: https://github.com/parhamhadikhani/Human-Activity-Discovery-HPGMK
翻訳日:2022-01-17 21:11:54 公開日:2022-01-14
# (参考訳) ctボリュームからの胃の半自動仮想展開ビュー生成法

Semi-automated Virtual Unfolded View Generation Method of Stomach from CT Volumes ( http://arxiv.org/abs/2201.05331v1 )

ライセンス: CC BY 4.0
Masahiro Oda, Tomoaki Suito, Yuichiro Hayashi, Takayuki Kitasaka, Kazuhiro Furukawa, Ryoji Miyahara, Yoshiki Hirooka, Hidemi Goto, Gen Iinuma, Kazunari Misawa, Shigeru Nawano, Kensaku Mori(参考訳) 新しい診断法としてct画像を用いた胃の診断法を開発した。 仮想展開(VU)ビューは、その壁を表示するのに適している。 本稿では,胃のVUビューを生成するための半自動手法を提案する。 我々の方法は最低限の手動操作を必要とする。 展開力の決定と展開過程の終了は自動化される。 胃の折りたたみ形状は、その半径に基づいて推定される。 展開力は、胃壁が期待形状に変形するように決定される。 変形形状と期待形状との形状差が小さい場合には、反復変形工程を終了させる。 67個のCTボリュームを用いた実験により,76.1%の症例で良好なVUビューが得られた。

CT image-based diagnosis of the stomach is developed as a new way of diagnostic method. A virtual unfolded (VU) view is suitable for displaying its wall. In this paper, we propose a semi-automated method for generating VU views of the stomach. Our method requires minimum manual operations. The determination of the unfolding forces and the termination of the unfolding process are automated. The unfolded shape of the stomach is estimated based on its radius. The unfolding forces are determined so that the stomach wall is deformed to the expected shape. The iterative deformation process is terminated if the difference of the shapes between the deformed shape and expected shape is small. Our experiments using 67 CT volumes showed that our proposed method can generate good VU views for 76.1% cases.
翻訳日:2022-01-17 20:53:45 公開日:2022-01-14
# (参考訳) トランスベース事前学習言語モデルを用いた制御可能なテキスト生成に関する調査

A Survey of Controllable Text Generation using Transformer-based Pre-trained Language Models ( http://arxiv.org/abs/2201.05337v1 )

ライセンス: CC0 1.0
Hanqing Zhang, Haolin Song, Shaoyu Li, Ming Zhou, Dawei Song(参考訳) 制御可能なテキスト生成(CTG)は、自然言語生成(NLG)分野における新興分野である。 これは、より自然で実用的な応用における特定の制約を満たす高度なテキスト生成技術の発達に欠かせないものと考えられている。 近年、大規模な事前学習言語モデル(PLM)を用いた手法、特に広く使われているトランスフォーマーベースのPLMは、NLGの新しいパラダイムとなり、より多種多様な流動的なテキストを生成することができる。 しかしながら、ディープニューラルネットワークの解釈可能性が低いため、これらの方法の制御性が保証される必要がある。 この目的のために、トランスフォーマーベースのPLMを用いた制御可能なテキスト生成は、急速に成長するが、新しい研究ホットスポットとなっている。 過去3~4年間に様々なアプローチが出現し、異なる種類の制御制約を必要とする様々なCTGタスクをターゲットにしている。 本稿では,この分野における共通課題,主なアプローチ,評価手法について,系統的な批判的考察を行う。 最後に、この分野が直面している課題について議論し、様々な将来的な方向性を提示する。 私たちの知る限りでは、plmの観点からctg技術を要約した最初の調査論文となる。 関連分野の研究者が学術的なフロンティアを素早く追跡し、その領域の風景と今後の研究のロードマップを提供するのに役立つことを期待している。

Controllable Text Generation (CTG) is emerging area in the field of natural language generation (NLG). It is regarded as crucial for the development of advanced text generation technologies that are more natural and better meet the specific constraints in practical applications. In recent years, methods using large-scale pre-trained language models (PLMs), in particular the widely used transformer-based PLMs, have become a new paradigm of NLG, allowing generation of more diverse and fluent text. However, due to the lower level of interpretability of deep neural networks, the controllability of these methods need to be guaranteed. To this end, controllable text generation using transformer-based PLMs has become a rapidly growing yet challenging new research hotspot. A diverse range of approaches have emerged in the recent 3-4 years, targeting different CTG tasks which may require different types of controlled constraints. In this paper, we present a systematic critical review on the common tasks, main approaches and evaluation methods in this area. Finally, we discuss the challenges that the field is facing, and put forward various promising future directions. To the best of our knowledge, this is the first survey paper to summarize CTG techniques from the perspective of PLMs. We hope it can help researchers in related fields to quickly track the academic frontier, providing them with a landscape of the area and a roadmap for future research.
翻訳日:2022-01-17 20:48:04 公開日:2022-01-14
# (参考訳) AWSnet:マルチシーケンス磁気共鳴画像における心筋スカーと浮腫セグメンテーションのための自動重み付きスーパービジョンアテンションネットワーク

AWSnet: An Auto-weighted Supervision Attention Network for Myocardial Scar and Edema Segmentation in Multi-sequence Cardiac Magnetic Resonance Images ( http://arxiv.org/abs/2201.05344v1 )

ライセンス: CC BY 4.0
Kai-Ni Wang, Xin Yang, Juzheng Miao, Lei Li, Jing Yao, Ping Zhou, Wufeng Xue, Guang-Quan Zhou, Xiahai Zhuang, Dong Ni(参考訳) multi-sequence heart magnetic resonance (cmr) は心筋梗塞の診断に必須の病理情報(scar, edema)を提供する。 しかし,多列cmrデータからの基礎情報を効果的に探索することが困難であるため,病理自動分割は困難である。 本稿では,多列CMRからの傷痕と浮腫のセグメンテーションを,教師層間の相互作用を強化学習を用いて検討する,新しい自己重み付け監視フレームワークを用いて解決することを目的とする。 さらに, より小さな心筋病変領域の分画を, より詳細な知識で促進する枠組みを考案した。 粗い分節モデルは左心室の心筋構造を予め形状として識別し,細部分節モデルはピクセル毎の注意戦略と自己重み付き監督モデルを統合し,多列cmrデータから有意な病理構造を学習し抽出する。 マルチシーケンスcmr(myops 2020)を併用した心筋病理学セグメンテーションの公開データセットの広範な実験結果から,本手法は他の最先端法と比較して有望な性能が得られることを示した。 マルチシーケンスcmrデータを用いた心筋病理評価の進歩を期待する。 コミュニティを動機づけるため、私たちはhttps://github.com/soleilssss/AWSnet/tree/masterを通じてコードを公開しました。

Multi-sequence cardiac magnetic resonance (CMR) provides essential pathology information (scar and edema) to diagnose myocardial infarction. However, automatic pathology segmentation can be challenging due to the difficulty of effectively exploring the underlying information from the multi-sequence CMR data. This paper aims to tackle the scar and edema segmentation from multi-sequence CMR with a novel auto-weighted supervision framework, where the interactions among different supervised layers are explored under a task-specific objective using reinforcement learning. Furthermore, we design a coarse-to-fine framework to boost the small myocardial pathology region segmentation with shape prior knowledge. The coarse segmentation model identifies the left ventricle myocardial structure as a shape prior, while the fine segmentation model integrates a pixel-wise attention strategy with an auto-weighted supervision model to learn and extract salient pathological structures from the multi-sequence CMR data. Extensive experimental results on a publicly available dataset from Myocardial pathology segmentation combining multi-sequence CMR (MyoPS 2020) demonstrate our method can achieve promising performance compared with other state-of-the-art methods. Our method is promising in advancing the myocardial pathology assessment on multi-sequence CMR data. To motivate the community, we have made our code publicly available via https://github.com/soleilssss/AWSnet/tree/master.
翻訳日:2022-01-17 20:46:58 公開日:2022-01-14
# (参考訳) StAnD:線形静的解析問題のデータセット

StAnD: A Dataset of Linear Static Analysis Problems ( http://arxiv.org/abs/2201.05356v1 )

ライセンス: CC BY 4.0
Luca Grementieri, Francesco Finelli(参考訳) 構造物の静的解析は構造物の安定性を決定するための基本的なステップである。 線形および非線形静的解析は、有限要素法により得られるスパース線形系の分解から成り立っている。 構造工学に現れる疎線形系に対する高速で最適化された解法の開発には、既存のアプローチを比較したり、アルゴリズムをチューニングしたり、新しいアイデアを評価するためのデータが必要である。 本研究では,シミュレーションフレーム構造に実負荷を適用した303.000の静的解析問題を含む静的解析データセット(stand)を提案する。 データセットとともに、CPUとGPUの両方で既存のソルバの実行時間を詳細なベンチマークで比較する。 Githubでデータセットを生成し、既存のソルバをベンチマークするために使用されるコードをリリースします。 私たちの知る限りでは、これは静的解析問題の最大のデータセットであり、スパース線形系(行列と現実的な定数項の両方を含む)の最初の公開データセットである。

Static analysis of structures is a fundamental step for determining the stability of structures. Both linear and non-linear static analyses consist of the resolution of sparse linear systems obtained by the finite element method. The development of fast and optimized solvers for sparse linear systems appearing in structural engineering requires data to compare existing approaches, tune algorithms or to evaluate new ideas. We introduce the Static Analysis Dataset (StAnD) containing 303.000 static analysis problems obtained applying realistic loads to simulated frame structures. Along with the dataset, we publish a detailed benchmark comparison of the running time of existing solvers both on CPU and GPU. We release the code used to generate the dataset and benchmark existing solvers on Github. To the best of our knowledge, this is the largest dataset for static analysis problems and it is the first public dataset of sparse linear systems (containing both the matrix and a realistic constant term).
翻訳日:2022-01-17 20:16:48 公開日:2022-01-14
# (参考訳) マルチタスク学習とBERT埋め込みによる極性と主観性検出

Polarity and Subjectivity Detection with Multitask Learning and BERT Embedding ( http://arxiv.org/abs/2201.05363v1 )

ライセンス: CC BY 4.0
Ranjan Satapathy, Shweta Pardeshi, Erik Cambria(参考訳) マルチタスク学習は、互いに依存することが多く、ジョイントフレームワークで解決した場合にパフォーマンスが向上するので、関連するタスクのパフォーマンスを改善するのに役立つ。 本稿では,極性と主観的検出を共同で行う深層マルチタスク学習フレームワークを提案する。 極性と主観性を予測するための注意に基づくマルチタスクモデルを提案する。 入力文は、事前訓練されたBERTとGlove埋め込みを用いてベクトルに変換し、BERT埋め込みベースのモデルはGloveベースモデルよりもうまく動作することを示す。 本手法を主観的および極性分類シングルタスクおよびマルチタスクフレームワークの最先端モデルと比較した。 提案手法は,極性検出と主観性検出の両方において基礎的性能を示す。

Multitask learning often helps improve the performance of related tasks as these often have inter-dependence on each other and perform better when solved in a joint framework. In this paper, we present a deep multitask learning framework that jointly performs polarity and subjective detection. We propose an attention-based multitask model for predicting polarity and subjectivity. The input sentences are transformed into vectors using pre-trained BERT and Glove embeddings, and the results depict that BERT embedding based model works better than the Glove based model. We compare our approach with state-of-the-art models in both subjective and polarity classification single-task and multitask frameworks. The proposed approach reports baseline performances for both polarity detection and subjectivity detection.
翻訳日:2022-01-17 20:06:23 公開日:2022-01-14
# (参考訳) ソフトウェアテストにおける人工知能 : 影響、問題、課題、展望

Artificial Intelligence in Software Testing : Impact, Problems, Challenges and Prospect ( http://arxiv.org/abs/2201.05371v1 )

ライセンス: CC BY 4.0
Zubair Khaliq, Sheikh Umar Farooq, Dawood Ashraf Khan(参考訳) AIは、スマートファクトリーの管理、自動運転車の運転、正確な天気予報の作成、がんやパーソナルアシスタントの検出など、さまざまな役割を果たすことができる。 ソフトウェアテストは、ソフトウェアの異常な振る舞いをテストするためにソフトウェアを配置するプロセスである。 ソフトウェアテストは退屈で、手間がかかり、最も時間がかかるプロセスです。 テストプロセスのアクティビティを自動化して品質とタイムリーなデリバリを促進するための自動化ツールが開発されている。 継続的インテグレーションと継続的デリバリ(ci/cd)パイプラインの導入によって、自動化ツールの効果は低下している。 テストコミュニティは、AIが人間の介入なしに、そして人間よりもはるかに高速に、バグやエラーのコードをチェックできるため、ギャップを埋めるためにAIに目を向けている。 本研究では,STLCにおける各種ソフトウェアテスト活動やファセットに対するAI技術の影響を認識することを目的とする。 さらにこの研究は、テストにAIを適用しながら、ソフトウェアテスタが直面する最大の課題を認識し、説明することを目的としている。 また、ソフトウェアテストの分野におけるAIの今後の重要な貢献についても提案する。

Artificial Intelligence (AI) is making a significant impact in multiple areas like medical, military, industrial, domestic, law, arts as AI is capable to perform several roles such as managing smart factories, driving autonomous vehicles, creating accurate weather forecasts, detecting cancer and personal assistants, etc. Software testing is the process of putting the software to test for some abnormal behaviour of the software. Software testing is a tedious, laborious and most time-consuming process. Automation tools have been developed that help to automate some activities of the testing process to enhance quality and timely delivery. Over time with the inclusion of continuous integration and continuous delivery (CI/CD) pipeline, automation tools are becoming less effective. The testing community is turning to AI to fill the gap as AI is able to check the code for bugs and errors without any human intervention and in a much faster way than humans. In this study, we aim to recognize the impact of AI technologies on various software testing activities or facets in the STLC. Further, the study aims to recognize and explain some of the biggest challenges software testers face while applying AI to testing. The paper also proposes some key contributions of AI in the future to the domain of software testing.
翻訳日:2022-01-17 19:58:47 公開日:2022-01-14
# (参考訳) mriを用いた新しい深層ハイブリッドブースト・アンサンブル学習型脳腫瘍解析

A New Deep Hybrid Boosted and Ensemble Learning-based Brain Tumor Analysis using MRI ( http://arxiv.org/abs/2201.05373v1 )

ライセンス: CC BY 4.0
Mirza Mumtaz Zahoor, Shahzad Ahmad Qureshi, Saddam Hussain Khan, Asifullah Khan(参考訳) 脳腫瘍解析は、患者を治療するためのタイムリーな診断と効果的な治療において重要である。 腫瘍解析は、サイズ、位置、テクスチャ、および医用画像の異形性などの腫瘍形態が原因で困難である。 本研究では,脳腫瘍をMRI(MRI)で検出・分類するために,新しい2相深層学習フレームワークを提案する。 第1フェーズでは、健康な人から腫瘍MRI画像を検出するために、新しい深層化特徴とアンサンブル分類器(DBF-EC)方式が提案されている。 深く強化された特徴空間は、カスタマイズされ、よく機能する深層畳み込みニューラルネットワーク(CNN)を通じて達成され、結果として機械学習(ML)分類器のアンサンブルに投入される。 第2フェーズでは, 融合型脳腫瘍分類法とML分類法を併用し, 腫瘍の種類を分類する手法が提案されている。 提案したBRAIN-RENet CNNから動的特徴を抽出し,各腫瘍の異型性および不整合性を慎重に学習し,静的特徴をHOGを用いて抽出する。 提案する2相脳腫瘍解析フレームワークの有効性は, グリオーマ, 髄膜腫, 下垂体, 正常画像を含むカグルとフィグシェアの2つの標準ベンチマークデータセットで検証された。 実験の結果、提案されたDBF-EC検出方式は性能が優れ、精度99.56%、精度0.9991、リコール0.9899、F1スコア0.9945、MCC0.9892、AUC-PR0.9990が達成された。 分類体系では,提案する脳-網とhog特徴の融合により,リコール(0.9913),精度(0.9906),f1-score(0.9909),正確度(99.20%)が大幅に向上する。

Brain tumors analysis is important in timely diagnosis and effective treatment to cure patients. Tumor analysis is challenging because of tumor morphology like size, location, texture, and heteromorphic appearance in the medical images. In this regard, a novel two-phase deep learning-based framework is proposed to detect and categorize brain tumors in magnetic resonance images (MRIs). In the first phase, a novel deep boosted features and ensemble classifiers (DBF-EC) scheme is proposed to detect tumor MRI images from healthy individuals effectively. The deep boosted feature space is achieved through the customized and well-performing deep convolutional neural networks (CNNs), and consequently, fed into the ensemble of machine learning (ML) classifiers. While in the second phase, a new hybrid features fusion-based brain tumor classification approach is proposed, comprised of dynamic-static feature and ML classifier to categorize different tumor types. The dynamic features are extracted from the proposed BRAIN-RENet CNN, which carefully learns heteromorphic and inconsistent behavior of various tumors, while the static features are extracted using HOG. The effectiveness of the proposed two-phase brain tumor analysis framework is validated on two standard benchmark datasets; collected from Kaggle and Figshare containing different types of tumor, including glioma, meningioma, pituitary, and normal images. Experimental results proved that the proposed DBF-EC detection scheme outperforms and achieved accuracy (99.56%), precision (0.9991), recall (0.9899), F1-Score (0.9945), MCC (0.9892), and AUC-PR (0.9990). While the classification scheme, the joint employment of the deep features fusion of proposed BRAIN-RENet and HOG features improves performance significantly in terms of recall (0.9913), precision (0.9906), F1-Score (0.9909), and accuracy (99.20%) on diverse datasets.
翻訳日:2022-01-17 19:40:09 公開日:2022-01-14
# (参考訳) SRVIO: 動的環境のための超ロバスト視覚慣性オドメトリーとループ閉鎖条件

SRVIO: Super Robust Visual Inertial Odometry for dynamic environments and challenging Loop-closure conditions ( http://arxiv.org/abs/2201.05386v1 )

ライセンス: CC BY 4.0
Ali Samadzadeh, Ahmad Nickabadi(参考訳) 視覚局在やオドメトリー問題は、自律ロボットや自動車の分野でよく知られた課題である。 伝統的に、この問題はライダーのような高価なセンサーの助けを借りて対処することができる。 近年,カメラやimusなどの経済センサを用いたロバストな位置決めに関する研究が盛んである。 これらのセンサーに基づく幾何学的手法は、不安定な照明と動的物体の無い通常の条件ではかなり良い。 これらの手法は、このような困難な環境において大きな損失と分散を被る。 研究者たちはこの問題を緩和するためにディープニューラルネットワーク(DNN)を救世主として利用するようになった。 DNNを使うことの背景にある主な考え方は、データ内の問題をよりよく理解し、複雑な条件(例えば、カメラの前の動的オブジェクト、極端な照明条件、トラックを高速に保つなど)を克服することであった。 しかし、これらすべてのシナリオに対する汎用的で堅牢なフレームワークは提供されていない。 本稿では、幾何学的SLAMフレームワークの長所と、DNNの支援による残りの課題を克服するために、幾何学的手法とDNNに基づく手法を組み合わせる。 そのために、Vins-Monoフレームワーク(これまででもっとも堅牢で正確なフレームワーク)を修正し、幾何学的およびエンドツーエンドのDNNベースのSLAMと比較して、TUM-Dynamic、TUM-VI、ADVIO、EuRoCデータセットの最先端結果を実現しました。 提案フレームワークは,先述した課題に類似した極端なシミュレートケースに対して,許容できる結果を得ることができた。

The visual localization or odometry problem is a well-known challenge in the field of autonomous robots and cars. Traditionally, this problem can ba tackled with the help of expensive sensors such as lidars. Nowadays, the leading research is on robust localization using economic sensors, such as cameras and IMUs. The geometric methods based on these sensors are pretty good in normal conditions withstable lighting and no dynamic objects. These methods suffer from significant loss and divergence in such challenging environments. The scientists came to use deep neural networks (DNNs) as the savior to mitigate this problem. The main idea behind using DNNs was to better understand the problem inside the data and overcome complex conditions (such as a dynamic object in front of the camera, extreme lighting conditions, keeping the track at high speeds, etc.) The prior endto-end DNN methods are able to overcome some of the mentioned challenges. However, no general and robust framework for all of these scenarios is available. In this paper, we have combined geometric and DNN based methods to have the pros of geometric SLAM frameworks and overcome the remaining challenges with the DNNs help. To do this, we have modified the Vins-Mono framework (the most robust and accurate framework till now) and we were able to achieve state-of-the-art results on TUM-Dynamic, TUM-VI, ADVIO and EuRoC datasets compared to geometric and end-to-end DNN based SLAMs. Our proposed framework was also able to achieve acceptable results on extreme simulated cases resembling the challenges mentioned earlier easy.
翻訳日:2022-01-17 19:28:44 公開日:2022-01-14
# (参考訳) 電子健康記録の合成:嚢胞性線維症患者グループ

Synthesising Electronic Health Records: Cystic Fibrosis Patient Group ( http://arxiv.org/abs/2201.05400v1 )

ライセンス: CC BY 4.0
Emily Muller, Xu Zheng, Jer Hayes(参考訳) クラス不均衡はしばしば教師付き学習アルゴリズムの予測性能を低下させる。 バランスの取れたクラスは、正確なコピーをオーバーサンプリングしたり、ノイズを付けたり、近隣の(従来のSMOTEメソッドのように)補間することで得る。 コンピュータビジョンタスクで典型的である拡張を用いた表形式のデータのオーバーサンプリングは、深い生成モデルによって達成できる。 深層生成モデル(deep generative models)は、複雑な分布をキャプチャする能力があるため、効果的なデータ合成器である。 医療における合成データは、患者のプライバシーを確保することで、医療提供者間の相互運用性を高めることができる。 医療における機械学習は、小さな患者グループをうまく表現できる大規模な合成データセットを備えており、バイアスと一般化可能性の現在の課題に対処することができる。 本稿では患者電子健康記録を合成する合成データ生成機能について検討する。 患者結果分類のための合成データの有用性を検証し、不均衡なデータセットを合成データで増強する際の予測性能の向上を観察する。

Class imbalance can often degrade predictive performance of supervised learning algorithms. Balanced classes can be obtained by oversampling exact copies, with noise, or interpolation between nearest neighbours (as in traditional SMOTE methods). Oversampling tabular data using augmentation, as is typical in computer vision tasks, can be achieved with deep generative models. Deep generative models are effective data synthesisers due to their ability to capture complex underlying distributions. Synthetic data in healthcare can enhance interoperability between healthcare providers by ensuring patient privacy. Equipped with large synthetic datasets which do well to represent small patient groups, machine learning in healthcare can address the current challenges of bias and generalisability. This paper evaluates synthetic data generators ability to synthesise patient electronic health records. We test the utility of synthetic data for patient outcome classification, observing increased predictive performance when augmenting imbalanced datasets with synthetic data.
翻訳日:2022-01-17 19:04:42 公開日:2022-01-14
# (参考訳) 早期停止を伴うモーメントム勾配の急激な規則化

The Implicit Regularization of Momentum Gradient Descent with Early Stopping ( http://arxiv.org/abs/2201.05405v1 )

ライセンス: CC BY 4.0
Li Wang (1), Yingcong Zhou (2), Zhiguo Fu (1) ((1) Northeast Normal University, (2) Beihua University)(参考訳) 勾配に基づく最適化によって引き起こされる暗黙の正則化の研究は長年の追求である。 本稿では,運動量勾配降下 (mgd) の暗黙的な正則化を,明示的な $\ell_2$-regularization (ridge) との比較により早期停止と特徴付ける。 詳しくは,mgdを連続時間視点,いわゆる運動量勾配流(mgf)で検討し,その傾向が勾配勾配流 (gd) [ali et al., 2019] よりも少なくとも二乗回帰の方が尾根に近いことを示した。 さらに、キャリブレーション$t=\sqrt{2/\lambda}$では、$t$はMGFの時間パラメータであり、$\lambda$はリッジ回帰のチューニングパラメータであり、MGFのリスクはリッジの1.54倍以下であることを示す。 特に、MGFとリッジの相対ベイズリスクは、最適チューニングの下で1から1.035である。 数値実験は我々の理論結果を強く支持する。

The study on the implicit regularization induced by gradient-based optimization is a longstanding pursuit. In the present paper, we characterize the implicit regularization of momentum gradient descent (MGD) with early stopping by comparing with the explicit $\ell_2$-regularization (ridge). In details, we study MGD in the continuous-time view, so-called momentum gradient flow (MGF), and show that its tendency is closer to ridge than the gradient descent (GD) [Ali et al., 2019] for least squares regression. Moreover, we prove that, under the calibration $t=\sqrt{2/\lambda}$, where $t$ is the time parameter in MGF and $\lambda$ is the tuning parameter in ridge regression, the risk of MGF is no more than 1.54 times that of ridge. In particular, the relative Bayes risk of MGF to ridge is between 1 and 1.035 under the optimal tuning. The numerical experiments support our theoretical results strongly.
翻訳日:2022-01-17 18:54:12 公開日:2022-01-14
# (参考訳) 拡張的埋め込みに基づく検索のためのプログレッシブ最適化バイグラニュラー文書表現

Progressively Optimized Bi-Granular Document Representation for Scalable Embedding Based Retrieval ( http://arxiv.org/abs/2201.05409v1 )

ライセンス: CC BY 4.0
Shitao Xiao, Zheng Liu, Weihao Han, Jianjin Zhang, Chaozhuo Li, Yingxia Shao, Defu Lian, Xing Xie, Hao Sun, Denvy Deng, Liangjie Zhang, Qi Zhang(参考訳) アドホック検索は、大規模なコーパスから適切な回答を選択することを要求する。 近年,組込み型検索(EBR)が有望なソリューションとなり,ディープラーニングベースの文書表現とANN検索技術が連携してこの課題に対処している。 しかし、大きな課題は、回答コーパスの大きさを考えると、anインデックスがメモリに収まるには大きすぎる可能性があることである。 そこで本研究では, 粗い候補探索のために, 軽量なスパース埋め込みをインデックス化し, メモリ上に待機し, 重厚な密埋め込みをディスクにホストし, 詳細なポスト検証を行うBi-Granular Document Representationを用いてこの問題に対処する。 検索精度の良さから、プログレッシブ最適化フレームワークが設計されている。 まばらな埋め込みは、候補者の質の高い検索のために事前に学習される。 スパース埋め込みによって誘導される候補分布を条件に, 埋込み密度を連続的に学習し, 短絡した候補からの接地真実の識別を最適化する。 また, 正規化法と局所性中心サンプリング法という2つの手法が, ばらばらで密接な埋め込みの学習に導入され, その性能に大きく寄与している。 以上の特徴により,本手法は,大規模コーパスにおいて最大4.3%のリコールゲイン,10億のコーパスで最大17.5%のリコールゲインを有する大規模ebrを効果的に処理する。 さらに,本手法は,収益(+1.95%),リコール(+1.01%),CTR(+0.49%)に大きく貢献する主要な検索プラットフォームに適用される。

Ad-hoc search calls for the selection of appropriate answers from a massive-scale corpus. Nowadays, the embedding-based retrieval (EBR) becomes a promising solution, where deep learning based document representation and ANN search techniques are allied to handle this task. However, a major challenge is that the ANN index can be too large to fit into memory, given the considerable size of answer corpus. In this work, we tackle this problem with Bi-Granular Document Representation, where the lightweight sparse embeddings are indexed and standby in memory for coarse-grained candidate search, and the heavyweight dense embeddings are hosted in disk for fine-grained post verification. For the best of retrieval accuracy, a Progressive Optimization framework is designed. The sparse embeddings are learned ahead for high-quality search of candidates. Conditioned on the candidate distribution induced by the sparse embeddings, the dense embeddings are continuously learned to optimize the discrimination of ground-truth from the shortlisted candidates. Besides, two techniques: the contrastive quantization and the locality-centric sampling are introduced for the learning of sparse and dense embeddings, which substantially contribute to their performances. Thanks to the above features, our method effectively handles massive-scale EBR with strong advantages in accuracy: with up to +4.3% recall gain on million-scale corpus, and up to +17.5% recall gain on billion-scale corpus. Besides, Our method is applied to a major sponsored search platform with substantial gains on revenue (+1.95%), Recall (+1.01%) and CTR (+0.49%).
翻訳日:2022-01-17 18:39:27 公開日:2022-01-14
# (参考訳) 機械学習における安全性保証の因果モデル

A causal model of safety assurance for machine learning ( http://arxiv.org/abs/2201.05451v1 )

ライセンス: CC BY 4.0
Simon Burton(参考訳) 本稿では,MLベースのアプリケーションに有効な安全保証ケースを構築するための,安全性の因果モデルに基づくフレームワークを提案する。 そこで我々は,安全工学の確立した原則と,MLの保証議論を構造化する以前の取り組みを構築した。 本論文は,安全事例証拠の4つのカテゴリと,これらの証拠を効果的に組み合わせた構造化解析手法を定義する。 これらの貢献の適切で抽象的な形式化は、彼らが評価する因果関係、安全論への貢献、証拠の望ましい性質を説明するために使われる。 提案した枠組みに基づいて,本分野の進展を再評価し,本分野の具体的な進展を示すための今後の研究方向性について検討する。

This paper proposes a framework based on a causal model of safety upon which effective safety assurance cases for ML-based applications can be built. In doing so, we build upon established principles of safety engineering as well as previous work on structuring assurance arguments for ML. The paper defines four categories of safety case evidence and a structured analysis approach within which these evidences can be effectively combined. Where appropriate, abstract formalisations of these contributions are used to illustrate the causalities they evaluate, their contributions to the safety argument and desirable properties of the evidences. Based on the proposed framework, progress in this area is re-evaluated and a set of future research directions proposed in order for tangible progress in this field to be made.
翻訳日:2022-01-17 18:14:30 公開日:2022-01-14
# (参考訳) sympocnet: 最適制御問題の解法と高次元マルチエージェント経路計画問題への応用

SympOCnet: Solving optimal control problems with applications to high-dimensional multi-agent path planning problems ( http://arxiv.org/abs/2201.05475v1 )

ライセンス: CC BY 4.0
Tingwei Meng and Zhen Zhang and J\'er\^ome Darbon and George Em Karniadakis(参考訳) 近年のドローンの普及に伴い,多エージェント経路計画問題への応用が注目されているため,高次元最適制御問題をリアルタイムに解くことは重要ではあるが難しい問題である。 本稿では,Symphlectic Network を用いて状態制約を用いた高次元最適制御問題を解くSympOCnet という新しいニューラルネットワーク手法を提案する。 二次元空間と三次元空間における経路計画問題の数値計算結果について述べる。 具体的には,SympOCnetが1つのGPU上で1.5時間で500次元以上の問題を解くことを示し,SympOCnetの有効性と効率を示す。 提案手法はスケーラブルで,真の高次元経路計画問題をリアルタイムに解くことができる。

Solving high-dimensional optimal control problems in real-time is an important but challenging problem, with applications to multi-agent path planning problems, which have drawn increased attention given the growing popularity of drones in recent years. In this paper, we propose a novel neural network method called SympOCnet that applies the Symplectic network to solve high-dimensional optimal control problems with state constraints. We present several numerical results on path planning problems in two-dimensional and three-dimensional spaces. Specifically, we demonstrate that our SympOCnet can solve a problem with more than 500 dimensions in 1.5 hours on a single GPU, which shows the effectiveness and efficiency of SympOCnet. The proposed method is scalable and has the potential to solve truly high-dimensional path planning problems in real-time.
翻訳日:2022-01-17 18:02:02 公開日:2022-01-14
# (参考訳) パーソナライゼーションとプライバシのための分散ロボット学習

Decentralized Robot Learning for Personalization and Privacy ( http://arxiv.org/abs/2201.05527v1 )

ライセンス: CC BY 4.0
Luke Guerdan, Hatice Gunes(参考訳) 学習支援から協力まで、社会ロボットは日常生活の多くの側面を強化することを約束する。 しかし、社会ロボットは、(1)新しいユーザーに対して自分の行動に適応せず、(2)十分なプライバシー保護を提供していないという理由から、広く普及していない。 集中学習は、ロボットがサーバー上でデータを収集することでスキルを発達させることで、新しい体験のオンライン学習を防ぎ、プライバシに敏感なデータの保存を必要とすることによって、これらの制限に寄与する。 本研究では,ソーシャルロボットのプライバシとパーソナライゼーションを改善する分散型学習手法を提案する。 協調学習と連続学習という2つの機械学習のアプローチを組み合わせることで、ロボットに物理的に分散したインタラクションダイナミクスを捉える。 分散ロボット学習シナリオにおいてバランスをとるべき基準を定義した。 また,ロボット間の関連パラメータと複数の人間とのインタラクションを保存するために,重要度に基づく正規化を利用した新しいアルゴリズムであるelastic transferを開発した。 本稿では,分散学習が,概念実証型社会認識ナビゲーションドメインにおける集中学習の代替となることを示すとともに,Elastic Transferが提案したいくつかの基準をどのように改善するかを実証する。

From learning assistance to companionship, social robots promise to enhance many aspects of daily life. However, social robots have not seen widespread adoption, in part because (1) they do not adapt their behavior to new users, and (2) they do not provide sufficient privacy protections. Centralized learning, whereby robots develop skills by gathering data on a server, contributes to these limitations by preventing online learning of new experiences and requiring storage of privacy-sensitive data. In this work, we propose a decentralized learning alternative that improves the privacy and personalization of social robots. We combine two machine learning approaches, Federated Learning and Continual Learning, to capture interaction dynamics distributed physically across robots and temporally across repeated robot encounters. We define a set of criteria that should be balanced in decentralized robot learning scenarios. We also develop a new algorithm -- Elastic Transfer -- that leverages importance-based regularization to preserve relevant parameters across robots and interactions with multiple humans. We show that decentralized learning is a viable alternative to centralized learning in a proof-of-concept Socially-Aware Navigation domain, and demonstrate how Elastic Transfer improves several of the proposed criteria.
翻訳日:2022-01-17 17:20:22 公開日:2022-01-14
# (参考訳) 強化学習に基づく航空戦闘演習生成

Reinforcement Learning based Air Combat Maneuver Generation ( http://arxiv.org/abs/2201.05528v1 )

ライセンス: CC BY 4.0
Muhammed Murat Ozbek and Emre Koyuncu(参考訳) 人工知能技術の出現により、多くの研究が航空戦闘部門内で行われるようになった。 学者や他の多くの研究者は、UAVの自律的な操作決定と呼ばれる顕著な研究方向の研究を行った。 詳細な研究によっていくつかの成果が得られたが、強化学習(rl)を含む決定はより効率的であることが判明した。 最適な方法でエージェントを目標に到達させるための研究や実験が数多く行われており、最も顕著なのは遺伝的アルゴリズム(ga)、星、rrt、その他の様々な最適化技術である。 しかし、強化学習はその成功でよく知られている。 DARPHA Alpha Dogfight Trialsでは、ボーイングの訓練を受けた実戦のF16パイロットに対して強化学習が行われた。 この後継モデルはheron systemsによって開発された。 この成果の後、強化学習は自分自身に大きな注目を集めた。 本研究では,双発車両の動的特性を持つUAVをTD3(Twin Delayed Deep Deterministic Policy Gradients)を用いて最適経路で2次元空間で目標に移動させ,HER(Hindsight Experience Replay)を経験的に再現することを目的とした。 2つの異なる環境でテストを行い、シミュレーションを使いました。

The advent of artificial intelligence technology paved the way of many researches to be made within air combat sector. Academicians and many other researchers did a research on a prominent research direction called autonomous maneuver decision of UAV. Elaborative researches produced some outcomes, but decisions that include Reinforcement Learning(RL) came out to be more efficient. There have been many researches and experiments done to make an agent reach its target in an optimal way, most prominent are Genetic Algorithm(GA) , A star, RRT and other various optimization techniques have been used. But Reinforcement Learning is the well known one for its success. In DARPHA Alpha Dogfight Trials, reinforcement learning prevailed against a real veteran F16 human pilot who was trained by Boeing. This successor model was developed by Heron Systems. After this accomplishment, reinforcement learning bring tremendous attention on itself. In this research we aimed our UAV which has a dubin vehicle dynamic property to move to the target in two dimensional space in an optimal path using Twin Delayed Deep Deterministic Policy Gradients (TD3) and used in experience replay Hindsight Experience Replay(HER).We did tests on two different environments and used simulations.
翻訳日:2022-01-17 17:06:21 公開日:2022-01-14
# (参考訳) BandMaxSAT: マルチアームバンド付きローカル検索MaxSATソルバー

BandMaxSAT: A Local Search MaxSAT Solver with Multi-armed Bandit ( http://arxiv.org/abs/2201.05544v1 )

ライセンス: CC BY 4.0
Jiongzhi Zheng and Kun He and Jianrong Zhou and Yan Jin and Chu-min Li and Felip Manya(参考訳) そこで我々は,MaxSAT問題の2つの実用的な一般化であるPartial MaxSAT (PMS) と Weighted PMS (WPMS) に対処し,これらの問題に対する探索方向の導出にマルチアームバンディットを適用したBandMaxSATと呼ばれる局所探索アルゴリズムを提案する。 提案手法のバンディットは入力(W)PMSインスタンスのすべてのソフト節と関連付けられている。 各アームはソフトな節に対応する。 バンドイットモデルは、現在のステップ、すなわち引き出すアームを選択する際に満足するソフト節を選択することにより、バンドイットが局所視眼から脱出するための良い方向を選択するのを助けることができる。 さらに,初期解を生成する際に,単位節とバイナリ節の両方を優先する(w)pmsの初期化手法を提案する。 広汎な実験により、BandMaxSATは最先端(W)PMS局所探索アルゴリズムSATLike3.0を大きく上回っている。 具体的には、BandMaxSATがより良い結果を得るインスタンス数はSATLike3.0の約2倍である。 さらに、BandMaxSATと完全な解決器TT-Open-WBO-Incを組み合わせる。 その結果、BandMaxSAT-cはSATLike-c、Loandra、TT-Open-WBO-Incなど、最先端の完全(W)PMSソルバよりも優れている。

We address Partial MaxSAT (PMS) and Weighted PMS (WPMS), two practical generalizations of the MaxSAT problem, and propose a local search algorithm called BandMaxSAT, that applies a multi-armed bandit to guide the search direction, for these problems. The bandit in our method is associated with all the soft clauses in the input (W)PMS instance. Each arm corresponds to a soft clause. The bandit model can help BandMaxSAT to select a good direction to escape from local optima by selecting a soft clause to be satisfied in the current step, that is, selecting an arm to be pulled. We further propose an initialization method for (W)PMS that prioritizes both unit and binary clauses when producing the initial solutions. Extensive experiments demonstrate that BandMaxSAT significantly outperforms the state-of-the-art (W)PMS local search algorithm SATLike3.0. Specifically, the number of instances in which BandMaxSAT obtains better results is about twice that obtained by SATLike3.0. We further combine BandMaxSAT with the complete solver TT-Open-WBO-Inc. The resulting solver BandMaxSAT-c also outperforms some of the best state-of-the-art complete (W)PMS solvers, including SATLike-c, Loandra and TT-Open-WBO-Inc.
翻訳日:2022-01-17 16:54:12 公開日:2022-01-14
# (参考訳) ニューラルスコア推定による確率的質量マッピング

Probabilistic Mass Mapping with Neural Score Estimation ( http://arxiv.org/abs/2201.05561v1 )

ライセンス: CC BY 4.0
Benjamin Remy, Francois Lanusse, Niall Jeffrey, Jean-Luc Starck, Ken Osato, Tim Schrabback(参考訳) 弱レンズの質量マッピングは、天上のダークマターの完全な分布にアクセスするのに有用なツールであるが、固有の銀河楕円体と有限フィールド/欠測データのため、ダークマターマップの復元は難解な逆問題となっている。 本稿では,弱いレンズ質量マップ問題の高次元ベイズ後方を効率的にサンプリングし,非ガウシアン前駆体を定義するためのシミュレーションを応用した新しい手法を提案する。 本手法の精度をシミュレーションで実証し,HST/ACS COSMOSフィールドの大量再構成に適用する。 提案手法はベイズ統計学,解析理論,ニューラルスコアマッチングに基づく近年の深部生成モデルの各要素を組み合わせたものである。 このアプローチによって、次のようなことができます。 1) 解析宇宙論を十分に活用して解の2pt統計量を制限する。 2) 宇宙シミュレーションからこの解析的先行シミュレーションと完全シミュレーションの相違について学ぶ。 3) ロバスト不確実性定量化問題の後段からサンプルを得る。 この手法を$\kappa$tngシミュレーションで示し, 後方平均は, 根-平均二乗誤差とピアソン相関の両方において, 従来の方法(カイザー・スクワイズ, ワイナーフィルタ, スパーシティ優先法)を有意に上回っていることを見出した。 さらに, 後方収束値とSNRとの密接な相関関係を確立することにより, 復元後部の解釈可能性について述べる。 最後に,本手法をHST/ACS COSMOSフィールドの再構成に適用し,このフィールドの最高品質収束マップを生成する。

Weak lensing mass-mapping is a useful tool to access the full distribution of dark matter on the sky, but because of intrinsic galaxy ellipticies and finite fields/missing data, the recovery of dark matter maps constitutes a challenging ill-posed inverse problem. We introduce a novel methodology allowing for efficient sampling of the high-dimensional Bayesian posterior of the weak lensing mass-mapping problem, and relying on simulations for defining a fully non-Gaussian prior. We aim to demonstrate the accuracy of the method on simulations, and then proceed to applying it to the mass reconstruction of the HST/ACS COSMOS field. The proposed methodology combines elements of Bayesian statistics, analytic theory, and a recent class of Deep Generative Models based on Neural Score Matching. This approach allows us to do the following: 1) Make full use of analytic cosmological theory to constrain the 2pt statistics of the solution. 2) Learn from cosmological simulations any differences between this analytic prior and full simulations. 3) Obtain samples from the full Bayesian posterior of the problem for robust Uncertainty Quantification. We demonstrate the method on the $\kappa$TNG simulations and find that the posterior mean significantly outperfoms previous methods (Kaiser-Squires, Wiener filter, Sparsity priors) both on root-mean-square error and in terms of the Pearson correlation. We further illustrate the interpretability of the recovered posterior by establishing a close correlation between posterior convergence values and SNR of clusters artificially introduced into a field. Finally, we apply the method to the reconstruction of the HST/ACS COSMOS field and yield the highest quality convergence map of this field to date.
翻訳日:2022-01-17 16:40:07 公開日:2022-01-14
# (参考訳) DeepSpeed-MoE: ベンチマークとトレーニングによる次世代AIスケールの活用

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale ( http://arxiv.org/abs/2201.05596v1 )

ライセンス: CC BY 4.0
Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He(参考訳) 巨大な高密度モデルのトレーニングがハードウェアリソースの可用性と能力の境界に達するにつれ、Mixture-of-Experts(MoE)モデルは、品質に等価な高密度モデルに比べてトレーニングコストの大幅な削減により、最も有望なモデルアーキテクチャの1つである。 トレーニングコストの削減は、エンコーダ-デコーダモデル(優先作業)から、自動攻撃型言語モデル(並列探索と共に動作する)の5倍の節約まで実現されている。 しかし、モデルのサイズとユニークなアーキテクチャのため、高速なMoEモデル推論を提供する方法はまだ困難で未解決であり、実用的利用は制限されている。 この問題を解決するために、DeepSpeed-MoEはDeepSpeedライブラリの一部として、新しいMoEアーキテクチャ設計とモデル圧縮技術を含むエンドツーエンドのMoEトレーニングおよび推論ソリューションであり、MoEモデルのサイズを最大3.7倍に削減し、既存のMoE推論ソリューションと比較して7.3倍のレイテンシとコストを提供する高度に最適化された推論システムを提供する。 deepspeed-moeは前例のない規模と効率性を提供し、4.5倍高速で9倍安価で巨大なmoeモデルを提供する。 当社のイノベーションとシステムは、大規模なモデルランドスケープにおいて、より密集したMoEモデルからスパースなMoEモデルへのシフトとして、より少ないリソースで高品質なモデルのトレーニングとデプロイがより広範に可能になる、有望な道を開くのに役立つことを期待しています。

As the training of giant dense models hits the boundary on the availability and capability of the hardware resources today, Mixture-of-Experts (MoE) models become one of the most promising model architectures due to their significant training cost reduction compared to a quality-equivalent dense model. Its training cost saving is demonstrated from encoder-decoder models (prior works) to a 5x saving for auto-aggressive language models (this work along with parallel explorations). However, due to the much larger model size and unique architecture, how to provide fast MoE model inference remains challenging and unsolved, limiting its practical usage. To tackle this, we present DeepSpeed-MoE, an end-to-end MoE training and inference solution as part of the DeepSpeed library, including novel MoE architecture designs and model compression techniques that reduce MoE model size by up to 3.7x, and a highly optimized inference system that provides 7.3x better latency and cost compared to existing MoE inference solutions. DeepSpeed-MoE offers an unprecedented scale and efficiency to serve massive MoE models with up to 4.5x faster and 9x cheaper inference compared to quality-equivalent dense models. We hope our innovations and systems help open a promising path to new directions in the large model landscape, a shift from dense to sparse MoE models, where training and deploying higher-quality models with fewer resources becomes more widely possible.
翻訳日:2022-01-17 16:00:55 公開日:2022-01-14
# (参考訳) 深部強化学習でスイムを学習するスマート磁気マイクロロボット

Smart Magnetic Microrobots Learn to Swim with Deep Reinforcement Learning ( http://arxiv.org/abs/2201.05599v1 )

ライセンス: CC BY 4.0
Michael R. Behrens and Warren C. Ruder(参考訳) スイミングマイクロロボットは複雑な材料とダイナミックな形状で開発され、システムダイナミクスのモデル化が難しく、マイクロロボットの位置制御が容易ではない複雑な環境での運用が期待されている。 深層強化学習(deep reinforcement learning)は、スマートなマイクロロボットを作成するためのロバストなコントローラを自律的に開発する有望な方法である。 本稿では,ソフトアクタ批評家強化学習アルゴリズムを用いて,マイクロロボットが3軸の電磁石から発生する時間変化磁界の制御下で,非キャラクタリゼーションバイオミメティック流体環境を泳ぐことができる制御方針を自律的に導出するスマートヘリカル磁気ハイドロゲルマイクロロボットの開発について報告する。 強化学習エージェントは10万以下のトレーニングステップで制御ポリシを成功させ、高速学習のためのサンプル効率を実証した。 また,強化学習エージェントが学習した制御方針を,回帰による学習方針の行動分布に数学関数を適合させることで微調整できることを実証する。 マイクロロボット制御に適用される深層強化学習は、次世代のマイクロロボットの能力を大きく拡張する可能性が高い。

Swimming microrobots are increasingly developed with complex materials and dynamic shapes and are expected to operate in complex environments in which the system dynamics are difficult to model and positional control of the microrobot is not straightforward to achieve. Deep reinforcement learning is a promising method of autonomously developing robust controllers for creating smart microrobots, which can adapt their behavior to operate in uncharacterized environments without the need to model the system dynamics. Here, we report the development of a smart helical magnetic hydrogel microrobot that used the soft actor critic reinforcement learning algorithm to autonomously derive a control policy which allowed the microrobot to swim through an uncharacterized biomimetic fluidic environment under control of a time varying magnetic field generated from a three-axis array of electromagnets. The reinforcement learning agent learned successful control policies with fewer than 100,000 training steps, demonstrating sample efficiency for fast learning. We also demonstrate that we can fine tune the control policies learned by the reinforcement learning agent by fitting mathematical functions to the learned policy's action distribution via regression. Deep reinforcement learning applied to microrobot control is likely to significantly expand the capabilities of the next generation of microrobots.
翻訳日:2022-01-17 15:59:44 公開日:2022-01-14
# 障害音声の評価・認識のための分光時間深部特徴

Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition ( http://arxiv.org/abs/2201.05554v1 )

ライセンス: Link先を確認
Mengzhe Geng, Shansong Liu, Jianwei Yu, Xurong Xie, Shoukang Hu, Zi Ye, Zengrui Jin, Xunying Liu, Helen Meng(参考訳) 不規則な音声の自動認識は、現在まで非常に困難な課題である。 アクセント、年齢、性別など通常の音声で見られる可変性の源泉は、発声障害の根本原因や重度レベルの違いによってさらに複雑化され、話者間で大きな多様性が生じる。 この目的のために、現在の音声認識システムでは話者適応技術が重要な役割を果たす。 Motivated by the spectro-temporal level differences between disordered and normal speech that systematically manifest in articulatory imprecision, decreased volume and clarity, slower speaking rates and increased dysfluencies, novel spectro-temporal subspace basis embedding deep features derived by SVD decomposition of speech spectrum are proposed to facilitate both accurate speech intelligibility assessment and auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN and end-to-end disordered speech recognition systems. UASpeechコーパスで実施された実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大2.63%(相対8.6%)削減することで、ベースラインi-Vector適応を一貫して上回った。 隠れ単位寄与度(LHUC)に基づく話者適応の学習をさらに適用した。 提案したスペクトルベース埋め込み機能を用いた最終話者適応システムにより,16話者のUASpeechテストセットにおけるWER全体の25.6%が得られた。

Automatic recognition of disordered speech remains a highly challenging task to date. Sources of variability commonly found in normal speech including accent, age or gender, when further compounded with the underlying causes of speech impairment and varying severity levels, create large diversity among speakers. To this end, speaker adaptation techniques play a vital role in current speech recognition systems. Motivated by the spectro-temporal level differences between disordered and normal speech that systematically manifest in articulatory imprecision, decreased volume and clarity, slower speaking rates and increased dysfluencies, novel spectro-temporal subspace basis embedding deep features derived by SVD decomposition of speech spectrum are proposed to facilitate both accurate speech intelligibility assessment and auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN and end-to-end disordered speech recognition systems. Experiments conducted on the UASpeech corpus suggest the proposed spectro-temporal deep feature adapted systems consistently outperformed baseline i-Vector adaptation by up to 2.63% absolute (8.6% relative) reduction in word error rate (WER) with or without data augmentation. Learning hidden unit contribution (LHUC) based speaker adaptation was further applied. The final speaker adapted system using the proposed spectral basis embedding features gave an overall WER of 25.6% on the UASpeech test set of 16 dysarthric speakers
翻訳日:2022-01-17 15:36:02 公開日:2022-01-14
# 障害音声認識のためのデータ拡張手法の検討

Investigation of Data Augmentation Techniques for Disordered Speech Recognition ( http://arxiv.org/abs/2201.05562v1 )

ライセンス: Link先を確認
Mengzhe Geng, Xurong Xie, Shansong Liu, Jianwei Yu, Shoukang Hu, Xunying Liu, Helen Meng(参考訳) 障害型音声認識は極めて困難な課題である。 言語障害を持つ人の神経運動条件は、しばしば共起性身体障害と混ざり合い、システム開発に必要な大量の音声を集めるのが困難になる。 本稿では,声道長摂動(VTLP),テンポ摂動(テンポ摂動),速度摂動(スピード摂動)など,不規則音声認識のための一連のデータ拡張手法について検討する。 正規語と無秩序語の両方が増強過程に利用された。 学習隠れユニットコントリビューション(LHUC)に基づく話者適応学習を用いて,オリジナルデータと拡張データの両方における障害話者間の変動をモデル化した。 UASpeechコーパスを用いて構築された最終話者適応システムと、速度摂動に基づく最良の拡張アプローチは、データ拡張なしでベースラインシステム上での絶対(9.3%)ワードエラー率(WER)を最大2.92%削減し、16の変形性スピーカーを含むテストセットで26.37%のWERを与えた。

Disordered speech recognition is a highly challenging task. The underlying neuro-motor conditions of people with speech disorders, often compounded with co-occurring physical disabilities, lead to the difficulty in collecting large quantities of speech required for system development. This paper investigates a set of data augmentation techniques for disordered speech recognition, including vocal tract length perturbation (VTLP), tempo perturbation and speed perturbation. Both normal and disordered speech were exploited in the augmentation process. Variability among impaired speakers in both the original and augmented data was modeled using learning hidden unit contributions (LHUC) based speaker adaptive training. The final speaker adapted system constructed using the UASpeech corpus and the best augmentation approach based on speed perturbation produced up to 2.92% absolute (9.3% relative) word error rate (WER) reduction over the baseline system without data augmentation, and gave an overall WER of 26.37% on the test set containing 16 dysarthric speakers.
翻訳日:2022-01-17 15:35:44 公開日:2022-01-14
# 近位勾配降下による$\ell_1$-norm制約付きマルチブロックスパース正準相関解析

$\ell_1$-norm constrained multi-block sparse canonical correlation analysis via proximal gradient descent ( http://arxiv.org/abs/2201.05289v1 )

ライセンス: Link先を確認
Leying Guan(参考訳) マルチブロックCCAは、複数のブロックにわたるコヒーレントな変動を説明する線形関係を構成する。 我々は,マルチブロックCCA問題を一般化固有ベクトルの先導として捉え,高次元データに対する$\ell_1$制約で近似勾配降下アルゴリズムを用いて解くことを提案する。 特に、近位反復に対する制約の減衰列を使い、その結果の見積もりが適切な仮定の下ではレート最適であることを示す。 いくつかの先行研究は反復的アプローチを用いた$\ell_0$制約付き問題に対してそのような最適性を示したが、$\ell_1$制約付き定式化に対する同じレベルの理論的理解はいまだに不足している。 また,複数の固有ベクトルを逐次推定するデフレ手順についても述べる。 我々は,提案手法をR CRAN上で実装可能な既存手法と比較し,提案手法はシミュレーションと実データ例の両方において競合性能を示す。

Multi-block CCA constructs linear relationships explaining coherent variations across multiple blocks of data. We view the multi-block CCA problem as finding leading generalized eigenvectors and propose to solve it via a proximal gradient descent algorithm with $\ell_1$ constraint for high dimensional data. In particular, we use a decaying sequence of constraints over proximal iterations, and show that the resulting estimate is rate-optimal under suitable assumptions. Although several previous works have demonstrated such optimality for the $\ell_0$ constrained problem using iterative approaches, the same level of theoretical understanding for the $\ell_1$ constrained formulation is still lacking. We also describe an easy-to-implement deflation procedure to estimate multiple eigenvectors sequentially. We compare our proposals to several existing methods whose implementations are available on R CRAN, and the proposed methods show competitive performances in both simulations and a real data example.
翻訳日:2022-01-17 15:35:21 公開日:2022-01-14
# dapstep:スタックトレースエラー表現のディープアサイン予測

DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation ( http://arxiv.org/abs/2201.05256v1 )

ライセンス: Link先を確認
Denis Sushentsev, Aleksandr Khvorov, Roman Vasiliev, Yaroslav Golubev, Timofey Bryksin(参考訳) バグを修正するのに最適な開発者を見つけるタスクは、バグトリアージと呼ばれる。 既存のアプローチのほとんどは、バグトリアージタスクを分類問題とみなしているが、クラスセットが時間とともに変化する場合(開発者がプロジェクトでよく行うように)、分類は適切ではない。 さらに、私たちの知る限りでは、既存のモデルはすべて、テキストによる情報ソース(バグ記述など)を使用しているが、これは必ずしも利用できない。 本研究では,スタックトレースをバグレポートの主要データ源として使用する場合のバグトリアージ問題に対する既存ソリューションの適用可能性を検討する。 さらに,この課題をランキング問題として再編成し,新しい深層学習モデルを提案する。 モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいており、ランキング損失関数を用いて最適化されたモデルの重み付けがある。 ランキングの質を向上させるために,バージョン管理システムアノテーションから追加情報を利用することを提案する。 手動と追加のニューラルネットワークを使用するアノテーションから特徴を抽出するための2つのアプローチが提案されている。 モデルを評価するために,実世界のスタックトレースのデータセットを2つ収集した。 実験の結果,提案手法はスタックトレースに適応した既存モデルよりも優れていた。 この領域のさらなる研究を容易にするために、我々はモデルのソースコードと収集されたデータセットの1つを公開する。

The task of finding the best developer to fix a bug is called bug triage. Most of the existing approaches consider the bug triage task as a classification problem, however, classification is not appropriate when the sets of classes change over time (as developers often do in a project). Furthermore, to the best of our knowledge, all the existing models use textual sources of information, i.e., bug descriptions, which are not always available. In this work, we explore the applicability of existing solutions for the bug triage problem when stack traces are used as the main data source of bug reports. Additionally, we reformulate this task as a ranking problem and propose new deep learning models to solve it. The models are based on a bidirectional recurrent neural network with attention and on a convolutional neural network, with the weights of the models optimized using a ranking loss function. To improve the quality of ranking, we propose using additional information from version control system annotations. Two approaches are proposed for extracting features from annotations: manual and using an additional neural network. To evaluate our models, we collected two datasets of real-world stack traces. Our experiments show that the proposed models outperform existing models adapted to handle stack traces. To facilitate further research in this area, we publish the source code of our models and one of the collected datasets.
翻訳日:2022-01-17 15:33:05 公開日:2022-01-14
# 行動ハニーポットの展開のためのセキュリティオーケストレーション、自動化、および応答エンジン

Security Orchestration, Automation, and Response Engine for Deployment of Behavioural Honeypots ( http://arxiv.org/abs/2201.05326v1 )

ライセンス: Link先を確認
Upendra Bartwal, Subhasis Mukhopadhyay, Rohit Negi, Sandeep Shukla(参考訳) サイバーセキュリティはIT/OTネットワークを持つ組織にとって重要なトピックである。 サイバー環境は進化し続けるシナリオであるため、インフラのセキュリティを強化するためにセキュリティシステムをアップグレードし続けなければならない。 セキュリティ情報とイベント管理(SIEM)、エンドポイント検出と応答(EDR)、脅威情報プラットフォーム(TIP)、情報技術サービス管理(ITSM)などのツールに加えて、侵入検知システム(IDS)、侵入防御システム(IPS)などの防衛技術が、インフラのサイバーセキュリティ姿勢を高めている。 しかし,提案する保護機構には限界があり,セキュリティを確保するには不十分であり,攻撃者がネットワークに侵入する。 偽造技術は、Honeypotsとともに、攻撃者にターゲットシステムの脆弱性の誤った感覚を提供する。 攻撃者は、彼らのオペランディに関する脅威を暴露した。 我々はセキュリティオーケストレーション、自動化、応答(soar)エンジンを開発し、攻撃者の行動に基づいて内部ネットワークインフラストラクチャ内にカスタムハニーポットを動的にデプロイする。 アーキテクチャは、システムに接続され、オーケストレーションに使用される複数のVLANをサポートするのに十分堅牢である。 ネットワーク内のハニーポットに対するボットネットトラフィックとDDOS攻撃の存在を、マルウェア収集システムとともに検出する。 4日間ライブトラフィックにさらされた後、エンジンはハニーポットを40回動的に調整し、7823攻撃、965ddos攻撃パケット、および3つの悪意のあるサンプルを検出した。 静的なハニーポットを使った実験では、インスタンス毎の平均攻撃エンゲージメント時間は102秒でしたが、SOARエンジンベースの動的ハニーポットは平均3148秒で攻撃者をエンゲージします。

Cyber Security is a critical topic for organizations with IT/OT networks as they are always susceptible to attack, whether insider or outsider. Since the cyber landscape is an ever-evolving scenario, one must keep upgrading its security systems to enhance the security of the infrastructure. Tools like Security Information and Event Management (SIEM), Endpoint Detection and Response (EDR), Threat Intelligence Platform (TIP), Information Technology Service Management (ITSM), along with other defensive techniques like Intrusion Detection System (IDS), Intrusion Protection System (IPS), and many others enhance the cyber security posture of the infrastructure. However, the proposed protection mechanisms have their limitations, they are insufficient to ensure security, and the attacker penetrates the network. Deception technology, along with Honeypots, provides a false sense of vulnerability in the target systems to the attackers. The attacker deceived reveals threat intel about their modus operandi. We have developed a Security Orchestration, Automation, and Response (SOAR) Engine that dynamically deploys custom honeypots inside the internal network infrastructure based on the attacker's behavior. The architecture is robust enough to support multiple VLANs connected to the system and used for orchestration. The presence of botnet traffic and DDOS attacks on the honeypots in the network is detected, along with a malware collection system. After being exposed to live traffic for four days, our engine dynamically orchestrated the honeypots 40 times, detected 7823 attacks, 965 DDOS attack packets, and three malicious samples. While our experiments with static honeypots show an average attacker engagement time of 102 seconds per instance, our SOAR Engine-based dynamic honeypots engage attackers on average 3148 seconds.
翻訳日:2022-01-17 15:32:44 公開日:2022-01-14
# ファイナンシャル時系列予測のためのマルチヘッドテンポラルアテンション強化バイリニアネットワーク

Multi-head Temporal Attention-Augmented Bilinear Network for Financial time series prediction ( http://arxiv.org/abs/2201.05459v1 )

ライセンス: Link先を確認
Mostafa Shabani, Dat Thanh Tran, Martin Magris, Juho Kanniainen, Alexandros Iosifidis(参考訳) 金融時系列予測は時系列分析の分野で最も難しい分野の一つである。 これは主に金融時系列データの非定常かつノイズが多いためである。 事前のドメイン知識を組み込んだ特殊なニューラルネットワークの設計にコミュニティの進歩的な取り組みによって、多くの財務分析や予測問題がうまく取り組まれている。 時間的注意機構は、重要な時間的出来事にフォーカスする能力によって最近人気を博した神経層設計である。 本稿では,時間的注意と多頭的注意の考え方に基づくニューラルネットワーク層を提案し,複数の時間的インスタンスに同時に集中する基盤となるニューラルネットワークの能力を拡張する。 提案手法の有効性を,大規模書籍市場データを用いて検証し,中間価格変動の方向を予測する。 実験により,マルチヘッド時空間注意モジュールを用いた場合,ベースラインモデルと比較して予測性能が向上することを示した。

Financial time-series forecasting is one of the most challenging domains in the field of time-series analysis. This is mostly due to the highly non-stationary and noisy nature of financial time-series data. With progressive efforts of the community to design specialized neural networks incorporating prior domain knowledge, many financial analysis and forecasting problems have been successfully tackled. The temporal attention mechanism is a neural layer design that recently gained popularity due to its ability to focus on important temporal events. In this paper, we propose a neural layer based on the ideas of temporal attention and multi-head attention to extend the capability of the underlying neural network in focusing simultaneously on multiple temporal instances. The effectiveness of our approach is validated using large-scale limit-order book market data to forecast the direction of mid-price movements. Our experiments show that the use of multi-head temporal attention modules leads to enhanced prediction performances compared to baseline models.
翻訳日:2022-01-17 15:32:12 公開日:2022-01-14
# 非線形パワーアンプによる帯域外放出低減のための波形学習

Waveform Learning for Reduced Out-of-Band Emissions Under a Nonlinear Power Amplifier ( http://arxiv.org/abs/2201.05524v1 )

ライセンス: Link先を確認
Dani Korpi, Mikko Honkala, Janne M.J. Huttunen, Fay\c{c}al Ait Aoudia, Jakob Hoydis(参考訳) 機械学習(ML)は、無線通信システムにおける物理層処理の様々な側面を最適化する上で、非常に有望である。 本稿では,MLを用いて送信波形と周波数領域受信機を共同で学習する。 特に、送信機電源増幅器が非線形に動作しているシナリオを考察し、MLを用いて波形を最適化し、帯域外放射を最小限に抑える。 このシステムは同時に学習した受信機によるパイロットレス検出を容易にするコンステレーション形状も学習する。 シミュレーションの結果,このようなエンドツーエンド最適化システムにより,従来のシステムに比べてデータ通信の精度が向上し,帯域外エミッションも小さくなった。 我々の知る限りでは、エンド・ツー・エンドの学習システムにおいて電力増幅器によるエミッションを考慮に入れた先行研究はない。 これらの知見は6Gのビルディングブロックの1つであるMLネイティブのエアインターフェースへの道を開いた。

Machine learning (ML) has shown great promise in optimizing various aspects of the physical layer processing in wireless communication systems. In this paper, we use ML to learn jointly the transmit waveform and the frequency-domain receiver. In particular, we consider a scenario where the transmitter power amplifier is operating in a nonlinear manner, and ML is used to optimize the waveform to minimize the out-of-band emissions. The system also learns a constellation shape that facilitates pilotless detection by the simultaneously learned receiver. The simulation results show that such an end-to-end optimized system can communicate data more accurately and with less out-of-band emissions than conventional systems, thereby demonstrating the potential of ML in optimizing the air interface. To the best of our knowledge, there are no prior works considering the power amplifier induced emissions in an end-to-end learned system. These findings pave the way towards an ML-native air interface, which could be one of the building blocks of 6G.
翻訳日:2022-01-17 15:31:11 公開日:2022-01-14
# グリオーマのisocitrate dehydrogenaseステータス予測のための画像と幾何学の協調学習

Collaborative learning of images and geometrics for predicting isocitrate dehydrogenase status of glioma ( http://arxiv.org/abs/2201.05530v1 )

ライセンス: Link先を確認
Yiran Wei, Chao Li, Xi Chen, Carola-Bibiane Sch\"onlieb, Stephen J. Price(参考訳) Isocitrate dehydrogenase (IDH)遺伝子変異はグリオーマ患者にとって重要なバイオマーカーである。 IDH変異検出のゴールド標準は、侵襲的なアプローチによって得られた腫瘍組織を必要とし、通常は高価である。 近年の放射線ゲノミクスの進歩は、MRIに基づくIDH変異を予測する非侵襲的アプローチを提供する。 一方、腫瘍幾何学は腫瘍の表現型を示す重要な情報を包含する。 本稿では, 畳み込みニューラルネットワーク(CNN)とグラフニューラルネットワーク(GNN)を用いて, 腫瘍画像と腫瘍幾何学の両方を学習する協調学習フレームワークを提案する。 その結果,提案モデルは3D-DenseNet121のベースラインモデルよりも優れていた。 さらに、協調学習モデルは、CNNまたはGNN単独よりも優れた性能を達成する。 モデル解釈は、CNNとGNNがIDH変異予測のための共通の領域とユニークな領域を特定できることを示している。 結論として,コラボレーティング画像と幾何学習者は,遺伝子型を予測しグリオーマを特徴付けるための新しいアプローチを提供する。

The isocitrate dehydrogenase (IDH) gene mutation status is an important biomarker for glioma patients. The gold standard of IDH mutation detection requires tumour tissue obtained via invasive approaches and is usually expensive. Recent advancement in radiogenomics provides a non-invasive approach for predicting IDH mutation based on MRI. Meanwhile, tumor geometrics encompass crucial information for tumour phenotyping. Here we propose a collaborative learning framework that learns both tumor images and tumor geometrics using convolutional neural networks (CNN) and graph neural networks (GNN), respectively. Our results show that the proposed model outperforms the baseline model of 3D-DenseNet121. Further, the collaborative learning model achieves better performance than either the CNN or the GNN alone. The model interpretation shows that the CNN and GNN could identify common and unique regions of interest for IDH mutation prediction. In conclusion, collaborating image and geometric learners provides a novel approach for predicting genotype and characterising glioma.
翻訳日:2022-01-17 15:29:28 公開日:2022-01-14
# de rham互換のディープニューラルネットワーク

De Rham compatible Deep Neural Networks ( http://arxiv.org/abs/2201.05395v1 )

ライセンス: Link先を確認
Marcello Longo, Joost A. A. Opschoor, Nico Disch, Christoph Schwab, Jakob Zech(参考訳) ReLU と BiSU (Binary Step Unit) をアクティベートしたいくつかのニューラルネットワークのクラスを構築し、これは正則な多角形および多面体領域の単純分割上の有限要素(FE)空間を正確にエミュレートする。 連続的、ピースワイズ線型(CPwL)函数に対して、我々の構成は以前の結果を一般化して、$\Omega$ の任意の正則な単純分割が、任意の次元 $d\geq 2$ で認められる。 ベクトル値要素のエミュレートには、古典的なラヴィアート=トーマスと、三角形とテトラヘドラ上の N'{e}d\'{e}lec エッジ要素の最初のファミリーが含まれる。 これらのfe空間をエミュレートするニューラルネットワークは、非凸ポリヘドラ $\omega \subset \mathbb{r}^3$ における電磁気学の境界値問題の正しい近似において必要であり、例えば ‘physics-informed nns'' や ‘deep ritz method’ の方法論を深層学習技術による電磁場シミュレーションに適用する上で必須の要素となる。 それらはそれぞれ正確な (De Rham) 列の性質を満足し、また、曲面の発散に対する正確な列の性質を満たす$\partial\Omega$ と、計算電磁界に対する '' 境界要素' を可能にする$\mathrm{div}_\Gamma$ と$\mathrm{curl}_\Gamma$ のそれぞれを満たす離散境界錯体を生成する。 我々は、高階互換空間や、特にクローゼックス・ラヴィアート元とハイブリダイド・ハイア・オーダー(HHO)法における非互換な離散化のクラスへの我々の構成の一般化を示す。

We construct several classes of neural networks with ReLU and BiSU (Binary Step Unit) activations, which exactly emulate the lowest order Finite Element (FE) spaces on regular, simplicial partitions of polygonal and polyhedral domains $\Omega \subset \mathbb{R}^d$, $d=2,3$. For continuous, piecewise linear (CPwL) functions, our constructions generalize previous results in that arbitrary, regular simplicial partitions of $\Omega$ are admitted, also in arbitrary dimension $d\geq 2$. Vector-valued elements emulated include the classical Raviart-Thomas and the first family of N\'{e}d\'{e}lec edge elements on triangles and tetrahedra. Neural Networks emulating these FE spaces are required in the correct approximation of boundary value problems of electromagnetism in nonconvex polyhedra $\Omega \subset \mathbb{R}^3$, thereby constituting an essential ingredient in the application of e.g. the methodology of ``physics-informed NNs'' or ``deep Ritz methods'' to electromagnetic field simulation via deep learning techniques. They satisfy exact (De Rham) sequence properties, and also spawn discrete boundary complexes on $\partial\Omega$ which satisfy exact sequence properties for the surface divergence and curl operators $\mathrm{div}_\Gamma$ and $\mathrm{curl}_\Gamma$, respectively, thereby enabling ``neural boundary elements'' for computational electromagnetism. We indicate generalizations of our constructions to higher-order compatible spaces and other, non-compatible classes of discretizations in particular the Crouzeix-Raviart elements and Hybridized, Higher Order (HHO) methods.
翻訳日:2022-01-17 15:28:47 公開日:2022-01-14
# インド株式市場選択部門におけるロバストポートフォリオデザインの精密株価予測

Precise Stock Price Prediction for Robust Portfolio Design from Selected Sectors of the Indian Stock Market ( http://arxiv.org/abs/2201.05570v1 )

ライセンス: Link先を確認
Jaydip Sen, Ashwin Kumar R S, Geetha Joseph, Kaushik Muthukrishnan, Koushik Tulasi, and Praveen Varukolu(参考訳) 株価予測は困難な課題であり、この分野の文献には多くの提案が存在している。 ポートフォリオ構築(Portfolio construction)は、リスクを最小限に抑えつつ、利益を最大化するために株群を選択し、投資するプロセスである。 マークウィッツが近代ポートフォリオ理論を提案した頃から、効率的なポートフォリオ構築の分野ではいくつかの進歩があった。 投資家は、投資家が効率的なポートフォリオに投資し、高い精度でポートフォリオの将来の資産価値を見積もることで、事前に購入または販売の決定を下すことができる場合、株式市場から最高の利益を得ることができる。 本プロジェクトでは,効率的なポートフォリオを構築し,ポートフォリオ内の株の個々の株価予測を用いて将来的な資産価値を予測する。 効率的なポートフォリオ構築の一環として、Modern Portfolio理論から始まる複数のポートフォリオ最適化手法を研究しました。 我々は、過去5年間の過去の株価をトレーニングデータとして利用し、選択した5つのセクターすべてに対して、最小分散ポートフォリオと最適なリスクポートフォリオを構築し、ポートフォリオのパフォーマンスを確認するためのテストも実施しました。 最小分散ポートフォリオと等重ポートフォリオの最適リスクポートフォリオの比較研究は、バックテストによって行われる。

Stock price prediction is a challenging task and a lot of propositions exist in the literature in this area. Portfolio construction is a process of choosing a group of stocks and investing in them optimally to maximize the return while minimizing the risk. Since the time when Markowitz proposed the Modern Portfolio Theory, several advancements have happened in the area of building efficient portfolios. An investor can get the best benefit out of the stock market if the investor invests in an efficient portfolio and could take the buy or sell decision in advance, by estimating the future asset value of the portfolio with a high level of precision. In this project, we have built an efficient portfolio and to predict the future asset value by means of individual stock price prediction of the stocks in the portfolio. As part of building an efficient portfolio we have studied multiple portfolio optimization methods beginning with the Modern Portfolio theory. We have built the minimum variance portfolio and optimal risk portfolio for all the five chosen sectors by using past daily stock prices over the past five years as the training data, and have also conducted back testing to check the performance of the portfolio. A comparative study of minimum variance portfolio and optimal risk portfolio with equal weight portfolio is done by backtesting.
翻訳日:2022-01-17 15:28:08 公開日:2022-01-14
# 効率的なDNNコンパイルのための自動スケジュールの再利用

Reusing Auto-Schedules for Efficient DNN Compilation ( http://arxiv.org/abs/2201.05587v1 )

ライセンス: Link先を確認
Perry Gibson, Jos\'e Cano(参考訳) オートスケジューリング(Auto-scheduling)とは、検索アルゴリズムが所定のハードウェアプラットフォーム上のテンソルプログラムの候補スケジュール(プログラム変換)を自動的に探索し、その性能を改善するプロセスである。 しかし、テンソルプログラムの複雑さとターゲット装置の容量に依存するため、これは非常に時間を要するプロセスであり、しばしば数千のプログラム変種が探索されている。 そこで本論文では,テンソルプログラム間の自動スケジューリングを識別・再利用する新しい手法である 'emph{tuning-reuse} を提案し,実証する。 本稿では,この概念をDeep Neural Networks (DNN) を用いて実証し,事前調整したDNNから自動スケジューリングのセットを取り,新しいDNNの推論時間を短縮する手法を提案する。 事前調整されたスケジュールが与えられた場合、チューニング・リユースは最先端のAnsor自動スケジューリング装置を使用する自動スケジューリングよりも少ない時間で最大限のスピードアップを提供する。 広く使用されているDNNモデルのセットでは、チューニング-再利用を適用し、最大速度を1.16\times$から4.76\times$の間で達成する。

Auto-scheduling is a process where a search algorithm automatically explores candidate schedules (program transformations) for a given tensor program on a given hardware platform to improve its performance. However this can be a very time consuming process, depending on the complexity of the tensor program, and capacity of the target device, with often many thousands of program variants being explored. To address this, in this paper we introduce and demonstrate the idea of \emph{tuning-reuse}, a novel approach to identify and re-use auto-schedules between tensor programs. We demonstrate this concept using Deep Neural Networks (DNNs), taking sets of auto-schedules from pre-tuned DNNs, and using them to reduce the inference time of a new DNN. Given a set of pre-tuned schedules, tuning-reuse provides its maximum speedup in less time than auto-scheduling using the state-of-the-art Ansor auto-scheduler. On a set of widely used DNN models, we apply tuning-reuse and achieve maximum speedups between $1.16\times$ and $4.76\times$, while outperforming Ansor when given limited tuning time.
翻訳日:2022-01-17 15:26:09 公開日:2022-01-14
# (参考訳) ウォームスタートとクリーンなクロールコーパス - 優れた言語モデルのためのレシピ

A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language Models ( http://arxiv.org/abs/2201.05601v1 )

ライセンス: CC BY 4.0
V\'esteinn Sn{\ae}bjarnarson, Haukur Barri S\'imonarson, P\'etur Orri Ragnarsson, Svanhv\'it Ing\'olfsd\'ottir, Haukur P\'all J\'onsson, Vilhj\'almur {\TH}orsteinsson, Hafsteinn Einarsson(参考訳) 我々はアイスランド語のためのいくつかの言語モデルを訓練し、例えばIceBERTは、音声タグ付け、名前付きエンティティ認識、文法的誤り検出、選挙区解析など、様々な下流タスクで最先端のパフォーマンスを達成する。 モデルをトレーニングするために、アイスランドのトップレベルドメイン(tld)をターゲットとした、オンライン上の高品質テキストのコレクションであるアイスランド共通クロールコーパス(ic3)を新たに導入した。 他のいくつかの公開データソースも、合計16GBのアイスランド語のテキストのために収集されている。 アイスランドにおけるモデル性能の評価を高め,基準値のバーを引き上げるために,WinoGrandeデータセットを共参照分解のために翻訳し,適応する。 これらの取り組みを通じて、キュレートされたコーパスで訓練されたモデルと比較することにより、ロー・ミディアム・リソース言語に対するNLPアプリケーションにおける最先端の結果を達成するのに十分なクロールコーパスが十分であることを示す。 さらに、既存の多言語モデルを用いた初期化モデルにより、ダウンストリームタスクの最先端結果が得られることを示す。

We train several language models for Icelandic, including IceBERT, that achieve state-of-the-art performance in a variety of downstream tasks, including part-of-speech tagging, named entity recognition, grammatical error detection and constituency parsing. To train the models we introduce a new corpus of Icelandic text, the Icelandic Common Crawl Corpus (IC3), a collection of high quality texts found online by targeting the Icelandic top-level-domain (TLD). Several other public data sources are also collected for a total of 16GB of Icelandic text. To enhance the evaluation of model performance and to raise the bar in baselines for Icelandic, we translate and adapt the WinoGrande dataset for co-reference resolution. Through these efforts we demonstrate that a properly cleaned crawled corpus is sufficient to achieve state-of-the-art results in NLP applications for low to medium resource languages, by comparison with models trained on a curated corpus. We further show that initializing models using existing multilingual models can lead to state-of-the-art results for some downstream tasks.
翻訳日:2022-01-17 15:25:18 公開日:2022-01-14
# 深い傾きに基づく超高速階段検出

Deep Leaning-Based Ultra-Fast Stair Detection ( http://arxiv.org/abs/2201.05275v1 )

ライセンス: Link先を確認
Chen Wang, Zhongcai Pei, Shuang Qiu, Zhiyong Tang(参考訳) 階段は都市環境において最も一般的な建物である。 階段検出は、外骨格ロボットの環境知覚、ヒューマノイドロボット、救助ロボット、視覚障害者のナビゲーションなど、様々な用途において重要なタスクである。 既存の階段検出アルゴリズムの多くは、階段構造材料の多様性、極端な光、深刻な閉塞を扱うのが困難である。 人間の知覚に触発され,深層学習に基づくエンドツーエンドの手法を提案する。 具体的には,階段線検出の過程を,粗いセマンティックセグメンテーションとオブジェクト検出を含むマルチタスクとして扱う。 入力画像はセルに分割され、各セルが階段線を含むか否かを単純なニューラルネットワークで判断する。 階段線を含む細胞については、各細胞に対する階段線の位置を後退させる。 データセット上での広範な実験により,本手法は速度と精度の両面で高い性能を実現することができた。 軽量版は、同じ解像度で毎秒300フレーム以上を達成できる。 私たちのコードはGitHubで入手可能です。

Staircases are some of the most common building structures in urban environments. Stair detection is an important task for various applications, including the environmental perception of exoskeleton robots, humanoid robots, and rescue robots and the navigation of visually impaired people. Most existing stair detection algorithms have difficulty dealing with the diversity of stair structure materials, extreme light and serious occlusion. Inspired by human perception, we propose an end-to-end method based on deep learning. Specifically, we treat the process of stair line detection as a multitask involving coarse-grained semantic segmentation and object detection. The input images are divided into cells, and a simple neural network is used to judge whether each cell contains stair lines. For cells containing stair lines, the locations of the stair lines relative to each cell are regressed. Extensive experiments on our dataset show that our method can achieve high performance in terms of both speed and accuracy. A lightweight version can even achieve 300+ frames per second with the same resolution. Our code is available at GitHub.
翻訳日:2022-01-17 15:02:11 公開日:2022-01-14
# 映像シーンセグメンテーションのための境界認識自己教師付き学習

Boundary-aware Self-supervised Learning for Video Scene Segmentation ( http://arxiv.org/abs/2201.05277v1 )

ライセンス: Link先を確認
Jonghwan Mun, Minchul Shin, Gunsoo Han, Sangho Lee, Seongsu Ha, Joonseok Lee, Eun-Sol Kim(参考訳) 自己教師付き学習は、基礎的アノテーションを使わずにドメイン内表現を学習することの有効性に注目が集まっている。特に、適切に設計された前文タスク(例えば、対照予測タスク)は、下流タスク(例えば分類タスク)に大幅なパフォーマンス向上をもたらすことが示されている。 そこで,本研究では,映像内のシーン境界を時間的に局所化するタスクである映像シーンセグメンテーションに,効果的なプリテキストタスクの設計を主眼とした自己教師あり学習フレームワークを導入する。 提案手法では,ショット列から擬似境界を2つの連続的非重複部分列に分割し,擬似境界を利用して事前学習を容易にする。 これに基づいて、3つの新しい境界対応プレテキストタスクを導入する。 1)ショットシーンマッチング(SSM) 2)文脈的グループマッチング(cgm)および 3) Pseudo-boundary Prediction (PP), SSM と CGM は,SSM と CGM のモデルを用いて,シーン内類似性とシーン間識別を最大化し,PP は遷移モーメントの同定を奨励する。 包括的分析により,映像シーンのセグメンテーション性能を向上させるために,事前学習と文脈表現の伝達が重要であることを示す。 最後に、movienet-ssegベンチマークで最新技術を達成する。 コードはhttps://github.com/kakaobrain/basslで入手できる。

Self-supervised learning has drawn attention through its effectiveness in learning in-domain representations with no ground-truth annotations; in particular, it is shown that properly designed pretext tasks (e.g., contrastive prediction task) bring significant performance gains for downstream tasks (e.g., classification task). Inspired from this, we tackle video scene segmentation, which is a task of temporally localizing scene boundaries in a video, with a self-supervised learning framework where we mainly focus on designing effective pretext tasks. In our framework, we discover a pseudo-boundary from a sequence of shots by splitting it into two continuous, non-overlapping sub-sequences and leverage the pseudo-boundary to facilitate the pre-training. Based on this, we introduce three novel boundary-aware pretext tasks: 1) Shot-Scene Matching (SSM), 2) Contextual Group Matching (CGM) and 3) Pseudo-boundary Prediction (PP); SSM and CGM guide the model to maximize intra-scene similarity and inter-scene discrimination while PP encourages the model to identify transitional moments. Through comprehensive analysis, we empirically show that pre-training and transferring contextual representation are both critical to improving the video scene segmentation performance. Lastly, we achieve the new state-of-the-art on the MovieNet-SSeg benchmark. The code is available at https://github.com/kakaobrain/bassl.
翻訳日:2022-01-17 15:01:58 公開日:2022-01-14
# MMNet:マイクロ圧縮認識のための筋運動誘導ネットワーク

MMNet: Muscle motion-guided network for micro-expression recognition ( http://arxiv.org/abs/2201.05297v1 )

ライセンス: Link先を確認
Hanting Li, Mingzhe Sui, Zhaoqing Zhu, Feng Zhao(参考訳) 顔のマイクロ・エクスプレッション(ME)は、人々の本当の感情を明らかにする不随意の顔の動きであり、精神疾患の早期介入、国家安全保障、および多くの人間とコンピュータの相互作用システムにおいて重要な役割を果たす。 しかし、既存のマイクロ圧縮データセットは限定的であり、通常は優れた分類器の訓練にいくつかの課題をもたらす。 顔面筋の微妙な運動をモデル化するために,ロバストなマイクロ表現認識(mer)フレームワーク,すなわち筋運動誘導ネットワーク(mmnet)を提案する。 特に、連続注意ブロックは、身元情報が少ない局所的な微妙な筋肉運動パターンのモデル化に焦点をあてるが、これは、多くの身元情報を持つ完全なビデオフレームから特徴を直接抽出する従来の方法と異なる。 また,視覚トランスフォーマに基づいて位置校正(pc)モジュールを設計する。 2つの枝の端にPCモジュールによって生成された顔の位置埋め込みを追加することで、PCモジュールはMERの顔面筋運動パターンの特徴に位置情報を追加するのに役立つ。 3つの公開マイクロ表現データセットに関する広範な実験は、我々のアプローチが最先端のメソッドよりも大きなマージンで優れていることを示している。

Facial micro-expressions (MEs) are involuntary facial motions revealing peoples real feelings and play an important role in the early intervention of mental illness, the national security, and many human-computer interaction systems. However, existing micro-expression datasets are limited and usually pose some challenges for training good classifiers. To model the subtle facial muscle motions, we propose a robust micro-expression recognition (MER) framework, namely muscle motion-guided network (MMNet). Specifically, a continuous attention (CA) block is introduced to focus on modeling local subtle muscle motion patterns with little identity information, which is different from most previous methods that directly extract features from complete video frames with much identity information. Besides, we design a position calibration (PC) module based on the vision transformer. By adding the position embeddings of the face generated by PC module at the end of the two branches, the PC module can help to add position information to facial muscle motion pattern features for the MER. Extensive experiments on three public micro-expression datasets demonstrate that our approach outperforms state-of-the-art methods by a large margin.
翻訳日:2022-01-17 15:01:34 公開日:2022-01-14
# SIFTとDCNNを用いた残差制約任意画像スタイル転送

Saliency Constrained Arbitrary Image Style Transfer using SIFT and DCNN ( http://arxiv.org/abs/2201.05346v1 )

ライセンス: Link先を確認
HuiHuang Zhao, Yaonan Wang and Yuhua Li(参考訳) 本稿では,Deep Convolutional Neural Networks (DCNN)モデルを用いて,サンプル画像(スタイル画像)を他の画像(コンテンツ画像)に転送する新たな画像合成手法を提案する。 一般的なニューラルスタイルの転送方法を使用する場合、スタイル画像のテクスチャや色は通常、コンテンツ画像に不完全に転送されるか、あるいはいくつかの可視誤差が発生する。 本稿では,その効果を低減・回避するための新しいサリエンシ制約手法を提案する。 まず,本手法で最も適した方法を選択するために,既存の塩分濃度検出法について評価する。 選択されたサリエンシー検出方法は、同じサリエンシーを有するコンテンツ画像のオブジェクトに対応するスタイル画像内のオブジェクトを検出するために使用される。 また、スタイル画像とコンテンツにおいてサイズや解像度が異なるという問題を解決するため、スケール不変の特徴変換を用いて一連のスタイル画像とコンテンツ画像を生成し、マッチングマッチングのためのより多くの特徴マップを生成することができる。 そこで, 新たな損失関数を提案し, 相違損失, スタイル損失, コンテンツ損失を組み合わせ, 繰り返しの相違による相違度制約の勾配を加味する。 最後に、スタイル転送のための改良された深層CNNフレームワークへのマルチチャネル入力として、ソース画像とサリエンシ検出結果を利用する。 実験は、ソースイメージの塩分マップが正しいマッチングを見つけ、アーティファクトを避けるのに役立つことを示している。 異なる種類の画像に対する実験結果から,本手法は最近の出版物から9つの代表的な手法より優れ,ロバスト性も良好であることが示された。

This paper develops a new image synthesis approach to transfer an example image (style image) to other images (content images) by using Deep Convolutional Neural Networks (DCNN) model. When common neural style transfer methods are used, the textures and colors in the style image are usually transferred imperfectly to the content image, or some visible errors are generated. This paper proposes a novel saliency constrained method to reduce or avoid such effects. It first evaluates some existing saliency detection methods to select the most suitable one for use in our method. The selected saliency detection method is used to detect the object in the style image, corresponding to the object of the content image with the same saliency. In addition, aim to solve the problem that the size or resolution is different in the style image and content, the scale-invariant feature transform is used to generate a series of style images and content images which can be used to generate more feature maps for patches matching. It then proposes a new loss function combining the saliency loss, style loss and content loss, adding gradient of saliency constraint into style transfer in iterations. Finally the source images and saliency detection results are utilized as multichannel input to an improved deep CNN framework for style transfer. The experiments show that the saliency maps of source images can help find the correct matching and avoid artifacts. Experimental results on different kind of images demonstrate that our method outperforms nine representative methods from recent publications and has good robustness.
翻訳日:2022-01-17 15:01:16 公開日:2022-01-14
# HardBoost: ハードクラスでゼロショット学習を促進する

HardBoost: Boosting Zero-Shot Learning with Hard Classes ( http://arxiv.org/abs/2201.05479v1 )

ライセンス: Link先を確認
Bo Liu, Lihua Hu, Zhanyi Hu, and Qiulei Dong(参考訳) この研究は、ゼロショット学習(ZSL)におけるいわゆるハードクラス問題(英語版)の体系的分析であり、一部の未確認クラスは、他のクラスよりもZSLのパフォーマンスに不均等に影響を及ぼし、ハードクラスを検知し、悪用することで問題を修復する方法である。 まず, ハードクラス問題(ハードクラス問題)がユビキタスな現象であり, 使用済みのZSL法によらず, 持続することを示す実験的な知見を報告する。 そして,未知クラス間の高い意味的親和性は,ハードネスの根底にある可能性の高い原因であり,ハードクラスを検出するために2つのメトリクスを設計する。 最後に、2つのフレームワークがハードクラスを検出して活用し、1つはインダクティブな設定で、もう1つはトランスダクティブな設定で解決する。 提案されたフレームワークは、ほとんど既存のzslメソッドに対応し、少ない労力でパフォーマンスをさらに向上させることができる。 3つの人気のあるベンチマークに関する大規模な実験は、ZSLのハードクラスを特定し、活用することで利点を実証している。

This work is a systematical analysis on the so-called hard class problem in zero-shot learning (ZSL), that is, some unseen classes disproportionally affect the ZSL performances than others, as well as how to remedy the problem by detecting and exploiting hard classes. At first, we report our empirical finding that the hard class problem is a ubiquitous phenomenon and persists regardless of used specific methods in ZSL. Then, we find that high semantic affinity among unseen classes is a plausible underlying cause of hardness and design two metrics to detect hard classes. Finally, two frameworks are proposed to remedy the problem by detecting and exploiting hard classes, one under inductive setting, the other under transductive setting. The proposed frameworks could accommodate most existing ZSL methods to further significantly boost their performances with little efforts. Extensive experiments on three popular benchmarks demonstrate the benefits by identifying and exploiting the hard classes in ZSL.
翻訳日:2022-01-17 15:00:49 公開日:2022-01-14
# lidar移動地図データによる建築物の洪水リスクマップの決定

Determination of building flood risk maps from LiDAR mobile mapping data ( http://arxiv.org/abs/2201.05514v1 )

ライセンス: Link先を確認
Yu Feng, Qing Xiao, Claus Brenner, Aaron Peche, Juntao Yang, Udo Feuerhake, Monika Sester(参考訳) 都市化が進むにつれて、多くの都市で洪水が大きな課題となっている。 予測降水量、地形、パイプネットワークに基づいて、洪水シミュレーションは洪水のリスクのある地域や建物に早期の警告を与えることができる。 基礎窓、ドア、地下のガレージの入り口は、浸水が建物に流れ込む一般的な場所である。 建物の中には洪水の脅威を考慮して準備や設計がなされているものもあるが、そうではないものもある。 したがって、これらのファサードの開口部の高さを知ることは、入水しやすい場所を特定するのに役立つ。 しかし、ほとんどの都市ではそのようなデータは利用できない。 望まれる対象の伝統的な調査が用いられることもあるが、これは非常に時間と労力を要するプロセスである。 本研究では,lidarモバイルマッピングデータから窓とドアを抽出するための新しいプロセスを提案する。 ディープラーニングオブジェクト検出モデルは、これらのオブジェクトを特定するために訓練される。 通常、これは大量の手動アノテーションを提供する必要がある。 本稿では,ルールベースの手法を用いてこの問題を緩和する。 最初のステップでは、ルールベースのメソッドを使用して擬似ラベルを生成する。 半教師付き学習戦略は、3つの異なるレベルの監督によって適用される。 その結果、自動生成された擬似ラベルのみを用いることで、F1スコアの点において、学習ベースモデルはルールベースのアプローチを14.6%上回る結果となった。 人間の監督から5時間経つと、さらなる6.2%の改善が可能となる。 ファサード開口部の高さを洪水シミュレーションモデルから予測した水位と比較することにより、建物毎の洪水リスクレベルを割り当てる地図を作成することができる。 この情報は洪水予報と組み合わせることで、市のインフラや住宅ビルのより標的となる防災ガイドを提供することができる。

With increasing urbanization, flooding is a major challenge for many cities today. Based on forecast precipitation, topography, and pipe networks, flood simulations can provide early warnings for areas and buildings at risk of flooding. Basement windows, doors, and underground garage entrances are common places where floodwater can flow into a building. Some buildings have been prepared or designed considering the threat of flooding, but others have not. Therefore, knowing the heights of these facade openings helps to identify places that are more susceptible to water ingress. However, such data is not yet readily available in most cities. Traditional surveying of the desired targets may be used, but this is a very time-consuming and laborious process. This research presents a new process for the extraction of windows and doors from LiDAR mobile mapping data. Deep learning object detection models are trained to identify these objects. Usually, this requires to provide large amounts of manual annotations. In this paper, we mitigate this problem by leveraging a rule-based method. In a first step, the rule-based method is used to generate pseudo-labels. A semi-supervised learning strategy is then applied with three different levels of supervision. The results show that using only automatically generated pseudo-labels, the learning-based model outperforms the rule-based approach by 14.6% in terms of F1-score. After five hours of human supervision, it is possible to improve the model by another 6.2%. By comparing the detected facade openings' heights with the predicted water levels from a flood simulation model, a map can be produced which assigns per-building flood risk levels. This information can be combined with flood forecasting to provide a more targeted disaster prevention guide for the city's infrastructure and residential buildings.
翻訳日:2022-01-17 15:00:28 公開日:2022-01-14
# ViT2Hash: 教師なしの情報保存ハッシュ

ViT2Hash: Unsupervised Information-Preserving Hashing ( http://arxiv.org/abs/2201.05541v1 )

ライセンス: Link先を確認
Qinkang Gong, Liangdao Wang, Hanjiang Lai, Yan Pan, Jian Yin(参考訳) 教師なしの2進符号に画像をマッピングする教師なし画像ハッシュは、高い圧縮率の圧縮機である。 したがって、元のデータの有意義な情報を保存する方法が重要な問題である。 本稿では,視覚表現の学習において大きな進歩を見せている視覚前訓練モデルViTに触発されて,対象の教師なしハッシュタスクに対して,ViTモデルを微調整する簡易情報保存圧縮機を提案する。 具体的には、画素から連続的な特徴まで、まず、劣化した画像を入力として、トレーニング済みのViTモデルと完全な画像から元の特徴を再構成し、特徴抽出器が原データの有意義な情報を保存することに集中できるように、特徴保存モジュールを提案する。 第二に、連続的な特徴からハッシュコードまで、提案したKullback-Leibler分散損失を用いて、トレーニング済みのViTモデルから意味情報を保持するためのハッシュ保存モジュールを提案する。 また、量子化誤差を最小限に抑えるために量子化損失と類似性損失を加える。 提案手法は非常に単純で,3つのベンチマーク画像データセット上でのMAPの精度は極めて高い。

Unsupervised image hashing, which maps images into binary codes without supervision, is a compressor with a high compression rate. Hence, how to preserving meaningful information of the original data is a critical problem. Inspired by the large-scale vision pre-training model, known as ViT, which has shown significant progress for learning visual representations, in this paper, we propose a simple information-preserving compressor to finetune the ViT model for the target unsupervised hashing task. Specifically, from pixels to continuous features, we first propose a feature-preserving module, using the corrupted image as input to reconstruct the original feature from the pre-trained ViT model and the complete image, so that the feature extractor can focus on preserving the meaningful information of original data. Secondly, from continuous features to hash codes, we propose a hashing-preserving module, which aims to keep the semantic information from the pre-trained ViT model by using the proposed Kullback-Leibler divergence loss. Besides, the quantization loss and the similarity loss are added to minimize the quantization error. Our method is very simple and achieves a significantly higher degree of MAP on three benchmark image datasets.
翻訳日:2022-01-17 15:00:05 公開日:2022-01-14
# 畳み込みニューラルネットワークモデルを用いたFISHおよびナノSIMS画像のマルチモーダル登録

Multimodal registration of FISH and nanoSIMS images using convolutional neural network models ( http://arxiv.org/abs/2201.05545v1 )

ライセンス: Link先を確認
Xiaojia He, Christof Meile, Suchendra M. Bhandarkar(参考訳) ナノスケール二次イオン質量分析法 (nanoSIMS) および蛍光 in situ hybridization (FISH) 顕微鏡は、微生物研究における標的微生物群集のアイデンティティと細胞活性の高解像度・多モード画像表現を提供する。 微生物学者にとって重要であるにもかかわらず、FISHおよびnanoSIMS画像のマルチモーダルな登録は、どちらの画像にも形態的歪みと背景雑音があるため困難である。 本研究では,多スケール特徴抽出のための畳み込みニューラルネットワーク(cnns),最小変換コスト特徴マッチングの計算のための形状コンテキスト,魚およびナノsims画像のマルチモーダル登録のための薄板スプライン(tps)モデルを用いた。 6つの試験されたCNNモデル、VGG16、VGG19、GoogLeNet、ShuffleNet、ResNet18、ResNet101はいずれもよく機能し、背景ノイズと形態歪みが著しいマルチモーダル画像の登録におけるCNNの有用性を示した。 また,バイナライゼーションにより保存された骨材形状を多モード微生物画像の登録に有用であることを示す。

Nanoscale secondary ion mass spectrometry (nanoSIMS) and fluorescence in situ hybridization (FISH) microscopy provide high-resolution, multimodal image representations of the identity and cell activity respectively of targeted microbial communities in microbiological research. Despite its importance to microbiologists, multimodal registration of FISH and nanoSIMS images is challenging given the morphological distortion and background noise in both images. In this study, we use convolutional neural networks (CNNs) for multiscale feature extraction, shape context for computation of the minimum transformation cost feature matching and the thin-plate spline (TPS) model for multimodal registration of the FISH and nanoSIMS images. All the six tested CNN models, VGG16, VGG19, GoogLeNet and ShuffleNet, ResNet18 and ResNet101 performed well, demonstrating the utility of CNNs in the registration of multimodal images with significant background noise and morphology distortion. We also show aggregate shape preserved by binarization to be a robust feature for registering multimodal microbiology-related images.
翻訳日:2022-01-17 14:58:32 公開日:2022-01-14
# 大規模分散キャンペーンにおけるオンラインコミュニティの定着予測

This Must Be the Place: Predicting Engagement of Online Communities in a Large-scale Distributed Campaign ( http://arxiv.org/abs/2201.05334v1 )

ライセンス: Link先を確認
Abraham Israeli, Alexander Kremiansky, Oren Tsur(参考訳) 集団的意思決定を大規模に理解し,コミュニティ組織とコミュニティダイナミクスが集団的行動をどのように形成するかを,社会科学研究の核心に示す。 本研究では,数百万人のアクティブなメンバによる数千のコミュニティの行動について検討する。 我々は,予想外の大規模分散キャンペーンを行うコミュニティの予測という,新たな課題を定義した。 この目的のために,テキストキュー,コミュニティメタデータ,構造特性を組み合わせたハイブリッドモデルを開発した。 本稿では,この多面モデルが分散環境における大規模集団意思決定を正確に予測できることを示す。 私たちはRedditのr/placeを通じて、何千ものコミュニティで自己組織化された数百万のユーザが衝突し、アジェンダを実現するために協力する大規模なオンライン実験を通じて、私たちのモデルの適用性を実証しました。 ハイブリッドモデルではF1予測スコアが0.826である。 粗いメタ機能は、きめ細かいテキストの手がかりと同じくらい予測精度に重要であるが、明示的な構造的特徴はより小さい役割を担っている。 モデルを解釈し,r/place実験に参加したコミュニティの特徴について,様々な社会的洞察を提供し,支援する。 我々の結果と分析は、集団行動を促進する複雑な社会的ダイナミクスと、ユーザの協調を促進する要因に光を当てた。 r/place実験の規模とユニークな条件は、オンラインアクティビズム、ヘイトスピーチの普及、政治的偏りの低減など、より広い文脈でこの研究結果が適用可能であることを示唆している。 このモデルのより広い適用性は、ウォールストリートベッツのコミュニティ、彼らのr/placeにおける役割、および2021年のgamestop short squeezeキャンペーンの広範な分析を通して示される。

Understanding collective decision making at a large-scale, and elucidating how community organization and community dynamics shape collective behavior are at the heart of social science research. In this work we study the behavior of thousands of communities with millions of active members. We define a novel task: predicting which community will undertake an unexpected, large-scale, distributed campaign. To this end, we develop a hybrid model, combining textual cues, community meta-data, and structural properties. We show how this multi-faceted model can accurately predict large-scale collective decision-making in a distributed environment. We demonstrate the applicability of our model through Reddit's r/place a large-scale online experiment in which millions of users, self-organized in thousands of communities, clashed and collaborated in an effort to realize their agenda. Our hybrid model achieves a high F1 prediction score of 0.826. We find that coarse meta-features are as important for prediction accuracy as fine-grained textual cues, while explicit structural features play a smaller role. Interpreting our model, we provide and support various social insights about the unique characteristics of the communities that participated in the r/place experiment. Our results and analysis shed light on the complex social dynamics that drive collective behavior, and on the factors that propel user coordination. The scale and the unique conditions of the r/place experiment suggest that our findings may apply in broader contexts, such as online activism, (countering) the spread of hate speech and reducing political polarization. The broader applicability of the model is demonstrated through an extensive analysis of the WallStreetBets community, their role in r/place and the GameStop short squeeze campaign of 2021.
翻訳日:2022-01-17 14:58:12 公開日:2022-01-14
# チャットボットのメンタルヘルスアセスメント

Mental Health Assessment for the Chatbots ( http://arxiv.org/abs/2201.05382v1 )

ライセンス: Link先を確認
Yong Shan, Jinchao Zhang, Zekang Li, Yang Feng, Jie Zhou(参考訳) 対話システム評価に関するこれまでの研究は、通常、局所的および技術的指標であるチャットボットが生成する応答の品質評価(例えば、流束、関連性など)に焦点を当てている。 未成年者を含む何百万ものオンラインユーザーに反応するチャットボットは、心理的な影響を避けるために健全な精神傾向を持つべきだと主張する。 本稿では,チャットボットのメンタルヘルスアセスメント次元(抑うつ,不安,アルコール依存症,共感)をいくつか確立し,質問紙ベースのメンタルヘルスアセスメント手法を提案する。 我々は、よく知られたオープンドメインチャットボットの評価を行い、これらのチャットボットに深刻なメンタルヘルス問題があることを発見した。 本研究は,データセット構築時のメンタルヘルスリスクとモデルトレーニング手順の無視によるものであると考えている。 我々は、チャットボットの深刻なメンタルヘルス問題に研究者の注意を惹きつけ、ポジティブな感情的相互作用におけるチャットボットの能力を向上させることを期待する。

Previous researches on dialogue system assessment usually focus on the quality evaluation (e.g. fluency, relevance, etc) of responses generated by the chatbots, which are local and technical metrics. For a chatbot which responds to millions of online users including minors, we argue that it should have a healthy mental tendency in order to avoid the negative psychological impact on them. In this paper, we establish several mental health assessment dimensions for chatbots (depression, anxiety, alcohol addiction, empathy) and introduce the questionnaire-based mental health assessment methods. We conduct assessments on some well-known open-domain chatbots and find that there are severe mental health issues for all these chatbots. We consider that it is due to the neglect of the mental health risks during the dataset building and the model training procedures. We expect to attract researchers' attention to the serious mental health problems of chatbots and improve the chatbots' ability in positive emotional interaction.
翻訳日:2022-01-17 14:57:43 公開日:2022-01-14
# 植物表現の適応的伝達学習

Adaptive Transfer Learning for Plant Phenotyping ( http://arxiv.org/abs/2201.05261v1 )

ライセンス: Link先を確認
Jun Wu, Elizabeth A. Ainsworth, Sheng Wang, Kaiyu Guan, Jingrui He(参考訳) 植物フェノタイピング(Guo et al. 2021; Pieruschka et al. 2019)は、植物の成長に関連する植物の多様性を研究することに焦点を当てている。 より具体的には、植物の解剖学的、個体発生学的、生理的、生化学的特性を正確に測定することにより、異なる環境における植物の成長の重要な要因を特定することができる。 1つの一般的なアプローチは、ハイパースペクトル反射率(Yendrek et al. 2017; Wang et al. 2021)を用いて植物の特性を予測することである。 しかし, 植物表現における高スペクトル反射率データの分布は, 異なる環境において異なる可能性がある。 つまり、異なる環境で1つのプラントで個別に機械学習モデルを学習することは、計算的に拡張可能である。 そこで本研究では,植物表現型化における現代機械学習モデルの知識伝達可能性の研究に焦点をあてる。 具体的には、以下の質問に答えることを目的としている。 1)従来の機械学習モデル、例えば部分最小二乗回帰(plsr)、ガウス過程回帰(gpr)、多層パーセプトロン(mlp)の性能は、植物表現型に対する注釈付きサンプルの数にどのように影響するか。 2) ニューラルネットワークを用いたトランスファー学習モデルが植物表現型の性能を向上できるか? 3) 植物表現型化のための無限幅隠れ層を用いたニューラルネットワークによるトランスファー学習の改善は可能か?

Plant phenotyping (Guo et al. 2021; Pieruschka et al. 2019) focuses on studying the diverse traits of plants related to the plants' growth. To be more specific, by accurately measuring the plant's anatomical, ontogenetical, physiological and biochemical properties, it allows identifying the crucial factors of plants' growth in different environments. One commonly used approach is to predict the plant's traits using hyperspectral reflectance (Yendrek et al. 2017; Wang et al. 2021). However, the data distributions of the hyperspectral reflectance data in plant phenotyping might vary in different environments for different plants. That is, it would be computationally expansive to learn the machine learning models separately for one plant in different environments. To solve this problem, we focus on studying the knowledge transferability of modern machine learning models in plant phenotyping. More specifically, this work aims to answer the following questions. (1) How is the performance of conventional machine learning models, e.g., partial least squares regression (PLSR), Gaussian process regression (GPR) and multi-layer perceptron (MLP), affected by the number of annotated samples for plant phenotyping? (2) Whether could the neural network based transfer learning models improve the performance of plant phenotyping? (3) Could the neural network based transfer learning be improved by using infinite-width hidden layers for plant phenotyping?
翻訳日:2022-01-17 14:56:47 公開日:2022-01-14
# リンク予測のための構造強化グラフニューラルネットワーク

Structure Enhanced Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2201.05293v1 )

ライセンス: Link先を確認
Baole Ai, Zhou Qin, Wenting Shen, Yong Li(参考訳) グラフニューラルネットワーク(GNN)は様々なタスクにおいて有望な結果を示しており、リンク予測が重要である。 GNNモデルは、通常、近隣情報を中央ノードに再帰的に集約するノード中心のメッセージパッシング手順に従う。 このパラダイムに従い、ノードの特徴は、ノードの位置とそれが果たす役割を気にせずにエッジを通過する。 しかし、無視されたトポロジ情報はリンク予測タスクに有用であることが示されている。 本稿では,リンク予測のための構造拡張グラフニューラルネットワーク(SEG)を提案する。 SEGは,対象ノードのトポロジ情報を取り込むパスラベリング手法を導入し,その構造を通常のGNNモデルに組み込む。 構造エンコーダと深部GNNモデルを共同でトレーニングすることにより、SEGはトポロジ構造とノード特徴を融合させ、グラフ情報を完全に活用する。 OGBリンク予測データセットの実験は、SEGが3つの公開データセットすべてで最先端の結果を達成することを示した。

Graph Neural Networks (GNNs) have shown promising results in various tasks, among which link prediction is an important one. GNN models usually follow a node-centric message passing procedure that aggregates the neighborhood information to the central node recursively. Following this paradigm, features of nodes are passed through edges without caring about where the nodes are located and which role they played. However, the neglected topological information is shown to be valuable for link prediction tasks. In this paper, we propose Structure Enhanced Graph neural network (SEG) for link prediction. SEG introduces the path labeling method to capture surrounding topological information of target nodes and then incorporates the structure into an ordinary GNN model. By jointly training the structure encoder and deep GNN model, SEG fuses topological structures and node features to take full advantage of graph information. Experiments on the OGB link prediction datasets demonstrate that SEG achieves state-of-the-art results among all three public datasets.
翻訳日:2022-01-17 14:55:08 公開日:2022-01-14
# 時系列予測のための解釈可能な動的アンサンブルアーキテクチャ

IDEA: Interpretable Dynamic Ensemble Architecture for Time Series Prediction ( http://arxiv.org/abs/2201.05336v1 )

ライセンス: Link先を確認
Mengyue Zha, Kani Chen, Tong Zhang(参考訳) 説明可能なアンサンブルによる不定な時系列予測の精度と一般化をオンザフライで向上させる。 本稿では,解釈可能なベース学習者が群としての疎コミュニケーションと独立して予測を行うための,解釈可能な動的アンサンブルアーキテクチャ(IDEA)を提案する。 このモデルは、グループバックキャスト残差と再帰入力競合によって接続された複数の連続的に積み重ねられたグループで構成されている。 エンドツーエンドのトレーニングによるアンサンブルは、水平および垂直の両方で、最先端(SOTA)のパフォーマンスをもたらす。 予測精度はTOURISMデータセットで最高の統計ベンチマークで2.6%向上し、M4データセットで最高のディープラーニングベンチマークで2%向上した。 アーキテクチャにはいくつかの利点があり、様々なドメインの時系列に適用でき、特殊なモジュール構造を持ち、タスク分散の変化にロバストなユーザに対して説明できる。

We enhance the accuracy and generalization of univariate time series point prediction by an explainable ensemble on the fly. We propose an Interpretable Dynamic Ensemble Architecture (IDEA), in which interpretable base learners give predictions independently with sparse communication as a group. The model is composed of several sequentially stacked groups connected by group backcast residuals and recurrent input competition. Ensemble driven by end-to-end training both horizontally and vertically brings state-of-the-art (SOTA) performances. Forecast accuracy improves by 2.6% over the best statistical benchmark on the TOURISM dataset and 2% over the best deep learning benchmark on the M4 dataset. The architecture enjoys several advantages, being applicable to time series from various domains, explainable to users with specialized modular structure and robust to changes in task distribution.
翻訳日:2022-01-17 14:54:52 公開日:2022-01-14
# グラフマッチングのための自由グラフニューラルネットワークのトレーニング

Training Free Graph Neural Networks for Graph Matching ( http://arxiv.org/abs/2201.05349v1 )

ライセンス: Link先を確認
Zhiyuan Liu, Yixin Cao, Fuli Feng, Xiang Wang, Xindi Shang, Jie Tang, Kenji Kawaguchi, Tat-Seng Chua(参考訳) 学習なしでグラフニューラルネットワーク(gnns)ベースのグラフマッチングの性能を向上させるためのフレームワークであるtfgm(training free graph matching)を提案する。 TFGMはGNNのトレーニングにおいて2つの重要な問題を後押しする。 1)高価な注釈による限定的な監督 2)トレーニングの計算コスト。 基本的なフレームワークであるBasicTFGMは、まずグラフマッチング手法の推論段階を採用することで提案される。 解析の結果,BasicTFGMはグラフマッチングの二次代入定式化に対する線形緩和であることがわかった。 これにより、構造互換性の維持と効率的な多項式複雑性が保証される。 経験的に、gnnのアーキテクチャに2種類のマッチングプリエントを手作りすることで、基本tfgmをさらに改善する:異なるローカルのノード近傍の比較と、利用可能であればアノテーションデータを活用する。 評価のために,画像間のキーポイントマッチング,知識グラフ間の半教師付きエンティティアライメント,タンパク質相互作用ネットワーク間の教師なしアライメントなど,幅広い設定について広範な実験を行った。 TFGMをさまざまなGNNに適用することは、ベースラインよりも有望な改善を示している。 さらなるアブレーション研究により、tfgmの効率的かつ効率的なトレーニングフリー特性が示される。 私たちのコードはhttps://github.com/acharkq/training-free-graph-matchingで利用可能です。

We present TFGM (Training Free Graph Matching), a framework to boost the performance of Graph Neural Networks (GNNs) based graph matching without training. TFGM sidesteps two crucial problems when training GNNs: 1) the limited supervision due to expensive annotation, and 2) training's computational cost. A basic framework, BasicTFGM, is first proposed by adopting the inference stage of graph matching methods. Our analysis shows that the BasicTFGM is a linear relaxation to the quadratic assignment formulation of graph matching. This guarantees the preservation of structure compatibility and an efficient polynomial complexity. Empirically, we further improve the BasicTFGM by handcrafting two types of matching priors into the architecture of GNNs: comparing node neighborhoods of different localities and utilizing annotation data if available. For evaluation, we conduct extensive experiments on a broad set of settings, including supervised keypoint matching between images, semi-supervised entity alignment between knowledge graphs, and unsupervised alignment between protein interaction networks. Applying TFGM on various GNNs shows promising improvements over baselines. Further ablation studies demonstrate the effective and efficient training-free property of TFGM. Our code is available at https://github.com/acharkq/Training-Free-Graph-Matching.
翻訳日:2022-01-17 14:54:40 公開日:2022-01-14
# オフライン強化学習のためのモデルフリーとモデルベースアルゴリズムの比較

Comparing Model-free and Model-based Algorithms for Offline Reinforcement Learning ( http://arxiv.org/abs/2201.05433v1 )

ライセンス: Link先を確認
Phillip Swazinna, Steffen Udluft, Daniel Hein, Thomas Runkler(参考訳) オフライン強化学習(rl)アルゴリズムは、ムジョコのような環境を念頭に置いて設計されることが多い。 我々は、複雑なノイズや部分的に観測可能な状態を含む実世界の問題に近い設定でアルゴリズムをテストするために、モデルフリー、モデルベース、および様々な産業ベンチマーク(IB)データセットに対するハイブリッドオフラインRLアプローチを比較した。 IBでは、ハイブリッドアプローチは厳しい困難に直面しており、ロールアウトベースのアルゴリズムや、より単純な正規化アルゴリズムによるモデルフリーアルゴリズムといった、より単純なアルゴリズムがデータセット上で最高のパフォーマンスを発揮する。

Offline reinforcement learning (RL) Algorithms are often designed with environments such as MuJoCo in mind, in which the planning horizon is extremely long and no noise exists. We compare model-free, model-based, as well as hybrid offline RL approaches on various industrial benchmark (IB) datasets to test the algorithms in settings closer to real world problems, including complex noise and partially observable states. We find that on the IB, hybrid approaches face severe difficulties and that simpler algorithms, such as rollout based algorithms or model-free algorithms with simpler regularizers perform best on the datasets.
翻訳日:2022-01-17 14:54:22 公開日:2022-01-14
# ラマン分光法マイクロプラスチックデータのスペクトルシグネチャによる高分子タイプの機械学習

Machine Learning of polymer types from the spectral signature of Raman spectroscopy microplastics data ( http://arxiv.org/abs/2201.05445v1 )

ライセンス: Link先を確認
Sheela Ramanna and Danila Morozovskii and Sam Swanson and Jennifer Bruneau(参考訳) 現在、マイクロプラスチック中のポリマータイプを識別する化合物構造を分析するためのツールや技術は、環境に優しいマイクロプラスチックには適していない。 環境風化因子によって劣化したマイクロプラスチックは、風化過程に晒されていないマイクロプラスチックのサンプルよりも分析的確実性が低い。 機械学習ツールと技術は、マイクロプラスチック分析における確実性のための研究ツールのキャリブレーションを向上します。 本稿では,サンプルが環境劣化の影響を受けていない場合に,比較的少量のラベル付き入力データを用いて,機械学習(ML)アルゴリズムがポリマーのタイプを識別できるように,署名(ラマンシフト値)が十分に異なるかどうかを検討する。 いくつかのMLモデルは、ラマンシフトと様々なプラスチック粒子の強度を含む、よく知られたSLOPP(Spectral Libraries of Plastic Particles)で訓練され、その後、22種類のポリマーからなる環境劣化プラスチック粒子(SloPP-E)で試験された。 大規模な前処理と増補の後、訓練されたランダム森林モデルがSloPP-Eデータセットでテストされ、93.81%の分類精度が89%から改善された。

The tools and technology that are currently used to analyze chemical compound structures that identify polymer types in microplastics are not well-calibrated for environmentally weathered microplastics. Microplastics that have been degraded by environmental weathering factors can offer less analytic certainty than samples of microplastics that have not been exposed to weathering processes. Machine learning tools and techniques allow us to better calibrate the research tools for certainty in microplastics analysis. In this paper, we investigate whether the signatures (Raman shift values) are distinct enough such that well studied machine learning (ML) algorithms can learn to identify polymer types using a relatively small amount of labeled input data when the samples have not been impacted by environmental degradation. Several ML models were trained on a well-known repository, Spectral Libraries of Plastic Particles (SLOPP), that contain Raman shift and intensity results for a range of plastic particles, then tested on environmentally aged plastic particles (SloPP-E) consisting of 22 polymer types. After extensive preprocessing and augmentation, the trained random forest model was then tested on the SloPP-E dataset resulting in an improvement in classification accuracy of 93.81% from 89%.
翻訳日:2022-01-17 14:54:10 公開日:2022-01-14
# 対照的なラプラシア固有写像

Contrastive Laplacian Eigenmaps ( http://arxiv.org/abs/2201.05493v1 )

ライセンス: Link先を確認
Hao Zhu, Ke Sun, Piotr Koniusz(参考訳) グラフの対照的な学習は類似性の概念の下で類似/類似ノード対のノード表現を惹きつける。 グラフの内在的性質と構造特性を保存するために、低次元のノードの埋め込みと組み合わせることができる。 本稿では,有名なラプラシアン固有写像を対照的な学習で拡張し,これらをContrastive Laplacian EigenmapS (COLES)と呼ぶ。 ganにインスパイアされたコントラストの定式化から始め、多くのコントラストグラフ埋め込みモデルの基礎となるjensen-shannonの発散は、対照的な設定でサンプリング中に自然に現れる不一致の正と負の分布の下では失敗することを示した。 対照的に、コレスが本質的にワッサーシュタイン距離のサーロゲートを最小化していることは分析的に証明している。 さらに,COLESの損失は,従来比較法でよく用いられてきたペアワイズ損失よりも優れていた,いわゆるブロックコントラスト損失のファミリーに属することを示す。 我々は、DeepWalk、GCN、Graph2Gauss、DGI、GRACEベースラインと比較して、COLESが好ましい精度/スケール性を提供します。

Graph contrastive learning attracts/disperses node representations for similar/dissimilar node pairs under some notion of similarity. It may be combined with a low-dimensional embedding of nodes to preserve intrinsic and structural properties of a graph. In this paper, we extend the celebrated Laplacian Eigenmaps with contrastive learning, and call them COntrastive Laplacian EigenmapS (COLES). Starting from a GAN-inspired contrastive formulation, we show that the Jensen-Shannon divergence underlying many contrastive graph embedding models fails under disjoint positive and negative distributions, which may naturally emerge during sampling in the contrastive setting. In contrast, we demonstrate analytically that COLES essentially minimizes a surrogate of Wasserstein distance, which is known to cope well under disjoint distributions. Moreover, we show that the loss of COLES belongs to the family of so-called block-contrastive losses, previously shown to be superior compared to pair-wise losses typically used by contrastive methods. We show on popular benchmarks/backbones that COLES offers favourable accuracy/scalability compared to DeepWalk, GCN, Graph2Gauss, DGI and GRACE baselines.
翻訳日:2022-01-17 14:53:48 公開日:2022-01-14
# 相互情報圧縮によるコンパクトグラフ構造学習

Compact Graph Structure Learning via Mutual Information Compression ( http://arxiv.org/abs/2201.05540v1 )

ライセンス: Link先を確認
Nian Liu, Xiao Wang, Lingfei Wu, Yu Chen, Xiaojie Guo, Chuan Shi(参考訳) グラフ構造学習(GSL)は最近、グラフ構造を最適化する能力とグラフニューラルネットワーク(GNN)の適切なパラメータを同時に学習する能力に大きな注目を集めている。 現在のGSL法は主に単一または複数の情報ソース(基本ビュー)から最適グラフ構造(最終ビュー)を学習するが、最適グラフ構造とは何かに関する理論的ガイダンスはまだ探索されていない。 本質的には、最適なグラフ構造は、冗長なノイズを可能な限り圧縮しながらタスクに関する情報だけを含むべきである。 そのような構造を原則的にどうやって得るか? 本稿では,基本ビューと最終ビューを相互情報に基づいて最適化し,それらの性能をラベルに同時に保持すれば,最終ビューは最小限の構造となることを理論的に証明する。 そこで我々は,MI圧縮によるコンパクトGSLアーキテクチャ,CoGSLを提案する。 具体的には、モデルの2つの入力として元のグラフから2つの基本的なビューを抽出する。 次に,推定ビューを最終ビューに融合する適応手法を提案する。 さらに、推定ビューと最終ビューのパフォーマンスを維持し、2つのビュー毎の相互情報を低減する。 CoGSLの性能を総合的に評価するために、クリーンで攻撃的な条件下で複数のデータセットに対して広範な実験を行い、CoGSLの有効性と堅牢性を示す。

Graph Structure Learning (GSL) recently has attracted considerable attentions in its capacity of optimizing graph structure as well as learning suitable parameters of Graph Neural Networks (GNNs) simultaneously. Current GSL methods mainly learn an optimal graph structure (final view) from single or multiple information sources (basic views), however the theoretical guidance on what is the optimal graph structure is still unexplored. In essence, an optimal graph structure should only contain the information about tasks while compress redundant noise as much as possible, which is defined as "minimal sufficient structure", so as to maintain the accurancy and robustness. How to obtain such structure in a principled way? In this paper, we theoretically prove that if we optimize basic views and final view based on mutual information, and keep their performance on labels simultaneously, the final view will be a minimal sufficient structure. With this guidance, we propose a Compact GSL architecture by MI compression, named CoGSL. Specifically, two basic views are extracted from original graph as two inputs of the model, which are refinedly reestimated by a view estimator. Then, we propose an adaptive technique to fuse estimated views into the final view. Furthermore, we maintain the performance of estimated views and the final view and reduce the mutual information of every two views. To comprehensively evaluate the performance of CoGSL, we conduct extensive experiments on several datasets under clean and attacked conditions, which demonstrate the effectiveness and robustness of CoGSL.
翻訳日:2022-01-17 14:53:22 公開日:2022-01-14
# (参考訳) Multilingual Open Text 1.0:44言語でのパブリックドメインニュース

Multilingual Open Text 1.0: Public Domain News in 44 Languages ( http://arxiv.org/abs/2201.05609v1 )

ライセンス: CC BY 4.0
Chester Palen-Michel, June Kim, Constantine Lignos(参考訳) 本稿では,44言語にテキストを含む新しい多言語コーパスを提案する。 コーパスの最初のリリースは、2001年から2021年にかけて、Voice of Americaのニュースサイトから集められた270万以上のニュース記事と100万の短い記事を含んでいる。 我々は,データの収集,フィルタリング,処理を行うプロセスについて述べる。 ソース資料はパブリックドメインにあり、私たちのコレクションはクリエイティブコモンズライセンス(CC BY 4.0)を使用してライセンスされており、コーパスを作成するために使用されるソフトウェアはすべてMITライセンスの下でリリースされています。 コーパスは、追加のドキュメントが公開されると定期的に更新される。

We present a new multilingual corpus containing text in 44 languages, many of which have relatively few existing resources for natural language processing. The first release of the corpus contains over 2.7 million news articles and 1 million shorter passages published between 2001--2021, collected from Voice of America news websites. We describe our process for collecting, filtering, and processing the data. The source material is in the public domain, our collection is licensed using a creative commons license (CC BY 4.0), and all software used to create the corpus is released under the MIT License. The corpus will be regularly updated as additional documents are published.
翻訳日:2022-01-17 14:51:46 公開日:2022-01-14
# 時変システムにおける強化学習--実証的研究

Reinforcement Learning in Time-Varying Systems: an Empirical Study ( http://arxiv.org/abs/2201.05560v1 )

ライセンス: Link先を確認
Pouya Hamadanian, Malte Schwarzkopf, Siddartha Sen, Mohammad Alizadeh(参考訳) 最近の研究は、手作業によるヒューリスティックスに代わる、難しい意思決定問題を解決するために強化学習(RL)に転換している。 rlは、環境のダイナミクスをモデリングすることなく、良いポリシーを学習できます。 この約束にもかかわらず、RLは多くの現実世界のシステム問題に対する非現実的な解決策である。 特に困難なケースは、環境が時間とともに変化する場合、すなわち非定常性を示す場合である。 本研究では,非定常性による課題を特徴づけ,実システムにおけるRLエージェントの訓練に対処するためのフレームワークを開発する。 このようなエージェントは、システムのパフォーマンスを損なうことなく、新しい環境を探索し、学習し、時間とともにそれを思い出さなければなりません。 この目的のために,(1)実システムで遭遇する異なる環境を特定し,(2)各環境に対して異なる専門家ポリシーを探索し,訓練し,(3)システムの性能を保護するために安全対策を講じる。 我々は,ストラグラー緩和と適応型ビデオストリーミングの2つのシステム問題に適用し,実世界のデータと合成データを用いた様々な代替手法と比較した。 我々はフレームワークの各コンポーネントが非定常性に対処する必要があることを示す。

Recent research has turned to Reinforcement Learning (RL) to solve challenging decision problems, as an alternative to hand-tuned heuristics. RL can learn good policies without the need for modeling the environment's dynamics. Despite this promise, RL remains an impractical solution for many real-world systems problems. A particularly challenging case occurs when the environment changes over time, i.e. it exhibits non-stationarity. In this work, we characterize the challenges introduced by non-stationarity and develop a framework for addressing them to train RL agents in live systems. Such agents must explore and learn new environments, without hurting the system's performance, and remember them over time. To this end, our framework (1) identifies different environments encountered by the live system, (2) explores and trains a separate expert policy for each environment, and (3) employs safeguards to protect the system's performance. We apply our framework to two systems problems: straggler mitigation and adaptive video streaming, and evaluate it against a variety of alternative approaches using real-world and synthetic data. We show that each component of our framework is necessary to cope with non-stationarity.
翻訳日:2022-01-17 14:36:38 公開日:2022-01-14
# アジャイル活動のための深層学習の見積もりは、まだ解決していないか?

Deep Learning for Agile Effort Estimation Have We Solved the Problem Yet? ( http://arxiv.org/abs/2201.05401v1 )

ライセンス: Link先を確認
Vali Tawosi, Rebecca Moussa, Federica Sarro(参考訳) 過去10年間に、アジャイルソフトウェア開発の労力を見積もるために自動化技術を使うことを提案する研究がいくつかある。 本稿では,Deep-SE(Deep-Learning)をアジャイルの取り組み推定に活用することを提案するセミナルな作業の密な複製と拡張を行う。 具体的には、プロジェクト内およびプロジェクト横断の取り組み推定におけるDeep-SEの有効性を検討することを目的とした元の3つの研究課題を再現する。 私たちはDeep-SEを3つのベースラインテクニック(Random、Mean、Medianの取り組み予測)と、以前提案されたアジャイルソフトウェア開発(TF/IDF-SEと呼ばれる)の取り組みを見積もる手法と比較しました。 この目的のために、オリジナル調査のデータと、29のオープンソースプロジェクトから抽出した31,960件の新たなデータセットの両方を使用しました。 より多くのデータを使用することで、結果に対する信頼性を強化し、研究の外的妥当性に対する脅威をさらに軽減できます。 また,本研究を2つの追加研究課題から拡張した。 トレーニングセットが見積時にリポジトリで利用可能な他のすべてのプロジェクトから問題によって強化された場合のDeep-SEの精度を評価するとともに、オリジナルのDeep-SEが使用する高価な事前トレーニングステップが、その精度と収束速度に有益な影響を及ぼすかどうかを調べる。 以上の結果より,Deep-SEは統計学的に有意な症例(8/42例,9/32例)において,Medianベースライン推定とTF/IDF-SEの成績に優れており,Deep-SEの有効性について既往の知見を裏付けるものである。 追加の2つのRQは、トレーニングセットの強化も、事前トレーニングのDeep-SEも、その精度と収束速度を改善する役割を果たさないことを示した。 ...

In the last decade, several studies have proposed the use of automated techniques to estimate the effort of agile software development. In this paper we perform a close replication and extension of a seminal work proposing the use of Deep Learning for agile effort estimation (namely Deep-SE), which has set the state-of-the-art since. Specifically, we replicate three of the original research questions aiming at investigating the effectiveness of Deep-SE for both within-project and cross-project effort estimation. We benchmark Deep-SE against three baseline techniques (i.e., Random, Mean and Median effort prediction) and a previously proposed method to estimate agile software project development effort (dubbed TF/IDF-SE), as done in the original study. To this end, we use both the data from the original study and a new larger dataset of 31,960 issues, which we mined from 29 open-source projects. Using more data allows us to strengthen our confidence in the results and further mitigate the threat to the external validity of the study. We also extend the original study by investigating two additional research questions. One evaluates the accuracy of Deep-SE when the training set is augmented with issues from all other projects available in the repository at the time of estimation, and the other examines whether an expensive pre-training step used by the original Deep-SE, has any beneficial effect on its accuracy and convergence speed. The results of our replication show that Deep-SE outperforms the Median baseline estimator and TF/IDF-SE in only very few cases with statistical significance (8/42 and 9/32 cases, respectively), thus confounding previous findings on the efficacy of Deep-SE. The two additional RQs revealed that neither augmenting the training set nor pre-training Deep-SE play a role in improving its accuracy and convergence speed. ...
翻訳日:2022-01-17 14:36:10 公開日:2022-01-14
# 欠損データを用いたガウスコピュラスの推定

Estimating Gaussian Copulas with Missing Data ( http://arxiv.org/abs/2201.05565v1 )

ライセンス: Link先を確認
Maximilian Kertel and Markus Pauly(参考訳) 本研究では,データ不足を伴うガウスコーパスモデルにおける限界分布と依存構造を決定するために,期待最大化アルゴリズムの厳密な応用を提案する。 さらに,半パラメトリックモデリングによる辺縁上の事前仮定を回避する方法を示す。 このアルゴリズムによって得られた共同分布は、既存の方法よりも基礎的な分布にかなり近い。

In this work we present a rigorous application of the Expectation Maximization algorithm to determine the marginal distributions and the dependence structure in a Gaussian copula model with missing data. We further show how to circumvent a priori assumptions on the marginals with semiparametric modelling. The joint distribution learned through this algorithm is considerably closer to the underlying distribution than existing methods.
翻訳日:2022-01-17 14:35:32 公開日:2022-01-14
# 固有深さ:統計的深さに対する最適制御アプローチ

Eikonal depth: an optimal control approach to statistical depths ( http://arxiv.org/abs/2201.05274v1 )

ライセンス: Link先を確認
Martin Molina-Fructuoso and Ryan Murray(参考訳) 統計深度は、高次元のデータに対する量子と中央値の基本的な一般化を提供する。 本稿では,制御理論とアイコナー方程式に基づいて,分布の支持点外への経路を通らなければならない最小の確率密度を測る,グローバルに定義された新しい統計深度について提案する。 この深さは解釈や計算が容易で、多モードな振る舞いを表現的に捉え、非ユークリッドデータに自然に拡張する。 我々は,この深さの様々な性質を証明し,計算的考察について考察する。 特に,この奥行きの概念が,タキー深さでは享受できない性質である非近距離等尺拘束逆モデルの下で頑健であることを実証する。 最後に、2次元混合モデルとmnistの文脈におけるいくつかの例を示す。

Statistical depths provide a fundamental generalization of quantiles and medians to data in higher dimensions. This paper proposes a new type of globally defined statistical depth, based upon control theory and eikonal equations, which measures the smallest amount of probability density that has to be passed through in a path to points outside the support of the distribution: for example spatial infinity. This depth is easy to interpret and compute, expressively captures multi-modal behavior, and extends naturally to data that is non-Euclidean. We prove various properties of this depth, and provide discussion of computational considerations. In particular, we demonstrate that this notion of depth is robust under an aproximate isometrically constrained adversarial model, a property which is not enjoyed by the Tukey depth. Finally we give some illustrative examples in the context of two-dimensional mixture models and MNIST.
翻訳日:2022-01-17 14:33:48 公開日:2022-01-14
# 事前学習言語モデルに基づくテキスト生成に関する調査

A Survey of Pretrained Language Models Based Text Generation ( http://arxiv.org/abs/2201.05273v1 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jian-Yun Nie and Ji-Rong Wen(参考訳) テキスト生成は、入力データから人間の言語で読みやすいテキストを生成することを目的としている。 ディープラーニングの復活は、ニューラルジェネレーションモデル、特に事前学習言語モデル(plm)のパラダイムによって、この分野を大きく前進させた。 PLMのテキスト生成は、学術と産業の両方において有望な方向と見なされている。 本稿では,テキスト生成におけるPLMの話題における最近の進歩について述べる。 詳しくは、PLMをテキスト生成に適用する3つの重要なポイントを紹介します。 1) PLMに融合可能な入力セマンティクスを保存する表現として入力データをエンコードする方法 2) PLMの汎用かつ高性能なアーキテクチャを設計する方法は,世代モデルとして機能する。 3) 参照テキストを与えられたPLMを最適化し、特別なテキストプロパティを満たす生成されたテキストを確実にする方法。 そして、各キーポイントにいくつかの課題と今後の方向性を見出す。 次に、PLMを扱うための様々な有用なリソースと典型的なテキスト生成アプリケーションの概要を示す。 最後に,本調査の成果をまとめ,まとめる。

Text Generation aims to produce plausible and readable text in human language from input data. The resurgence of deep learning has greatly advanced this field by neural generation models, especially the paradigm of pretrained language models (PLMs). Grounding text generation on PLMs is seen as a promising direction in both academia and industry. In this survey, we present the recent advances achieved in the topic of PLMs for text generation. In detail, we begin with introducing three key points of applying PLMs to text generation: 1) how to encode the input data as representations preserving input semantics which can be fused into PLMs; 2) how to design a universal and performant architecture of PLMs served as generation models; and 3) how to optimize PLMs given the reference text and ensure the generated text satisfying special text properties. Then, we figure out several challenges and future directions within each key point. Next, we present a summary of various useful resources and typical text generation applications to work with PLMs. Finally, we conclude and summarize the contribution of this survey.
翻訳日:2022-01-17 14:33:34 公開日:2022-01-14
# extraphrase: 抽象要約のための効率的なデータ拡張

ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization ( http://arxiv.org/abs/2201.05313v1 )

ライセンス: Link先を確認
Mengsay Loem, Sho Takase, Masahiro Kaneko, Naoaki Okazaki(参考訳) 大量の並列データでトレーニングされたニューラルモデルは、抽象的要約タスクで印象的なパフォーマンスを達成している。 しかし、大規模並列コーパスは高価であり、建設が困難である。 本稿では,抽象的要約タスクのためのトレーニングデータを強化するために,低コストかつ効果的な戦略であるexophraseを導入する。 ExtraPhraseは2つのステップで擬似トレーニングデータを構築する。 抽出要約ステップにおいて,入力テキストの主要部分を抽出し,パラフレージングステップで多種多様な表現を得る。 実験により,データ拡張を伴わない場合と比較して,抽出要約タスクの性能をルージュスコアの0.50ポイント以上向上させることを示した。 ExtraPhraseはまた、バックトランスレーションや自己学習といった既存の手法よりも優れている。 また、ExtraPhraseは、実際のトレーニングデータの量が著しく少ない場合、すなわち低リソース環境では極めて有効であることを示す。 さらに、ExtraPhraseは既存のアプローチよりもコスト効率が高い。

Neural models trained with large amount of parallel data have achieved impressive performance in abstractive summarization tasks. However, large-scale parallel corpora are expensive and challenging to construct. In this work, we introduce a low-cost and effective strategy, ExtraPhrase, to augment training data for abstractive summarization tasks. ExtraPhrase constructs pseudo training data in two steps: extractive summarization and paraphrasing. We extract major parts of an input text in the extractive summarization step, and obtain its diverse expressions with the paraphrasing step. Through experiments, we show that ExtraPhrase improves the performance of abstractive summarization tasks by more than 0.50 points in ROUGE scores compared to the setting without data augmentation. ExtraPhrase also outperforms existing methods such as back-translation and self-training. We also show that ExtraPhrase is significantly effective when the amount of genuine training data is remarkably small, i.e., a low-resource setting. Moreover, ExtraPhrase is more cost-efficient than the existing approaches.
翻訳日:2022-01-17 14:33:21 公開日:2022-01-14
# プロトタイプ・プロンプト・バーバリザのための事前学習言語モデルからの知識の抽出

Eliciting Knowledge from Pretrained Language Models for Prototypical Prompt Verbalizer ( http://arxiv.org/abs/2201.05411v1 )

ライセンス: Link先を確認
Yinyi Wei, Tong Mo, Yongtao Jiang, Weiping Li, Wen Zhao(参考訳) マスク付き言語モデリング問題としてのアクシデントチューニングキャスター数ショット分類タスクの最近の進歩 入力をテンプレートにラップし、ラベル空間とラベルワード空間のマッピングを構成する動詞化器を使用することで、プロンプトチューニングはゼロショットおよび少数ショットシナリオにおいて優れた結果が得られる。 しかし、典型的なプロンプトチューニングには、ドメインの専門知識と人間の努力を必要とする手動で設計された動詞化器が必要である。 ラベルスペースの不足は、結果にかなりのバイアスをもたらすかもしれない。 本稿では,事前学習された言語モデルからの知識の抽出に焦点をあて,プロンプトチューニングのためのprototypeply verbalizerを提案する。 ラベルは、離散的な単語ではなく、特徴空間における原型的埋め込みによって表現される。 入力のマスク位置における埋め込みと原型埋め込みの間の距離を分類基準として用いる。 ゼロショット設定では、知識は事前訓練された言語モデルから手動で設計され、初期プロトタイプの埋め込みを形成する。 数少ない設定では、モデルは有意義で解釈可能な原型的埋め込みを学ぶように調整される。 本手法は,コントラスト学習によりモデルを最適化する。 低リソース設定の多クラステキスト分類データセットの広範囲な実験結果から,提案手法の有効性を他の言語処理手法と比較した。 私たちの実装はhttps://github.com/ydongd/prototypical-prompt-verbalizerで利用可能です。

Recent advances on prompt-tuning cast few-shot classification tasks as a masked language modeling problem. By wrapping input into a template and using a verbalizer which constructs a mapping between label space and label word space, prompt-tuning can achieve excellent results in zero-shot and few-shot scenarios. However, typical prompt-tuning needs a manually designed verbalizer which requires domain expertise and human efforts. And the insufficient label space may introduce considerable bias into the results. In this paper, we focus on eliciting knowledge from pretrained language models and propose a prototypical prompt verbalizer for prompt-tuning. Labels are represented by prototypical embeddings in the feature space rather than by discrete words. The distances between the embedding at the masked position of input and prototypical embeddings are used as classification criterion. For zero-shot settings, knowledge is elicited from pretrained language models by a manually designed template to form initial prototypical embeddings. For few-shot settings, models are tuned to learn meaningful and interpretable prototypical embeddings. Our method optimizes models by contrastive learning. Extensive experimental results on several many-class text classification datasets with low-resource settings demonstrate the effectiveness of our approach compared with other verbalizer construction methods. Our implementation is available at https://github.com/Ydongd/prototypical-prompt-verbalizer.
翻訳日:2022-01-17 14:33:09 公開日:2022-01-14
# 大規模で多様なコーパスを用いたチェコ語の文法誤り訂正

Czech Grammar Error Correction with a Large and Diverse Corpus ( http://arxiv.org/abs/2201.05590v1 )

ライセンス: Link先を確認
Jakub N\'aplava, Milan Straka, Jana Strakov\'a, Alexandr Rosen(参考訳) 文法的誤り訂正のための注釈付きチェコ語コーパス(GEC)を導入し,英語以外の言語に対して,この領域ではまだ不足しているデータ資源に寄与することを目的とした。 Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイから、エラーがより一般的でないと思われるウェブサイトテキストまで、さまざまな4つのドメインを提供している。 チェコのgecシステムとトランスフォーマーベースのシステムを比較し,今後の研究に強いベースラインを設定した。 最後に、データ上の人的判断に対して、共通GCCメトリクスをメタ評価する。 新しいチェコのGECコーパスをCC BY-SA 4.0ライセンスでhttp://hdl.handle.net/11234/1-4639で公開しています。

We introduce a large and diverse Czech corpus annotated for grammatical error correction (GEC) with the aim to contribute to the still scarce data resources in this domain for languages other than English. The Grammar Error Correction Corpus for Czech (GECCC) offers a variety of four domains, covering error distributions ranging from high error density essays written by non-native speakers, to website texts, where errors are expected to be much less common. We compare several Czech GEC systems, including several Transformer-based ones, setting a strong baseline to future research. Finally, we meta-evaluate common GEC metrics against human judgements on our data. We make the new Czech GEC corpus publicly available under the CC BY-SA 4.0 license at http://hdl.handle.net/11234/1-4639 .
翻訳日:2022-01-17 14:32:50 公開日:2022-01-14
# (参考訳) 機械学習の創発:ニューラルネットワークによる記号知化を目指して

Emergence of Machine Language: Towards Symbolic Intelligence with Neural Networks ( http://arxiv.org/abs/2201.05489v1 )

ライセンス: CC BY 4.0
Yuqi Wang, Xu-Yao Zhang, Cheng-Lin Liu, Zhaoxiang Zhang(参考訳) 表現は人工知能の中核的な問題である。 人間は個別の言語を使って互いにコミュニケーションし学習し、機械は認知パターンを表現するために連続的な特徴(ベクトル、行列、あるいは深層ニューラルネットワークのテンソルなど)を使用する。 離散記号は低次元で疎結合であり、強い推論能力を持ち、連続的な特徴は高次元で結合され、素晴らしい抽象能力を持つ。 近年、ディープラーニングは、数百万のパラメータを使って高い精度を達成するために、連続的な表現を極端に発展させています。 これは統計的観点からは妥当であるが、解釈可能性の欠如、一般化の低さ、攻撃が容易なその他の大きな問題がある。 両方のパラダイムには強みと弱みがあるので、より良い選択は和解を求めることである。 本稿では,この方向に向けて最初の試みを行う。 具体的には、ニューラルネットワークを用いて離散表現を導出することで、象徴主義と接続主義の原則を組み合わせることを提案する。 このプロセスは、脳が連続的なシグナルを処理し、離散言語を介して知性を表現する、離散的なシンボルと神経システムの自然な組み合わせである人間言語と非常によく似ている。 この機能を模倣するために、我々のアプローチをマシン言語として表現します。 対話型環境とタスクを設計することで,機械が協調によって自発的,柔軟,セマンティックな言語を生成できることを実証した。 さらに, 実験により, 離散的言語表現は, 解釈可能性, 一般化, 頑健性の観点から, 連続的特徴表現と比較していくつかの利点があることを示した。

Representation is a core issue in artificial intelligence. Humans use discrete language to communicate and learn from each other, while machines use continuous features (like vector, matrix, or tensor in deep neural networks) to represent cognitive patterns. Discrete symbols are low-dimensional, decoupled, and have strong reasoning ability, while continuous features are high-dimensional, coupled, and have incredible abstracting capabilities. In recent years, deep learning has developed the idea of continuous representation to the extreme, using millions of parameters to achieve high accuracies. Although this is reasonable from the statistical perspective, it has other major problems like lacking interpretability, poor generalization, and is easy to be attacked. Since both paradigms have strengths and weaknesses, a better choice is to seek reconciliation. In this paper, we make an initial attempt towards this direction. Specifically, we propose to combine symbolism and connectionism principles by using neural networks to derive a discrete representation. This process is highly similar to human language, which is a natural combination of discrete symbols and neural systems, where the brain processes continuous signals and represents intelligence via discrete language. To mimic this functionality, we denote our approach as machine language. By designing an interactive environment and task, we demonstrated that machines could generate a spontaneous, flexible, and semantic language through cooperation. Moreover, through experiments we show that discrete language representation has several advantages compared with continuous feature representation, from the aspects of interpretability, generalization, and robustness.
翻訳日:2022-01-17 14:30:02 公開日:2022-01-14
# カーネル拡張確率ニューラルネットワーク

A Kernel-Expanded Stochastic Neural Network ( http://arxiv.org/abs/2201.05319v1 )

ライセンス: Link先を確認
Yan Sun, Faming Liang(参考訳) ディープニューラルネットワークは、機械学習において多くの根本的な問題に苦しむ。 例えば、トレーニング中にローカルな最小値に閉じ込められることが多く、その予測の不確実性を評価するのは難しい。 これらの問題に対処するために、サポートベクター回帰(SVR)を第1の隠蔽層として組み込んだカーネル拡張確率ニューラルネットワーク(K-StoNet)モデルを提案し、ニューラルネットワークを潜在変数モデルとして再構成する。 前者は入力ベクトルを放射基底関数(RBF)カーネルを介して無限次元の特徴空間にマッピングし、そのトレーニング損失面に局所最小値がないことを保証する。 後者は、高次元非凸ニューラルネットワークトレーニング問題を一連の低次元凸最適化問題に分解し、その予測の不確かさを容易に評価する。 K-StoNetは命令正規化最適化(IRO)アルゴリズムを使って容易に訓練できる。 従来のディープニューラルネットワークと比較して、K-StoNetは漸近的にグローバル最適に収束する理論的な保証を持ち、予測の不確実性を容易に評価できる。 トレーニング,予測,不確実性定量化における新しいモデルの性能は,シミュレーションおよび実データ例によって示される。

The deep neural network suffers from many fundamental issues in machine learning. For example, it often gets trapped into a local minimum in training, and its prediction uncertainty is hard to be assessed. To address these issues, we propose the so-called kernel-expanded stochastic neural network (K-StoNet) model, which incorporates support vector regression (SVR) as the first hidden layer and reformulates the neural network as a latent variable model. The former maps the input vector into an infinite dimensional feature space via a radial basis function (RBF) kernel, ensuring absence of local minima on its training loss surface. The latter breaks the high-dimensional nonconvex neural network training problem into a series of low-dimensional convex optimization problems, and enables its prediction uncertainty easily assessed. The K-StoNet can be easily trained using the imputation-regularized optimization (IRO) algorithm. Compared to traditional deep neural networks, K-StoNet possesses a theoretical guarantee to asymptotically converge to the global optimum and enables the prediction uncertainty easily assessed. The performances of the new model in training, prediction and uncertainty quantification are illustrated by simulated and real data examples.
翻訳日:2022-01-17 14:13:27 公開日:2022-01-14
# マルチアウトプット回帰のための機械学習: 完全多変量アプローチはいつ、別々の不定値アプローチよりも好まれるべきなのか?

Machine Learning for Multi-Output Regression: When should a holistic multivariate approach be preferred over separate univariate ones? ( http://arxiv.org/abs/2201.05340v1 )

ライセンス: Link先を確認
Lena Schmid, Alexander Gerharz, Andreas Groll and Markus Pauly(参考訳) ランダムフォレストのような木に基づくアンサンブルは、統計学の手法の中で現代の古典である。 特に、単変量応答の予測に使用される。 複数の出力の場合、問題は単変量モデルに別々に適合するか、あるいは直接多変量アプローチに従うかである。 後者については、例えば、修正された分割や複数出力回帰のための規則の停止に基づく、いくつかの可能性が存在する。 本研究では,これらの手法を広範囲なシミュレーションで比較し,多変量アンサンブル技術を用いた場合の主問題に答える。

Tree-based ensembles such as the Random Forest are modern classics among statistical learning methods. In particular, they are used for predicting univariate responses. In case of multiple outputs the question arises whether we separately fit univariate models or directly follow a multivariate approach. For the latter, several possibilities exist that are, e.g. based on modified splitting or stopping rules for multi-output regression. In this work we compare these methods in extensive simulations to help in answering the primary question when to use multivariate ensemble techniques.
翻訳日:2022-01-17 14:13:08 公開日:2022-01-14
# 生体および人工脳におけるベイズ時間の感覚

Bayesian sense of time in biological and artificial brains ( http://arxiv.org/abs/2201.05464v1 )

ライセンス: Link先を確認
Zafeirios Fountas, Alexey Zakharov(参考訳) 生物学的脳のメカニズムと創発的性質に関する質問には、理論的な仮定と実験的発見の長い歴史がある。 今日、科学界は、脳の認知基盤の単一の解釈(ベイズ推論マシン)に収束する傾向にある。この現代の見解は、計算と認知神経科学に関する最近の発展において、自然に強力な推進力となっている。特に興味深いのは、脳が時間の経過を処理する能力である。それは、我々の経験の基本的な次元の1つである。 ベイズ脳仮説を用いた人間の時間知覚に関する経験的データの説明法 ベイズモデルを用いて人間の推定バイアスを再現できるか? エージェントベースの機械学習モデルは、このテーマの研究にどのような洞察を提供できるだろうか? 本稿では,時間知覚の分野における最近の進歩を概観し,時間モデル構築におけるベイズ処理の役割について考察する。

Enquiries concerning the underlying mechanisms and the emergent properties of a biological brain have a long history of theoretical postulates and experimental findings. Today, the scientific community tends to converge to a single interpretation of the brain's cognitive underpinnings -- that it is a Bayesian inference machine. This contemporary view has naturally been a strong driving force in recent developments around computational and cognitive neurosciences. Of particular interest is the brain's ability to process the passage of time -- one of the fundamental dimensions of our experience. How can we explain empirical data on human time perception using the Bayesian brain hypothesis? Can we replicate human estimation biases using Bayesian models? What insights can the agent-based machine learning models provide for the study of this subject? In this chapter, we review some of the recent advancements in the field of time perception and discuss the role of Bayesian processing in the construction of temporal models.
翻訳日:2022-01-17 14:12:57 公開日:2022-01-14
# ディープセマンティクスクラスタリングを用いた教師なし時間ビデオグラウンド

Unsupervised Temporal Video Grounding with Deep Semantic Clustering ( http://arxiv.org/abs/2201.05307v1 )

ライセンス: Link先を確認
Daizong Liu, Xiaoye Qu, Yinzhen Wang, Xing Di, Kai Zou, Yu Cheng, Zichuan Xu, Pan Zhou(参考訳) 時間的ビデオグラウンドティング(TVG)は、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。 このタスクでは優れた成果を上げているが、実際のシナリオで収集するには高価で時間を要する、豊富なビデオクエリペアデータに大きく依存している。 本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学習できるかどうかを検討する。 我々の知る限りでは、この論文は教師なし環境でテレビGに対処しようとする最初の試みである。 ペア化された監視が存在しないことを考慮し,クエリ集合全体の意味情報をすべて活用し,グラウンド化のための各ビデオのアクティビティを構成するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。 具体的には,クエリ集合全体から暗黙的な意味的特徴を抽出する言語セマンティクスマイニングモジュールを開発した。 次に、これらの言語意味機能は、ビデオベースのセマンティックアグリゲーションモジュールを介して、ビデオ内のアクティビティを構成するためのガイダンスとして機能する。 最後に,前景アテンションブランチを用いて,冗長なバックグラウンドアクティビティをフィルタリングし,グラウンド化結果を精査する。 DSCNetの有効性を検証するため,ActivityNet CaptionsとCharades-STAデータセットの両方で実験を行った。 その結果、dscnetは競争力のある性能を達成し、最も弱い教師付きアプローチよりも優れています。

Temporal video grounding (TVG) aims to localize a target segment in a video according to a given sentence query. Though respectable works have made decent achievements in this task, they severely rely on abundant video-query paired data, which is expensive and time-consuming to collect in real-world scenarios. In this paper, we explore whether a video grounding model can be learned without any paired annotations. To the best of our knowledge, this paper is the first work trying to address TVG in an unsupervised setting. Considering there is no paired supervision, we propose a novel Deep Semantic Clustering Network (DSCNet) to leverage all semantic information from the whole query set to compose the possible activity in each video for grounding. Specifically, we first develop a language semantic mining module, which extracts implicit semantic features from the whole query set. Then, these language semantic features serve as the guidance to compose the activity in video via a video-based semantic aggregation module. Finally, we utilize a foreground attention branch to filter out the redundant background activities and refine the grounding results. To validate the effectiveness of our DSCNet, we conduct experiments on both ActivityNet Captions and Charades-STA datasets. The results demonstrate that DSCNet achieves competitive performance, and even outperforms most weakly-supervised approaches.
翻訳日:2022-01-17 14:12:30 公開日:2022-01-14
# hylda:lidarセマンティクスセグメンテーションのためのエンドツーエンドハイブリッド学習ドメイン適応

HYLDA: End-to-end Hybrid Learning Domain Adaptation for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2201.05585v1 )

ライセンス: Link先を確認
Eduardo R. Corral-Soto, Mrigank Rochan, Yannis Y. He, Shubhra Aich, Yang Liu, Liu Bingbing(参考訳) 本稿では,完全ラベル付きソースデータセットと,ラベル数の少ないターゲットデータセットを用いて,lidar意味セグメンテーションネットワークをトレーニングする問題に対処する。 そこで我々は,新しい画像から画像への変換エンジンを開発し,それをLiDARセマンティックセマンティックセグメンテーションネットワークと組み合わせることで,HILDAと呼ぶドメイン適応アーキテクチャを実現する。 システムをエンドツーエンドにトレーニングするために、私たちはさまざまな学習パラダイムを採用しています。 1)簡易補修作業の自己監督 2)いくつかのラベル付き対象ドメインフレームを用いた半教師付きトレーニング 3)画像から画像への変換段階によって生成された偽の翻訳画像と、ソースドメインからのラベル付きフレームの教師なしトレーニングを行う。 後者の場合、セマンティックセグメンテーションネットワークは、画像から画像への変換エンジンの更新に関与する。 実験により, HYLDAは, 対象領域からの検証データの一般化を改善するという課題に, 少数の目標ラベル付きフレームしか使用できない場合に効果的に対処できることを実証した。 2つの公開可能なLiDARセマンティックセマンティックセグメンテーションデータセットを用いて,HYLDAと強力なベースライン手法の比較を行った。

In this paper we address the problem of training a LiDAR semantic segmentation network using a fully-labeled source dataset and a target dataset that only has a small number of labels. To this end, we develop a novel image-to-image translation engine, and couple it with a LiDAR semantic segmentation network, resulting in an integrated domain adaptation architecture we call HYLDA. To train the system end-to-end, we adopt a diverse set of learning paradigms, including 1) self-supervision on a simple auxiliary reconstruction task, 2) semi-supervised training using a few available labeled target domain frames, and 3) unsupervised training on the fake translated images generated by the image-to-image translation stage, together with the labeled frames from the source domain. In the latter case, the semantic segmentation network participates in the updating of the image-to-image translation engine. We demonstrate experimentally that HYLDA effectively addresses the challenging problem of improving generalization on validation data from the target domain when only a few target labeled frames are available for training. We perform an extensive evaluation where we compare HYLDA against strong baseline methods using two publicly available LiDAR semantic segmentation datasets.
翻訳日:2022-01-17 14:12:05 公開日:2022-01-14
# less is more: 入力の単純化はニューラルネットワークの理解を助ける

When less is more: Simplifying inputs aids neural network understanding ( http://arxiv.org/abs/2201.05610v1 )

ライセンス: Link先を確認
Robin Tibor Schirrmeister, Rosanne Liu, Sara Hooker, Tonio Ball(参考訳) ニューラルネットワークのイメージ分類器は、よりシンプルでシンプルな入力にどのように反応するか? そして、このような反応は学習プロセスに何をもたらすのか? これらの質問に答えるためには、入力の単純さ(あるいは逆の複雑さ)の明確な尺度、単純化と相関する最適化目標、そのような目標をトレーニングや推論に組み込むフレームワークが必要です。 最後に、このような単純化が学習に与える影響を実験し評価するために、さまざまなテストベッドが必要です。 本研究では,事前学習した生成モデルによって与えられた符号化ビットサイズで単純度を測定し,ビットサイズを最小化し,トレーニングや推論の入力を単純化する。 従来の学習,データセットの凝縮,ポストホックな説明など,いくつかのシナリオで単純化の効果について検討する。 すべての設定において、入力は元の分類タスクとともに単純化され、入力単純性とタスク性能のトレードオフについて検討する。 インジェクターを挿入した画像の場合、そのような単純化は自然に過剰な情報を除去する。 データセットの凝縮では、精度の劣化がほとんどなく、入力を単純化できる。 ポストホックな説明で使用する場合、学習ベースの単純化アプローチは、ネットワーク決定の基礎を探求する価値のある新しいツールを提供します。

How do neural network image classifiers respond to simpler and simpler inputs? And what do such responses reveal about the learning process? To answer these questions, we need a clear measure of input simplicity (or inversely, complexity), an optimization objective that correlates with simplification, and a framework to incorporate such objective into training and inference. Lastly we need a variety of testbeds to experiment and evaluate the impact of such simplification on learning. In this work, we measure simplicity with the encoding bit size given by a pretrained generative model, and minimize the bit size to simplify inputs in training and inference. We investigate the effect of such simplification in several scenarios: conventional training, dataset condensation and post-hoc explanations. In all settings, inputs are simplified along with the original classification task, and we investigate the trade-off between input simplicity and task performance. For images with injected distractors, such simplification naturally removes superfluous information. For dataset condensation, we find that inputs can be simplified with almost no accuracy degradation. When used in post-hoc explanation, our learning-based simplification approach offers a valuable new tool to explore the basis of network decisions.
翻訳日:2022-01-17 14:11:43 公開日:2022-01-14
# (参考訳) 単純かつ効果的なキーフレーズ生成のためのジェネリックシーケンスからシーケンスへのモデルの適用

Applying a Generic Sequence-to-Sequence Model for Simple and Effective Keyphrase Generation ( http://arxiv.org/abs/2201.05302v1 )

ライセンス: CC BY 4.0
Md Faisal Mahbub Chowdhury, Gaetano Rossiello, Michael Glass, Nandana Mihindukulasooriya, Alfio Gliozzo(参考訳) 近年、複雑なモデルアーキテクチャ、専用のトレーニングパラダイム、デコード戦略からなるkpg(keyphrase generation)アプローチが数多く提案されている。 そこで本研究では,簡単な学習手法を用いて,テキストからキーフレーズを生成するために,一般的なセq2seq言語モデルであるBARTをいかに簡単に適用できるかを示す。 5つのベンチマークによる実証的な結果から、我々のアプローチは既存の最先端のKPGシステムと同等だが、よりシンプルで簡単にデプロイできるフレームワークを使っている。

In recent years, a number of keyphrase generation (KPG) approaches were proposed consisting of complex model architectures, dedicated training paradigms and decoding strategies. In this work, we opt for simplicity and show how a commonly used seq2seq language model, BART, can be easily adapted to generate keyphrases from the text in a single batch computation using a simple training procedure. Empirical results on five benchmarks show that our approach is as good as the existing state-of-the-art KPG systems, but using a much simpler and easy to deploy framework.
翻訳日:2022-01-17 14:09:56 公開日:2022-01-14
# CommonsenseQA 2.0: ゲーミフィケーションによるAIの限界の公開

CommonsenseQA 2.0: Exposing the Limits of AI through Gamification ( http://arxiv.org/abs/2201.05320v1 )

ライセンス: Link先を確認
Alon Talmor, Ori Yoran, Ronan Le Bras, Chandra Bhagavatula, Yoav Goldberg, Yejin Choi, Jonathan Berant(参考訳) 近代自然言語理解モデルの能力をテストするベンチマークの構築は困難である。事前訓練された言語モデルは、人間の同等性を達成するためにベンチマークのアーティファクトを利用するが、相反する例では失敗し、常識の欠如を示すエラーを犯す。 本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。 ゲームのプレイヤーのゴールは、特定のフレーズを余分な点に使いながら、ライバルのAIを誤解させる質問を組み立てることである。 ゲーム環境はユーザのエンゲージメントを高め、同時にゲームデザイナに収集したデータをコントロールさせ、高品質なデータを大規模に収集できるようにします。 この手法を用いて14,343のイエス/ノー質問を含むCommonsenseQA 2.0を作成し、ゲーム自体で使用されるAIよりも桁違いに大きいモデルの難しさを実証する。 我々の最高基準である11bパラメータのt5ベースのユニコーンは70.2%の精度を実現しており、数発の推測ではgpt-3(52.9%)よりもかなり高い。 いずれも94.1%の人的成績をはるかに下回っている。

Constructing benchmarks that test the abilities of modern natural language understanding models is difficult - pre-trained language models exploit artifacts in benchmarks to achieve human parity, but still fail on adversarial examples and make errors that demonstrate a lack of common sense. In this work, we propose gamification as a framework for data construction. The goal of players in the game is to compose questions that mislead a rival AI while using specific phrases for extra points. The game environment leads to enhanced user engagement and simultaneously gives the game designer control over the collected data, allowing us to collect high-quality data at scale. Using our method we create CommonsenseQA 2.0, which includes 14,343 yes/no questions, and demonstrate its difficulty for models that are orders-of-magnitude larger than the AI used in the game itself. Our best baseline, the T5-based Unicorn with 11B parameters achieves an accuracy of 70.2%, substantially higher than GPT-3 (52.9%) in a few-shot inference setup. Both score well below human performance which is at 94.1%.
翻訳日:2022-01-17 13:58:30 公開日:2022-01-14
# 記憶を通した推論: 最寄りの知識グラフ埋め込み

Reasoning Through Memorization: Nearest Neighbor Knowledge Graph Embeddings ( http://arxiv.org/abs/2201.05575v1 )

ライセンス: Link先を確認
Ningyu Zhang, Xin Xie, Xiang Chen, Shumin Deng, Chuanqi Tan, Fei Huang, Xu Cheng, Huajun Chen(参考訳) 従来の知識グラフの埋め込みアプローチは通常、エンティティを表現にマッピングし、スコア関数を使用して対象エンティティを予測するが、希少または未確認のエンティティを推論するのに苦労する。 本稿では,k-nearest 近傍のエンティティ分布を線形に補間することにより,新しい知識グラフ埋め込み手法 kNN-KGE を提案する。 我々は、知識ストアからのエンティティ埋め込み空間内の距離に基づいて、最も近い隣人を計算する。 我々のアプローチは、モデルパラメーターにおいて暗黙的にではなく、希少または新興のエンティティを明示的に記憶することができる。 実験の結果,提案手法はインダクティブリンクとトランスダクティブリンクの予測結果を改善でき,少ない三重項数で低リソース設定でパフォーマンスが向上し,明示的なメモリによる推論が容易になることが示された。

Previous knowledge graph embedding approaches usually map entities to representations and utilize score functions to predict the target entities, yet they struggle to reason rare or emerging unseen entities. In this paper, we propose kNN-KGE, a new knowledge graph embedding approach, by linearly interpolating its entity distribution with k-nearest neighbors. We compute the nearest neighbors based on the distance in the entity embedding space from the knowledge store. Our approach can allow rare or emerging entities to be memorized explicitly rather than implicitly in model parameters. Experimental results demonstrate that our approach can improve inductive and transductive link prediction results and yield better performance for low-resource settings with only a few triples, which might be easier to reason via explicit memory.
翻訳日:2022-01-17 13:58:09 公開日:2022-01-14
# NPハード問題を解決する強化学習--CVRPへの応用

Reinforcement Learning to Solve NP-hard Problems: an Application to the CVRP ( http://arxiv.org/abs/2201.05393v1 )

ライセンス: Link先を確認
Leo Ardon(参考訳) 本稿では,従来の組合せ最適化問題であるcvrp(capacitated vehicle routing problem)を解くための強化学習(rl)の利用について評価する。 我々は、この問題をRLフレームワークで形式化し、最も有望な2つのRLアプローチと、ベンチマークインスタンスのセットにおける従来の解法技術を比較した。 返却されたソリューションの品質と返却に必要な時間で、さまざまなアプローチを測定します。 最良解を返さないにもかかわらず、RLアプローチは従来の解法よりも多くの利点があることがわかった。 まず、フレームワークの汎用性により、より複雑な組合せ問題の解決が可能になる。 さらに、rlアルゴリズムは、問題の特定のインスタンスを解決しようとするのではなく、問題解決に必要なスキルを学習する。 訓練されたポリシーは、スクラッチから解決する必要なしに、すぐに目に見えない問題の解決策を提供することができる。 最後に、トレーニングされたモデルを使用することで、RLソルバははるかに高速になり、ユーザエクスペリエンスが最重要となる商用用途にこのアプローチが適している。 知識伝達のような技術は、アルゴリズムのトレーニング効率を改善し、より大きく複雑な問題を解決するのに役立つ。

In this paper, we evaluate the use of Reinforcement Learning (RL) to solve a classic combinatorial optimization problem: the Capacitated Vehicle Routing Problem (CVRP). We formalize this problem in the RL framework and compare two of the most promising RL approaches with traditional solving techniques on a set of benchmark instances. We measure the different approaches with the quality of the solution returned and the time required to return it. We found that despite not returning the best solution, the RL approach has many advantages over traditional solvers. First, the versatility of the framework allows the resolution of more complex combinatorial problems. Moreover, instead of trying to solve a specific instance of the problem, the RL algorithm learns the skills required to solve the problem. The trained policy can then quasi instantly provide a solution to an unseen problem without having to solve it from scratch. Finally, the use of trained models makes the RL solver by far the fastest, and therefore make this approach more suited for commercial use where the user experience is paramount. Techniques like Knowledge Transfer can also be used to improve the training efficiency of the algorithm and help solve bigger and more complex problems.
翻訳日:2022-01-17 13:57:37 公開日:2022-01-14
# (参考訳) スマートマニュファクチャリングにおけるヒューマンAIチームのためのリファレンスソフトウェアアーキテクチャ

Towards a Reference Software Architecture for Human-AI Teaming in Smart Manufacturing ( http://arxiv.org/abs/2201.04876v2 )

ライセンス: CC BY 4.0
Philipp Haindl, Georg Buchgeher, Maqbool Khan, Bernhard Moser(参考訳) スマートマニュファクチャリングにおけるai対応ソフトウェアシステムの普及に伴い、このようなシステムの役割は、リアクションからプロアクティブな役割へと移行し、製造オペレーターにコンテキスト固有のサポートを提供する。 EUが出資したTeaming.AIプロジェクトのフレームでは、人間とAIのコラボレーションにおけるチームリングの側面の監視、倫理的ポリシーのランタイム監視と検証、データと機械学習アルゴリズムの実験のサポートを、スマート製造における人間とAIのコラボレーションの最も関連性の高い課題として挙げました。 これらの課題に基づいて,知識グラフ,追跡およびシーン分析に基づく参照ソフトウェアアーキテクチャと,その拡張性を重視したリレーショナル機械学習のためのコンポーネントを開発した。 本手法は,生産プロセスにおける製品やプロセス固有の知識を捉え,それをリレーショナル機械学習に活用するために,知識グラフを用いる。 これにより、製品品質の最適化と物理的被害の防止のための製造プロセスにおけるアクションのコンテキスト固有の推奨が可能になる。 本ソフトウェアアーキテクチャの実証検証は,自動車,エネルギーシステム,精密加工領域の大規模企業3社と連携して実施する。 本稿では,このようなリファレンスソフトウェアアーキテクチャの課題について論じ,その事前状況を示すとともに,本プロジェクトにおける今後の研究ビジョンを概観する。

With the proliferation of AI-enabled software systems in smart manufacturing, the role of such systems moves away from a reactive to a proactive role that provides context-specific support to manufacturing operators. In the frame of the EU funded Teaming.AI project, we identified the monitoring of teaming aspects in human-AI collaboration, the runtime monitoring and validation of ethical policies, and the support for experimentation with data and machine learning algorithms as the most relevant challenges for human-AI teaming in smart manufacturing. Based on these challenges, we developed a reference software architecture based on knowledge graphs, tracking and scene analysis, and components for relational machine learning with a particular focus on its scalability. Our approach uses knowledge graphs to capture product- and process specific knowledge in the manufacturing process and to utilize it for relational machine learning. This allows for context-specific recommendations for actions in the manufacturing process for the optimization of product quality and the prevention of physical harm. The empirical validation of this software architecture will be conducted in cooperation with three large-scale companies in the automotive, energy systems, and precision machining domain. In this paper we discuss the identified challenges for such a reference software architecture, present its preliminary status, and sketch our further research vision in this project.
翻訳日:2022-01-17 12:57:27 公開日:2022-01-14
# (参考訳) ベイズ非パラメトリック混合モデルへの接続によるNeyman-Scottプロセスによる時空間クラスタリング

Spatiotemporal Clustering with Neyman-Scott Processes via Connections to Bayesian Nonparametric Mixture Models ( http://arxiv.org/abs/2201.05044v2 )

ライセンス: CC BY 4.0
Yixin Wang, Anthony Degleris, Alex H. Williams, and Scott W. Linderman(参考訳) Neyman-Scott Process (NSP) は、時間または空間におけるポイントのクラスタを生成するポイントプロセスモデルである。 それらは、ニューラルネットワークのスパイクトレインからドキュメントストリームまで、幅広い現象の自然なモデルです。 クラスタリング特性は2つの確率的定式化によって達成される: まず、ポアソン過程から潜在事象の集合が引き出され、次に、各潜在事象は別のポアソン過程に従って観測されたデータポイントの集合を生成する。 この構成は、ディリクレ過程混合モデル(DPMM)のようなベイズ的な非パラメトリック混合モデルと似ており、潜在事象の数(すなわちクラスタ)がランダム変数であるのに対して、ポイントプロセスの定式化は、特に時空間データのモデル化に好適である。 多くの特殊アルゴリズムがDPMM向けに開発されたが、NSPにおける推論に焦点を当てた研究は比較的少ない。 ここでは NSP と DPMM の新たな接続について述べる。鍵リンクは有限混合モデル (MFMM) と呼ばれるベイズ混合モデルの第三級である。 この接続を利用して,dpmmの標準崩壊ギブスサンプリングアルゴリズムを適用し,nspモデル上でスケーラブルベイズ推定を行う。 ニューラルスパイク列車におけるシーケンス検出や文書ストリームにおけるイベント検出など,さまざまな応用におけるNeyman-Scottプロセスの可能性を示す。

Neyman-Scott processes (NSPs) are point process models that generate clusters of points in time or space. They are natural models for a wide range of phenomena, ranging from neural spike trains to document streams. The clustering property is achieved via a doubly stochastic formulation: first, a set of latent events is drawn from a Poisson process; then, each latent event generates a set of observed data points according to another Poisson process. This construction is similar to Bayesian nonparametric mixture models like the Dirichlet process mixture model (DPMM) in that the number of latent events (i.e. clusters) is a random variable, but the point process formulation makes the NSP especially well suited to modeling spatiotemporal data. While many specialized algorithms have been developed for DPMMs, comparatively fewer works have focused on inference in NSPs. Here, we present novel connections between NSPs and DPMMs, with the key link being a third class of Bayesian mixture models called mixture of finite mixture models (MFMMs). Leveraging this connection, we adapt the standard collapsed Gibbs sampling algorithm for DPMMs to enable scalable Bayesian inference on NSP models. We demonstrate the potential of Neyman-Scott processes on a variety of applications including sequence detection in neural spike trains and event detection in document streams.
翻訳日:2022-01-17 12:47:28 公開日:2022-01-14
# (参考訳) アンサー説明のためのインフォーマル・イット・コンサイス・エビデンス蒸留法

Grow-and-Clip: Informative-yet-Concise Evidence Distillation for Answer Explanation ( http://arxiv.org/abs/2201.05088v2 )

ライセンス: CC BY 4.0
Yuyan Chen, Yanghua Xiao, Bang Liu(参考訳) 既存の質問回答モデル(QA)の予測を解釈することは、医療、教育、財務のためのQAシステムなど、多くの現実世界のインテリジェントなアプリケーションにとって重要である。 しかし、既存のQAモデルは解釈可能性に欠けており、特定の予測が質問に対する答えである理由を理解するためにエンドユーザにフィードバックや説明を提供していない。 本研究では,QAモデルの解釈可能性を高めるために,解答の証拠が重要であることを論じる。 文脈におけるいくつかの文をエビデンスとして抽出する従来の研究とは異なり、我々は証拠の概念を情報的で簡潔で読みやすい文脈における支援事実として明示的に定義する。 また,証拠の定量的・簡潔・可読性を定量的に評価するための効果的な戦略を提供する。 さらに, 情報提供性, 簡潔性, 可読性等により, 文脈からエビデンスを抽出するためのグロース・アンド・クリップ・エビデンス蒸留(gced)アルゴリズムを提案する。 我々は,複数のベースラインモデルを用いたSQuADとTriviaQAデータセットの広範な実験を行い,GCEDが質問に対する回答の解釈に与える影響を評価する。 蒸留された証拠の品質を確認するために人的評価も行われる。 実験の結果, 自動蒸留実験の結果は, 質問に対する回答の解釈性を高めるため, 人的情報性, 簡潔性, 可読性を有することがわかった。

Interpreting the predictions of existing Question Answering (QA) models is critical to many real-world intelligent applications, such as QA systems for healthcare, education, and finance. However, existing QA models lack interpretability and provide no feedback or explanation for end-users to help them understand why a specific prediction is the answer to a question. In this research, we argue that the evidences of an answer is critical to enhancing the interpretability of QA models. Unlike previous research that simply extracts several sentence(s) in the context as evidence, we are the first to explicitly define the concept of evidence as the supporting facts in a context which are informative, concise, and readable. Besides, we provide effective strategies to quantitatively measure the informativeness, conciseness and readability of evidence. Furthermore, we propose Grow-and-Clip Evidence Distillation (GCED) algorithm to extract evidences from the contexts by trade-off informativeness, conciseness, and readability. We conduct extensive experiments on the SQuAD and TriviaQA datasets with several baseline models to evaluate the effect of GCED on interpreting answers to questions. Human evaluation are also carried out to check the quality of distilled evidences. Experimental results show that automatic distilled evidences have human-like informativeness, conciseness and readability, which can enhance the interpretability of the answers to questions.
翻訳日:2022-01-17 12:45:36 公開日:2022-01-14
# 自動エラー分析に向けて:エラーを識別する学習

Towards Automated Error Analysis: Learning to Characterize Errors ( http://arxiv.org/abs/2201.05017v2 )

ライセンス: Link先を確認
Tong Gao, Shivang Singh, Raymond J. Mooney(参考訳) システムのエラーパターンを特徴づけることによって、研究者たちは、その正確性と堅牢性を高めることに集中することができる。 本研究では,2つのNLPシステムの理解と改善を支援するために,システムのエラーの種類を特徴付ける解釈可能なルールを自動的に学習する「メタラーニング」手法を提案する。 検証データのエラーケースを収集し、これらのサンプルを記述するメタ特徴を抽出し、最後にこれらの特徴を使ってエラーを特徴付けるルールを学習する。 我々はVilBERT,Visual Question Answering,RoBERTa,Common Sense Question Answeringにアプローチを適用した。 システムは解釈可能なルールを学習し、システムが与えられたタスクで行うシステム的エラーに対する洞察を提供する。 これらの洞察を使って、ループを閉じて、システムの性能を適度に改善することもできます。

Characterizing the patterns of errors that a system makes helps researchers focus future development on increasing its accuracy and robustness. We propose a novel form of "meta learning" that automatically learns interpretable rules that characterize the types of errors that a system makes, and demonstrate these rules' ability to help understand and improve two NLP systems. Our approach works by collecting error cases on validation data, extracting meta-features describing these samples, and finally learning rules that characterize errors using these features. We apply our approach to VilBERT, for Visual Question Answering, and RoBERTa, for Common Sense Question Answering. Our system learns interpretable rules that provide insights into systemic errors these systems make on the given tasks. Using these insights, we are also able to "close the loop" and modestly improve performance of these systems.
翻訳日:2022-01-17 12:20:36 公開日:2022-01-14
# リアルタイムGPU高速化機械学習による5G以上のマルチユーザ検出

Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for 5G and Beyond ( http://arxiv.org/abs/2201.05024v2 )

ライセンス: Link先を確認
Matthias Mehlhose, Guillermo Marcus, Daniel Sch\"aufele, Daniyal Amir Awan, Nikolaus Binder, Martin Kasparick, Renato L. G. Cavalcante, S{\l}awomir Sta\'nczak and Alexander Keller(参考訳) 適応型部分線形ビームフォーミングは、高い柔軟性と適応性のために5gおよび将来の6g応用の必要性を満たす。 競合する目標間の適切なトレードオフを選択することで、最近提案されたmultiuser(MU)検出方法が開かれる。 空間分解能が高いため、非線形ビームフォーミングフィルタは、大規模接続を伴う定常シナリオにおいて、線形アプローチを著しく上回ることができる。 しかし、無線チャネルの変化に非常に影響を受けやすいため、高機動性シナリオではパフォーマンスが劇的に低下することが期待できる。 これらの変化を考慮すると、線形フィルタの堅牢性が必要である。 適切な対応方法のひとつは、オンライン機械学習アルゴリズムを使用することだ。 adaptive projected subgradient method (apsm)に基づくアルゴリズムの理論は豊富であり、動的無線環境における正確な追跡能力を約束している。 しかし、主な課題の1つは、時間変化した閉凸集合の射影を含むこれらのアルゴリズムのリアルタイム実装である。 プロジェクション操作は比較的単純であるが、その膨大な数は、すべての無線フレームでレイテンシ制約を満たさなければならない超低レイテンシ(ULL)アプリケーションにおいて課題となる。 本稿では,非直交多重アクセス(NOMA)システムを例として,大規模並列化によるAPSMアルゴリズムの高速化について検討する。 その結果、GPUによる直交周波数分割多重化(OFDM)ベースのトランシーバの実装が加速され、1ミリ秒未満のレイテンシの検出が可能となり、5G以上の要件に準拠する。 厳密な物理層レイテンシ要件を満たすためには、特にハードウェアアクセラレータを備えた仮想化無線システムにおいて、ハードウェアとソフトウェアの注意深い共同設計が不可欠である。

Adaptive partial linear beamforming meets the need of 5G and future 6G applications for high flexibility and adaptability. Choosing an appropriate tradeoff between conflicting goals opens the recently proposed multiuser (MU) detection method. Due to their high spatial resolution, nonlinear beamforming filters can significantly outperform linear approaches in stationary scenarios with massive connectivity. However, a dramatic decrease in performance can be expected in high mobility scenarios because they are very susceptible to changes in the wireless channel. The robustness of linear filters is required, considering these changes. One way to respond appropriately is to use online machine learning algorithms. The theory of algorithms based on the adaptive projected subgradient method (APSM) is rich, and they promise accurate tracking capabilities in dynamic wireless environments. However, one of the main challenges comes from the real-time implementation of these algorithms, which involve projections on time-varying closed convex sets. While the projection operations are relatively simple, their vast number poses a challenge in ultralow latency (ULL) applications where latency constraints must be satisfied in every radio frame. Taking non-orthogonal multiple access (NOMA) systems as an example, this paper explores the acceleration of APSM-based algorithms through massive parallelization. The result is a GPU-accelerated real-time implementation of an orthogonal frequency-division multiplexing (OFDM)-based transceiver that enables detection latency of less than one millisecond and therefore complies with the requirements of 5G and beyond. To meet the stringent physical layer latency requirements, careful co-design of hardware and software is essential, especially in virtualized wireless systems with hardware accelerators.
翻訳日:2022-01-17 12:20:20 公開日:2022-01-14
# タマシェク語における音声資源

Speech Resources in the Tamasheq Language ( http://arxiv.org/abs/2201.05051v2 )

ライセンス: Link先を確認
Marcely Zanon Boito, Fethi Bougares, Florentin Barbier, Souhir Gahbiche, Lo\"ic Barrault, Mickael Rouvier, Yannick Est\`eve(参考訳) 本稿では,mali と niger で主に使われている開発言語 tamasheq の2つのデータセットについて述べる。 これらの2つのデータセットは、IWSLT 2022低リソース音声翻訳トラックで利用可能であり、Studio Kalangou (Niger) とStudio Tamani (Mali) のラジオ録音のコレクションで構成されている。 私たちは (i)ニジェール語、フルフルード語、ハウザ語、タマシェク語、ザルマ語及び5つの言語における膨大な無ラベルオーディオデータ(671時間) (II) タマシェクでは, 音声録音の並列コーパスが17時間小さく, フランス語で発声レベルが翻訳された。 これらのデータはCreative Commons BY-NC-ND 3.0ライセンスで共有されている。 これらのリソースが、tamasheq言語を使ったモデルの開発とベンチマークモデルの開発を、音声コミュニティに促すことを願っている。

In this paper we present two datasets for Tamasheq, a developing language mainly spoken in Mali and Niger. These two datasets were made available for the IWSLT 2022 low-resource speech translation track, and they consist of collections of radio recordings from the Studio Kalangou (Niger) and Studio Tamani (Mali) daily broadcast news. We share (i) a massive amount of unlabeled audio data (671 hours) in five languages: French from Niger, Fulfulde, Hausa, Tamasheq and Zarma, and (ii) a smaller parallel corpus of audio recordings (17 hours) in Tamasheq, with utterance-level translations in the French language. All this data is shared under the Creative Commons BY-NC-ND 3.0 license. We hope these resources will inspire the speech community to develop and benchmark models using the Tamasheq language.
翻訳日:2022-01-17 12:19:53 公開日:2022-01-14
# TransVOD:時空間変換器を用いたエンドツーエンドビデオオブジェクト検出

TransVOD: End-to-end Video Object Detection with Spatial-Temporal Transformers ( http://arxiv.org/abs/2201.05047v2 )

ライセンス: Link先を確認
Qianyu Zhou, Xiangtai Li, Lu He, Yibo Yang, Guangliang Cheng, Yunhai Tong, Lizhuang Ma, Dacheng Tao(参考訳) 検出変換器 (DETR) と変形可能なDETR (Deformable DETR) は、従来の複雑な手作り検出器として優れた性能を示しながら、物体検出において多くの手作り部品の必要性を排除するために提案されている。 しかし,ビデオオブジェクト検出(VOD)の性能はよく研究されていない。 本稿では,空間時間変換器アーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。 本稿の第一の目的はVODのパイプラインの合理化であり、光学フローモデルやリレーショナルネットワークなどの機能集約のための手作り部品を効果的に除去することである。 また,DeTRにおけるオブジェクトクエリ設計の利点から,Seq-NMSのような複雑な後処理手法は不要である。 特に,各フレームの空間的オブジェクトクエリと特徴記憶を集約する時間的トランスフォーマティブを提案する。 時間変換器は、オブジェクトクエリをフューズするためのTQE(Temporal Query Encoder)と、現在のフレーム検出結果を得るためにTDTD(Temporal Deformable Transformer Decoder)の2つのコンポーネントで構成される。 これらの設計により、imagenet vidデータセットの強いベースライン変形可能なdetr(3%-4%マップ)が向上した。 次に、TransVOD++とTransVOD Liteの2つの改良版を示す。 前者はオブジェクトレベルの情報を動的畳み込みによってオブジェクトクエリに融合し、後者はビデオクリップ全体を出力としてモデル化して推論時間を短縮する。 実験部では,3つのモデルの詳細な分析を行った。 特に,提案した TransVOD++ では,90.0% mAP の ImageNet VID の精度において,新たな最先端記録が設定されている。 提案したTransVOD Liteは、単一のV100 GPUデバイス上で約30FPSで動作する間、83.7%のmAPで最高速度と精度のトレードオフを実現する。 コードとモデルはさらなる研究のために利用できる。

Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (3%-4% mAP) on the ImageNet VID dataset. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0% mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7% mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
翻訳日:2022-01-17 12:19:37 公開日:2022-01-14
# ローカルニュースデータを用いた米国におけるテロ攻撃予測

Predicting Terrorist Attacks in the United States using Localized News Data ( http://arxiv.org/abs/2201.04292v2 )

ライセンス: Link先を確認
Steven J. Krieg, Christian W. Smith, Rusha Chatterjee, Nitesh V. Chawla(参考訳) テロは世界中で大きな問題であり、毎年数千人の死者と数十億ドルの損害をもたらしている。 これらの攻撃をよりよく理解し、緩和する目的に向けて、テロ攻撃が特定の日付と特定の状態において起こるかどうかを予測するために、ローカライズされたニュースデータから学習する一連の機械学習モデルを提案する。 最も優れたモデルであるランダムフォレスト(Random Forest)は、2015年から2018年にかけてテロリズムによって最も影響を受けていた5州のうち4州で、受信機動作特性の下の特徴空間の新たな変動長移動平均表現から .667$ を学習する。我々の重要な発見は、テロリズムを連続的なプロセスではなく、独立したイベントの集合としてモデル化することである。特に、イベントがまばらで異質な場合には、実りあるアプローチである。 さらに,位置の違いを考慮した局所モデルの必要性も強調した。 機械学習の観点から,ランダムフォレストモデルは,マルチモーダル,ノイズ,不均衡のデータセットにおいて,いくつかの深層モデルよりも優れており,このような文脈における特徴表現手法の有効性が実証された。 また,その予測は,攻撃の時間的ギャップと,攻撃の観測特性に対して比較的堅牢であることを示す。 最後に、ノイズの多い機能空間と少量のデータを含むモデル性能を制限する要因を分析した。 これらの貢献は、アメリカ以降のテロに対する取り組みにおいて、機械学習を使用するための重要な基盤を提供する。

Terrorism is a major problem worldwide, causing thousands of fatalities and billions of dollars in damage every year. Toward the end of better understanding and mitigating these attacks, we present a set of machine learning models that learn from localized news data in order to predict whether a terrorist attack will occur on a given calendar date and in a given state. The best model--a Random Forest that learns from a novel variable-length moving average representation of the feature space--achieves area under the receiver operating characteristic scores $> .667$ on four of the five states that were impacted most by terrorism between 2015 and 2018. Our key findings include that modeling terrorism as a set of independent events, rather than as a continuous process, is a fruitful approach--especially when the events are sparse and dissimilar. Additionally, our results highlight the need for localized models that account for differences between locations. From a machine learning perspective, we found that the Random Forest model outperformed several deep models on our multimodal, noisy, and imbalanced data set, thus demonstrating the efficacy of our novel feature representation method in such a context. We also show that its predictions are relatively robust to time gaps between attacks and observed characteristics of the attacks. Finally, we analyze factors that limit model performance, which include a noisy feature space and small amount of available data. These contributions provide an important foundation for the use of machine learning in efforts against terrorism in the United States and beyond.
翻訳日:2022-01-17 12:19:06 公開日:2022-01-14
# 特徴抽出とクラスタリングに基づくDNNのブラックボックス安全性解析とリトレーニング

Black-box Safety Analysis and Retraining of DNNs based on Feature Extraction and Clustering ( http://arxiv.org/abs/2201.05077v2 )

ライセンス: Link先を確認
Mohammed Oualid Attaoui, Hazem Fahmy, Fabrizio Pastore, and Lionel Briand(参考訳) ディープニューラルネットワーク(DNN)は、安全クリティカルシステムの多くの機能をサポートするために、古典的な機械学習よりも優れたパフォーマンスを示している。 現在、DNNはこのようなシステム(例えば自動運転車)で広く使われているが、DNNベースのシステムにおける機能安全分析の自動サポートについては、進展が限られている。 例えば、リスク分析とDNN再トレーニングの両方を可能にするエラーの根本原因の特定は、依然として未解決の問題である。 本稿では,DNNエラーの根本原因を自動的に識別するブラックボックス手法であるSAFEを提案する。 SAFEは、ImageNetで事前訓練された転送学習モデルを使用して、エラー誘発画像から特徴を抽出する。 次に密度ベースのクラスタリングアルゴリズムを適用し、誤りの原因をモデル化する画像の任意の形状のクラスタを検出する。 最後に、クラスタを使用してDNNを効果的に再トレーニングし、改善する。 SAFEのブラックボックスの性質は、変更を必要とせず、DNN内部にアクセスして採用を促進することを目的としています。 実験の結果,自動車領域におけるケーススタディに基づくDNN誤差の根本原因の同定におけるSAFEの有用性が示された。 また、再トレーニング後のDNN精度も大幅に改善され、代替よりも実行時間とメモリが大幅に短縮された。

Deep neural networks (DNNs) have demonstrated superior performance over classical machine learning to support many features in safety-critical systems. Although DNNs are now widely used in such systems (e.g., self driving cars), there is limited progress regarding automated support for functional safety analysis in DNN-based systems. For example, the identification of root causes of errors, to enable both risk analysis and DNN retraining, remains an open problem. In this paper, we propose SAFE, a black-box approach to automatically characterize the root causes of DNN errors. SAFE relies on a transfer learning model pre-trained on ImageNet to extract the features from error-inducing images. It then applies a density-based clustering algorithm to detect arbitrary shaped clusters of images modeling plausible causes of error. Last, clusters are used to effectively retrain and improve the DNN. The black-box nature of SAFE is motivated by our objective not to require changes or even access to the DNN internals to facilitate adoption. Experimental results show the superior ability of SAFE in identifying different root causes of DNN errors based on case studies in the automotive domain. It also yields significant improvements in DNN accuracy after retraining, while saving significant execution time and memory when compared to alternatives.
翻訳日:2022-01-17 12:18:34 公開日:2022-01-14
# 魚音:データ駆動型音源分離による海洋音響生物多様性の評価に向けて

Fish sounds: towards the evaluation of marine acoustic biodiversity through data-driven audio source separation ( http://arxiv.org/abs/2201.05013v2 )

ライセンス: Link先を確認
Michele Mancusi, Nicola Zonca, Emanuele Rodol\`a, Silvia Zuffi(参考訳) 海洋生態系は、生物多様性の喪失や熱帯種の温帯盆地への移動など、危機的な速度で変化している。 水中環境とその住民のモニタリングは、これらのシステムの進化を理解し、安全政策を実施するために重要である。 しかし、生物多様性の評価と追跡は、特に海洋のような大規模で制御不能な環境において、複雑な作業であることが多い。 海洋生物多様性をモニタリングする最もポピュラーで効果的な方法の1つは、水中の音を捉えるためにハイドロフォンを使用する受動的音響モニタリング(PAM)である。 多くの水生動物は独自の音を発生させ、これらの信号は効率的に水中を移動し、遠くでも検出できる。 さらに、現代の技術はますます便利で正確になり、非常に正確で慎重にデータを取得することができる。 現在、PAMデバイスで捉えた音声は、海洋生物学者によってしばしば手作業で処理され、動物の発声を検出するための従来の信号処理技術で解釈されている。 PAM録音は長い時間をかけて行われることが多いので、これは難しい作業です。 さらに, 生物多様性の喪失の原因の一つは音汚染であり, 人為的騒音が大きい地域から得られたデータでは, 手動で人工音と魚音を分離することは困難である。 今日では、機械学習、特にディープラーニングは、音声信号を処理する技術の現状を表している。 特に、音声分離ネットワークは、人間の声と楽器を識別し、分離することができる。 本研究は, PAM録音における魚の発声を自動的に抽出し, 生物多様性モニタリングを大規模に行うことができることを示すものである。

The marine ecosystem is changing at an alarming rate, exhibiting biodiversity loss and the migration of tropical species to temperate basins. Monitoring the underwater environments and their inhabitants is of fundamental importance to understand the evolution of these systems and implement safeguard policies. However, assessing and tracking biodiversity is often a complex task, especially in large and uncontrolled environments, such as the oceans. One of the most popular and effective methods for monitoring marine biodiversity is passive acoustics monitoring (PAM), which employs hydrophones to capture underwater sound. Many aquatic animals produce sounds characteristic of their own species; these signals travel efficiently underwater and can be detected even at great distances. Furthermore, modern technologies are becoming more and more convenient and precise, allowing for very accurate and careful data acquisition. To date, audio captured with PAM devices is frequently manually processed by marine biologists and interpreted with traditional signal processing techniques for the detection of animal vocalizations. This is a challenging task, as PAM recordings are often over long periods of time. Moreover, one of the causes of biodiversity loss is sound pollution; in data obtained from regions with loud anthropic noise, it is hard to separate the artificial from the fish sound manually. Nowadays, machine learning and, in particular, deep learning represents the state of the art for processing audio signals. Specifically, sound separation networks are able to identify and separate human voices and musical instruments. In this work, we show that the same techniques can be successfully used to automatically extract fish vocalizations in PAM recordings, opening up the possibility for biodiversity monitoring at a large scale.
翻訳日:2022-01-17 12:18:14 公開日:2022-01-14