このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210103となっている論文です。

PDF登録状況(公開日: 20210103)

TitleAuthorsAbstract論文公表日・翻訳日
# フィッシャー情報に基づく視機械結合強度の推定

Fisher-information-based estimation of optomechanical coupling strengths ( http://arxiv.org/abs/2002.03249v3 )

ライセンス: Link先を確認
Claudio Sanavio, J\'ozsef Zsolt Bern\'ad, Andr\'e Xuereb(参考訳) 量子および古典的フィッシャー情報に焦点をあてた量子推定理論の定式化は、光学系における結合強度の推定に適用される。 光学的結合を推定するために,鏡面の非マルコフ的ブラウン運動を用いたキャビティ・オプテメカティカルモデルを検討し,キャビティ出力場を得るために入力出力形式を用いた。 我々の推定シナリオはキャビティ出力場の平衡ホモダイン光検出に基づく。 本研究では,非偏差推定器の平均二乗誤差の下限に到達することができるかという問題に対して,均衡なホモダイン検出によって解決できるかどうかについて検討した。 我々はホモダイン検出における局所発振器の位相が重要であることを発見した。

The formalism of quantum estimation theory, focusing on the quantum and classical Fisher information, is applied to the estimation of the coupling strength in an optomechanical system. In order to estimate the optomechanical coupling, we have considered a cavity optomechanical model with non-Markovian Brownian motion of the mirror and employed input-output formalism to obtain the cavity output field. Our estimation scenario is based on balanced homodyne photodetection of the cavity output field. We have explored the difference between the associated measurement-dependent classical Fisher information and the quantum Fisher information, thus addressing the question of whether it is possible to reach the lower bound of the mean squared error of an unbiased estimator by means of balanced homodyne detection. We have found that the phase of the local oscillator in the homodyne detection is crucial; certain quadrature measurements allow very accurate estimation.
翻訳日:2023-06-04 05:37:07 公開日:2021-01-03
# ループ量子重力の効率的なシミュレーション-スケーラブル線形光学的アプローチ

Efficient Simulation of Loop Quantum Gravity -- A Scalable Linear-Optical Approach ( http://arxiv.org/abs/2003.03414v3 )

ライセンス: Link先を確認
Lior Cohen, Anthony J. Brady, Zichang Huang, Hongguang Liu, Dongxue Qu, Jonathan P. Dowling, Muxin Han(参考訳) 古典的コンピュータ上の複雑な量子過程をシミュレーションする問題は、量子シミュレーションの分野を生み出した。 量子シミュレータはボソンサンプリングのような問題を解き、古典的手法は失敗する。 別の物理学分野において、一般相対性理論と量子論の統一は、我々の時代の最大の課題の1つである。 主要なアプローチはLoop Quantum Gravity (LQG)である。 ここでは、これらの2つのフィールドを接続し、光量子ゲートの進化がLQGのスピンフォーム振幅をシミュレートするように線形光学シミュレータを設計する。 単純な量子場理論における遷移振幅の計算はクラスBQPに該当することが示されており、これはLQGの遷移振幅の計算が古典的に難解であることを強く示唆している。 したがって、これらの振幅は何十年も先にある普遍量子コンピュータで効率的に計算できる。 本稿では、現在の技術を用いて実装可能な、代替の特殊目的線形光学量子コンピュータを提案する。 この機械はこれらの量を効率的に計算することができる。 この研究は、量子重力と量子情報を関連付ける新しい方法を開き、理論の理解を広げます。

The problem of simulating complex quantum processes on classical computers gave rise to the field of quantum simulations. Quantum simulators solve problems, such as Boson sampling, where classical counterparts fail. In another field of physics, the unification of general relativity and quantum theory is one of the greatest challenges of our time. One leading approach is Loop Quantum Gravity (LQG). Here, we connect these two fields and design a linear-optical simulator such that the evolution of the optical quantum gates simulates the spinfoam amplitudes of LQG. It has been shown that computing transition amplitudes in simple quantum field theories falls into the class BQP -- which strongly suggests that computing transition amplitudes of LQG are classically intractable. Therefore, these amplitudes are efficiently computable with universal quantum computers which are, alas, possibly decades away. We propose here an alternative special-purpose linear-optical quantum computer, which can be implemented using current technologies. This machine is capable of efficiently computing these quantities. This work opens a new way to relate quantum gravity to quantum information and will expand our understanding of the theory.
翻訳日:2023-05-30 08:48:34 公開日:2021-01-03
# 分子内における配向的デコヒーレンスと分子形状の出現

Orientational decoherence within molecules and emergence of the molecular shape ( http://arxiv.org/abs/2011.02810v2 )

ライセンス: Link先を確認
Edit Matyus and Patrick Cassam-Chenai(参考訳) 古典性の問題は、分子系の核骨格の形状と関連している。 最も自然な環境として、分子の電子は核の連続的な監視剤と考えられている。 本稿では、非一貫性理論の基本的な形式論を展開し、少数粒子系に対して数値計算結果を示す。 数値的な例から、電子-核クーロン相互作用は最も軽い元素、h$_2$, d$_2$, t$_2$, heh$^+$の化合物における強い量子コヒーレンスを持つぼやけた形を誘導するのに十分であることが示唆される。

The question of classicality is addressed in relation with the shape of the nuclear skeleton of molecular systems. As the most natural environment, the electrons of the molecule are considered as continuously monitoring agents for the nuclei. For this picture, an elementary formalism of decoherence theory is developed and numerical results are presented for few-particle systems. The numerical examples suggest that the electron-nucleus Coulomb interaction is sufficient for inducing a blurred shape with strong quantum coherences in compounds of the lightest elements, H$_2$, D$_2$, T$_2$, and HeH$^+$.
翻訳日:2023-04-25 05:27:24 公開日:2021-01-03
# 格子をネットワークに変換する:Heisenbergモデルとその長距離相互作用による一般化

Converting Lattices into Networks: The Heisenberg Model and Its Generalizations with Long-Range Interactions ( http://arxiv.org/abs/2012.12074v2 )

ライセンス: Link先を確認
Chi-Chun Zhou, Yao Shen, Yu-Zhu Chen, and Wu-Sheng Dai(参考訳) 本稿では,格子構成を異なるリンクモードのネットワークに変換し,任意の数の相互作用粒子対を持つネットワーク上でのモデルを検討する。 我々は、ユニタリ群のカシミール作用素と置換群の共役類作用素との関係を明らかにすることで、ハイゼンベルクモデルを解く。 この関係によりハイゼンベルクモデルを一般化し、完全可解な一連のモデルを与える。 さらに,Heisenbergモデルの固有値を数値計算し,リンク数が異なるネットワーク上でランダムウォークを行うことにより,より多くの粒子対間の相互作用を持つ格子構成系が固有状態の退化性が高いことを示す。 格子モデルの固有状態の最も高い縮退性について論じる。

In this paper, we convert the lattice configurations into networks with different modes of links and consider models on networks with arbitrary numbers of interacting particle-pairs. We solve the Heisenberg model by revealing the relation between the Casimir operator of the unitary group and the conjugacy-class operator of the permutation group. We generalize the Heisenberg model by this relation and give a series of exactly solvable models. Moreover, by numerically calculating the eigenvalue of Heisenberg models and random walks on network with different numbers of links, we show that a system on lattice configurations with interactions between more particle-pairs have higher degeneracy of eigenstates. The highest degeneracy of eigenstates of a lattice model is discussed.
翻訳日:2023-04-19 22:05:19 公開日:2021-01-03
# 古典的な3スピン鎖の摂動は量子的特徴をもたらす

How perturbing a classical 3-spin chain can lead to quantum features ( http://arxiv.org/abs/2012.15187v2 )

ライセンス: Link先を確認
Bianca Rizzo(参考訳) 本論文では,離散空間と時間における決定論的法則に従って進化する離散単位からなる数学モデルであるcellal automata(ca)の規則に従って粒子が進化する,gerard't hooftによるqmのセルオートマトン解釈の前提の下で研究を行う。 セルオートマトンの状態は、定義上、古典的、したがって決定論的であり、重ね合わせを形成しない。 現在、最小の顕微鏡スケールでの古典的決定論的構造と力学の証明方法を知ることはできないため、この論文で私たちが追求しているのは、セルラーオートマトン解釈の概念を要約することに加えて、量子現象、特に重ね合わせ状態が、測定の精度が限られているために決定論的モデルに現れることを示すことである。 これを実現するために、イジングスピンの三重項とcaコンテキストにおけるそれらのダイナミクスを考慮し、ポール行列と量子力学作用素を用いて形式化することができるelzeの最近の論文の経路に従う。 したがって、ハミルトニアンとダイナミクス作用素にいくつかの摂動を適用した後、重ね合わせが発生するため、システムがイジングスピンの三重項から量子ビット三重項にどのようにシフトするかを観察する。

In this thesis we will work under the premises of the Cellular Automata Interpretation of QM, by Gerard 't Hooft, according to whom particles evolve following the rules of Cellular Automata (CA), a mathematical model consisting of discrete units that evolve following deterministic laws in discrete space and time. The states of a Cellular Automaton are, by definition, classical and thus deterministic and do not form superpositions. Since it is not possible to know how to demonstrate the underlying classical deterministic structure and dynamics at the smallest microscopic scales at present, what we pursue in this thesis, besides summarizing the concept of the Cellular Automaton Interpretation, is to show that quantum phenomena, in particular superposition states, can arise in a deterministic model because of the limited precision of measurements. In order to do that, we follow the path of a recent article by Elze, considering a triplet of Ising spins and their dynamics in a CA context, which is possible to formalize using Pauli matrices and quantum mechanics operators. We will thus observe how the system will shift from a triplet of Ising spins to a triplet of qubits due to the arising of superposition after applying some perturbations on the Hamiltonian and the dynamics operators.
翻訳日:2023-04-18 07:58:10 公開日:2021-01-03
# ブロックチェーン技術を用いた食品廃棄物削減の学習

Learning about the reduction of food waste using Blockchain technology ( http://arxiv.org/abs/2101.02026v1 )

ライセンス: Link先を確認
Monica-Paula Marin, Iuliana Marin, Livia Vidu(参考訳) 農家は、自分の世話をしている動物の質を維持するために、効率的で多くの時間を割く必要がある。 最も便利で良い品質 - 動物の餌として価格比を選択するべきである。 Blockchainは仮想空間において、ユーザのネットワーク上で情報を保存および共有するために使用される。 これはオープンソースのHyperledger Fabricプラットフォームを使って行われる。 トランザクションは、他のすべてのユーザがリアルタイムで見ることができる。 これらのトランザクションは、大量のデータに対するクエリをサポートするCouchDB NoSQLデータベース内のJSONとして格納される。 この技術を使用すると、農家は動物飼料のサプライヤーが誰と協力したかを知ることができる。 トランザクションの履歴は1つの場所で保存されるわけではない。 このような方法では、ハックや不信な情報の提供が難しくなる。 農場の利用者が情報を投稿できるeラーニングプラットフォームが作られ、それぞれ、家畜の出生、予防接種、薬品、および家畜の場所に関する新しいブロックが作られた。 同じeラーニングプラットフォームは携帯電話からアクセスできる。 ブロックチェーン技術を使用することで、ショップのクライアントを含む誰でも、製品の起源をよく知ることができます。 食べ物の偽の出所を隠すことはずっと難しい。 フラッドも限られている。 このシステムはルーマニアの農場で乳製品のトレーサビリティをモニターした。 食品連鎖のあらゆるレベルで専門家になる学生によって, フォッダー提供者および品質, 牛生産実績, 健康・乳製品プロセスに関するデータを取得し, 分析した。 ブロックチェーンは、乳製品が汚染された場合、農場の起源をわずか数秒で追跡する技術だ。 このようにして、一握りの乳製品だけが流通から排除され、食品廃棄物の削減に繋がる。

Farmers need to be efficient and dedicate a lot of time in order to sustain the quality of their animals which are in their care. The most convenient and good quality - price ratio should be chosen for the feed of animals. Blockchain is used in a virtual space to store and share information over a network of users. This is done using the open source Hyperledger Fabric platform. The transactions can be viewed by all the other users in real time. These transactions are stored as JSONs inside CouchDB NoSQL database which supports queries on a large volume of data. When using this technology, the farmer can know with whom the supplier for animal feed collaborated with. The history of the transactions are not saved in just one place. In this way, it is more difficult to hack and provide implausible information. An e-learning platform was created where the farm's user can post information, respectively new blocks about the animal's birth, vaccinations, medicines, including the location of the livestock. The same e-learning platform is accessible from the mobile phone. By using the blockchain technology, anyone, including the client from the shop can know a lot about the origin of the products. Fake origins of food are much more difficult to hide. Fraud is also limited. The system monitored the traceability of dairy products inside a Romanian farm. Data about fodder provider and quality, cow productive performances and health and dairy products process were obtained and analyzed by students who will become specialists at all the levels of the food chain. Blockchain is the technology which in case of a dairy products contamination, the origin of the farm is traced in just a couple of seconds. In this way just a batch of dairy products is removed from distribution, leading to the reduction of food waste.
翻訳日:2023-04-18 00:11:26 公開日:2021-01-03
# 脳みそ量子は? 理論と証拠

Is Brain-Mind Quantum? A theory and supporting evidence ( http://arxiv.org/abs/2101.01538v1 )

ライセンス: Link先を確認
Stuart Kauffman, Dean Radin(参考訳) ハイゼンベルクに従えば、世界はアリストテレスの排除された中間の法則に従わない存在論的実在の可能性と、排除された中間の法則をo0beyする存在論的実在性の両方からなる。 この量子アプローチは、量子力学の5つの問題と、心と脳の関係に関する多くのパズルを解決する。 これは、心のいくつかの側面が非局所的であり、心が物理的世界でアクティブな役割を果たす可能性を高める。 我々は証拠を提示する。

We propose a non-substance dualism theory, following Heisenberg: The world consists of both ontologically real possibilities that do not obey Aristotle's Law of the Excluded Middle, and ontologically real Actuals that do o0bey the Law of the Excluded Middle. This quantum approach solves five issues in quantum mechanics and numerous puzzles about the mind-brain relationship. It raises the possibility that some aspects of mind are non-local, and that mind plays an active role in the physical world. We present supporting evidence.
翻訳日:2023-04-18 00:11:04 公開日:2021-01-03
# 受動的環境支援を有するガウス量子チャネルの容量

Capacities of Gaussian Quantum Channels with Passive Environment Assistance ( http://arxiv.org/abs/2101.00602v1 )

ライセンス: Link先を確認
Samad Khabbazi Oskouei, Stefano Mancini and Andreas Winter(参考訳) 受動的環境支援通信は、情報伝達システムと環境との単一相互作用としてモデル化された量子チャネルを介して行われ、後者は受動的ヘルパーによって制御される。 本稿では,ボソニックシステムに作用するガウスユニタリを考慮し,この枠組みにおける情報伝達能力について検討する。 我々は、ヘルパーとの量子通信と古典的コミュニケーションの両方、および送信者とヘルパー(会議エンコーダ)の間の古典的協調による古典的コミュニケーションを考察する。 量子通信に関して、エネルギー制約のない一般的な符号化定理を証明し、マルチレター(正規化)式を生成する。 容量公式が計算可能である場合の探索では、普遍的に分解可能あるいは反分解可能なガウスユニタリを求める。 しかし, ガウス的ユニタリはすべての環境状態に対して分解性あるいは反分解性チャネルを生じないことを示した。 一方、ガウス環境状態に制限すると、普遍的に分解可能なユニタリとなり、そのため単一文字の量子容量公式を与えることができる。 古典的コミュニケーションに関して、マルチレター式によって与えられる古典的容量とエネルギー制約に対する一般的な符号化定理を証明する。 さらに、送り手の古典的容量とヘルパーの間の不確実性型関係を、それぞれ相手の助けを借りて導き、その2つの容量の和に低い境界を示す。 次に、送信者とヘルパーとの古典的コミュニケーションシナリオにおいて、古典的情報伝達率の上限を低くするために使用される。

Passive environment assisted communication takes place via a quantum channel modeled as a unitary interaction between the information carrying system and an environment, where the latter is controlled by a passive helper, who can set its initial state such as to assist sender and receiver, but not help actively by adjusting her behaviour depending on the message. Here we investigate the information transmission capabilities in this framework by considering Gaussian unitaries acting on Bosonic systems. We consider both quantum communication and classical communication with helper, as well as classical communication with free classical coordination between sender and helper (conferencing encoders). Concerning quantum communication, we prove general coding theorems with and without energy constraints, yielding multi-letter (regularized) expressions. In the search for cases where the capacity formula is computable, we look for Gaussian unitaries that are universally degradable or anti-degradable. However, we show that no Gaussian unitary yields either a degradable or anti-degradable channel for all environment states. On the other hand, restricting to Gaussian environment states, results in universally degradable unitaries, for which we thus can give single-letter quantum capacity formulas. Concerning classical communication, we prove a general coding theorem for the classical capacity under and energy constraint, given by a multi-letter expression. Furthermore, we derive an uncertainty-type relation between the classical capacities of the sender and the helper, helped respectively by the other party, showing a lower bound on the sum of the two capacities. Then, this is used to lower bound the classical information transmission rate in the scenario of classical communication between sender and helper.
翻訳日:2023-04-18 00:09:02 公開日:2021-01-03
# 位相絶縁とエッジ状態のための量子鋳型鋳造

Quantum mold casting for topological insulating and edge states ( http://arxiv.org/abs/2101.00597v1 )

ライセンス: Link先を確認
X. M. Yang and Z. Song(参考訳) 本研究では, 安定な絶縁体を動的に鋳造する金型として, 自明な系から空の系へフェルミオンを移動させる可能性について検討した。 非エルミート的な一方向ホッピングにより、トポロジカル位相における中心系と自明なフラットバンド系と、中央系の原子価帯を走査する周期的な駆動化学ポテンシャルとを繋ぐことができることを示す。 近点力学は一方向の動的過程を可能にする: 完全なソースを持つ初期状態から安定なトポロジカル絶縁状態への時間進化である。 この結果は、ランダムな摂動の存在下で、ソースアシストQWZモデルとSSHチェーンによって数値的に示される。 我々の発見は量子物質のクエンチ力学の古典的なアナロジーを明らかにし、トポロジカル量子状態工学の方法を提供する。

We study the possibility of transferring fermions from a trivial system as particle source to an empty system but at topological phase as a mold for casting a stable topological insulator dynamically. We show that this can be realized by a non-Hermitian unidirectional hopping, which connects a central system at topological phase and a trivial flat-band system with a periodic driving chemical potential, which scans over the valence band of the central system. The near exceptional-point dynamics allows a unidirectional dynamical process: the time evolution from an initial state with full-filled source system to a stable topological insulating state approximately. The result is demonstrated numerically by a source-assistant QWZ model and SSH chain in the presence of random perturbation. Our finding reveals a classical analogy of quench dynamics in quantum matter and provides a way for topological quantum state engineering.
翻訳日:2023-04-18 00:08:34 公開日:2021-01-03
# 磁気双極子相互作用ダイナミクスのための量子状態非対称性の側面

Aspects of quantum states asymmetry for the magnetic dipolar interaction dynamics ( http://arxiv.org/abs/2101.00551v1 )

ライセンス: Link先を確認
Douglas F. Pinto, Jonas Maziero(参考訳) 我々は、磁気双極子相互作用(MDI)のダイナミクスに責任を持つハミルトニアンの量子状態の非対称性特性について検討し、エンタングルメント生成との関係を評価する。 mdiの下で進化した2つの量子ビットの純粋および混合量子状態のクラスを考察し、ウィグナー・ヤナーゼスキュー情報を介して定義される非対称性測度を用いて、ハミルトニアンパラメータと系の初期条件に対する非対称性依存性を記述する。 さらに,局所状態の非対称性のダイナミクスを定義し計算し,その時間パラメータと相互作用パラメータの依存性を特徴付ける。 最後に、mdiハミルトニアンはヌル固有値を持つので、群生成元に基づく非対称性測度は、この固有値に付随する固有ベクトルによって生成される部分空間の作用に関して、状態感受性を適切に定量化できない。 このため、MDIハミルトニアンに関連するユニタリ作用素に関連して群要素に基づく非対称性測度を定義し、研究する。

We investigate the asymmetry properties of quantum states in relation to the Hamiltonian responsible for the magnetic dipolar interaction (MDI) dynamics, and we evaluate its relationship to entanglement production. We consider some classes of pure and mixed quantum states of two qubits evolved under MDI and, using the asymmetry measure defined via the Wigner-Yanase skew information, we describe the asymmetry dependence on the Hamiltonian parameters and initial conditions of the system. In addition, we define and calculate the dynamics of the asymmetry of local states, characterizing their temporal and interaction parameters dependence. Finally, because the MDI Hamiltonian has a null eigenvalue, the group generator-based asymmetry measure does not adequately quantify the state susceptibility with respect to the action of the subspace generated by the eigenvectors associated with this eigenvalue. For this reason, we also define and study the group element-based asymmetry measure with relation to the unitary operator associated with the MDI Hamiltonian.
翻訳日:2023-04-18 00:07:58 公開日:2021-01-03
# イオン量子ビットのマルチ波長統合制御

Integrated multi-wavelength control of an ion qubit ( http://arxiv.org/abs/2001.05052v2 )

ライセンス: Link先を確認
Robert J. Niffenegger, Jules Stuart, Cheryl Sorace-Agaskar, Dave Kharas, Suraj Bramhavar, Colin D. Bruzewicz, William Loh, Ryan T. Maxson, Robert McConnell, David Reens, Gavin N. West, Jeremy M. Sage, and John Chiaverini(参考訳) 原子システムの制御技術のモノリシックな統合は、量子コンピュータと携帯型量子センサーの開発に有望な道である。 閉じ込められた原子イオンは、高忠実度量子情報プロセッサと高精度光時計の基礎を形成する。 しかし、現在の実装はイオン制御のための自由空間光学に依存しており、移植性とスケーラビリティが制限されている。 本稿では、イオン化、冷却、コヒーレント演算、およびsr+量子ビットの量子状態形成と検出に必要な全ての波長の光を伝送する導波路と格子カプラを用いた表面電極型イオントラップチップを示す。 紫外から赤外へのレーザー光は、光ファイバーアレイを介してチップ上に結合され、本質的に安定な光路を形成します。 CMOS互換の集積フォトニック表面トラップ製造、ロバストパッケージング、拡張量子ビットコヒーレンスのデモンストレーションは、ポータブルなトラップイオン量子センサとクロックの開発において重要な進歩であり、量子情報処理システムにおけるより大きなイオンの完全な個別制御への道筋となっている。

Monolithic integration of control technologies for atomic systems is a promising route to the development of quantum computers and portable quantum sensors. Trapped atomic ions form the basis of high-fidelity quantum information processors and high-accuracy optical clocks. However, current implementations rely on free-space optics for ion control, which limits their portability and scalability. Here we demonstrate a surface-electrode ion-trap chip using integrated waveguides and grating couplers, which delivers all the wavelengths of light required for ionization, cooling, coherent operations, and quantum-state preparation and detection of Sr+ qubits. Laser light from violet to infrared is coupled onto the chip via an optical-fiber array, creating an inherently stable optical path, which we use to demonstrate qubit coherence that is resilient to platform vibrations. This demonstration of CMOS-compatible integrated-photonic surface-trap fabrication, robust packaging, and enhanced qubit coherence is a key advance in the development of portable trapped-ion quantum sensors and clocks, providing a way toward the complete, individual control of larger numbers of ions in quantum information processing systems.
翻訳日:2023-01-11 13:53:45 公開日:2021-01-03
# 逆ミラーオートエンコーダによる教師なし異常検出

Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders ( http://arxiv.org/abs/2003.10713v3 )

ライセンス: Link先を確認
Gowthami Somepalli, Yexin Wu, Yogesh Balaji, Bhanukiran Vinzamuri, Soheil Feizi(参考訳) 分散(OOD)サンプルの検出は、すべての機械学習アプリケーションにおいて最重要となる。 深い生成モデリングはラベルなしで複雑なデータ分布をモデル化する主要なパラダイムとして現れてきた。 しかし、以前の研究では、生成モデルが訓練されたデータ分布よりも、oodサンプルに高い確率を割り当てる傾向があることが示されている。 まず, 識別器のミラー化ワッサースタイン損失を利用して, セマンティックレベルの再構築を行う適応鏡オートエンコーダ (AMA) を提案する。 また、分布内サンプルのコンパクト多様体を学習するための潜在空間正規化を提案する。 amaの使用は、異常検出性能を改善するより優れた特徴表現を生成する。 第二に, 生成モデルに基づく異常検出法で伝統的に用いられてきたレコンストラクションに基づく指標に代えて, 異常スコアの代替尺度を提示する。 提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。

Detecting out of distribution (OOD) samples is of paramount importance in all Machine Learning applications. Deep generative modeling has emerged as a dominant paradigm to model complex data distributions without labels. However, prior work has shown that generative models tend to assign higher likelihoods to OOD samples compared to the data distribution on which they were trained. First, we propose Adversarial Mirrored Autoencoder (AMA), a variant of Adversarial Autoencoder, which uses a mirrored Wasserstein loss in the discriminator to enforce better semantic-level reconstruction. We also propose a latent space regularization to learn a compact manifold for in-distribution samples. The use of AMA produces better feature representations that improve anomaly detection performance. Second, we put forward an alternative measure of anomaly score to replace the reconstruction-based metric which has been traditionally used in generative model-based anomaly detection methods. Our method outperforms the current state-of-the-art methods for anomaly detection on several OOD detection benchmarks.
翻訳日:2022-12-20 08:24:31 公開日:2021-01-03
# システム予測の理解のための名前付きエンティティ認識の解釈可能性解析と改善方法

Interpretability Analysis for Named Entity Recognition to Understand System Predictions and How They Can Improve ( http://arxiv.org/abs/2004.04564v2 )

ライセンス: Link先を確認
Oshin Agarwal, Yinfei Yang, Byron C. Wallace, Ani Nenkova(参考訳) 名前付きエンティティ認識システムは、英語ニュースなどのドメインで顕著なパフォーマンスを達成する。 これらのモデルは実際にこれを達成するために何を学んでいますか? 名前を覚えているだけなのか? それとも、テキストを解釈し、言語コンテキストから正しいエンティティタイプを推測できるのだろうか? これらの質問は、名前付きエンティティ認識のためのLSTM-CRFアーキテクチャのいくつかの変種の性能を対比して検討する。 bertにも同様の実験を行いました。 文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。 我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。 システムは予測コンテキスト内の任意の名前を正しく認識できなければならず、実験では、現在のシステムがその能力によってさらに改善される可能性があることを示唆する。

Named Entity Recognition systems achieve remarkable performance on domains such as English news. It is natural to ask: What are these models actually learning to achieve this? Are they merely memorizing the names themselves? Or are they capable of interpreting the text and inferring the correct entity type from the linguistic context? We examine these questions by contrasting the performance of several variants of LSTM-CRF architectures for named entity recognition, with some provided only representations of the context as features. We also perform similar experiments for BERT. We find that context representations do contribute to system performance, but that the main factor driving high performance is learning the name tokens themselves. We enlist human annotators to evaluate the feasibility of inferring entity types from the context alone and find that, while people are not able to infer the entity type either for the majority of the errors made by the context-only system, there is some room for improvement. A system should be able to recognize any name in a predictive context correctly and our experiments indicate that current systems may be further improved by such capability.
翻訳日:2022-12-15 02:54:53 公開日:2021-01-03
# 終末学習によるモノクロ映像の静的物体位置定位の改善

End-to-end Learning Improves Static Object Geo-localization in Monocular Video ( http://arxiv.org/abs/2004.05232v4 )

ライセンス: Link先を確認
Mohamed Chaabane, Lionel Gueguen, Ameni Trabelsi, Ross Beveridge and Stephen O'Hara(参考訳) 自動運転車の移動カメラから信号機などの静的物体の位置を正確に推定することは難しい課題である。 本稿では,学習を通じてシステムのコンポーネントを協調的に最適化することにより,静的オブジェクトの局在性を向上させるシステムを提案する。 私たちのシステムは ネットワークから成り立っています 1)1つの画像から5DoFオブジェクトのポーズ推定。 2)一対のフレーム間の物体の関連、及び 3) シーン内の静的オブジェクトの最終的なジオローカライズを生成するマルチオブジェクトトラッキング。 当社のアプローチは,公開可能なデータセットを用いて評価し,データの可用性に起因した信号に焦点をあてる。 各コンポーネントについて、現代の代替品と比較し、大幅な性能向上を示す。 また,構成モデルの合同学習により,エンド・ツー・エンドのシステム性能がさらに向上することを示す。

Accurately estimating the position of static objects, such as traffic lights, from the moving camera of a self-driving car is a challenging problem. In this work, we present a system that improves the localization of static objects by jointly-optimizing the components of the system via learning. Our system is comprised of networks that perform: 1) 5DoF object pose estimation from a single image, 2) association of objects between pairs of frames, and 3) multi-object tracking to produce the final geo-localization of the static objects within the scene. We evaluate our approach using a publicly-available data set, focusing on traffic lights due to data availability. For each component, we compare against contemporary alternatives and show significantly-improved performance. We also show that the end-to-end system performance is further improved via joint-training of the constituent models.
翻訳日:2022-12-14 21:21:57 公開日:2021-01-03
# ブラックボックス機械翻訳システムの模倣攻撃と防御

Imitation Attacks and Defenses for Black-box Machine Translation Systems ( http://arxiv.org/abs/2004.15015v3 )

ライセンス: Link先を確認
Eric Wallace, Mitchell Stern, Dawn Song(参考訳) 敵はブラックボックスのNLPシステムを盗んだり攻撃したりし、金銭的利益やモデルエラーを悪用したりすることができる。 特に興味深いのが機械翻訳(MT)であり、高い商業価値とエラーのコストがかかるモデルである。 我々はブラックボックスMTシステムの利用の可能性を調査し、そのような脅威に対する予備的な防御策を探る。 まず、MTシステムはモノリンガル文を問合せし、その出力を模倣する訓練モデルを用いて盗むことができることを示す。 シミュレーション実験により,模倣モデルが対象モデルと異なる入力データやアーキテクチャを持つ場合でも,MTモデルの盗みが可能であることを示す。 これらのアイデアを応用して、3つのMTシステムの0.6BLEU以内に達する模倣モデルを、高リソースと低リソースの言語ペアで訓練する。 そして、模倣モデルの類似性を利用して、逆の例をプロダクションシステムに転送します。 グラデーションに基づく攻撃は、意味的に不正確な翻訳、コンテンツのドロップ、そして下品なモデルの出力につながる入力を露出する。 これらの脆弱性を軽減するために,模倣モデルの最適化を誤指示するために,翻訳出力を変更するディフェンスを提案する。 この防御は敵のブレウスコアを低下させ、守備側のブレウと推論速度を犠牲にして攻撃成功率を低下させる。

Adversaries may look to steal or attack black-box NLP systems, either for financial gain or to exploit model errors. One setting of particular interest is machine translation (MT), where models have high commercial value and errors can be costly. We investigate possible exploits of black-box MT systems and explore a preliminary defense against such threats. We first show that MT systems can be stolen by querying them with monolingual sentences and training models to imitate their outputs. Using simulated experiments, we demonstrate that MT model stealing is possible even when imitation models have different input data or architectures than their target models. Applying these ideas, we train imitation models that reach within 0.6 BLEU of three production MT systems on both high-resource and low-resource language pairs. We then leverage the similarity of our imitation models to transfer adversarial examples to the production systems. We use gradient-based attacks that expose inputs which lead to semantically-incorrect translations, dropped content, and vulgar model outputs. To mitigate these vulnerabilities, we propose a defense that modifies translation outputs in order to misdirect the optimization of imitation models. This defense degrades the adversary's BLEU score and attack success rate at some cost in the defender's BLEU and inference speed.
翻訳日:2022-12-08 03:41:31 公開日:2021-01-03
# Gated Recurrent Units を用いたオーディオキャプション

Audio Captioning using Gated Recurrent Units ( http://arxiv.org/abs/2006.03391v3 )

ライセンス: Link先を確認
Ay\c{s}eg\"ul \"Ozkaya Eren and Mustafa Sert(参考訳) 最近提案された音声キャプションは,音声クリップのテキスト記述を自動的に生成するタスクである。 本研究では,音声キャプション予測のために,音声埋め込みを用いた新しいディープネットワークアーキテクチャを提案する。 メルエネルギのログに加え、音声特徴の抽出を目的としたVGGishオーディオ埋め込みモデルを用いて、音声キャプションタスクにおけるオーディオ埋め込みの有用性を探索する。 提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。 オーディオエンコーディングは双方向Gated Recurrent Unit(BiGRU)を介して行われ、GRUはテキストエンコーディングフェーズに使用される。 次に,新たな音声キャプション性能データセットであるClathoを用いて,実験結果を文献と比較し,本モデルの評価を行った。 実験の結果,提案するbigruベースの深層モデルが,その成果を上回っていることがわかった。

Audio captioning is a recently proposed task for automatically generating a textual description of a given audio clip. In this study, a novel deep network architecture with audio embeddings is presented to predict audio captions. Within the aim of extracting audio features in addition to log Mel energies, VGGish audio embedding model is used to explore the usability of audio embeddings in the audio captioning task. The proposed architecture encodes audio and text input modalities separately and combines them before the decoding stage. Audio encoding is conducted through Bi-directional Gated Recurrent Unit (BiGRU) while GRU is used for the text encoding phase. Following this, we evaluate our model by means of the newly published audio captioning performance dataset, namely Clotho, to compare the experimental results with the literature. Our experimental results show that the proposed BiGRU-based deep model outperforms the state of the art results.
翻訳日:2022-11-25 04:37:11 公開日:2021-01-03
# 組合せ半バンドにおけるトンプソンサンプリングの統計的効率

Statistical Efficiency of Thompson Sampling for Combinatorial Semi-Bandits ( http://arxiv.org/abs/2006.06613v2 )

ライセンス: Link先を確認
Pierre Perrault, Etienne Boursier, Vianney Perchet, Michal Valko(参考訳) 半バンドフィードバック(cmab)を用いた確率的組合せ型多腕バンディットについて検討した。 cmabでは、最適な漸近的後悔(作用の大きさの因子多対数まで)を持つ効率的な政策が存在するという問題は、相互に独立した結果を含む分布の多くの族、より一般に多変量サブガウシアン族に対して依然として開かれている。 本稿では,これら2つの家系について,Y Combinatorial Thompson Sampling Policy (CTS) の変種を分析して,上記の質問に答える。 互いに独立な$[0,1]$の場合、ベータ先行値を用いたCTSの厳密な解析を提案する。 次に,多変量サブガウシアン結果のより一般的な設定を考察し,ガウシアン前駆体を用いたctsの厳密な解析を提案する。 この最後の結果は、最適ではあるが計算効率が良くない組合せバンディットポリシー(escb)の効率的なサンプリングの代替となる。

We investigate stochastic combinatorial multi-armed bandit with semi-bandit feedback (CMAB). In CMAB, the question of the existence of an efficient policy with an optimal asymptotic regret (up to a factor poly-logarithmic with the action size) is still open for many families of distributions, including mutually independent outcomes, and more generally the multivariate sub-Gaussian family. We propose to answer the above question for these two families by analyzing variants of the Combinatorial Thompson Sampling policy (CTS). For mutually independent outcomes in $[0,1]$, we propose a tight analysis of CTS using Beta priors. We then look at the more general setting of multivariate sub-Gaussian outcomes and propose a tight analysis of CTS using Gaussian priors. This last result gives us an alternative to the Efficient Sampling for Combinatorial Bandit policy (ESCB), which, although optimal, is not computationally efficient.
翻訳日:2022-11-22 10:11:23 公開日:2021-01-03
# スタイン変分勾配降下の非漸近解析

A Non-Asymptotic Analysis for Stein Variational Gradient Descent ( http://arxiv.org/abs/2006.09797v4 )

ライセンス: Link先を確認
Anna Korba, Adil Salim, Michael Arbel, Giulia Luise, Arthur Gretton(参考訳) 粒子の集合を最適化して、ターゲット確率分布を$\pi\propto e^{-V}$, $\mathbb{R}^d$で近似するStein Variational Gradient Descent (SVGD)アルゴリズムについて検討する。 集団極限において、SVGD は KL の発散における確率分布の空間における勾配降下を$\pi$ に対して実行し、そこで勾配は核積分作用素を通して滑らかになる。 本稿では,SVGDアルゴリズムのための新しい有限時間解析法を提案する。 平均 stein fisher divergence (kernel stein discrepancy とも呼ばれる) に対する収束率と、各イテレーションの目的を減少させるアルゴリズムを定式化した降下補題を提供する。 また, SVGDの実用的実装に対応する有限粒子系の収束結果も, その集団バージョンに提供する。

We study the Stein Variational Gradient Descent (SVGD) algorithm, which optimises a set of particles to approximate a target probability distribution $\pi\propto e^{-V}$ on $\mathbb{R}^d$. In the population limit, SVGD performs gradient descent in the space of probability distributions on the KL divergence with respect to $\pi$, where the gradient is smoothed through a kernel integral operator. In this paper, we provide a novel finite time analysis for the SVGD algorithm. We provide a descent lemma establishing that the algorithm decreases the objective at each iteration, and rates of convergence for the average Stein Fisher divergence (also referred to as Kernel Stein Discrepancy). We also provide a convergence result of the finite particle system corresponding to the practical implementation of SVGD to its population version.
翻訳日:2022-11-19 19:32:53 公開日:2021-01-03
# RT3D:モバイルデバイス上の3D畳み込みニューラルネットワークのリアルタイム実行を実現する

RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks on Mobile Devices ( http://arxiv.org/abs/2007.09835v2 )

ライセンス: Link先を確認
Wei Niu, Mengshu Sun, Zhengang Li, Jou-An Chen, Jiexiong Guan, Xipeng Shen, Yanzhi Wang, Sijia Liu, Xue Lin, Bin Ren(参考訳) モバイルデバイスは、パワフルでハイエンドなモバイルcpuとgpuを備えているため、ディープラーニングタスクの重要なキャリアになりつつある。 しかし、3D畳み込みニューラルネットワーク(CNN)の実行は、高い推論精度に加えて、リアルタイムのパフォーマンスを目標とする課題である。 理由は、より複雑なモデル構造とより高いモデル次元が、モバイルデバイスで利用可能な計算/ストレージリソースを圧倒するからだ。 自然に、深層学習の重み付け技術に変わるかもしれません。 しかし,既存の2次元CNN重み付け法の3次元CNNへの直接的一般化は,高い推論精度を達成しつつ,モバイル並列性を完全に活用するには理想的ではない。 本稿では,3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークであるRT3Dを提案し,ニューラルネットワークの重み付けとコンパイラコード生成技術をシームレスに統合する。 本稿では,移動加速度に親しみやすい2つの構造的疎性スキーム,すなわち,バニラ構造的疎性とカーネル群構造的疎性(KGS)について検討する。 バニラスパーシティはカーネルグループ全体を取り除き、kgsスパーシティはよりきめ細かい構造スパーシティであり、デバイス上の完全な並列処理を活用しながら高い柔軟性を享受する。 提案手法を実現するために,再重み付け正則化プルーニングアルゴリズムを提案する。 スパルシリティによる推定時間の高速化は、モデルフラップ全体のプルーニングレート(浮動小数点演算)に近づいている。 RT3Dは3D CNNをサポートする現在のモバイルフレームワークと比較して、エンドツーエンドの推論時間の最大29.1$\times$スピードアップを示し、1%-1.5%の精度損失がある。 16の動画フレームのエンドツーエンドの推論時間は、C3DとR(2+1)Dモデルを携帯電話で実行する場合、150ミリ秒以内であった。 3D CNNのリアルタイム実行が初めて、市販のモバイル上で実現される。

Mobile devices are becoming an important carrier for deep learning tasks, as they are being equipped with powerful, high-end mobile CPUs and GPUs. However, it is still a challenging task to execute 3D Convolutional Neural Networks (CNNs) targeting for real-time performance, besides high inference accuracy. The reason is more complex model structure and higher model dimensionality overwhelm the available computation/storage resources on mobile devices. A natural way may be turning to deep learning weight pruning techniques. However, the direct generalization of existing 2D CNN weight pruning methods to 3D CNNs is not ideal for fully exploiting mobile parallelism while achieving high inference accuracy. This paper proposes RT3D, a model compression and mobile acceleration framework for 3D CNNs, seamlessly integrating neural network weight pruning and compiler code generation techniques. We propose and investigate two structured sparsity schemes i.e., the vanilla structured sparsity and kernel group structured (KGS) sparsity that are mobile acceleration friendly. The vanilla sparsity removes whole kernel groups, while KGS sparsity is a more fine-grained structured sparsity that enjoys higher flexibility while exploiting full on-device parallelism. We propose a reweighted regularization pruning algorithm to achieve the proposed sparsity schemes. The inference time speedup due to sparsity is approaching the pruning rate of the whole model FLOPs (floating point operations). RT3D demonstrates up to 29.1$\times$ speedup in end-to-end inference time comparing with current mobile frameworks supporting 3D CNNs, with moderate 1%-1.5% accuracy loss. The end-to-end inference time for 16 video frames could be within 150 ms, when executing representative C3D and R(2+1)D models on a cellphone. For the first time, real-time execution of 3D CNNs is achieved on off-the-shelf mobiles.
翻訳日:2022-11-08 10:13:14 公開日:2021-01-03
# node2coords: Wasserstein Barycentersによるグラフ表現学習

node2coords: Graph Representation Learning with Wasserstein Barycenters ( http://arxiv.org/abs/2007.16056v2 )

ライセンス: Link先を確認
Effrosyni Simou, Dorina Thanou and Pascal Frossard(参考訳) ネットワーク分析タスクを実行するには、グラフ構造において最も関連する情報をキャプチャする表現が必要である。 しかし、既存の手法は、単純な方法で解釈でき、グラフ構造への摂動に頑健な表現を学習しない。 本研究では,低次元空間を同時に学習し,その空間内のノードを座標するグラフ表現学習アルゴリズムである node2coords を提案することによって,これらの2つの制約に対処する。 低次元空間にまたがるパターンは、グラフの最も重要な構造情報を明らかにする。 ノードの座標は、その局所構造がグラフ構造パターンに近接していることを明らかにする。 基礎となるグラフを考慮し、この近接度を測定するために、ワッサーシュタイン距離を用いることを提案する。 本稿では,エンコーダの線形層を用いたオートエンコーダと,デコーダの新たなwasserstein barycentric layerを提案する。 ノードのローカル構造をキャプチャするノード接続記述子は、エンコーダを通過して、グラフ構造パターンの小さなセットを学ぶ。 デコーダでは、ノード接続記述子は、グラフ構造パターンのwasserstein barycenterとして再構成される。 ノードの接続記述子のバリ中心表現の最適重みは、低次元空間におけるそのノードの座標に対応する。 実験の結果,ノード2座標で学習した表現は解釈可能であることが示され,グラフ構造の摂動に安定であり,ノード分類における最先端手法と比較して,競合的あるいは優れた結果が得られる。

In order to perform network analysis tasks, representations that capture the most relevant information in the graph structure are needed. However, existing methods do not learn representations that can be interpreted in a straightforward way and that are robust to perturbations to the graph structure. In this work, we address these two limitations by proposing node2coords, a representation learning algorithm for graphs, which learns simultaneously a low-dimensional space and coordinates for the nodes in that space. The patterns that span the low dimensional space reveal the graph's most important structural information. The coordinates of the nodes reveal the proximity of their local structure to the graph structural patterns. In order to measure this proximity by taking into account the underlying graph, we propose to use Wasserstein distances. We introduce an autoencoder that employs a linear layer in the encoder and a novel Wasserstein barycentric layer at the decoder. Node connectivity descriptors, that capture the local structure of the nodes, are passed through the encoder to learn the small set of graph structural patterns. In the decoder, the node connectivity descriptors are reconstructed as Wasserstein barycenters of the graph structural patterns. The optimal weights for the barycenter representation of a node's connectivity descriptor correspond to the coordinates of that node in the low-dimensional space. Experimental results demonstrate that the representations learned with node2coords are interpretable, lead to node embeddings that are stable to perturbations of the graph structure and achieve competitive or superior results compared to state-of-the-art methods in node classification.
翻訳日:2022-11-04 06:04:42 公開日:2021-01-03
# SCG-Net:セマンティックセグメンテーションのための自己構築型グラフニューラルネットワーク

SCG-Net: Self-Constructing Graph Neural Networks for Semantic Segmentation ( http://arxiv.org/abs/2009.01599v2 )

ライセンス: Link先を確認
Qinghui Liu, Michael Kampffmeyer, Robert Jenssen, Arnt-B{\o}rre Salberg(参考訳) 長距離画素依存を利用したグローバルな文脈表現のキャプチャにより,セマンティックセグメンテーション性能が向上することが示されている。 しかし、注意スキームや非常に深いモデルを利用して視野を拡大し、結果として大きなメモリ消費を伴う複雑なモデルを生み出すという現在のアプローチは、これを効果的に行うかはオープンな問題である。 グラフニューラルネットワークに関する最近の研究に触発されて、画像から直接長距離依存グラフを学習し、文脈情報を効率的に伝播し、セマンティックセグメンテーションを改善するセルフコンストラクティンググラフ(SCG)モジュールを提案する。 このモジュールは、新しい適応対角法と、カスタマイズされたグラフ再構成項とKullback-Leibler分散正規化項からなる変分下界によって最適化される。 ニューラルネットワーク(scg-net)に組み込むと、公に入手可能なisprsポツダムおよびヴァイヒンゲンデータセット上で、セマンティックセグメンテーションをエンドツーエンドで実行し(それぞれ92.0%及び89.8%のf1スコア)、関連する純粋畳み込みニューラルネットワーク(cnn)ベースモデルよりも少ない計算コストで実現する。

Capturing global contextual representations by exploiting long-range pixel-pixel dependencies has shown to improve semantic segmentation performance. However, how to do this efficiently is an open question as current approaches of utilising attention schemes or very deep models to increase the models field of view, result in complex models with large memory consumption. Inspired by recent work on graph neural networks, we propose the Self-Constructing Graph (SCG) module that learns a long-range dependency graph directly from the image and uses it to propagate contextual information efficiently to improve semantic segmentation. The module is optimised via a novel adaptive diagonal enhancement method and a variational lower bound that consists of a customized graph reconstruction term and a Kullback-Leibler divergence regularization term. When incorporated into a neural network (SCG-Net), semantic segmentation is performed in an end-to-end manner and competitive performance (mean F1-scores of 92.0% and 89.8% respectively) on the publicly available ISPRS Potsdam and Vaihingen datasets is achieved, with much fewer parameters, and at a lower computational cost compared to related pure convolutional neural network (CNN) based models.
翻訳日:2022-10-22 07:43:00 公開日:2021-01-03
# CTにおけるユニバーサル病変検出のための不均一ラベルと部分ラベルを用いた複数データセットからの学習

Learning from Multiple Datasets with Heterogeneous and Partial Labels for Universal Lesion Detection in CT ( http://arxiv.org/abs/2009.02577v3 )

ライセンス: Link先を確認
Ke Yan, Jinzheng Cai, Youjing Zheng, Adam P. Harrison, Dakai Jin, Youbao Tang, Yuxing Tang, Lingyun Huang, Jing Xiao, Le Lu(参考訳) 高精度なディープラーニングモデルのトレーニングには,高品質なラベル付き大規模データセットが望ましい。 しかし、アノテーションコストのため、医療画像のデータセットは部分的にラベル付けされるか小さいかのどちらかであることが多い。 例えば、DeepLesionは様々なタイプの病変を持つ大規模なCT画像データセットであるが、多くのラベルのない病変(アノテーションを欠く)もある。 部分的にラベル付けされたデータセット上で病変検出のトレーニングを行うと、不足したアノテーションが誤った負の信号を生成し、性能を低下させる。 DeepLesion以外にも、肺結節のLUNAや肝腫瘍のLiTSなど、いくつかの小さな単一タイプのデータセットがある。 これらのデータセットは異種ラベルスコープを持ち、異なる病原体タイプは異なるデータセットにラベル付けされ、他の型は無視される。 本研究では,様々な病変を検出する普遍的病変検出アルゴリズムを開発することを目的とする。 異種および部分ラベルの問題に取り組む。 まず,Lesion ENSemble(LENS)という簡易かつ効果的な病変検出フレームワークを構築した。 LENSはマルチタスク方式で複数の異種病変データセットから効率的に学習し、提案融合によりそれらの相乗効果を利用することができる。 次に, 臨床知識と横断的知識伝達を活用し, 部分的にラベルされたデータセットから欠落したアノテーションを抽出するための戦略を提案する。 最後に、我々のフレームワークを4つのパブリックな病変データセットでトレーニングし、DeepLesionの800のサブボリュームで評価する。 本手法は, 平均感度測定における最先端手法と比較して49%の相対的な改善をもたらす。 私たちは、DeepLesionのマニュアル3Dアノテーションをhttps://github.com/viggin/DeepLesion_manual_test_setで公開しました。

Large-scale datasets with high-quality labels are desired for training accurate deep learning models. However, due to the annotation cost, datasets in medical imaging are often either partially-labeled or small. For example, DeepLesion is such a large-scale CT image dataset with lesions of various types, but it also has many unlabeled lesions (missing annotations). When training a lesion detector on a partially-labeled dataset, the missing annotations will generate incorrect negative signals and degrade the performance. Besides DeepLesion, there are several small single-type datasets, such as LUNA for lung nodules and LiTS for liver tumors. These datasets have heterogeneous label scopes, i.e., different lesion types are labeled in different datasets with other types ignored. In this work, we aim to develop a universal lesion detection algorithm to detect a variety of lesions. The problem of heterogeneous and partial labels is tackled. First, we build a simple yet effective lesion detection framework named Lesion ENSemble (LENS). LENS can efficiently learn from multiple heterogeneous lesion datasets in a multi-task fashion and leverage their synergy by proposal fusion. Next, we propose strategies to mine missing annotations from partially-labeled datasets by exploiting clinical prior knowledge and cross-dataset knowledge transfer. Finally, we train our framework on four public lesion datasets and evaluate it on 800 manually-labeled sub-volumes in DeepLesion. Our method brings a relative improvement of 49% compared to the current state-of-the-art approach in the metric of average sensitivity. We have publicly released our manual 3D annotations of DeepLesion in https://github.com/viggin/DeepLesion_manual_test_set.
翻訳日:2022-10-21 21:00:30 公開日:2021-01-03
# 制約付きニューラル最適化を用いた最適解多様体の抽出

Extracting Optimal Solution Manifolds using Constrained Neural Optimization ( http://arxiv.org/abs/2009.06024v4 )

ライセンス: Link先を確認
Gurpreet Singh, Soumyajit Gupta, Matthew Lease(参考訳) 制約付き最適化解アルゴリズムは点ベース解に制限される。 実際には、単目的あるいは複数目的を満たさなければならないが、目的関数と制約の両方が非凸になり、複数の最適解が得られる。 現実世界のシナリオには、Implicit Functions、Hyperspectral Unmixing、Pareto Optimal Frontsとして表面を交差させる。 局所的あるいは大域的凸化は、非凸形式に直面する場合の一般的な回避策である。 しかし、そのようなアプローチは、しばしば厳密な関数のクラスに制限され、その偏差は元の問題に対する準最適解をもたらす。 最適集合を近似多様体として抽出するニューラル解を提案する。そこでは、修正されていない非凸目的と制約をモデラーガイド付き、ドメインインフォームドな$L_2$損失関数として定義する。 これは、モデラーが特定のドメインで既知の解析形式に対して結果を確認できるため、解釈可能性を促進する。 本稿では,本手法の有効性を検証し,精度と計算効率の観点から,ベンチマーキングの既知の解法との比較を行う。

Constrained Optimization solution algorithms are restricted to point based solutions. In practice, single or multiple objectives must be satisfied, wherein both the objective function and constraints can be non-convex resulting in multiple optimal solutions. Real world scenarios include intersecting surfaces as Implicit Functions, Hyperspectral Unmixing and Pareto Optimal fronts. Local or global convexification is a common workaround when faced with non-convex forms. However, such an approach is often restricted to a strict class of functions, deviation from which results in sub-optimal solution to the original problem. We present neural solutions for extracting optimal sets as approximate manifolds, where unmodified, non-convex objectives and constraints are defined as modeler guided, domain-informed $L_2$ loss function. This promotes interpretability since modelers can confirm the results against known analytical forms in their specific domains. We present synthetic and realistic cases to validate our approach and compare against known solvers for bench-marking in terms of accuracy and computational efficiency.
翻訳日:2022-10-19 02:42:44 公開日:2021-01-03
# マルチモーダルビデオ質問応答のための階層的条件関係ネットワーク

Hierarchical Conditional Relation Networks for Multimodal Video Question Answering ( http://arxiv.org/abs/2010.10019v2 )

ライセンス: Link先を確認
Thao Minh Le, Vuong Le, Svetha Venkatesh, Truyen Tran(参考訳) ビデオQAは、複数の面でモデラーに挑戦する。 ビデオのモデリングには動的視覚チャネルのための時空間モデルだけでなく、サブタイトルやオーディオといった関連する情報チャネルのためのマルチモーダル構造を構築する必要がある。 ビデオQAは、言語クエリのコンテキストで各チャネルに関連するコンテンツを選択し、クエリに応答して時空間の概念と関係を構成する、少なくとも2つの複雑さのレイヤを追加します。 これらの要件に対処するために、私たちは2つの洞察から始めます。 (a)内容の選択と関係構築を条件付き計算構造に共同でカプセル化することができ、 b) ビデオ長構造は階層的に構成することができる。 のために (a) テンソルオブジェクトの集合を入力として、入力の関係を符号化する新しいオブジェクトの集合に変換する、条件付き関係ネットワーク(CRN)と呼ばれる一般利用可能なニューラルネットワークを導入する。 crnの汎用設計は、入力モダリティやコンディショニング機能を両ドメインに結合する柔軟性を備えたシンプルなブロック積み重ねによって、ビデオqaの一般的な複雑なモデル構築プロセスを容易にする。 その結果、私たちは洞察に気づきます。 (b)ビデオQAのための階層的条件関係ネットワーク(HCRN)を導入する。 HCRNは、主に、構成性、階層性、および近時・遠時関係の観点から、ビデオとその付随するチャンネルの視覚的内容の固有の特性を活用することを目的としている。 HCRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。 我々の厳密な評価は、ビデオQAのような複雑なドメインに対するCRNユニットとHCRNの強みを実証し、TGIF-QAやTVQAのような大規模な実世界のデータセットを含むよく研究されたベンチマークにおいて、SOTAよりも一貫した改善を示している。

Video QA challenges modelers in multiple fronts. Modeling video necessitates building not only spatio-temporal models for the dynamic visual channel but also multimodal structures for associated information channels such as subtitles or audio. Video QA adds at least two more layers of complexity - selecting relevant content for each channel in the context of the linguistic query, and composing spatio-temporal concepts and relations in response to the query. To address these requirements, we start with two insights: (a) content selection and relation construction can be jointly encapsulated into a conditional computational structure, and (b) video-length structures can be composed hierarchically. For (a) this paper introduces a general-reusable neural unit dubbed Conditional Relation Network (CRN) taking as input a set of tensorial objects and translating into a new set of objects that encode relations of the inputs. The generic design of CRN helps ease the common complex model building process of Video QA by simple block stacking with flexibility in accommodating input modalities and conditioning features across both different domains. As a result, we realize insight (b) by introducing Hierarchical Conditional Relation Networks (HCRN) for Video QA. The HCRN primarily aims at exploiting intrinsic properties of the visual content of a video and its accompanying channels in terms of compositionality, hierarchy, and near and far-term relation. HCRN is then applied for Video QA in two forms, short-form where answers are reasoned solely from the visual content, and long-form where associated information, such as subtitles, presented. Our rigorous evaluations show consistent improvements over SOTAs on well-studied benchmarks including large-scale real-world datasets such as TGIF-QA and TVQA, demonstrating the strong capabilities of our CRN unit and the HCRN for complex domains such as Video QA.
翻訳日:2022-10-06 03:47:37 公開日:2021-01-03
# ベイズ選択的融合による視覚位置認識のための知的基準キュレーション

Intelligent Reference Curation for Visual Place Recognition via Bayesian Selective Fusion ( http://arxiv.org/abs/2010.09228v2 )

ライセンス: Link先を確認
Timothy L. Molloy and Tobias Fischer and Michael Milford and Girish N. Nair(参考訳) 視覚的場所認識(VPR)における重要な課題は、日時、季節、天気、照明条件などの要因によって視覚的外観が劇的に変化するにもかかわらず、場所を認識することである。 ディープラーレント画像記述子、シーケンスマッチング、ドメイン翻訳、確率的ローカライゼーションに基づく多くのアプローチがこの課題に対処することに成功したが、ほとんどの場合、考えられる場所の注意深くキュレートされた参照画像に頼っている。 本稿では,提案手法であるベイズ選択的融合法(bayesian selective fusion)を提案する。 提案手法の選択的要素は,各参照画像の非生産的融合を回避し,視覚条件の変化を伴う環境(屋内で点滅ライトを点滅させたり,屋外で日光浴や昼夜サイクルなど)における情報的参照画像の動的選択を可能にする。 提案手法の確率的要素は,VPRの新たなトレーニング自由度関数により,様々な不確かさを考慮に入れた複数の参照画像を融合する手段を提供する。 2つのベンチマークデータセットからの難しい問合せ画像について,我々は,最良参照画像の事前(未熟)知識を付与した最先端技術とともに,いくつかの代替核融合手法の性能と一致し,その性能を上回っていることを実証する。 本手法は,動的視覚環境はトレーニング不要で記述子非依存であり,シーケンスマッチングなどの既存の手法を補完するので,長期的自律性に適している。

A key challenge in visual place recognition (VPR) is recognizing places despite drastic visual appearance changes due to factors such as time of day, season, weather or lighting conditions. Numerous approaches based on deep-learnt image descriptors, sequence matching, domain translation, and probabilistic localization have had success in addressing this challenge, but most rely on the availability of carefully curated representative reference images of the possible places. In this paper, we propose a novel approach, dubbed Bayesian Selective Fusion, for actively selecting and fusing informative reference images to determine the best place match for a given query image. The selective element of our approach avoids the counterproductive fusion of every reference image and enables the dynamic selection of informative reference images in environments with changing visual conditions (such as indoors with flickering lights, outdoors during sunshowers or over the day-night cycle). The probabilistic element of our approach provides a means of fusing multiple reference images that accounts for their varying uncertainty via a novel training-free likelihood function for VPR. On difficult query images from two benchmark datasets, we demonstrate that our approach matches and exceeds the performance of several alternative fusion approaches along with state-of-the-art techniques that are provided with prior (unfair) knowledge of the best reference images. Our approach is well suited for long-term robot autonomy where dynamic visual environments are commonplace since it is training-free, descriptor-agnostic, and complements existing techniques such as sequence matching.
翻訳日:2022-10-05 22:52:24 公開日:2021-01-03
# 学習に基づく制御と推定のためのニューラル確率縮尺

Neural Stochastic Contraction Metrics for Learning-based Control and Estimation ( http://arxiv.org/abs/2011.03168v4 )

ライセンス: Link先を確認
Hiroyasu Tsukamoto and Soon-Jo Chung and Jean-Jacques E. Slotine(参考訳) 我々は,確率的非線形系のクラスに対して,確率的に安定なロバスト制御と推定を行う新しい設計フレームワークNSCMを提案する。 スペクトル正規化されたディープニューラルネットワークを使用して、確率的な設定で単純化された凸最適化によってサンプリングされた縮小メトリックを構築する。 スペクトル正規化は計量の状態導出をリプシッツ連続に制限し、確率的外乱の下で系軌道の平均二乗距離の指数的有界性を保証する。 NSCMフレームワークにより、自律エージェントは、リアルタイムに最適な安定制御と推定ポリシーを近似することができ、シミュレーション結果に示すように、状態依存リカティ方程式、反復LQR、EKF、決定論的神経収縮測定など、既存の非線形制御と推定技術よりも優れる。

We present Neural Stochastic Contraction Metrics (NSCM), a new design framework for provably-stable robust control and estimation for a class of stochastic nonlinear systems. It uses a spectrally-normalized deep neural network to construct a contraction metric, sampled via simplified convex optimization in the stochastic setting. Spectral normalization constrains the state-derivatives of the metric to be Lipschitz continuous, thereby ensuring exponential boundedness of the mean squared distance of system trajectories under stochastic disturbances. The NSCM framework allows autonomous agents to approximate optimal stable control and estimation policies in real-time, and outperforms existing nonlinear control and estimation techniques including the state-dependent Riccati equation, iterative LQR, EKF, and the deterministic neural contraction metric, as illustrated in simulation results.
翻訳日:2022-09-29 04:50:34 公開日:2021-01-03
# 破壊測地学による大規模微分型登録法

A method for large diffeomorphic registration via broken geodesics ( http://arxiv.org/abs/2011.14298v2 )

ライセンス: Link先を確認
Alphin J. Thottupattu, Jayanthi Sivaswamy, Venkateswaran P. Krishnan(参考訳) 縦断データやサブジェクト間データに見られる解剖学的変動は、通常、これらの画像の非剛性登録によってキャプチャされた基底変形によって記述される。 静止速度場(SVF)に基づく非剛性登録アルゴリズムは、広く登録に使われている。 SVF法は、微分同相の無限次元滑らかな多様体に埋め込まれた変形の有限次元部分多様体をキャプチャする計量自由フレームワークを形成する。 しかし、これらの手法は変形の程度に限られる。 本稿では、この制限を扱い、微分同相写像 $\mathcal{g}$ の多様体の近似距離空間を定義する。 本稿では,大変形を小変形の有限成分に分解する方法を提案する。 これにより、$\mathcal{g}$ の測地線が破れ、その長さは近似登録計量となる。 本手法は,単純で強度に基づくログデーモン実装を用いて記述する。 提案手法の検証結果は, 従来手法よりも定性的に優れた結果が得られる一方で, 大規模かつ複雑な変形を捉えることができることを示す。 また,提案した登録基準が変形の程度を示す良い指標であることを示す。

Anatomical variabilities seen in longitudinal data or inter-subject data is usually described by the underlying deformation, captured by non-rigid registration of these images. Stationary Velocity Field (SVF) based non-rigid registration algorithms are widely used for registration. SVF based methods form a metric-free framework which captures a finite dimensional submanifold of deformations embedded in the infinite dimensional smooth manifold of diffeomorphisms. However, these methods cover only a limited degree of deformations. In this paper, we address this limitation and define an approximate metric space for the manifold of diffeomorphisms $\mathcal{G}$. We propose a method to break down the large deformation into finite compositions of small deformations. This results in a broken geodesic path on $\mathcal{G}$ and its length now forms an approximate registration metric. We illustrate the method using a simple, intensity-based, log-demon implementation. Validation results of the proposed method show that it can capture large and complex deformations while producing qualitatively better results than the state-of-the-art methods. The results also demonstrate that the proposed registration metric is a good indicator of the degree of deformation.
翻訳日:2021-06-07 09:04:05 公開日:2021-01-03
# (参考訳) 単調性推論のための注意木構造ネットワーク

Attentive Tree-structured Network for Monotonicity Reasoning ( http://arxiv.org/abs/2101.00540v1 )

ライセンス: CC BY 4.0
Zeming Chen(参考訳) 単調性推論のために設計された多くの最先端のニューラルモデルは、下向きの推論では不十分である。 この欠点に対処するため、注意深い木構造ニューラルネットワークを開発した。 ツリーベースの長期記憶ネットワーク(Tree-LSTM)をソフトアテンションで構成する。 推論タスクの文対から構文解析木情報をモデル化するように設計されている。 前提と仮説の表現を整列するために、自己注意集約器が使用される。 本稿では,モノトニティ・エンタテリメント・データセット(MED)を用いて,そのモデルを示し,評価する。 モデルが既存のモデルより優れていることを説明し、説明しようとします。

Many state-of-art neural models designed for monotonicity reasoning perform poorly on downward inference. To address this shortcoming, we developed an attentive tree-structured neural network. It consists of a tree-based long-short-term-memory network (Tree-LSTM) with soft attention. It is designed to model the syntactic parse tree information from the sentence pair of a reasoning task. A self-attentive aggregator is used for aligning the representations of the premise and the hypothesis. We present our model and evaluate it using the Monotonicity Entailment Dataset (MED). We show and attempt to explain that our model outperforms existing models on MED.
翻訳日:2021-04-13 06:15:10 公開日:2021-01-03
# (参考訳) Voronoiテッセルレーション支援深層学習によるスパースセンサのグローバルフィールド再構築

Global field reconstruction from sparse sensors with Voronoi tessellation-assisted deep learning ( http://arxiv.org/abs/2101.00554v1 )

ライセンス: CC BY 4.0
Kai Fukami, Romit Maulik, Nesar Ramachandra, Koji Fukagata, and Kunihiko Taira(参考訳) 限られたセンサーから複雑な時間進化フィールドの正確で堅牢なグローバルな状況認識を実現することは、長年にわたる課題である。 この再構成問題は、センサーがランダムまたは非組織的な方法でわずかに配置されている場合、特に困難であり、科学や工学の様々な問題でしばしば遭遇する。 さらに、これらのセンサーは動作し、時間とともにオンラインまたはオフラインになる。 この科学的問題に対処する上で重要なレバレッジは、センサーから蓄積された豊富なデータである。 そこで本研究では,任意の位置センサに対して,構造化格子を用いた深層学習に基づくデータ駆動型空間場復元手法を提案する。 機械学習のna\" な利用は、グローバルフィールドの再構築に非常に高価になり、さらに任意の数のセンサーに適応できないことに注意すべきである。 本研究では,畳み込みニューラルネットワークの計算的利用を可能にするセンサ位置からの構造化グリッド表現を得るために,ボロノイテッセレーションの利用を検討する。 本手法の主な特徴の1つは、画像処理のために確立された構造化センサデータに対するディープラーニングに基づく超解像再構成技術との互換性である。 提案手法は, 非定常流れ, 物理データ, 3次元乱流に対して有効である。 現在のフレームワークは、任意の数の移動センサーを処理できるため、既存の再構築方法において大きな制限を克服できる。 提案手法は,実時間グローバルフィールド推定のためのニューラルネットワークの実用化に向けた新たな道を開く。

Achieving accurate and robust global situational awareness of a complex time-evolving field from a limited number of sensors has been a longstanding challenge. This reconstruction problem is especially difficult when sensors are sparsely positioned in a seemingly random or unorganized manner, which is often encountered in a range of scientific and engineering problems. Moreover, these sensors can be in motion and can become online or offline over time. The key leverage in addressing this scientific issue is the wealth of data accumulated from the sensors. As a solution to this problem, we propose a data-driven spatial field recovery technique founded on a structured grid-based deep-learning approach for arbitrary positioned sensors of any numbers. It should be noted that the na\"ive use of machine learning becomes prohibitively expensive for global field reconstruction and is furthermore not adaptable to an arbitrary number of sensors. In the present work, we consider the use of Voronoi tessellation to obtain a structured-grid representation from sensor locations enabling the computationally tractable use of convolutional neural networks. One of the central features of the present method is its compatibility with deep-learning based super-resolution reconstruction techniques for structured sensor data that are established for image processing. The proposed reconstruction technique is demonstrated for unsteady wake flow, geophysical data, and three-dimensional turbulence. The current framework is able to handle an arbitrary number of moving sensors, and thereby overcomes a major limitation with existing reconstruction methods. The presented technique opens a new pathway towards the practical use of neural networks for real-time global field estimation.
翻訳日:2021-04-13 05:46:25 公開日:2021-01-03
# (参考訳) StarNet:線形方程式決定系を用いた深部生成モデルのグラディエントフリートレーニング

StarNet: Gradient-free Training of Deep Generative Models using Determined System of Linear Equations ( http://arxiv.org/abs/2101.00574v1 )

ライセンス: CC BY 4.0
Amir Zadeh, Santiago Benoit, Louis-Philippe Morency(参考訳) 本稿では,線形方程式の確定解法のみに基づいて,深部生成モデルを訓練する手法を提案する。 このアプローチをStarNetと呼ぶネットワークは、次の望ましい性質を持つ: 1) 線形方程式の解に対する解の勾配を必要としない; 2) 線形方程式の系を解く際に高度にスケーラブルであり、同様にモデルのパラメータに対して、3) 遅延符号とネットワークパラメータを各層で推定するのに望ましい最小二乗境界を与える。

In this paper we present an approach for training deep generative models solely based on solving determined systems of linear equations. A network that uses this approach, called a StarNet, has the following desirable properties: 1) training requires no gradient as solution to the system of linear equations is not stochastic, 2) is highly scalable when solving the system of linear equations w.r.t the latent codes, and similarly for the parameters of the model, and 3) it gives desirable least-square bounds for the estimation of latent codes and network parameters within each layer.
翻訳日:2021-04-13 05:37:32 公開日:2021-01-03
# (参考訳) ニューラルネットワークアルゴリズムと蒸留塔の温度制御への応用

Neural network algorithm and its application in temperature control of distillation tower ( http://arxiv.org/abs/2101.00582v1 )

ライセンス: CC BY 4.0
Ningrui Zhao, Jinwei Lu(参考訳) 蒸留プロセスは、伝導、物質移動、熱伝導の複雑なプロセスであり、主に次のように表される: 機構は複雑で不確実性に変化し、プロセスは多変量で強い結合であり、システムは非線形、ヒステリシス、時間変化である。 ニューラルネットワークは、対応するサンプルに基づいて効果的な学習を行い、固定されたメカニズムに依存しず、任意の非線形マッピングを近似することができ、システムの入出力モデルを確立するために使用できる。 整流塔の温度システムには複雑な構造と高精度な要求がある。 ニューラルネットワークは、生産プロセスの要求を満たすシステムの温度を制御するために使用される。 本稿では, ニューラルネットワークと蒸留塔温度制御の基礎的概念と研究の進展を概説するとともに, 蒸留塔温度制御におけるニューラルネットワークの適用を系統的に要約し, 関連産業の発展への言及を目的とした。

Distillation process is a complex process of conduction, mass transfer and heat conduction, which is mainly manifested as follows: The mechanism is complex and changeable with uncertainty; the process is multivariate and strong coupling; the system is nonlinear, hysteresis and time-varying. Neural networks can perform effective learning based on corresponding samples, do not rely on fixed mechanisms, have the ability to approximate arbitrary nonlinear mappings, and can be used to establish system input and output models. The temperature system of the rectification tower has a complicated structure and high accuracy requirements. The neural network is used to control the temperature of the system, which satisfies the requirements of the production process. This article briefly describes the basic concepts and research progress of neural network and distillation tower temperature control, and systematically summarizes the application of neural network in distillation tower control, aiming to provide reference for the development of related industries.
翻訳日:2021-04-13 05:28:35 公開日:2021-01-03
# (参考訳) マルチラベルランキング:マイニングマルチラベルとラベルランキングデータ

Multi-label Ranking: Mining Multi-label and Label Ranking Data ( http://arxiv.org/abs/2101.00583v1 )

ライセンス: CC BY 4.0
Lihi Dery(参考訳) マルチラベルランキングタスク,特にマルチラベル分類とラベル分類について検討する。 従来のトランスフォーメーションと適応のカテゴリにはもはや当てはまらないので、ユニークな課題を強調し、メソッドを再分類します。 本研究は, 深層学習多ラベルマイニング, 極端多ラベル分類, ラベルランキングにおける最先端の手法に着目して, 過去10年間の開発状況を調査した。 今後の研究方針を述べることで締めくくります。

We survey multi-label ranking tasks, specifically multi-label classification and label ranking classification. We highlight the unique challenges, and re-categorize the methods, as they no longer fit into the traditional categories of transformation and adaptation. We survey developments in the last demi-decade, with a special focus on state-of-the-art methods in deep learning multi-label mining, extreme multi-label classification and label ranking. We conclude by offering a few future research directions.
翻訳日:2021-04-13 05:18:25 公開日:2021-01-03
# (参考訳) 一般化と適応のためのスタイル正規化と復元

Style Normalization and Restitution for DomainGeneralization and Adaptation ( http://arxiv.org/abs/2101.00588v1 )

ライセンス: CC BY 4.0
Xin Jin, Cuiling Lan, Wenjun Zeng, Zhibo Chen(参考訳) 多くの実用的なコンピュータビジョンアプリケーションでは、学習モデルは通常、トレーニングに使用されるデータセットのパフォーマンスが高いが、トレーニング画像とテスト画像の間にスタイルの違いがある新しい環境にデプロイすると、パフォーマンスが著しく低下する。 効果的なドメイン一般化モデルは、一般化および判別可能な特徴表現を学習できることが期待される。 本稿では,ネットワークの高一般化と識別能力の両立を図るために,新しいスタイル正規化・再構成モジュール(SNR)を設計する。 SNRモジュールでは、特に、インスタンス正規化(IN)を実行してスタイルのバリエーション(例えば、照明、色コントラスト)をフィルタリングし、異なるサンプルとドメイン間の差を小さくするスタイル正規化特徴を得る。 しかし、そのようなプロセスはタスク非依存であり、必然的にタスク関連識別情報を削除し、パフォーマンスを損なう可能性がある。 そこで本研究では,タスクに関連のある識別特徴を残差(すなわち,オリジナル特徴とスタイル正規化特徴の違い)から抽出し,それらをネットワークに戻すことで高い識別性を確保する。 さらに,タスク関連特徴とタスク非関連特徴の分離を促進すべく,再帰段階において2つの因果損失制約を強制する。 分類,セマンティックセグメンテーション,オブジェクト検出など,異なるコンピュータビジョンタスクにおけるSNRの有効性を検証する。 我々のSNRモジュールは、多くのタスクにおいてドメイン一般化(DG)および教師なしドメイン適応(UDA)のためのネットワークの性能を向上させることができることを示す。 コードはhttps://github.com/microsoft/snrで入手できる。

For many practical computer vision applications, the learned models usually have high performance on the datasets used for training but suffer from significant performance degradation when deployed in new environments, where there are usually style differences between the training images and the testing images. An effective domain generalizable model is expected to be able to learn feature representations that are both generalizable and discriminative. In this paper, we design a novel Style Normalization and Restitution module (SNR) to simultaneously ensure both high generalization and discrimination capability of the networks. In the SNR module, particularly, we filter out the style variations (e.g, illumination, color contrast) by performing Instance Normalization (IN) to obtain style normalized features, where the discrepancy among different samples and domains is reduced. However, such a process is task-ignorant and inevitably removes some task-relevant discriminative information, which could hurt the performance. To remedy this, we propose to distill task-relevant discriminative features from the residual (i.e, the difference between the original feature and the style normalized feature) and add them back to the network to ensure high discrimination. Moreover, for better disentanglement, we enforce a dual causality loss constraint in the restitution step to encourage the better separation of task-relevant and task-irrelevant features. We validate the effectiveness of our SNR on different computer vision tasks, including classification, semantic segmentation, and object detection. Experiments demonstrate that our SNR module is capable of improving the performance of networks for domain generalization (DG) and unsupervised domain adaptation (UDA) on many tasks. Code are available at https://github.com/microsoft/SNR.
翻訳日:2021-04-13 04:56:50 公開日:2021-01-03
# (参考訳) コンセンサスガイド対応デノナイジング

Consensus-Guided Correspondence Denoising ( http://arxiv.org/abs/2101.00591v1 )

ライセンス: CC BY 4.0
Chen Zhao, Yixiao Ge, Jiaqi Yang, Feng Zhu, Rui Zhao, Hongsheng Li(参考訳) 特徴点の2つのグループ間の対応選択は、初期雑音の一致から一貫性のある一致を正しく認識することを目的としている。 初期の試合は概して極めて不均衡であり、アウトレーヤが容易に支配できるため、選択は一般的に困難である。 さらに、外れ値のランダム分布は、異なるシナリオに適用した場合、以前の作業のロバスト性に制限される。 この問題に対処するため,地域・地域間のコンセンサス学習フレームワークを用いて,対応を頑健に識別する手法を提案する。 ローカル地域からグローバル地域への動的グラフから推定されるコンセンサススコアに基づいて,信頼度の高い候補を初期マッチングから蒸留する新しい「プルーニング」ブロックを導入した。 提案手法は複数のプルーニングブロックを順次積み重ねることで徐々に実現される。 提案手法は, ラインフィッティング, ワイドベースライン画像マッチング, 画像ローカライゼーションベンチマークを顕著なマージンで比較し, 初期一致の分布に有望な一般化能力を示す。

Correspondence selection between two groups of feature points aims to correctly recognize the consistent matches (inliers) from the initial noisy matches. The selection is generally challenging since the initial matches are generally extremely unbalanced, where outliers can easily dominate. Moreover, random distributions of outliers lead to the limited robustness of previous works when applied to different scenarios. To address this issue, we propose to denoise correspondences with a local-to-global consensus learning framework to robustly identify correspondence. A novel "pruning" block is introduced to distill reliable candidates from initial matches according to their consensus scores estimated by dynamic graphs from local to global regions. The proposed correspondence denoising is progressively achieved by stacking multiple pruning blocks sequentially. Our method outperforms state-of-the-arts on robust line fitting, wide-baseline image matching and image localization benchmarks by noticeable margins and shows promising generalization capability on different distributions of initial matches.
翻訳日:2021-04-13 04:22:10 公開日:2021-01-03
# (参考訳) 崩壊測定による構造信号の回収過程の相転移

Phase Transitions in Recovery of Structured Signals from Corrupted Measurements ( http://arxiv.org/abs/2101.00599v1 )

ライセンス: CC BY 4.0
Zhongxing Sun, Wei Cui, and Yulong Liu(参考訳) 本稿では,比較的少数の乱数測定結果から構造化信号を復元する問題について考察する。 この問題を解決するために異なる凸計画法を用いる場合、シャープな位相遷移は実際に数値的に観測されている。 本稿では,ガウス過程理論の基本的なツールを用いて,これらの現象の理論的説明を行う。 具体的には, 拘束的および罰則的回復手順の相転移の正確な位置を同定する。 我々の理論的結果は、これらの相転移は、例えば、接円錐の球面ガウス幅とスケールされた部分微分へのガウス距離などの幾何的構造の測定によって決定されることを示している。 確立された相転移理論を応用して,これら2種類の回復手順の関連性をさらに検討し,また,罰則化回収手順におけるトレードオフパラメータを選択するための最適戦略(ラグランジュ理論)を明らかにした。 理論的結果を検証するため, 数値実験を行った。

This paper is concerned with the problem of recovering a structured signal from a relatively small number of corrupted random measurements. Sharp phase transitions have been numerically observed in practice when different convex programming procedures are used to solve this problem. This paper is devoted to presenting theoretical explanations for these phenomenons by employing some basic tools from Gaussian process theory. Specifically, we identify the precise locations of the phase transitions for both constrained and penalized recovery procedures. Our theoretical results show that these phase transitions are determined by some geometric measures of structure, e.g., the spherical Gaussian width of a tangent cone and the Gaussian (squared) distance to a scaled subdifferential. By utilizing the established phase transition theory, we further investigate the relationship between these two kinds of recovery procedures, which also reveals an optimal strategy (in the sense of Lagrange theory) for choosing the tradeoff parameter in the penalized recovery procedure. Numerical experiments are provided to verify our theoretical results.
翻訳日:2021-04-13 04:06:16 公開日:2021-01-03
# (参考訳) ライブビデオストリーミングのためのプライバシーに敏感なオブジェクトの表示

Privacy-sensitive Objects Pixelation for Live Video Streaming ( http://arxiv.org/abs/2101.00604v1 )

ライセンス: CC BY 4.0
Jizhe Zhou, Chi-Man Pun, Yu Tong(参考訳) ライブビデオストリーミングが普及すると、プライバシに敏感なオブジェクトのためのオンラインピクセル化手法が確立される。 プライバシに敏感なオブジェクトの不正確な検出によって引き起こされる、トラッキングバイ検出構造をオンライン形式に移行するだけで、ターゲット初期化、ドリフト、オーバーピクセル化といった問題が発生する。 そこで本研究では,ライブビデオストリーミング中の個人のプライバシーフィルタリングを自動的に行うための,プライバシに敏感なオブジェクトのピクセル化(psop)フレームワークを提案する。 事前トレーニングされた検出ネットワークを活用することで、私たちのPsOPは、潜在的なプライバシーに敏感なオブジェクトのピクセル化に拡張できます。 埋め込みネットワークと,提案する増分親和性伝播(piap)クラスタリングアルゴリズムをバックボーンとして用いたpsopは,トラジェクタ生成による画素識別と非識別のピクセル化を統一する。 画素精度の向上に加えて,我々が構築したストリーミングビデオデータを用いた実験により,プライバシに敏感なオブジェクト画素におけるPsOPのオーバーピクセル比を著しく低減できることが示された。

With the prevailing of live video streaming, establishing an online pixelation method for privacy-sensitive objects is an urgency. Caused by the inaccurate detection of privacy-sensitive objects, simply migrating the tracking-by-detection structure into the online form will incur problems in target initialization, drifting, and over-pixelation. To cope with the inevitable but impacting detection issue, we propose a novel Privacy-sensitive Objects Pixelation (PsOP) framework for automatic personal privacy filtering during live video streaming. Leveraging pre-trained detection networks, our PsOP is extendable to any potential privacy-sensitive objects pixelation. Employing the embedding networks and the proposed Positioned Incremental Affinity Propagation (PIAP) clustering algorithm as the backbone, our PsOP unifies the pixelation of discriminating and indiscriminating pixelation objects through trajectories generation. In addition to the pixelation accuracy boosting, experiments on the streaming video data we built show that the proposed PsOP can significantly reduce the over-pixelation ratio in privacy-sensitive object pixelation.
翻訳日:2021-04-13 04:04:53 公開日:2021-01-03
# (参考訳) news image steganography: 偽ニュースの識別を容易にする新しいアーキテクチャ

News Image Steganography: A Novel Architecture Facilitates the Fake News Identification ( http://arxiv.org/abs/2101.00606v1 )

ライセンス: CC BY 4.0
Jizhe Zhou, Chi-Man Pun, Yu Tong(参考訳) フェイクニュースの大部分は、画像偽造を行うのではなく、他ソースからの未改ざんされたイメージを人工的な動機で引用している。 このような精巧な彫像は、画像とテキストのステルス性の間に不整合を保ちます。 本稿では,GANに基づく画像ステガノグラフィーにより,上記の不整合を明らかにするために,NIS (News Image Steganography) というアーキテクチャを提案する。 ニュース画像の抽出要約は、そのソーステキストに基づいて生成され、学習されたステガノグラフィーアルゴリズムは、知覚不可視に近づく方法で画像の要約を符号化して復号する。 符号化された画像が引用されると、そのソースの要約を復号し、さらに基礎的真理として提示し、引用するニュースを検証する。 ペアワイズエンコーダとデコーダは、それらの不可避な要約を実行する能力のイメージを付与する。 我々のNISは、その根底にある不整合を明らかにするため、実験と調査により、不正な画像を取り込む偽ニュースの識別精度に寄与する。

A larger portion of fake news quotes untampered images from other sources with ulterior motives rather than conducting image forgery. Such elaborate engraftments keep the inconsistency between images and text reports stealthy, thereby, palm off the spurious for the genuine. This paper proposes an architecture named News Image Steganography (NIS) to reveal the aforementioned inconsistency through image steganography based on GAN. Extractive summarization about a news image is generated based on its source texts, and a learned steganographic algorithm encodes and decodes the summarization of the image in a manner that approaches perceptual invisibility. Once an encoded image is quoted, its source summarization can be decoded and further presented as the ground truth to verify the quoting news. The pairwise encoder and decoder endow images of the capability to carry along their imperceptible summarization. Our NIS reveals the underlying inconsistency, thereby, according to our experiments and investigations, contributes to the identification accuracy of fake news that engrafts untampered images.
翻訳日:2021-04-13 03:51:57 公開日:2021-01-03
# (参考訳) 単細胞変分推論の数学的モデルに関するチュートリアル

A Tutorial on the Mathematical Model of Single Cell Variational Inference ( http://arxiv.org/abs/2101.00650v1 )

ライセンス: CC BY 4.0
Songting Shi(参考訳) 過去数十年に蓄積された大量のシークエンシングデータが依然として蓄積されているため、ますます多くのシークエンシングデータを扱う必要がある。 コンピューティング技術の急速な発展として、ニューラルネットワークベースのモデルを使って、大量のデータを合理的な時間で処理できるようになりました。 このチュートリアルでは、変分自動エンコーダ(ニューラルネットワーク上に構築される)を用いて、データの分布を学習して洞察を得るシングルセル変分推論(scVI)の数学的モデルを紹介する。 初心者向けに、この分野のさらなる研究者を奨励するために、多くの推論の詳細と共に単純で直感的な方法で書かれた。

As the large amount of sequencing data accumulated in past decades and it is still accumulating, we need to handle the more and more sequencing data. As the fast development of the computing technologies, we now can handle a large amount of data by a reasonable of time using the neural network based model. This tutorial will introduce the the mathematical model of the single cell variational inference (scVI), which use the variational auto-encoder (building on the neural networks) to learn the distribution of the data to gain insights. It was written for beginners in the simple and intuitive way with many deduction details to encourage more researchers into this field.
翻訳日:2021-04-13 03:46:05 公開日:2021-01-03
# (参考訳) データから最適なベイズ事前確率を学習する

Learning optimal Bayesian prior probabilities from data ( http://arxiv.org/abs/2101.00672v1 )

ライセンス: CC BY 4.0
Ozan Kaan Kayaalp(参考訳) 非形式的一様述語は、特にベイズ機械学習におけるベイズ推論の基礎である。 この研究は、それらが最適であるという仮定に挑戦し、ベイズ推定におけるそれらの使用は最適な結果をもたらす。 任意の非形式的一様先行関数の代わりに,対象関数の最大化によりデータから最適な先行値を学習する機械学習に基づく代替手法を提案する。 そこで本研究では,na\"ive bayesテキスト分類手法と探索アルゴリズムを適用し,正の予測値メトリクスを対象関数としてデータから事前学習を行った。 タスクは、ウィキペディアの特定のカテゴリーに分類されていない(しかし、あるべきだった)記事を見つけることだった。 ウィキペディアのカテゴリ別に5種類の実験を行った。 ベースラインモデルは一般的なベイズ・ラプラス前置法を用いたが、研究モデルは各実験の最適前置法を個別に学習した。 その結果, 研究モデルは, 統計的意義の大きいベースラインモデル (p < 0.001) を一貫して上回っていた。 研究モデルのベースラインに対する性能改善は, 平均値が5つのwikipediaカテゴリに対して193%であった443%と, 443%と高い値を示した。

Noninformative uniform priors are staples of Bayesian inference, especially in Bayesian machine learning. This study challenges the assumption that they are optimal and their use in Bayesian inference yields optimal outcomes. Instead of using arbitrary noninformative uniform priors, we propose a machine learning based alternative method, learning optimal priors from data by maximizing a target function of interest. Applying na\"ive Bayes text classification methodology and a search algorithm developed for this study, our system learned priors from data using the positive predictive value metric as the target function. The task was to find Wikipedia articles that had not (but should have) been categorized under certain Wikipedia categories. We conducted five sets of experiments using separate Wikipedia categories. While the baseline models used the popular Bayes-Laplace priors, the study models learned the optimal priors for each set of experiments separately before using them. The results showed that the study models consistently outperformed the baseline models with a wide margin of statistical significance (p < 0.001). The measured performance improvement of the study model over the baseline was as high as 443% with the mean value of 193% over five Wikipedia categories.
翻訳日:2021-04-13 01:57:39 公開日:2021-01-03
# (参考訳) 潜在文表現の再コード --動的勾配に基づくrnnのアクティベーション修飾

Recoding latent sentence representations -- Dynamic gradient-based activation modification in RNNs ( http://arxiv.org/abs/2101.00674v1 )

ライセンス: CC BY 4.0
Dennis Ulmer(参考訳) リカレントニューラルネットワーク(recurrent neural network、rnn)では、サブオプティマイズあるいは誤った方法で情報をエンコーディングすることは、シーケンス内の後の要素に基づいた表現の品質に影響を与える可能性がある。 人間では、庭の道の文(例えば「納屋を通り過ぎた馬」)のような困難な事例は、彼らの言語理解を混乱させる可能性がある。 しかし、新たな情報に遭遇すると、その表現を修正し、回復することができる。 このようなモデルが文の内的表現を動的に適応できるようにし、それらが生じたらすぐに逸脱を修正できるようにしたいと思っています。 したがって、推論時間中にも、より柔軟な表現を使用するより堅牢なモデルにつながる可能性がある。 言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。 この目的のために、異なる種類の時間依存エラー信号に基づく修正と、モデル性能にどのように影響するかを考察する。 さらに本研究は,モデルの学習中の予測に対する自信と,テストサンプルへの挑戦と操作の効果についての研究を含む。 最後に,これらの新モデルと標準LSTMベースラインとの挙動の差異についても検討し,今後の研究の要点を特定するために,エラー事例を詳細に検討する。 提案手法には有望な理論的保証と魅力的な直観が伴うが,本手法の実用的適用と試験モデルの有効性の課題により,ベースラインに対する小さな改善しか得られないことを示す。

In Recurrent Neural Networks (RNNs), encoding information in a suboptimal or erroneous way can impact the quality of representations based on later elements in the sequence and subsequently lead to wrong predictions and a worse model performance. In humans, challenging cases like garden path sentences (an instance of this being the infamous "The horse raced past the barn fell") can lead their language understanding astray. However, they are still able to correct their representation accordingly and recover when new information is encountered. Inspired by this, I propose an augmentation to standard RNNs in form of a gradient-based correction mechanism: This way I hope to enable such models to dynamically adapt their inner representation of a sentence, adding a way to correct deviations as soon as they occur. This could therefore lead to more robust models using more flexible representations, even during inference time. I conduct different experiments in the context of language modeling, where the impact of using such a mechanism is examined in detail. To this end, I look at modifications based on different kinds of time-dependent error signals and how they influence the model performance. Furthermore, this work contains a study of the model's confidence in its predictions during training and for challenging test samples and the effect of the manipulation thereof. Lastly, I also study the difference in behavior of these novel models compared to a standard LSTM baseline and investigate error cases in detail to identify points of future research. I show that while the proposed approach comes with promising theoretical guarantees and an appealing intuition, it is only able to produce minor improvements over the baseline due to challenges in its practical application and the efficacy of the tested model variants.
翻訳日:2021-04-13 01:42:12 公開日:2021-01-03
# (参考訳) オープンドメイン会話エージェントの感性分析

Sentiment Analysis for Open Domain Conversational Agent ( http://arxiv.org/abs/2101.00675v1 )

ライセンス: CC BY 4.0
Mohamad Alissa, Issa Haddad, Jonathan Meyer, Jade Obeid, Kostis Vilaetis, Nicolas Wiecek, Sukrit Wongariyakavee(参考訳) 本稿では,オープンドメインの人間ロボットインタラクションに対する共通感情分析モデルの適用性について検討する。 これらのモデルは、Alanaシステム(Alexa賞システム)とのユーザインタラクションに特化したデータセットで使用され、ユーザが非人間駆動のソーシャルボットと対話するときの感情を特定するタスクにどちらが適切かを決定する。 モデルを特定することで、アラナシステムへの統合前に様々な改善が試みられ、詳細が記述される。 その結果,nltk vader に存在するデータセットと nltk vader に存在するデータセットを組み合わせることで,25本の木をトレーニングしたランダムフォレストモデルが,他のモデルよりも優れていることがわかった。 新しいシステム(Robと呼ばれる)は、その出力発話感情とユーザの発話感情とを一致させる。 本手法は,ユーザの感情に共感する新システムが全体の感情検出に基礎を置いているため,ユーザエクスペリエンスの向上が期待できる。 さらに,ユーザのフィードバックから得られた結果から,期待値が確認された。

The applicability of common sentiment analysis models to open domain human robot interaction is investigated within this paper. The models are used on a dataset specific to user interaction with the Alana system (a Alexa prize system) in order to determine which would be more appropriate for the task of identifying sentiment when a user interacts with a non-human driven socialbot. With the identification of a model, various improvements are attempted and detailed prior to integration into the Alana system. The study showed that a Random Forest Model with 25 trees trained on the dataset specific to user interaction with the Alana system combined with the dataset present in NLTK Vader outperforms other models. The new system (called 'Rob') matches it's output utterance sentiment with the user's utterance sentiment. This method is expected to improve user experience because it builds upon the overall sentiment detection which makes it seem that new system sympathises with user feelings. Furthermore, the results obtained from the user feedback confirms our expectation.
翻訳日:2021-04-13 01:40:52 公開日:2021-01-03
# (参考訳) 2ストリーム畳み込みニューラルネットワークを用いたフェイクビジュアルコンテンツ検出

Fake Visual Content Detection Using Two-Stream Convolutional Neural Networks ( http://arxiv.org/abs/2101.00676v1 )

ライセンス: CC BY 4.0
Bilal Yousaf, Muhammad Usama, Waqas Sultani, Arif Mahmood, Junaid Qadir(参考訳) 対人学習の急速な進歩により、現実的な偽のビジュアルコンテンツの生成が可能になった。 偽物と実物とを区別するために、いくつかの検出手法が提案されている。 しかし、テストとトレーニングデータが異なる分布からサンプリングされた場合、これらの手法のほとんどのパフォーマンスは大幅に低下する。 これは偽の検出器の一般化を改善する努力を動機付けている。 現在の偽コンテンツ生成技術は、自然画像の周波数スペクトルを正確にモデル化しないので、偽画像の周波数スペクトルには、偽コンテンツの検出に使用できる識別特性が含まれていることを観察する。 また,周波数スペクトルで取得した情報が空間領域と異なることも観察した。 これらの知見を用いて,2-stream convolutional neural networkアーキテクチャであるtwostreamnetを用いて,周波数領域と空間領域の特徴を補完する手法を提案する。 提案する2ストリームネットワークを,いくつかの未知の世代アーキテクチャ,データセット,技術に改良した一般化を実証する。 提案した検出器は,現在最先端の偽コンテンツ検出装置と比較して顕著な性能向上を示し,周波数と空間領域の流れを融合させ,検出器の一般化も改善した。

Rapid progress in adversarial learning has enabled the generation of realistic-looking fake visual content. To distinguish between fake and real visual content, several detection techniques have been proposed. The performance of most of these techniques however drops off significantly if the test and the training data are sampled from different distributions. This motivates efforts towards improving the generalization of fake detectors. Since current fake content generation techniques do not accurately model the frequency spectrum of the natural images, we observe that the frequency spectrum of the fake visual data contains discriminative characteristics that can be used to detect fake content. We also observe that the information captured in the frequency spectrum is different from that of the spatial domain. Using these insights, we propose to complement frequency and spatial domain features using a two-stream convolutional neural network architecture called TwoStreamNet. We demonstrate the improved generalization of the proposed two-stream network to several unseen generation architectures, datasets, and techniques. The proposed detector has demonstrated significant performance improvement compared to the current state-of-the-art fake content detectors and fusing the frequency and spatial domain streams has also improved generalization of the detector.
翻訳日:2021-04-13 01:31:12 公開日:2021-01-03
# (参考訳) 深層学習を用いたパーキンソン病診断

Parkinson's Disease Diagnosis Using Deep Learning ( http://arxiv.org/abs/2101.05631v1 )

ライセンス: CC BY 4.0
Mohamad Alissa(参考訳) パーキンソン病(英: Parkinson's Disease、PD)は、慢性の変性疾患であり、様々な運動および認知症状を引き起こす。 PD診断は、症状が正常な加齢や本態性振動などの他の疾患と非常によく似ているため、難しい課題である。 この病気の診断に多くの研究が応用されている。 本研究の目的は, 深層学習, 再帰ニューラルネットワーク (RNN) と畳み込みニューラルネットワーク (CNN) を用いたPD診断プロセスの自動化であり, 健常患者とPD患者を区別することである。 さらに、異なるデータセットがこの疾患のさまざまな側面を捉える可能性があるため、このプロジェクトは、異なる画像および運動データセット(特に立方体および渦巻型五角形データセット)を分析して、PDテストが識別プロセスにおいてより効果的であるかを探求することを目的としている。 さらに, PDの診断に有効なデータセットタイプ, 画像, 時系列の評価を行った。

Parkinson's Disease (PD) is a chronic, degenerative disorder which leads to a range of motor and cognitive symptoms. PD diagnosis is a challenging task since its symptoms are very similar to other diseases such as normal ageing and essential tremor. Much research has been applied to diagnosing this disease. This project aims to automate the PD diagnosis process using deep learning, Recursive Neural Networks (RNN) and Convolutional Neural Networks (CNN), to differentiate between healthy and PD patients. Besides that, since different datasets may capture different aspects of this disease, this project aims to explore which PD test is more effective in the discrimination process by analysing different imaging and movement datasets (notably cube and spiral pentagon datasets). In addition, this project evaluates which dataset type, imaging or time series, is more effective in diagnosing PD.
翻訳日:2021-04-13 01:18:23 公開日:2021-01-03
# (参考訳) セグメンテーションとゲノムアノテーションアルゴリズム

Segmentation and genome annotation algorithms ( http://arxiv.org/abs/2101.00688v1 )

ライセンス: CC BY-SA 4.0
Maxwell W Libbrecht, Rachel CW Chan, Michael M Hoffman(参考訳) セグメンテーションとゲノムアノテーション(SAGA)アルゴリズムは、ゲノムの活性と遺伝子制御を理解するために広く使われている。 これらのアルゴリズムは、クロマチン免疫沈降シークエンシング(ChIP-sequencing, ChIP-seq)測定や転写因子の結合などの入力エピゲノムデータセットである。 彼らはゲノムを分割し、同じラベルを持つ位置が入力データの類似パターンを示すように各セグメントにラベルを割り当てる。 SAGAアルゴリズムは、既知のゲノム要素の事前知識のないプロモーター、エンハンサー、または遺伝子の一部の活性のカテゴリを発見する。 この意味では、概してクラスタリングアルゴリズムのような教師なしの方法で機能するが、同時にゲノムを分割する機能もある。 本稿では,これらの手法の根底にある共通方法論フレームワークをレビューし,この基本フレームワークの変種と改善点をレビューし,既存の大規模参照アノテーションを分類し,今後の作業の展望について考察する。

Segmentation and genome annotation (SAGA) algorithms are widely used to understand genome activity and gene regulation. These algorithms take as input epigenomic datasets, such as chromatin immunoprecipitation-sequencing (ChIP-seq) measurements of histone modifications or transcription factor binding. They partition the genome and assign a label to each segment such that positions with the same label exhibit similar patterns of input data. SAGA algorithms discover categories of activity such as promoters, enhancers, or parts of genes without prior knowledge of known genomic elements. In this sense, they generally act in an unsupervised fashion like clustering algorithms, but with the additional simultaneous function of segmenting the genome. Here, we review the common methodological framework that underlies these methods, review variants of and improvements upon this basic framework, catalogue existing large-scale reference annotations, and discuss the outlook for future work.
翻訳日:2021-04-13 01:17:15 公開日:2021-01-03
# (参考訳) 暗い肌、低品質、低リソース顔データの顔認識におけるトランスファー学習の検討

Exploring Transfer Learning on Face Recognition of Dark Skinned, Low Quality and Low Resource Face Data ( http://arxiv.org/abs/2101.10809v1 )

ライセンス: CC BY 4.0
Nuredin Ali(参考訳) 肌の色調は、肌の色と肌の色には大きな違いがある。 この事実にもかかわらず、ほとんどの顔認識タスクは、ほとんどすべての古典的な最先端のモデルが、明るい肌の顔画像の圧倒的多数を含むデータセットで訓練されている。 暗い肌の顔の膨大なデータを収集し、スクラッチからモデルを訓練するのは面倒だ。 本稿では,VGGFaceの移動学習を適用し,主にエチオピアの顔の黒い肌の認識にどのように役立つかを確認する。 データセットは低品質で低リソースである。 実験の結果,95%以上の精度で移動学習が可能であることが示された。

There is a big difference in the tone of color of skin between dark and light skinned people. Despite this fact, most face recognition tasks almost all classical state-of-the-art models are trained on datasets containing an overwhelming majority of light skinned face images. It is tedious to collect a huge amount of data for dark skinned faces and train a model from scratch. In this paper, we apply transfer learning on VGGFace to check how it works on recognising dark skinned mainly Ethiopian faces. The dataset is of low quality and low resource. Our experimental results show above 95\% accuracy which indicates that transfer learning in such settings works.
翻訳日:2021-04-13 01:00:10 公開日:2021-01-03
# (参考訳) IoTデバイス上でのキーワードスポッティングのためのニューラルネットワーク

Neural Networks for Keyword Spotting on IoT Devices ( http://arxiv.org/abs/2101.00693v1 )

ライセンス: CC BY 4.0
Rakesh Dhakshinamurthy(参考訳) スマートスピーカーやウェアラブルといったIoTデバイス上でのキーワードスポッティング(KWS)のためのニューラルネットワーク(NN)について検討する。 我々は,制約のあるメモリと計算フットプリント上でNNを実行することを目標としているので,CNNの設計を提案する。 (i)限られた数の乗数を用いる。 (ii) 限られた数のモデルパラメータを使用する。

We explore Neural Networks (NNs) for keyword spotting (KWS) on IoT devices like smart speakers and wearables. Since we target to execute our NN on a constrained memory and computation footprint, we propose a CNN design that. (i) uses a limited number of multiplies. (ii) uses a limited number of model parameters.
翻訳日:2021-04-13 00:57:24 公開日:2021-01-03
# (参考訳) 保守的勾配場の構造

The structure of conservative gradient fields ( http://arxiv.org/abs/2101.00699v1 )

ライセンス: CC BY 4.0
Adrian Lewis and Tonghua Tian(参考訳) 古典クラーク部分微分だけでは、非滑らかな文脈における自動微分を理解するには不十分である。 代わりに、「保守的場」と呼ばれる拡大された一般化された勾配に頼り、自然経路の連鎖則によって定義される: 1つの応用は勾配に基づくディープラーニングアルゴリズムの収束解析である。 半代数的な場合、すべての保守体は実際はクラーク部分微分とウィットニー層における多様体の正規化であることを示す。

The classical Clarke subdifferential alone is inadequate for understanding automatic differentiation in nonsmooth contexts. Instead, we can sometimes rely on enlarged generalized gradients called "conservative fields", defined through the natural path-wise chain rule: one application is the convergence analysis of gradient-based deep learning algorithms. In the semi-algebraic case, we show that all conservative fields are in fact just Clarke subdifferentials plus normals of manifolds in underlying Whitney stratifications.
翻訳日:2021-04-12 13:51:29 公開日:2021-01-03
# (参考訳) バックプロパゲーションと熱帯ニューラルネットワークのアルゴリズム複雑さ

Algorithmic Complexities in Backpropagation and Tropical Neural Networks ( http://arxiv.org/abs/2101.00717v1 )

ライセンス: CC BY 4.0
Ozgur Ceyhan(参考訳) 本稿では,実数の行列の代わりに熱帯実数の行列を用いて,ニューラルネットワーク学習のアルゴリズム的複雑さを低減する手法を提案する。 トロピカル算術は乗法を加算に置き換え、マックスに加算するので、理論上、訓練段階における時間複雑性における数桁の等級の良い定数係数を達成する。 実数の体を実数の熱帯半環に置き換え、ニューラルネットワークで同じ分類結果を得るという事実は、トポロジと分析の深い結果から来ており、ここで検証する。 次に、熱帯算術と熱帯代数幾何学の観点から人工ニューラルネットワークを探索し、多層熱帯ニューラルネットワークを普遍近似器として導入する。 逆プロパゲーションアルゴリズムのトロピカルな再定式化を行った後, トロピカル算術は通常の乗算の複雑さを伴わないため, アルゴリズムの複雑さは通常の逆プロパゲーションよりもかなり低いことが検証された。

In this note, we propose a novel technique to reduce the algorithmic complexity of neural network training by using matrices of tropical real numbers instead of matrices of real numbers. Since the tropical arithmetics replaces multiplication with addition, and addition with max, we theoretically achieve several order of magnitude better constant factors in time complexities in the training phase. The fact that we replace the field of real numbers with the tropical semiring of real numbers and yet achieve the same classification results via neural networks come from deep results in topology and analysis, which we verify in our note. We then explore artificial neural networks in terms of tropical arithmetics and tropical algebraic geometry, and introduce the multi-layered tropical neural networks as universal approximators. After giving a tropical reformulation of the backpropagation algorithm, we verify the algorithmic complexity is substantially lower than the usual backpropagation as the tropical arithmetic is free of the complexity of usual multiplication.
翻訳日:2021-04-12 13:47:00 公開日:2021-01-03
# (参考訳) 開示テキスト特徴を用いた破産予測

Bankruptcy prediction using disclosure text features ( http://arxiv.org/abs/2101.00719v1 )

ライセンス: CC BY 4.0
Sridhar Ravula(参考訳) 公開企業の破産予測は、セキュリティ価格の下落リスクのため、重要な金融研究問題である。 従来の方法は、ウィンドウドレッシングやふりかえりのフォーカスといった欠点に苦しむ会計基準に依存しています。 開示テキストベースのメトリクスはこれらの問題を克服する一方で、現在の方法は開示のトーンと感情に過度にフォーカスする。 開示テキスト中の有意義な信号を財務結果に関連付け、開示テキストデータを定量化する要件がある。 本研究は,経営担当者が財務状況を説明するのに用いた文に基づく新たな苦難辞書を提案する。 これは破産企業と非破産企業の間の言語的特徴の大きな違いを示している。 さらに、500の倒産企業の大規模なサンプルを用いて予測モデルを構築し、財務テキスト分析に使用される2つの辞書と比較する。 本研究は, ストレス辞書が開示情報からユニークな情報を抽出し, その特徴に基づく予測モデルが最も精度が高いことを示す。

A public firm's bankruptcy prediction is an important financial research problem because of the security price downside risks. Traditional methods rely on accounting metrics that suffer from shortcomings like window dressing and retrospective focus. While disclosure text-based metrics overcome some of these issues, current methods excessively focus on disclosure tone and sentiment. There is a requirement to relate meaningful signals in the disclosure text to financial outcomes and quantify the disclosure text data. This work proposes a new distress dictionary based on the sentences used by managers in explaining financial status. It demonstrates the significant differences in linguistic features between bankrupt and non-bankrupt firms. Further, using a large sample of 500 bankrupt firms, it builds predictive models and compares the performance against two dictionaries used in financial text analysis. This research shows that the proposed stress dictionary captures unique information from disclosures and the predictive models based on its features have the highest accuracy.
翻訳日:2021-04-12 13:36:59 公開日:2021-01-03
# (参考訳) 学生パフォーマンスのための合成組込み型データ生成手法

Synthetic Embedding-based Data Generation Methods for Student Performance ( http://arxiv.org/abs/2101.00728v1 )

ライセンス: CC BY 4.0
Dom Huh(参考訳) 学生のパフォーマンスデータセットに固有のクラス不均衡の問題を考えると、ターゲットクラス分布のエッジに属するサンプルは予測機械学習アルゴリズムが学習する上で課題となる。 本稿では,組込みを用いた新しい合成サンプル生成手法であるSEDG(Synthetic Embedding-based Data Generation)の一般的なフレームワークを導入し,クラス不均衡の軽減効果を最適に補正する。 我々は、SEDGフレームワークを、深層生成モデルや従来のサンプリング方法を含む過去の合成データ生成手法と比較する。 その結果,sedgは,ディープニューラルネットワークの従来の再サンプリング手法を上回っており,いくつかの標準性能指標において,学生パフォーマンスタスクにおける共通機械学習分類器の競合性が高いことがわかった。

Given the inherent class imbalance issue within student performance datasets, samples belonging to the edges of the target class distribution pose a challenge for predictive machine learning algorithms to learn. In this paper, we introduce a general framework for synthetic embedding-based data generation (SEDG), a search-based approach to generate new synthetic samples using embeddings to correct the detriment effects of class imbalances optimally. We compare the SEDG framework to past synthetic data generation methods, including deep generative models, and traditional sampling methods. In our results, we find SEDG to outperform the traditional re-sampling methods for deep neural networks and perform competitively for common machine learning classifiers on the student performance task in several standard performance metrics.
翻訳日:2021-04-12 12:02:20 公開日:2021-01-03
# 意味分類のためのSVD強化潜在空間上のニューラルネットワークの学習

Learning Neural Networks on SVD Boosted Latent Spaces for Semantic Classification ( http://arxiv.org/abs/2101.00563v1 )

ライセンス: Link先を確認
Sahil Sidheekh(参考訳) 大量のデータと説得力のある計算能力のおかげで、ディープラーニングモデルはテキストの分類や感情分析にとても人気がある。 深層ニューラルネットワークは、単語数、項頻度、バイナリマトリックスの埋め込みなどの単純テキスト表現を訓練することで、上記のタスクで競合性能を達成した。 しかし、上記の表現の多くは、入力空間が語彙の大きさの次数の次元を持つという巨大な結果をもたらす。 これにより、学習すべきパラメータの数が急増し、コロッサル語彙を保持する必要があるドメインにスケールする場合、計算コストは実現不可能になる。 本研究では,高次元入力空間を低次元潜在空間に変換するために特異値分解法を提案する。 この低次元空間でトレーニングされたニューラルネットワークは、計算複雑性を著しく低減しながら性能を維持するだけでなく、多くの状況において、ネイティブな入力空間でトレーニングされた古典的ニューラルネットワークよりも優れていることを示す。

The availability of large amounts of data and compelling computation power have made deep learning models much popular for text classification and sentiment analysis. Deep neural networks have achieved competitive performance on the above tasks when trained on naive text representations such as word count, term frequency, and binary matrix embeddings. However, many of the above representations result in the input space having a dimension of the order of the vocabulary size, which is enormous. This leads to a blow-up in the number of parameters to be learned, and the computational cost becomes infeasible when scaling to domains that require retaining a colossal vocabulary. This work proposes using singular value decomposition to transform the high dimensional input space to a lower-dimensional latent space. We show that neural networks trained on this lower-dimensional space are not only able to retain performance while savoring significant reduction in the computational complexity but, in many situations, also outperforms the classical neural networks trained on the native input space.
翻訳日:2021-04-12 11:41:45 公開日:2021-01-03
# わずかな画像分類: 事前訓練された特徴指数と単純な分類器のライブラリを使う

Few-shot Image Classification: Just Use a Library of Pre-trained Feature Extractors and a Simple Classifier ( http://arxiv.org/abs/2101.00562v1 )

ライセンス: Link先を確認
Arkabandhu Chowdhury, Mingchao Jiang, Chris Jermaine(参考訳) 近年の研究では、トランスファーラーニングは、少数の画像分類のための高度なメタラーニング手法より優れていることが示唆されている。 我々は,この仮説を論理的な結論に当てはめて,高品質で事前学習された特徴抽出器のアンサンブルを用いた少数ショット画像分類を提案する。 L2-regularizerで学習した単純なフィードフォワードネットワークと事前訓練された特徴抽出器のライブラリが組み合わさって、クロスドメインな少数ショット画像分類を解くのに最適な選択肢であることを示す。 実験結果から, この単純なサンプル効率のアプローチは, 様々なタスクにおいて, 確立されたメタ学習アルゴリズムよりも優れていることが示唆された。

Recent papers have suggested that transfer learning can outperform sophisticated meta-learning methods for few-shot image classification. We take this hypothesis to its logical conclusion, and suggest the use of an ensemble of high-quality, pre-trained feature extractors for few-shot image classification. We show experimentally that a library of pre-trained feature extractors combined with a simple feed-forward network learned with an L2-regularizer can be an excellent option for solving cross-domain few-shot image classification. Our experimental results suggest that this simpler sample-efficient approach far outperforms several well-established meta-learning algorithms on a variety of few-shot tasks.
翻訳日:2021-04-12 11:41:30 公開日:2021-01-03
# AttnMove: 注意ネットワークによるトラジェクトリリカバリの履歴向上

AttnMove: History Enhanced Trajectory Recovery via Attentional Network ( http://arxiv.org/abs/2101.00646v1 )

ライセンス: Link先を確認
Tong Xia and Yunhan Qi and Jie Feng and Fengli Xu and Funing Sun and Diansheng Guo and Yong Li(参考訳) 位置情報サービスの普及により、かなりの量のモビリティデータが蓄積されている。 しかし、タクシーのGPSモジュールのような輸送システムからの移動データと比較すると、ユーザーはモバイルサービスにアクセスせず、常にデータを提供していないという意味で、個々のトラジェクトリの観点からは、この種のデータは少ない。 これにより、ユーザ浸透率が高い場合でも、必然的にデータの実用価値が低下する。 そこで本研究では,未観測位置を微細な空間時間分解能で復元することにより,個々の軌跡を密度化するための,新しい注目ニューラルネットワークベースモデルAttnMoveを提案する。 本研究では, 利用者の移動規則性をモデル化し, 長期的履歴から周期パターンを完全に活用するために, 軌道内および軌道間注意機構を設計する。 実世界の2つのデータセット上で本モデルを評価し,その性能向上を最先端の手法と比較した。 これはまた、高品質なモビリティデータを提供することで、我々のモデルは様々なモビリティ指向のダウンストリームアプリケーションに利益をもたらすことを示す。

A considerable amount of mobility data has been accumulated due to the proliferation of location-based service. Nevertheless, compared with mobility data from transportation systems like the GPS module in taxis, this kind of data is commonly sparse in terms of individual trajectories in the sense that users do not access mobile services and contribute their data all the time. Consequently, the sparsity inevitably weakens the practical value of the data even it has a high user penetration rate. To solve this problem, we propose a novel attentional neural network-based model, named AttnMove, to densify individual trajectories by recovering unobserved locations at a fine-grained spatial-temporal resolution. To tackle the challenges posed by sparsity, we design various intra- and inter- trajectory attention mechanisms to better model the mobility regularity of users and fully exploit the periodical pattern from long-term history. We evaluate our model on two real-world datasets, and extensive results demonstrate the performance gain compared with the state-of-the-art methods. This also shows that, by providing high-quality mobility data, our model can benefit a variety of mobility-oriented down-stream applications.
翻訳日:2021-04-12 11:41:16 公開日:2021-01-03
# 数ショットベイズ最適化のためのメタラーニング共役事前

Meta-Learning Conjugate Priors for Few-Shot Bayesian Optimization ( http://arxiv.org/abs/2101.00729v1 )

ライセンス: Link先を確認
Ruduan Plug(参考訳) ベイズ最適化(英: bayesian optimization)は、ガウス過程の事前分布を利用してデータの真の分布に向かって後方分布を反復的に更新する統計モデリングの手法である。 サンプルからバイアスのない情報先を見つけることは困難であり、わずかなデータしか得られない場合、後部分布の結果に大きな影響を与える。 本稿では,メタラーニングを利用した情報共役事前分布の自動推定手法を提案する。 このプロセスから、元のデータ分布の形状パラメータを推定するために、わずかなデータしか必要としない事前を生成する。

Bayesian Optimization is methodology used in statistical modelling that utilizes a Gaussian process prior distribution to iteratively update a posterior distribution towards the true distribution of the data. Finding unbiased informative priors to sample from is challenging and can greatly influence the outcome on the posterior distribution if only few data are available. In this paper we propose a novel approach to utilize meta-learning to automate the estimation of informative conjugate prior distributions given a distribution class. From this process we generate priors that require only few data to estimate the shape parameters of the original distribution of the data.
翻訳日:2021-04-12 11:40:54 公開日:2021-01-03
# 畳み込みニューラルネットワークを用いた印刷物の自動欠陥検出

Automatic Defect Detection of Print Fabric Using Convolutional Neural Network ( http://arxiv.org/abs/2101.00703v1 )

ライセンス: Link先を確認
Samit Chakraborty, Marguerite Moore, Lisa Parrillo-Chapman(参考訳) 自動欠陥検出は、テクスチャや布の欠陥の種類が変化するため、難しい課題である。 効果的な欠陥検出システムにより、製造者はプロセスや製品の品質を向上させることができる。 繊維製造システム全体の自動化は、繊維の無駄を減らし、コストと資源を節約して利益を上げる。 画像処理と機械学習技術を用いた自動欠陥検出システムに関する現代の研究は異なっている。 これらの技術は製造プロセスや欠陥タイプによって異なる。 また、溶接中にリアルタイムの欠陥検出システムを構築することもできる。 パターン状欠陥検出の研究は行われているが,これらの欠陥は孔やワープ,ウェフト欠陥などの溶接欠陥と関連している。 しかし、スポットやプリントミスマッチなどの欠陥を検出するために設計された研究は行われていない。 この研究は、プリントファブリックデータベースを開発し、ディープ畳み込みニューラルネットワーク(cnn)を実装することで、このギャップを埋めた。

Automatic defect detection is a challenging task because of the variability in texture and type of fabric defects. An effective defect detection system enables manufacturers to improve the quality of processes and products. Automation across the textile manufacturing systems would reduce fabric wastage and increase profitability by saving cost and resources. There are different contemporary research on automatic defect detection systems using image processing and machine learning techniques. These techniques differ from each other based on the manufacturing processes and defect types. Researchers have also been able to establish real-time defect detection system during weaving. Although, there has been research on patterned fabric defect detection, these defects are related to weaving faults such as holes, and warp and weft defects. But, there has not been any research that is designed to detect defects that arise during such as spot and print mismatch. This research has fulfilled this gap by developing a print fabric database and implementing deep convolutional neural network (CNN).
翻訳日:2021-04-12 11:40:44 公開日:2021-01-03
# SARSA強化学習による大規模IoTトラフィックのためのPub/Sub通信の強化

Enhanced Pub/Sub Communications for Massive IoT Traffic with SARSA Reinforcement Learning ( http://arxiv.org/abs/2101.00687v1 )

ライセンス: Link先を確認
Carlos E. Arruda, Pedro F. Moraes, Nazim Agoulmine, Joberto S. B. Martins(参考訳) センサーは広範囲に展開され、今後数年で大幅に拡大すると予想されている。 それらは一般的に、スマートシティやインテリジェントトラフィックシステム、スマートグリッド、eヘルスといった、モノのインターネット(IoT)アプリケーション領域で大量のデータを生成する。 クラウド、エッジ、フォグコンピューティングは、IoTデータを収集、処理、配布するための潜在的かつ競争的な戦略である。 しかし、クラウド、エッジ、フォグベースのソリューションは、制約のある限られたリソースネットワークインフラストラクチャを通じて、大量のIoTデータの分散に効率的に取り組む必要がある。 本稿では,sarsaアルゴリズムを用いた強化学習(rl)に基づくコグニティブ・コミュニケーション・リソース割当てを用いて,通信資源(帯域幅)が制限されたネットワークを介してiotデータを大量に伝達する問題に対処する。 提案されたネットワークインフラストラクチャ(PSIoTRL)は、パブリッシュ/サブスクライブアーキテクチャを使用して、大規模かつ高度に分散されたIoTデータにアクセスする。 SARSAに基づくバッファフラッシングのためのPSIoTRL帯域割り当てにより,IoTアグリゲータバッファの占有とネットワークリンクの利用が向上することが実証された。 PSIoTRLは、Pub/Subトピックの優先度とネットワーク制約要件に従って、IoTアグリゲータトラフィックフラッシングを動的に適応する。

Sensors are being extensively deployed and are expected to expand at significant rates in the coming years. They typically generate a large volume of data on the internet of things (IoT) application areas like smart cities, intelligent traffic systems, smart grid, and e-health. Cloud, edge and fog computing are potential and competitive strategies for collecting, processing, and distributing IoT data. However, cloud, edge, and fog-based solutions need to tackle the distribution of a high volume of IoT data efficiently through constrained and limited resource network infrastructures. This paper addresses the issue of conveying a massive volume of IoT data through a network with limited communications resources (bandwidth) using a cognitive communications resource allocation based on Reinforcement Learning (RL) with SARSA algorithm. The proposed network infrastructure (PSIoTRL) uses a Publish/ Subscribe architecture to access massive and highly distributed IoT data. It is demonstrated that the PSIoTRL bandwidth allocation for buffer flushing based on SARSA enhances the IoT aggregator buffer occupation and network link utilization. The PSIoTRL dynamically adapts the IoT aggregator traffic flushing according to the Pub/Sub topic's priority and network constraint requirements.
翻訳日:2021-04-12 11:40:31 公開日:2021-01-03
# コミュニティ検出手法に関する調査研究:統計的モデリングから深層学習へ

A Survey of Community Detection Approaches: From Statistical Modeling to Deep Learning ( http://arxiv.org/abs/2101.01669v1 )

ライセンス: Link先を確認
Di Jin, Zhizhi Yu, Pengfei Jiao, Shirui Pan, Philip S. Yu, Weixiong Zhang(参考訳) ネットワーク分析の基本的なタスクであるコミュニティ検出は、ネットワークを複数のサブ構造に分割して、潜在機能を明らかにすることを目的としている。 コミュニティ検出は、多くの現実世界のネットワーク問題に広く研究され、広く適用されてきた。 コミュニティ検出に対する古典的なアプローチは一般に確率的グラフィカルモデルを使用し、コミュニティ構造を推測するために様々な事前知識を採用する。 ネットワーク手法が解決しようとする問題や分析対象のネットワークデータがより高度化するにつれ、特にディープラーニングを利用してネットワークデータを低次元表現に変換する新たなアプローチが提案され開発されている。 最近の進歩にもかかわらず、コミュニティ検出の理論的および方法論的基盤についての洞察深い理解が未だに欠如しており、ネットワーク分析の分野の将来の発展に極めて重要である。 本稿では,ネットワークコミュニティ探索手法の統一アーキテクチャを開発・提示し,コミュニティ検出技術の最先端を特徴付ける。 具体的には,既存のコミュニティ検出手法の包括的レビューを行い,既存の手法を確率的グラフィカルモデルとディープラーニングという2つのカテゴリに分類する新しい分類法を提案する。 次に2つのカテゴリで各メソッドの背後にある主なアイデアを詳細に論じる。 さらに,コミュニティ検出の今後の発展を促進するため,いくつかの問題領域からベンチマークデータセットを複数リリースし,様々なネットワーク分析タスクへの適用を強調した。 今後の研究に向けて,この分野の課題と今後の方向性を提案する。

Community detection, a fundamental task for network analysis, aims to partition a network into multiple sub-structures to help reveal their latent functions. Community detection has been extensively studied in and broadly applied to many real-world network problems. Classical approaches to community detection typically utilize probabilistic graphical models and adopt a variety of prior knowledge to infer community structures. As the problems that network methods try to solve and the network data to be analyzed become increasingly more sophisticated, new approaches have also been proposed and developed, particularly those that utilize deep learning and convert networked data into low dimensional representation. Despite all the recent advancement, there is still a lack of insightful understanding of the theoretical and methodological underpinning of community detection, which will be critically important for future development of the area of network analysis. In this paper, we develop and present a unified architecture of network community-finding methods to characterize the state-of-the-art of the field of community detection. Specifically, we provide a comprehensive review of the existing community detection methods and introduce a new taxonomy that divides the existing methods into two categories, namely probabilistic graphical model and deep learning. We then discuss in detail the main idea behind each method in the two categories. Furthermore, to promote future development of community detection, we release several benchmark datasets from several problem domains and highlight their applications to various network analysis tasks. We conclude with discussions of the challenges of the field and suggestions of possible directions for future research.
翻訳日:2021-04-12 11:40:11 公開日:2021-01-03
# 合成データ生成のためのコプラ流

Copula Flows for Synthetic Data Generation ( http://arxiv.org/abs/2101.00598v1 )

ライセンス: Link先を確認
Sanket Kamthe, Samuel Assefa, Marc Deisenroth(参考訳) 高忠実な合成データを生成する能力は、利用可能な(現実の)データが限られている場合や、プライバシーやデータ保護の基準が与えられたデータ(例えば医療や金融のデータセット)の限られた使用のみを許す場合に重要である。 合成データ生成の最先端技術は、GAN(Generative Adversarial Networks)のような生成モデルに基づいている。 さらに、ganベースの手法は、実変数とカテゴリ変数の混合で使用すると、苦しむことがある。さらに、損失関数(判別器の損失)設計自体が問題に特化しており、つまり、生成モデルは、明示的に訓練されていないタスクには役に立たないかもしれない。 本稿では,確率モデルを用いた合成データ生成手法を提案する。 データの確率モデルを学ぶことは、データの密度を推定することと同値である。 コプラ理論に基づいて、密度推定タスクを2つの部分、すなわち、一変量辺りの推定と多変量辺りの多変量辺縁密度の推定に分割する。 正規化フローを用いて、コプラ密度と一変量境界の両方を学習する。 本手法は, 密度推定と高忠実度合成データ生成の両面で, シミュレーションデータと実データの両方に対してベンチマークを行う。

The ability to generate high-fidelity synthetic data is crucial when available (real) data is limited or where privacy and data protection standards allow only for limited use of the given data, e.g., in medical and financial data-sets. Current state-of-the-art methods for synthetic data generation are based on generative models, such as Generative Adversarial Networks (GANs). Even though GANs have achieved remarkable results in synthetic data generation, they are often challenging to interpret.Furthermore, GAN-based methods can suffer when used with mixed real and categorical variables.Moreover, loss function (discriminator loss) design itself is problem specific, i.e., the generative model may not be useful for tasks it was not explicitly trained for. In this paper, we propose to use a probabilistic model as a synthetic data generator. Learning the probabilistic model for the data is equivalent to estimating the density of the data. Based on the copula theory, we divide the density estimation task into two parts, i.e., estimating univariate marginals and estimating the multivariate copula density over the univariate marginals. We use normalising flows to learn both the copula density and univariate marginals. We benchmark our method on both simulated and real data-sets in terms of density estimation as well as the ability to generate high-fidelity synthetic data
翻訳日:2021-04-12 11:39:48 公開日:2021-01-03
# 持続的ホモロジーにおける周期登録とトポロジカルブートストラップへの応用

Cycle Registration in Persistent Homology with Applications in Topological Bootstrap ( http://arxiv.org/abs/2101.00698v1 )

ライセンス: Link先を確認
Yohai Reani, Omer Bobrowski(参考訳) 本稿では、2つの空間(フィルタ)の持続的ホモロジー表現を比較するための新しいアプローチを提案する。 一般的に用いられる方法は、永続化図や永続化風景などの数値的な要約と、適切なメトリクス(例)に基づいている。 ワッサースタイン(wasserstein)。 これらの要約は計算目的に有用であるが、それらは持続的ホモロジーが提供できる実際の位相情報の限界にすぎない。 その代わり、我々のアプローチはデータ空間で直接2つの位相表現を比較する。 2つの異なる空間の個々の持続的サイクル間の対応関係を定義し、この対応を計算する方法を考案する。 サイクルのマッチングは、永続化間隔と各特徴の空間配置の両方に基づいています。 そこでは,実際の特徴と点クラウドデータのノイズを区別するために,統計的ブートストラップ法を用いて,トポロジカル推論の文脈で新しいフレームワークを実証する。

In this article we propose a novel approach for comparing the persistent homology representations of two spaces (filtrations). Commonly used methods are based on numerical summaries such as persistence diagrams and persistence landscapes, along with suitable metrics (e.g. Wasserstein). These summaries are useful for computational purposes, but they are merely a marginal of the actual topological information that persistent homology can provide. Instead, our approach compares between two topological representations directly in the data space. We do so by defining a correspondence relation between individual persistent cycles of two different spaces, and devising a method for computing this correspondence. Our matching of cycles is based on both the persistence intervals and the spatial placement of each feature. We demonstrate our new framework in the context of topological inference, where we use statistical bootstrap methods in order to differentiate between real features and noise in point cloud data.
翻訳日:2021-04-12 11:39:26 公開日:2021-01-03
# 低解像度画像におけるCNNオブジェクト分類器の進化

An Evolution of CNN Object Classifiers on Low-Resolution Images ( http://arxiv.org/abs/2101.00686v1 )

ライセンス: Link先を確認
Md. Mohsin Kabir, Abu Quwsar Ohi, Md. Saifur Rahman, M. F. Mridha(参考訳) オブジェクト分類はコンピュータビジョンにおいて重要なタスクである。 画像処理の重要な側面として有効な研究領域となり、画像のローカライゼーション、検出、シーン解析のビルディングブロックとなっている。 低画質画像からのオブジェクト分類は、対象色、アスペクト比、乱れ背景のばらつきに対して困難である。 オブジェクト分類の分野は、深層畳み込みニューラルネットワーク(dcnn)の開発によって、著しく進歩している。 ディープニューラルネットワークは、高解像度画像からのオブジェクト分類の課題に直面するための非常に強力なシステムとして実証されてきたが、そのようなオブジェクト分類ネットワークを組み込みデバイスにデプロイすることは、高い計算能力とメモリ要件のために依然として困難である。 高品質な画像を使用することで計算やメモリの複雑さが高まることが少なくないが、低品質の画像はこの問題を解決できる。 そこで本稿では,DCNNアーキテクチャを用いて低品質画像を正確に分類する最適アーキテクチャについて検討する。 低品質の画像上で異なるベースラインを検証するために、10種類の異なるオブジェクトのwebcamキャプチャ画像データセットを用いて実験を行う。 本研究では,CNNアーキテクチャの実装により提案したアーキテクチャを評価する。 実験の結果、MobileNetアーキテクチャは、低解像度のWebカメラ画像データセットで利用可能なCNNアーキテクチャのほとんどより優れていることが確認された。

Object classification is a significant task in computer vision. It has become an effective research area as an important aspect of image processing and the building block of image localization, detection, and scene parsing. Object classification from low-quality images is difficult for the variance of object colors, aspect ratios, and cluttered backgrounds. The field of object classification has seen remarkable advancements, with the development of deep convolutional neural networks (DCNNs). Deep neural networks have been demonstrated as very powerful systems for facing the challenge of object classification from high-resolution images, but deploying such object classification networks on the embedded device remains challenging due to the high computational and memory requirements. Using high-quality images often causes high computational and memory complexity, whereas low-quality images can solve this issue. Hence, in this paper, we investigate an optimal architecture that accurately classifies low-quality images using DCNNs architectures. To validate different baselines on lowquality images, we perform experiments using webcam captured image datasets of 10 different objects. In this research work, we evaluate the proposed architecture by implementing popular CNN architectures. The experimental results validate that the MobileNet architecture delivers better than most of the available CNN architectures for low-resolution webcam image datasets.
翻訳日:2021-04-12 11:39:11 公開日:2021-01-03
# 圧縮サブ層を有する高効率変圧器デコーダ

An Efficient Transformer Decoder with Compressed Sub-layers ( http://arxiv.org/abs/2101.00542v1 )

ライセンス: Link先を確認
Yanyang Li, Ye Lin, Tong Xiao, Jingbo Zhu(参考訳) 大規模な注意に基づくエンコーダ・デコーダネットワーク(transformer)が最近普及している。 しかし、そのデコーダの計算の複雑さは非効率な問題を引き起こす。 復号器の数学的定式化を検討することにより, 若干の穏やかな条件下で, トランスフォーマーの基本構造であるサブ層を圧縮することにより, アーキテクチャを単純化し, 高い並列性を実現することを示す。 そこで本研究では,デコーダ層が3層ではなく1層のみからなる圧縮アテンションネットワークを提案する。 14のWMT機械翻訳タスクに対する大規模な実験により、我々のモデルは1.42倍高速であり、性能は強いベースラインと同等であることがわかった。 この強力なベースラインは、パフォーマンスを損なうことなく、広く使われている標準ベースラインよりも2倍高速である。

The large attention-based encoder-decoder network (Transformer) has become prevailing recently due to its effectiveness. But the high computation complexity of its decoder raises the inefficiency issue. By examining the mathematic formulation of the decoder, we show that under some mild conditions, the architecture could be simplified by compressing its sub-layers, the basic building block of Transformer, and achieves a higher parallelism. We thereby propose Compressed Attention Network, whose decoder layer consists of only one sub-layer instead of three. Extensive experiments on 14 WMT machine translation tasks show that our model is 1.42x faster with performance on par with a strong baseline. This strong baseline is already 2x faster than the widely used standard baseline without loss in performance.
翻訳日:2021-04-12 11:38:51 公開日:2021-01-03
# クロスドメインオブジェクト検出のための6チャンネル画像表現

Six-channel Image Representation for Cross-domain Object Detection ( http://arxiv.org/abs/2101.00561v1 )

ライセンス: Link先を確認
Tianxiao Zhang, Wenchi Ma, Guanghui Wang(参考訳) ほとんどのディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。 しかし、特定のシーンやアプリケーションのデータセットを取得してラベル付けするのは非常に難しい。 あるドメインからのデータを使って検出器を訓練すれば、ほとんどのオブジェクト検出モデルにおいて大きな課題であるドメインシフトのため、別のドメインからのデータにうまく対応できない。 この問題に対処するために、特定のシーンの偽データを生成してモデルをトレーニングするために、画像から画像への変換技術が採用されている。 generative adversarial networks (gans) の出現により、ソースからターゲットドメイン、ターゲットドメインからソースドメインへの双方向の教師なし画像から画像への変換を実現することができた。 本研究では,生成した画像を利用する新しい手法について報告する。 3チャンネル画像とそれに対応するgan生成の偽画像とを結合してデータセットの6チャンネル表現を形成することを提案し,利用可能な検出モデルの成功を生かしながら,領域シフト問題に対処する。 拡張データ表現のアイデアは、オブジェクト検出やその他の応用に関するさらなる研究を刺激する可能性がある。

Most deep learning models are data-driven and the excellent performance is highly dependent on the abundant and diverse datasets. However, it is very hard to obtain and label the datasets of some specific scenes or applications. If we train the detector using the data from one domain, it cannot perform well on the data from another domain due to domain shift, which is one of the big challenges of most object detection models. To address this issue, some image-to-image translation techniques are employed to generate some fake data of some specific scenes to train the models. With the advent of Generative Adversarial Networks (GANs), we could realize unsupervised image-to-image translation in both directions from a source to a target domain and from the target to the source domain. In this study, we report a new approach to making use of the generated images. We propose to concatenate the original 3-channel images and their corresponding GAN-generated fake images to form 6-channel representations of the dataset, hoping to address the domain shift problem while exploiting the success of available detection models. The idea of augmented data representation may inspire further study on object detection and other applications.
翻訳日:2021-04-12 11:38:15 公開日:2021-01-03
# retinexのスイッチングビュー:深い自己正規化低光度画像強調

A Switched View of Retinex: Deep Self-Regularized Low-Light Image Enhancement ( http://arxiv.org/abs/2101.00603v1 )

ライセンス: Link先を確認
Zhuqing Jiang, Haotian Li, Liangjie Liu, Aidong Men, Haiying Wang(参考訳) 自己正規化低光度画像強調は、トレーニングにおいて通常の光画像を必要としないため、ペアまたはペアなしの低光/非正規画像のチェーンから解放される。 しかし、既存の方法は色差に苦しめられ、様々な照明条件に一般化できない。 本稿では,HSVにヒントを得て,すべての色(Hue, Saturation)を保存し,Retinex理論を輝度(Value)にのみ統合する,Retinexに基づく新たな自己正規化手法を提案する。 そこで本研究では,同一場面の輝度の新規なランダムな乱れ形態とオリジナルに埋め込まれた反射率の一貫性を制限し,反射率推定ネットワークを構築する。 生成した反射率は、レチネックスによる照明とは無関係であると仮定され、高輝度として扱われる。 本手法は、低光度画像を色と明るさの2つのサブスペースに分離し、保存と拡張性を向上させるため効率的である。 広汎な実験により,本手法は定性的かつ定量的に複数の最先端アルゴリズムより優れ,照明条件に適応することを示した。

Self-regularized low-light image enhancement does not require any normal-light image in training, thereby freeing from the chains on paired or unpaired low-/normal-images. However, existing methods suffer color deviation and fail to generalize to various lighting conditions. This paper presents a novel self-regularized method based on Retinex, which, inspired by HSV, preserves all colors (Hue, Saturation) and only integrates Retinex theory into brightness (Value). We build a reflectance estimation network by restricting the consistency of reflectances embedded in both the original and a novel random disturbed form of the brightness of the same scene. The generated reflectance, which is assumed to be irrelevant of illumination by Retinex, is treated as enhanced brightness. Our method is efficient as a low-light image is decoupled into two subspaces, color and brightness, for better preservation and enhancement. Extensive experiments demonstrate that our method outperforms multiple state-of-the-art algorithms qualitatively and quantitatively and adapts to more lighting conditions.
翻訳日:2021-04-12 11:37:54 公開日:2021-01-03
# 弱教師付きマルチオブジェクトトラッキングとセグメンテーション

Weakly Supervised Multi-Object Tracking and Segmentation ( http://arxiv.org/abs/2101.00667v1 )

ライセンス: Link先を確認
Idoia Ruiz, Lorenzo Porzi, Samuel Rota Bul\`o, Peter Kontschieder, Joan Serrat(参考訳) 本稿では,弱い教師付きマルチオブジェクト追跡とセグメンテーションの問題を紹介する。 共同で管理されるインスタンスセグメンテーションとマルチオブジェクトトラッキングは、何らかのマスクアノテーションを提供していません。 そこで我々は,マルチタスク学習を活用することによって,新たな相乗的学習戦略を設計する。 分類と追跡タスクは、教師なしインスタンスセグメンテーションのトレーニングをガイドする。 この目的のために, grad-cam ヒートマップが提供する弱フォアグラウンド位置情報を抽出することで, 学習すべき部分的基底真理を生成する。 さらに、RGB画像レベル情報を用いて、オブジェクトのエッジにおけるマスク予測を洗練させる。 我々は,このタスクの最も代表的なベンチマークであるKITTI MOTSについて,全監督手法と弱監督手法のMOTSP測定値のパフォーマンスギャップを,自動車と歩行者の12%と12.7%に削減した。

We introduce the problem of weakly supervised Multi-Object Tracking and Segmentation, i.e. joint weakly supervised instance segmentation and multi-object tracking, in which we do not provide any kind of mask annotation. To address it, we design a novel synergistic training strategy by taking advantage of multi-task learning, i.e. classification and tracking tasks guide the training of the unsupervised instance segmentation. For that purpose, we extract weak foreground localization information, provided by Grad-CAM heatmaps, to generate a partial ground truth to learn from. Additionally, RGB image level information is employed to refine the mask prediction at the edges of the objects. We evaluate our method on KITTI MOTS, the most representative benchmark for this task, reducing the performance gap on the MOTSP metric between the fully supervised and weakly supervised approach to just 12% and 12.7% for cars and pedestrians, respectively.
翻訳日:2021-04-12 11:37:01 公開日:2021-01-03
# diff-SAT -- SATとAnswer Setプログラミングのためのサンプリングと確率推論のためのソフトウェア

diff-SAT -- A Software for Sampling and Probabilistic Reasoning for SAT and Answer Set Programming ( http://arxiv.org/abs/2101.00589v1 )

ライセンス: Link先を確認
Matthias Nickles(参考訳) 本稿では,正規解法と確率的節,事実,規則を併用し,ユーザが提供する確率的制約を考慮した最適世界観(ブール変数代入や回答集合を満足するマルチセット)をサンプリングする解法であるdiff-SATについて述べる。 サンプリングプロセスは、勾配降下に基づく最適解法(\partial\mathrm{SAT}$)を用いて、ユーザ定義の微分対象関数を最小化し、それぞれ微分可能な解集合プログラミング(\partial\mathrm{ASP}$)を行う。 ユースケースはi.a。 確率的論理プログラミング(確率的解集合プログラミング)、確率的ブール充足可能性解法(psat)、モデル多重集合(アンスワー集合またはブール解釈)の分布認識サンプリング。

This paper describes diff-SAT, an Answer Set and SAT solver which combines regular solving with the capability to use probabilistic clauses, facts and rules, and to sample an optimal world-view (multiset of satisfying Boolean variable assignments or answer sets) subject to user-provided probabilistic constraints. The sampling process minimizes a user-defined differentiable objective function using a gradient descent based optimization method called Differentiable Satisfiability Solving ($\partial\mathrm{SAT}$) respectively Differentiable Answer Set Programming ($\partial\mathrm{ASP}$). Use cases are i.a. probabilistic logic programming (in form of Probabilistic Answer Set Programming), Probabilistic Boolean Satisfiability solving (PSAT), and distribution-aware sampling of model multisets (answer sets or Boolean interpretations).
翻訳日:2021-04-12 11:36:44 公開日:2021-01-03
# RV-GAN : 多次元生成対向ネットワークを用いた基底画像からの網膜血管セグメンテーション

RV-GAN : Retinal Vessel Segmentation from Fundus Images using Multi-scale Generative Adversarial Networks ( http://arxiv.org/abs/2101.00535v1 )

ライセンス: Link先を確認
Sharif Amit Kamran, Khondker Fariha Hossain, Alireza Tavakkoli, Stewart Lee Zuckerbrod, Kenton M. Sanders, Salah A. Baker(参考訳) 網膜血管セグメンテーションは視力低下疾患の診断における網膜画像解析の領域に大きく貢献する。 既存の技術では、生成したセグメンテーション結果は、高い信頼度でしきい値にすると劣化する。 そこで本研究では,網膜血管の正確なセグメンテーションのための新しいマルチスケール生成アーキテクチャであるRVGANを提案する。 2つのジェネレータと2つのマルチスケールオートエンコーダベースの判別器を用いて,マイクロセルの局在とセグメンテーションを改善する。 リコンストラクションと重み付き特徴マッチング損失を組み合わせることで,本手法は閾値 > 0.5 の網膜血管の高精度な画素分割を生成する。 このアーキテクチャは、DRIVE、CHASE-DB1、STAREの3つの公開データセットに対して、AUC 0.9887、0.9814、0.9887を達成する。 さらに、RV-GANはMean-IOUとSSIMという2つの関連するメトリクスで他のアーキテクチャよりも優れている。

Retinal vessel segmentation contributes significantly to the domain of retinal image analysis for the diagnosis of vision-threatening diseases. With existing techniques the generated segmentation result deteriorates when thresholded with higher confidence value. To alleviate from this, we propose RVGAN, a new multi-scale generative architecture for accurate retinal vessel segmentation. Our architecture uses two generators and two multi-scale autoencoder based discriminators, for better microvessel localization and segmentation. By combining reconstruction and weighted feature matching loss, our adversarial training scheme generates highly accurate pixel-wise segmentation of retinal vessels with threshold >= 0.5. The architecture achieves AUC of 0.9887, 0.9814, and 0.9887 on three publicly available datasets, namely DRIVE, CHASE-DB1, and STARE, respectively. Additionally, RV-GAN outperforms other architectures in two additional relevant metrics, Mean-IOU and SSIM.
翻訳日:2021-04-12 11:36:29 公開日:2021-01-03
# RegNet: 画像分類のための自己規制型ネットワーク

RegNet: Self-Regulated Network for Image Classification ( http://arxiv.org/abs/2101.00590v1 )

ライセンス: Link先を確認
Jing Xu, Yu Pan, Xinglin Pan, Steven Hoi, Zhang Yi, Zenglin Xu(参考訳) ResNetとその変種は様々なコンピュータビジョンタスクで顕著な成功を収めた。 ビルディングブロックに勾配を流すことに成功したにもかかわらず、単純なショートカット接続機構は、付加機能のために新たな補完機能を再検討する能力を制限する。 本稿では,レギュレータモジュールをメモリ機構として導入し,さらにresnetに供給される補完的特徴を抽出することを提案する。 特に、レギュレータモジュールは、時空間情報を抽出するのに優れていることを示す畳み込みRNN(例えば、畳み込みLSTMや畳み込みGRU)で構成されている。 我々は新しい規制ネットワークをRegNetと名付けた。 レギュレータモジュールは簡単に実装でき、どんなResNetアーキテクチャにも追加できる。 また,Squeeze-and-Excitation ResNetの改良のためのレギュレータモジュールを適用し,本手法の一般化能力を示す。 3つの画像分類データセットの実験結果は、標準ResNet、SE-ResNet、その他の最先端アーキテクチャと比較して提案アーキテクチャの有望な性能を示している。

The ResNet and its variants have achieved remarkable successes in various computer vision tasks. Despite its success in making gradient flow through building blocks, the simple shortcut connection mechanism limits the ability of re-exploring new potentially complementary features due to the additive function. To address this issue, in this paper, we propose to introduce a regulator module as a memory mechanism to extract complementary features, which are further fed to the ResNet. In particular, the regulator module is composed of convolutional RNNs (e.g., Convolutional LSTMs or Convolutional GRUs), which are shown to be good at extracting Spatio-temporal information. We named the new regulated networks as RegNet. The regulator module can be easily implemented and appended to any ResNet architecture. We also apply the regulator module for improving the Squeeze-and-Excitation ResNet to show the generalization ability of our method. Experimental results on three image classification datasets have demonstrated the promising performance of the proposed architecture compared with the standard ResNet, SE-ResNet, and other state-of-the-art architectures.
翻訳日:2021-04-12 11:35:41 公開日:2021-01-03
# CovTANet:COVID-19胸部CTスキャンの病変分割、診断、重症度予測のためのハイブリッド三段階注意型ネットワーク

CovTANet: A Hybrid Tri-level Attention Based Network for Lesion Segmentation, Diagnosis, and Severity Prediction of COVID-19 Chest CT Scans ( http://arxiv.org/abs/2101.00691v1 )

ライセンス: Link先を確認
Tanvir Mahmud, Md. Jahin Alam, Sakib Chowdhury, Shams Nafisa Ali, Md Maisoon Rahman, Shaikh Anowarul Fattah, Mohammad Saquib(参考訳) 新型コロナウイルス(covid-19)の迅速かつ正確な診断は、世界的なコミュニティがこの拡大するパンデミックの広がりを制御するために直面する大きな課題の1つだ。 本稿では,胸部ctスキャンを用いた新型コロナウイルスの早期診断,病変分節化,重症度予測のためのエンドツーエンド臨床診断ツールとして,covtanetというハイブリッドニューラルネットワークを提案する。 感染の極めて早い段階で複雑な診断の課題を解決するために多相最適化戦略を導入し、最初に効率的な病変分割ネットワークを最適化し、後に、感染領域の特徴強化を提供する診断および重症度予測タスクのための統合最適化フレームワークに統合する。 さらに, びまん性, ぼやけ性, 多様な病巣の縁が新しく多様な特徴を持つ課題を克服するために, 新たなセグメンテーションネットワークであるtri-level attention-based segmentation network (ta-segnet) を導入した。 このネットワークは、後続の符号化復号段階における意味的ギャップを著しく減らし、従来のネットワークよりも性能が大幅に向上する。 さらに,特徴マップに埋め込まれた文脈情報の高速かつ効率的な一般化のために,チャネル,空間,ピクセルの注意スキームを組み合わせることで,ネットワーク上で繰り返し利用する新たな3レベル注意機構が導入された。 パンデミックの現段階における提案手法の有効性を示す胸部ctデータ110点を含む大規模データセットの大規模な実験により,3つの課題すべてにおいて優れた性能が達成されている。

Rapid and precise diagnosis of COVID-19 is one of the major challenges faced by the global community to control the spread of this overgrowing pandemic. In this paper, a hybrid neural network is proposed, named CovTANet, to provide an end-to-end clinical diagnostic tool for early diagnosis, lesion segmentation, and severity prediction of COVID-19 utilizing chest computer tomography (CT) scans. A multi-phase optimization strategy is introduced for solving the challenges of complicated diagnosis at a very early stage of infection, where an efficient lesion segmentation network is optimized initially which is later integrated into a joint optimization framework for the diagnosis and severity prediction tasks providing feature enhancement of the infected regions. Moreover, for overcoming the challenges with diffused, blurred, and varying shaped edges of COVID lesions with novel and diverse characteristics, a novel segmentation network is introduced, namely Tri-level Attention-based Segmentation Network (TA-SegNet). This network has significantly reduced semantic gaps in subsequent encoding decoding stages, with immense parallelization of multi-scale features for faster convergence providing considerable performance improvement over traditional networks. Furthermore, a novel tri-level attention mechanism has been introduced, which is repeatedly utilized over the network, combining channel, spatial, and pixel attention schemes for faster and efficient generalization of contextual information embedded in the feature map through feature re-calibration and enhancement operations. Outstanding performances have been achieved in all three-tasks through extensive experimentation on a large publicly available dataset containing 1110 chest CT-volumes that signifies the effectiveness of the proposed scheme at the current stage of the pandemic.
翻訳日:2021-04-12 11:35:23 公開日:2021-01-03
# グラフニューラルネットワークと時空間病モデルを組み合わせたドイツのcovid-19感染者予測

Combining Graph Neural Networks and Spatio-temporal Disease Models to Predict COVID-19 Cases in Germany ( http://arxiv.org/abs/2101.00661v1 )

ライセンス: Link先を確認
Cornelius Fritz, Emilio Dorigatti, David R\"ugamer(参考訳) 2020年には、さまざまな研究分野の研究者が新型コロナウイルスの感染率を調査している。 この文脈では、疾病インシデントの信頼性と解釈可能な予測は、政策立案者が医療資源を管理する上で不可欠なツールである。 新型コロナウイルスの感染拡大を説明するため、複数の専門家が人間の移動性を考慮する必要があると訴えている。 既存のアプローチは、しばしば各研究分野の標準モデルを適用している。 しかし、この習慣は特定の制限を伴うことが多い。 例えば、統計学モデルや疫学モデルでは、人間の移動性を符号化するリレーショナルデータを含む非構造化データソースを直接組み込むことはできない。 対照的に、機械学習のアプローチは、これらのデータ構造を利用することによってより良い予測をもたらすが、しばしばブラックボックスモデルに分類されるため、直感的な解釈性が欠如している。 本稿では,ドイツにおける局所的な新型コロナウイルス感染予測のための統計的回帰モデルと機械学習モデルの利点を組み合わせたマルチモーダル学習手法を提案する。 この新たなアプローチにより,モビリティフローやコロケーション確率など,よりリッチなデータ型コレクションの利用が可能となり,我々の観測期間において最も低いmseスコアが得られた。 その結果,モビリティデータを含める必要性と,アプローチの柔軟性と解釈性が示された。

During 2020, the infection rate of COVID-19 has been investigated by many scholars from different research fields. In this context, reliable and interpretable forecasts of disease incidents are a vital tool for policymakers to manage healthcare resources. Several experts have called for the necessity to account for human mobility to explain the spread of COVID-19. Existing approaches are often applying standard models of the respective research field. This habit, however, often comes along with certain restrictions. For instance, most statistical or epidemiological models cannot directly incorporate unstructured data sources, including relational data that may encode human mobility. In contrast, machine learning approaches may yield better predictions by exploiting these data structures, yet lack intuitive interpretability as they are often categorized as black-box models. We propose a trade-off between both research directions and present a multimodal learning approach that combines the advantages of statistical regression and machine learning models for predicting local COVID-19 cases in Germany. This novel approach enables the use of a richer collection of data types, including mobility flows and colocation probabilities, and yields the lowest MSE scores throughout our observational period in our benchmark study. The results corroborate the necessity of including mobility data and showcase the flexibility and interpretability of our approach.
翻訳日:2021-04-12 11:34:51 公開日:2021-01-03
# 深層ニューラルネットワークを用いたマルチモーダルウェアラブルセンサデータからの人間活動認識のための新しい多段階学習手法

A Novel Multi-Stage Training Approach for Human Activity Recognition from Multimodal Wearable Sensor Data Using Deep Neural Network ( http://arxiv.org/abs/2101.00702v1 )

ライセンス: Link先を確認
Tanvir Mahmud, A. Q. M. Sazzad Sayyed, Shaikh Anowarul Fattah, Sun-Yuan Kung(参考訳) ディープニューラルネットワークは、さまざまなウェアラブルセンサーのデータを利用して人間の行動を自動的に認識する効果的な選択である。 これらのネットワークは、完全にデータに依存する特徴抽出のプロセスを自動化する。 しかし、センサ間の複雑なモーダル関係を持つ時系列データの様々なノイズにより、この処理はより複雑になる。 本稿では,多様な視点から抽出した多種多様な特徴を組み合わせて行動の正確な認識を行うため,特徴抽出プロセスにおける多様性を高める新しい多段階学習手法を提案する。 当初、単一のタイプの変換を使う代わりに、時系列データに多くの変換を施し、生データにエンコードされた特徴の可変表現を得る。 異なる変換空間から特徴を抽出するために個別に訓練できる効率的な深層CNNアーキテクチャを提案する。 その後、これらのcnn特徴抽出器を最適なアーキテクチャにマージし、複合トレーニングステージまたは複数の逐次トレーニングステージを介して多様化した特徴を最適化する。 このアプローチは、最終収束のための効率的な特徴選択のために、多孔性観測窓を用いた生センサデータの符号化された特徴を探索する機会を提供する。 UCI HARデータベースでは平均5倍のクロスバリデーション精度99.29%、USC HARデータベースでは99.02%、SKODAデータベースでは97.21%という優れたパフォーマンスを提供する3つの公開データセットで大規模な実験が行われた。

Deep neural network is an effective choice to automatically recognize human actions utilizing data from various wearable sensors. These networks automate the process of feature extraction relying completely on data. However, various noises in time series data with complex inter-modal relationships among sensors make this process more complicated. In this paper, we have proposed a novel multi-stage training approach that increases diversity in this feature extraction process to make accurate recognition of actions by combining varieties of features extracted from diverse perspectives. Initially, instead of using single type of transformation, numerous transformations are employed on time series data to obtain variegated representations of the features encoded in raw data. An efficient deep CNN architecture is proposed that can be individually trained to extract features from different transformed spaces. Later, these CNN feature extractors are merged into an optimal architecture finely tuned for optimizing diversified extracted features through a combined training stage or multiple sequential training stages. This approach offers the opportunity to explore the encoded features in raw sensor data utilizing multifarious observation windows with immense scope for efficient selection of features for final convergence. Extensive experimentations have been carried out in three publicly available datasets that provide outstanding performance consistently with average five-fold cross-validation accuracy of 99.29% on UCI HAR database, 99.02% on USC HAR database, and 97.21% on SKODA database outperforming other state-of-the-art approaches.
翻訳日:2021-04-12 11:34:33 公開日:2021-01-03
# シリコンフォトニックマイクロリングを用いた遅延フィードバック貯留層計算用チップスケール加速器

Silicon Photonic Microring Based Chip-Scale Accelerator for Delayed Feedback Reservoir Computing ( http://arxiv.org/abs/2101.00557v1 )

ライセンス: Link先を確認
Sairam Sri Vatsavai, Ishan Thakkar(参考訳) 時間的およびシーケンシャルな機械学習タスクを実行するため、従来のリカレントニューラルネットワーク(RNN)の使用は、RNNの訓練複雑さのために減少している。 この目的のために, 単純なハードウェア実装のため, RNNの代わりにDFRC(Relay feedback storage computing)のアクセラレータが注目されている。 DFRC加速器の典型的な実装は遅延ループと1つの非線形ニューロンで構成され、計算のための複数の仮想ノードとして機能する。 以前の研究で、フォトニックDFRC加速器は電子的加速器よりも高速な計算の利点を示した。 本稿では、シリコンフォトニックマイクロリング(MR)ベースの非線形ニューロンとオンチップフォトニック導波路に基づく遅延フィードバックループを用いたよりエネルギー効率の良いDFRC加速器を提案する。 我々の評価では,従来からよく知られたDFRC加速器と比較して,NARMA10およびサンタフェ時系列の予測タスクにおいて,MRベースのDFRC加速器は35%と98.7%低い正規化ルート平均二乗誤差(NRMSE)を達成した。 さらに,MRをベースとしたDFRC加速器は,非線形チャネル等化タスクに対して,58.8%低いシンボル誤り率(SER)を達成する。 さらに,このMRベースのDFRC加速器は,電子的およびフォトニックなDFRC加速器と比較して,トレーニング時間を98%,訓練時間を93%高速化した。

To perform temporal and sequential machine learning tasks, the use of conventional Recurrent Neural Networks (RNNs) has been dwindling due to the training complexities of RNNs. To this end, accelerators for delayed feedback reservoir computing (DFRC) have attracted attention in lieu of RNNs, due to their simple hardware implementations. A typical implementation of a DFRC accelerator consists of a delay loop and a single nonlinear neuron, together acting as multiple virtual nodes for computing. In prior work, photonic DFRC accelerators have shown an undisputed advantage of fast computation over their electronic counterparts. In this paper, we propose a more energy-efficient chip-scale DFRC accelerator that employs a silicon photonic microring (MR) based nonlinear neuron along with on-chip photonic waveguides-based delayed feedback loop. Our evaluations show that, compared to a well-known photonic DFRC accelerator from prior work, our proposed MR-based DFRC accelerator achieves 35% and 98.7% lower normalized root mean square error (NRMSE), respectively, for the prediction tasks of NARMA10 and Santa Fe time series. In addition, our MR-based DFRC accelerator achieves 58.8% lower symbol error rate (SER) for the Non-Linear Channel Equalization task. Moreover, our MR-based DFRC accelerator has 98% and 93% faster training time, respectively, compared to an electronic and a photonic DFRC accelerators from prior work.
翻訳日:2021-04-12 11:34:10 公開日:2021-01-03
# EMと勾配EMによるガウス混合モデル学習のための収束保証の改善

Improved Convergence Guarantees for Learning Gaussian Mixture Models by EM and Gradient EM ( http://arxiv.org/abs/2101.00575v1 )

ライセンス: Link先を確認
Nimrod Segol, Boaz Nadler(参考訳) パラメータを既知の重みのk成分を持つガウス混合モデルとして推定する問題を考える。 我々は2つの貢献をした。 まず, 個体群レベルでは, 過去の研究に比べて, 局所的なemおよび勾配emの収束率を鋭く分析する。 $\Omega(\sqrt{\log K})$ の分離を仮定すると、どちらの方法も、以前の研究よりも大きい初期化領域から大域最適化への収束を証明できる。 具体的には、各成分の最初の推測は、最も近いガウシアンまでの距離の半分(ほぼ)である。 これは本質的に最大の収縮領域である。 第2の貢献は,EMと勾配EMによる精度評価のための試料サイズ要求の改善である。 以前の研究では, 必要なサンプル数は, K成分間の最大分離に2次依存しており, 得られた誤差は, この最大分離とともに線形に増大した。 この写本では、両方の量は最大分離のみに依存することを示した。

We consider the problem of estimating the parameters a Gaussian Mixture Model with K components of known weights, all with an identity covariance matrix. We make two contributions. First, at the population level, we present a sharper analysis of the local convergence of EM and gradient EM, compared to previous works. Assuming a separation of $\Omega(\sqrt{\log K})$, we prove convergence of both methods to the global optima from an initialization region larger than those of previous works. Specifically, the initial guess of each component can be as far as (almost) half its distance to the nearest Gaussian. This is essentially the largest possible contraction region. Our second contribution are improved sample size requirements for accurate estimation by EM and gradient EM. In previous works, the required number of samples had a quadratic dependence on the maximal separation between the K components, and the resulting error estimate increased linearly with this maximal separation. In this manuscript we show that both quantities depend only logarithmically on the maximal separation.
翻訳日:2021-04-12 11:33:44 公開日:2021-01-03
# ハーモニック・パーカッシブ音源分離のための非教師なし領域適応

Adversarial Unsupervised Domain Adaptation for Harmonic-Percussive Source Separation ( http://arxiv.org/abs/2101.00701v1 )

ライセンス: Link先を確認
Carlos Lordelo, Emmanouil Benetos, Simon Dixon, Sven Ahlb\"ack, and Patrik Ohlsson(参考訳) 本稿では,音源分離作業における領域適応の問題に対処する。 2つの異なるドメインからのデータセットを用いて、異なるトレーニングシナリオ下での深層学習に基づくハーモニック・パーカッシブソース分離モデルの性能を比較する。 本稿では,対象領域からのラベル付きデータ(地上信号)が利用できない場合に適した,対向的教師なし領域適応手法を提案する。 このドメインから非競合データ(混合データのみ)を活用することで、我々のフレームワークは、元のドメインでかなりのパフォーマンスを失うことなく、新しいドメインでの分離性能を改善することができることを示す。 tap & fiddleデータセットは、スカンジナビアのフィドルチューンを録音するデータセットであり、'foot-tapping'と'violin'のための孤立したトラックを含んでいる。

This paper addresses the problem of domain adaptation for the task of music source separation. Using datasets from two different domains, we compare the performance of a deep learning-based harmonic-percussive source separation model under different training scenarios, including supervised joint training using data from both domains and pre-training in one domain with fine-tuning in another. We propose an adversarial unsupervised domain adaptation approach suitable for the case where no labelled data (ground-truth source signals) from a target domain is available. By leveraging unlabelled data (only mixtures) from this domain, experiments show that our framework can improve separation performance on the new domain without losing any considerable performance on the original domain. The paper also introduces the Tap & Fiddle dataset, a dataset containing recordings of Scandinavian fiddle tunes along with isolated tracks for 'foot-tapping' and 'violin'.
翻訳日:2021-04-12 11:33:27 公開日:2021-01-03