このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201030となっている論文です。

PDF登録状況(公開日: 20201030)

TitleAuthorsAbstract論文公表日・翻訳日
# ディッケ状態を持つ単一スピンからの不均質磁場の効率的な検出

Efficient detection of inhomogeneous magnetic fields from a single spin with Dicke states ( http://arxiv.org/abs/2003.12524v3 )

ライセンス: Link先を確認
Hideaki Hakoshima and Yuichiro Matsuzaki(参考訳) 単一スピンの効率的な検出は、量子磁場センサの感度を向上させる重要な目標である。 近年,Greenberger-Horne-Zeilinger状態 (GHZ) のような特定の絡み合いが,単一スピン検出の性能向上に有効であることが示されている。 しかし、GHZ状態のスケーラブルな生成は実験的に実現が困難である。 容易に生成できる実用的な絡み合い状態を使用することが望ましい。 本稿では,ディッキン状態を持つ単一スピンの効率的な検出法を提案する。 我々は,グローバル制御によるディッキン状態の準備と測定方法を示す。 さらに,環境との疎結合が提案手法の性能に与える影響について検討し,ディッケ状態による単一スピン検出が分離状態を持つ古典的戦略に対して大きな優位性を持つことを示した。 本研究は、絡み合い強化シングルスピン検出を実現するために重要である。

The efficient detection of a single spin is a significant goal of improving the sensitivity of quantum magnetic-field sensors. Recent results show that a specific type of entanglement such as Greenberger-Horne-Zeilinger (GHZ) states can be used as a resource to improve the performance of single spin detection. However, scalable generation of the GHZ states is experimentally difficult to realize. It is desirable to use a practical entangled state that can be easily generated. In this paper, we propose the efficient detection of a single spin with Dicke states. We show a way to prepare and measure Dicke states via a global control. Moreover, we investigate how dephasing due to unwanted coupling with the environment affects the performance of our proposal, and show that single spin detection with Dicke states with dephasing has a significant advantage over the classical strategy with separable states. Our results are important toward realizing entanglement enhanced single spin detection.
翻訳日:2023-05-27 18:24:12 公開日:2020-10-30
# 量子光による固体中の干渉秩序の操作

Manipulating intertwined orders in solids with quantum light ( http://arxiv.org/abs/2005.07643v2 )

ライセンス: Link先を確認
Jiajun Li and Martin Eckstein(参考訳) 絡み合った秩序は強い相関を持つ電子系に普遍的に存在し、量子材料に興味深い現象をもたらす。 本稿では、電子状態と量子光を絡み合わせることで、中間秩序を操作するユニークな機会を探求する。 量子フロッケ形式を用いてキャビティを媒介する相互作用の研究を行い、真空揺らぎが電荷密度-波動相関を効果的に強化し、電子的秩序と光子コヒーレンスが絡み合う相を生じさせ、熱力学的極限における超ラジアントの挙動を示す。 さらに、キャビティ内に1つの光子さえ注入すると、$s$-wave や $\eta$--paired 超伝導を含む異なる順序が選択的に強化される。 我々の研究は、相互に絡み合った順序を制御し、量子材料に光物質が絡み合う新しい、一般化可能な経路を示唆している。 メカニズムと方法論は、より複雑なシナリオに容易に一般化できる。

Intertwined orders exist ubiquitously in strongly correlated electronic systems and lead to intriguing phenomena in quantum materials. In this paper, we explore the unique opportunity of manipulating intertwined orders through entangling electronic states with quantum light. Using a quantum Floquet formalism to study the cavity-mediated interaction, we show the vacuum fluctuations effectively enhance the charge-density-wave correlation, giving rise to a phase with entangled electronic order and photon coherence, with putative superradiant behaviors in the thermodynamic limit. Furthermore, upon injecting even one single photon in the cavity, different orders, including $s$--wave and $\eta$--paired superconductivity, can be selectively enhanced. Our study suggests a new and generalisable pathway to control intertwined orders and create light-matter entanglement in quantum materials. The mechanism and methodology can be readily generalised to more complicated scenarios.
翻訳日:2023-05-20 03:15:41 公開日:2020-10-30
# 強い双極子遮断によるRydbergポンプ

Selective Rydberg pumping via strong dipole blockade ( http://arxiv.org/abs/2006.10989v2 )

ライセンス: Link先を確認
Xiao-Qiang Shao(参考訳) 高励起rydberg準位間の共鳴双極子-双極子相互作用は、短距離で中性原子の相互作用を支配する。 ここでは,強い双極子-双極子相互作用と多周波駆動場の組み合わせ効果を生かして,一種類の選択的リドバーグポンプ機構を提案する。 2つの原子の計算基底である$\{|00\rangle, |01\rangle,|10\rangle,|11\rangle\}$ では、他の3つの状態の遷移が抑制されている間、この機構により$|11\rangle$ は単励起のrydberg状態へ共鳴的に励起される。 数学的形式の観点からは、中性原子の基底状態に対する類似のf\"{o}ster共鳴が得られる。 この選択的なRydbergポンプの性能は、制御されたZ$ゲートの忠実度の定義を用いて評価され、原子間距離のずれ、F\"{o}ster共鳴欠陥の揺らぎ、二重励起されたRydberg状態の自然放出といったロバスト性の特徴を示す。 本機構の応用として, 基礎状態遮断による2つの原子の最大絡み合い対称状態と, 工学的自発的放出による最大絡み合い反対称状態の合成を, 最先端実験で詳細に検討した。

The resonant dipole-dipole interaction between highly excited Rydberg levels dominates the interaction of neutral atoms at short distances scaling as $1/r^3$. Here we take advantage of the combined effects of strong dipole-dipole interaction and multifrequency driving fields to propose one type of selective Rydberg pumping mechanism. In the computational basis of two atoms $\{|00\rangle, |01\rangle,|10\rangle,|11\rangle\}$, this mechanism allows $|11\rangle$ to be resonantly pumped upwards to the single-excited Rydberg states while the transitions of the other three states are suppressed. From the perspective of mathematical form, we achieve an analogous F\"{o}ster resonance for ground states of neutral atoms. The performance of this selective Rydberg pumping is evaluated using the definition of fidelity for controlled-$Z$ gate, which manifests a characteristic of robustness to deviation of interatomic distance, fluctuation of F\"{o}ster resonance defect, and spontaneous emission of double-excited Rydberg states. As applications of this mechanism, we discuss in detail the preparation of the maximally entangled symmetric state for two atoms via ground-state blockade, and the maximally entangled antisymmetric state via engineered spontaneous emission, within the state-of-the-art experiments, respectively.
翻訳日:2023-05-13 11:33:25 公開日:2020-10-30
# 二重スリット実験における原子と空洞を持つ重要な非古典的経路

Significant nonclassical paths with atoms and cavities in the double-slit experiment ( http://arxiv.org/abs/2007.05279v2 )

ライセンス: Link先を確認
J. O. de Almeida and M. Lewenstein and J. Q. Quach(参考訳) 二重スリット実験では、非古典経路は両スリットを通過するファインマン経路である。 ダブルスリット実験における両方向検出器としての原子空洞を用いた以前の研究は、これらの経路が実験的に到達できないことを示した。 本稿では,従来研究されていた非古典的パスのタイプが異なる場合,そのようなセットアップが1%の確率で非古典的パスを検出できることを示す。 また,この設定を用いて非古典パスの一貫性を消去し,復元する方法を示す。 最後に、原子空洞を用いてボルン・ルール違反の正確な測定を行う方法を示す(Quach, Which-way double-slit experiment and Born-rule violation, Phys. A 95, 042129 (2017))。

In the the double-slit experiment, nonclassical paths are Feynman paths that go through both slits. Prior work with atom cavities as which-way detectors in the double-slit experiment has shown these paths to be experimentally inaccessible. In this paper, we show how such a setup can indeed detect nonclassical paths with 1% probability if one considers a different type of nonclassical path than previously investigated. We also show how this setup can be used to erase and restore the coherence of the nonclassical paths. Finally, we also show how atom cavities may be used to implement a exact measure of Born-rule violation [Quach, Which-way double-slit experiments and Born-rule violation, Phys. Rev. A 95, 042129 (2017)], which up until now has only been a formal construct.
翻訳日:2023-05-10 17:23:54 公開日:2020-10-30
# Dummy's) Guide to Working with Gapped Boundaries via (Fermion) Condensation (特集 New Trends)

A (Dummy's) Guide to Working with Gapped Boundaries via (Fermion) Condensation ( http://arxiv.org/abs/2007.10562v3 )

ライセンス: Link先を確認
Jiaqi Lou, Ce Shen, Chaoyi Chen, Ling-Yan Hung(参考訳) 2+1d位相順に「フェルミオン凝縮」を特徴とするガッピング境界について検討した。 数学的には、これらの凝縮はスーパー可換フロベニウス代数によって記述できる。 ギャップ境界/接合における励起種を体系的に取得し,その自己準同型(Majorana fermionをトラップする能力)と融合規則について検討し,欠陥Verlinde式をツイストバージョンに一般化した。 これらの結果を明示的な例で説明する。 また、これらの結果は超モジュラ不変 CFT の位相的欠陥と結合する。 議論を自己完結させるため、関連する数学的結果の教育学的レビューを行い、テンソルカテゴリーでの経験のない物理学者がそれらを拾い上げて簡単に適用できるようにします。

We study gapped boundaries characterized by "fermionic condensates" in 2+1 d topological order. Mathematically, each of these condensates can be described by a super commutative Frobenius algebra. We systematically obtain the species of excitations at the gapped boundary/ junctions, and study their endomorphisms (ability to trap a Majorana fermion) and fusion rules, and generalized the defect Verlinde formula to a twisted version. We illustrate these results with explicit examples. We also connect these results with topological defects in super modular invariant CFTs. To render our discussion self-contained, we provide a pedagogical review of relevant mathematical results, so that physicists without prior experience in tensor category should be able to pick them up and apply them readily
翻訳日:2023-05-08 21:05:58 公開日:2020-10-30
# 絡み合いの証人の慣性

Inertias of entanglement witnesses ( http://arxiv.org/abs/2007.13041v2 )

ライセンス: Link先を確認
Yi Shen and Lin Chen and Li-Jun Zhao(参考訳) 絡み合い目撃者(EW)は絡み合いを検出するための基本的なツールである。 我々はewsの慣性、すなわちそれぞれ負の値、ゼロの値、正の固有値の三重項について研究する。 非陽性部分転位状態の部分転位によって構成されるEWに着目した。 慣性間の関連性により、所定の慣性からより多くの慣性を生成する方法を提供する。 それに基づいて、各キュービットキューディットシステムにおけるEWの慣性をすべて消耗する。 この結果を用いて,部分的転置のランクの点から分離性基準を提案する。 また, 本研究の結果を, 真に絡み合った状態と, 非正の部分的転置を伴う状態の分類と結びつけた。 さらに、X状態によって構築されたEWの慣性が明確化される。

Entanglement witnesses (EWs) are a fundamental tool for the detection of entanglement. We study the inertias of EWs, i.e., the triplet of the numbers of negative, zero, and positive eigenvalues respectively. We focus on the EWs constructed by the partial transposition of states with non-positive partial transposes. We provide a method to generate more inertias from a given inertia by the relevance between inertias. Based on that we exhaust all the inertias for EWs in each qubit-qudit system. We apply our results to propose a separability criterion in terms of the rank of the partial transpose of state. We also connect our results to tripartite genuinely entangled states and the classification of states with non-positive partial transposes. Additionally, the inertias of EWs constructed by X-states are clarified.
翻訳日:2023-05-08 04:46:32 公開日:2020-10-30
# 初期人口量子ビットへの絡み合いの遅延移動

Delayed transfer of entanglement to initially populated qubits ( http://arxiv.org/abs/2008.03528v2 )

ライセンス: Link先を確認
Smail Bougouffa and Zbigniew Ficek(参考訳) 圧縮場から単一モードキャビティへの絡み合った量子相関型フライング光子の移動について検討した。 入力された圧縮場がオンになった直後に光子の移動が始まるが、量子相関がキャビティに移される時期はキャビティの初期集団に大きく依存することが示された。 初期空の空洞の場合、量子相関の転送は、圧縮されたフィールドがオンになった直後に開始されるが、空洞が最初に占有された時点で一定の時間間隔で遅延する。 量子相関の転送は、系の1光子状態がほぼ完全に非人口化されるまで延期される。 言い換えると、このシステムは、キャビティ間の量子相関を構築し始める前に、単一光子状態の人口が崩壊するのを「待つ」。 遅延時間間隔は、初期系に存在する光子数に依存しないが、キャビティの減衰速度に依存し、キャビティが異なる速度で崩壊した場合に変化(制御)することができる。 量子相関の遅延移動は、絡み合った状態から不整合混合状態へ人口を移動させる量子ジャンプの存在と直接関係があることが示されている。

The transfer of entangled, quantum correlated, flying photons from a squeezed field to single-mode cavities is investigated. It is shown that, while the transfer of photons begins immediately after the input squeezed field is turned on, the time at which quantum correlations start to be transferred to the cavities is strongly dependent on the initial population of the cavities. For the initially empty cavities, the transfer of quantum correlations begins immediately after the squeezed field is turned on, but it is delayed by a certain time interval when the cavities are initially populated. We find that the transfer of the quantum correlations is postponed until the one-photon states of the system are almost completely depopulated. In other words, the system "waits" for the population of the single-photon states to decay out before starting to build up the quantum correlation between the cavities. The delay time interval is independent of the number of photons initially present in the system, but it is dependent on the decay rates of the cavities and can be varied (controlled) when the cavities decay with different rates. It is shown that the delayed transfer of the quantum correlation is directly related to the presence of quantum jumps, which transfer the population from the entangled to incoherent mixture states.
翻訳日:2023-05-06 19:51:28 公開日:2020-10-30
# トランスコヒーレント状態:原子コヒーレンスの最大生成のための光学状態

Transcoherent states: Optical states for maximal generation of atomic coherence ( http://arxiv.org/abs/2008.07540v2 )

ライセンス: Link先を確認
Aaron Z. Goldberg and Aephraim M. Steinberg(参考訳) 量子技術はコヒーレント重ね合わせの力に基づいている。 原子コヒーレンスは通常、光学コヒーレンスから、最も多くはラビ振動によって生成される。 しかし、光の正準コヒーレントな状態は不完全な資源を生み出し、「$\tfrac{\pi}{2}$ pulses」の完全量子化された記述は、生成した原子の重ね合わせが光と絡み合っていることを示している。 光の量子状態がコヒーレントな原子状態を完全に生成し、残射場が絡み合っていないことを示す。 これらの状態は任意に短い時間で見られ、大きな強度の極限でわずかに数列化された$\tfrac{\pi}{2}$パルスに近づき、類似の理想状態は任意の$(2k+1)\tfrac{\pi}{2}$パルスで見受けられる。 さらに、これらの状態は「量子触媒」として繰り返し使用して、高い確率でコヒーレントな原子状態を生成する。 この観点から、我々はコヒーレント状態よりも「よりコヒーレント」な状態を特定した。

Quantum technologies are built on the power of coherent superposition. Atomic coherence is typically generated from optical coherence, most often via Rabi oscillations. However, canonical coherent states of light create imperfect resources; a fully-quantized description of "$\tfrac{\pi}{2}$ pulses" shows that the atomic superpositions generated remain entangled with the light. We show that there are quantum states of light that generate coherent atomic states perfectly, with no residual atom-field entanglement. These states can be found for arbitrarily short times and approach slightly-number-squeezed $\tfrac{\pi}{2}$ pulses in the limit of large intensities; similar ideal states can be found for any $(2k+1)\tfrac{\pi}{2}$ pulses, requiring more number squeezing with increasing $k$. Moreover, these states can be repeatedly used as "quantum catalysts" to successfully generate coherent atomic states with high probability. From this perspective we have identified states that are "more coherent" than coherent states.
翻訳日:2023-05-06 00:48:40 公開日:2020-10-30
# 量子テレポーテーションにおける軌道と電子の絡み合い

Orbital and electronic entanglement in quantum teleportation schemes ( http://arxiv.org/abs/2008.12816v2 )

ライセンス: Link先を確認
Anna Galler, Patrik Thunstr\"om(参考訳) よりコンパクトな量子コンピューティングアーキテクチャへと進むにつれ、区別できない粒子の絡み合いに関する根本的な問題に対処する必要がある。 固体デバイスでは、このクエストは自然に電子の量子相関と結びついている。 本研究では,電子の絡み合い,モードの絡み合い,粒子の絡み合い,粒子数選択規則の影響について検討する。 強相関材料におけるモードと粒子の絡み合いの形成を解明し,量子テレポーテーションなどの量子情報処理において,両者が重要な資源であることを示す。 この目的のために、3つの電子テレポーテーション方式における絡み合いを定性的・定量的に分析する。 (i)グラフェン上の分子内の量子テレポーテーション (ii)窒素空洞センター、及び (iii)量子ドット配列。

With progress towards more compact quantum computing architectures, fundamental questions regarding the entanglement of indistinguishable particles need to be addressed. In a solid state device, this quest is naturally connected to the quantum correlations of electrons. Here, we investigate the entanglement between electrons, focusing on the entanglement of modes, the entanglement of particles and the effect of particle-number superselection rules. We elucidate the formation of mode and particle entanglement in strongly correlated materials and show that both represent important resources in quantum information tasks such as quantum teleportation. To this end, we qualitatively and quantitatively analyze the entanglement in three electronic teleportation schemes: (i) quantum teleportation within a molecule on graphene, (ii) a nitrogen-vacancy center and (iii) a quantum dot array.
翻訳日:2023-05-04 11:32:06 公開日:2020-10-30
# コロナウイルスに対する公衆衛生の反応に分裂がどう影響するか

How Fragmentation Can Undermine the Public Health Response to COVID-19 ( http://arxiv.org/abs/2009.06279v2 )

ライセンス: Link先を確認
Andrew Tzer-Yeu Chen(参考訳) 新型コロナウイルス(covid-19)に対する反応は主に、パンデミック(covid-19)計画を活性化し、モデリング、テスト、隔離、移動制限、監視、接触追跡の疫学ツールキットを開設した地元、全国、および国際公衆衛生機関によって主導されている。 現代の技術重大世界では、人間の調査員や電話の一般的な手作業がデジタルソリューションに置き換えられるか、あるいは置き換えるべきであると多くの人が考えていた。 しかし、"さらなるテクノロジ"ほど単純ではない。ユーザと社会がテクノロジと対話する複雑な方法は、有効性に大きな影響を与えます。 努力がうまく調整されていない場合、システム設計とユーザエクスペリエンスの断片化は、公衆の健康反応に悪影響を及ぼす可能性がある。 この記事では、新型コロナウイルスのパンデミックの間にニュージーランドで接触者追跡レジスタとデジタル日記がどう進化したか、中央調整の欠如による最初の不良結果、そしてその後の改善について概説する。

Responses to COVID-19 have largely been led by local, national, and international public health agencies, who have activated their pandemic plans and opened the epidemiological toolkit of modelling, testing, isolation and movement restrictions, surveillance, and contact tracing. In the contemporary tech-heavy world, many assumed that the common manual process of human investigators and phone calls could or should be replaced by digital solutions. But it's not as simple as "add more technology" - the complex way in which users and societies interact with the technology has significant impacts on effectiveness. When efforts are not well co-ordinated, fragmentation in system design and user experience can negatively impact the public health response. This article briefly covers the journey of how contact tracing registers and digital diaries evolved in New Zealand during the COVID-19 pandemic, the initial poor outcomes caused by the lack of central co-ordination, and the later improvement.
翻訳日:2023-05-02 06:45:20 公開日:2020-10-30
# 動的絡み合い

Dynamical Entanglement ( http://arxiv.org/abs/2009.12304v2 )

ライセンス: Link先を確認
Gilad Gour, Carlo Maria Scandolo(参考訳) 量子状態の絡み合いとは異なり、動的絡み合いと呼ばれるバイパルタイトチャネルの絡み合いについてはほとんど知られていない。 ここでは超チャネルの部分的な変換を扱い、それを用いて負性のような動的絡み合いの計算可能な測度を定義する。 最大対数負性率(max-logarithmic negativity)は, 正確な漸近的動的絡み合いのコストを表す。 局所的な操作や古典的通信や正の部分的転置を伴う操作の下での2部チャネルシミュレーションに必要な十分な条件を提供する動的絡み合い測度の族を見いだす。

Unlike the entanglement of quantum states, very little is known about the entanglement of bipartite channels, called dynamical entanglement. Here we work with the partial transpose of a superchannel, and use it to define computable measures of dynamical entanglement, such as the negativity. We show that a version of it, the max-logarithmic negativity, represents the exact asymptotic dynamical entanglement cost. We discover a family of dynamical entanglement measures that provide necessary and sufficient conditions for bipartite channel simulation under local operations and classical communication and under operations with positive partial transpose.
翻訳日:2023-05-01 00:31:02 公開日:2020-10-30
# 文脈性測定を用いたオントロジモデルにおける共謀

Conspiracy in ontological models with measurement contextuality ( http://arxiv.org/abs/2010.10688v2 )

ライセンス: Link先を確認
Yiruo Lin(参考訳) 一般のオントロジーモデルにおいて、非コンテキスト量子力学的確率に適合する測定に文脈的に応答するオントティック状態の陰謀を解析する。 オントロジー空間構造の一般的な物理像と、測定コンテキストによってオントティック状態がどのように乱されるかを示す。 ラムダ十分性(lambda-sufficiency)と呼ばれるオントロジモデルにおける一般的な仮定は、量子状態や測定に関してオントロジモデルにおける一定の対称性を持つオントロジモデルの測定文脈性と矛盾していると論じられている。

The conspiracy of ontic states responding to measurements contextually to comply with noncontextual quantum mechanical probabilities is analyzed for general ontological models. A general physical picture of ontological space structure and how ontic states are disturbed by measurement contexts is presented. A common assumption in ontological models called lambda-sufficiency is analyzed and argued to be inconsistent with measurement contextuality for ontological models with certain symmetry in ontic space with respect to quantum states and measurements.
翻訳日:2023-04-28 03:23:51 公開日:2020-10-30
# 一般化モンティホールゲームにおける量子バージョンとその量子セキュア通信への応用

Quantum version of a generalized Monty Hall game and its possible applications to quantum secure communications ( http://arxiv.org/abs/2010.13771v3 )

ライセンス: Link先を確認
L. F. Quezada and Shi-Hai Dong(参考訳) 本研究では、一般化されたモンティホールゲーム(つまり、ゲームのパラメータが自由で、その正規値に固定されていないもの)の量子バージョンを提案する。 開発された量子スキームは、分離可能な初期状態と絡み合った初期状態の両方を用いて、プレイヤーの期待されるペイオフを研究するために使用される。 両例では、一定の条件下で古典的な混合ストラテジーペイオフが回復される。 最後に、我々の量子スキームを複数の独立したプレイヤーを含むように拡張し、この拡張を使用して、ゲーム力学の量子ネットワークへの2つの可能な応用、具体的には、2つの検証済み、マルチトパーティ、キー分散、量子プロトコルをスケッチする。

In this work we propose a quantum version of a generalized Monty Hall game, that is, one in which the parameters of the game are left free, and not fixed on its regular values. The developed quantum scheme is then used to study the expected payoff of the player, using both a separable and an entangled initial-state. In the two cases, the classical mixed-strategy payoff is recovered under certain conditions. Lastly, we extend our quantum scheme to include multiple independent players, and use this extension to sketch two possible application of the game mechanics to quantum networks, specifically, two validated, mult-party, key-distribution, quantum protocols.
翻訳日:2023-04-27 11:20:32 公開日:2020-10-30
# QROMにおけるタイト適応型再プログラミング

Tight adaptive reprogramming in the QROM ( http://arxiv.org/abs/2010.15103v2 )

ライセンス: Link先を確認
Alex B. Grilo and Kathrin H\"ovelmanns and Andreas H\"ulsing and Christian Majenz(参考訳) ランダムオラクルモデル(ROM)は、標準モデルにおける証明可能なセキュリティが取り除かれるかコストがかかるという厳密で概念的に単純な証明を可能にする傾向にあるため、広く普及している。 量子アクセス可能なランダムオラクルモデル(QROM)は、量子後セキュリティ設定におけるROMの適切な置き換えであるが、多くの設定においてこれらの利点を提供することができなかった。 本研究では,ROMの特徴である適応的再プログラム可能性に着目し,多くの設定で厳密かつ簡単な証明を可能にする。 適応型再プログラミングの量子アクセス可能な簡単な一般化は、ランダムなオラクルが再プログラムされたかどうかを区別する逆の優位性に縛られることを証明することによって実現可能であることを示す。 一致した攻撃を提供することで、境界がきついことを示す。 続いて、我々の手法が3つのQROMアプリケーションにおけるROMの利点を回復することを示す。 1) XMSSで使用されるメッセージ圧縮ルーチンのセキュリティのより厳密な証明を与える。 2) Fiat-Shamirシグネチャの選択メッセージセキュリティの標準的なROM証明は,QROMに簡単に持ち上げることができ,従来よりも厳密な削減が達成できることを示す。 3) ヘッジされたフィアット・シャミール変換に対する障害注入とナンス攻撃に対する最初のqromのセキュリティ証明を与える。

The random oracle model (ROM) enjoys widespread popularity, mostly because it tends to allow for tight and conceptually simple proofs where provable security in the standard model is elusive or costly. While being the adequate replacement of the ROM in the post-quantum security setting, the quantum-accessible random oracle model (QROM) has thus far failed to provide these advantages in many settings. In this work, we focus on adaptive reprogrammability, a feature of the ROM enabling tight and simple proofs in many settings. We show that the straightforward quantum-accessible generalization of adaptive reprogramming is feasible by proving a bound on the adversarial advantage in distinguishing whether a random oracle has been reprogrammed or not. We show that our bound is tight by providing a matching attack. We go on to demonstrate that our technique recovers the mentioned advantages of the ROM in three QROM applications: 1) We give a tighter proof of security of the message compression routine as used by XMSS. 2) We show that the standard ROM proof of chosen-message security for Fiat-Shamir signatures can be lifted to the QROM, straightforwardly, achieving a tighter reduction than previously known. 3) We give the first QROM proof of security against fault injection and nonce attacks for the hedged Fiat-Shamir transform.
翻訳日:2023-04-27 06:14:11 公開日:2020-10-30
# 非有界領域におけるschr\"odinger方程式の計算解-数値アルゴリズムの応用-

Computing solutions of Schr\"odinger equations on unbounded domains- On the brink of numerical algorithms ( http://arxiv.org/abs/2010.16347v1 )

ライセンス: Link先を確認
Simon Becker and Anders Hansen(参考訳) 時間依存線形Schr\"odinger方程式のどのクラスを定め、アルゴリズムで計算できる非有界領域上で立方体およびクインティックな非線形Schr\"odinger方程式(NLS)を焦点とデフォーカスする。 このようなアルゴリズムが一般に存在しないことを実証し、量子力学において計算可能な問題の実質的な分類理論を導出する。 さらに、所望の$\epsilon$-accuracy of the approximationの関数として、実行時に一様境界で計算できる問題を分類する。 これには、初期状態とポテンシャルの両方に正および負の結果と条件を提供し、非有界領域上の ivp を有界領域上の ivp に還元し、$\epsilon$-approximation を生成するアルゴリズムを与える計算的(再帰的)事前境界が存在するような、線形および非線形のschr\"odinger 方程式が含まれる。 さらに,NLS が有限時間で爆発するかどうかを検証・偽造するアルゴリズムが存在しないかを示すとともに,非破壊 NLS に対して,初期状態とポテンシャルについて軽度な仮定を条件として解を計算可能であることを示す。 最後に,非有界領域における離散的nls方程式(フォーカスとデフォーカス)の解は,アルゴリズムのランタイム上で常に一様境界で計算できることを示す。 提示されるアルゴリズムは理論上の関心だけでなく、アプリケーションの実装も効率的で容易である。 この結果は、計算量子力学を超えた意味を持ち、計算数学の基礎に関するソルバビリティ複雑性指数(sci)階層とsmaleのプログラムの一部である。 例えば,計算機支援による証明によって解くことができる数学的問題を分類する。

We address the open problem of determining which classes of time-dependent linear Schr\"odinger equations and focusing and defocusing cubic and quintic non-linear Schr\"odinger equations (NLS) on unbounded domains that can be computed by an algorithm. We demonstrate how such an algorithm in general does not exist, yielding a substantial classification theory of which problems in quantum mechanics that can be computed. Moreover, we establish classifications on which problems that can be computed with a uniform bound on the runtime, as a function of the desired $\epsilon$-accuracy of the approximation. This include linear and nonlinear Schr\"odinger equations for which we provide positive and negative results and conditions on both the initial state and the potentials such that there exist computational (recursive) a priori bounds that allow reduction of the IVP on an unbounded domain to an IVP on a bounded domain, yielding an algorithm that can produce an $\epsilon$-approximation. In addition, we show how no algorithm can decide, and in fact not verify nor falsify, if the focusing NLS will blow up in finite time or not, yet, for the defocusing NLS, solutions can be computed given mild assumptions on the initial state and the potentials. Finally, we show that solutions to discrete NLS equations (focusing and defocusing) on an unbounded domain can always be computed with uniform bounds on the runtime of the algorithm. The algorithms presented are not just of theoretical interest, but efficient and easy to implement in applications. Our results have implications beyond computational quantum mechanics and are a part of the Solvability Complexity Index (SCI) hierarchy and Smale's program on the foundations of computational mathematics. For example our results provide classifications of which mathematical problems may be solved by computer assisted proofs.
翻訳日:2023-04-26 07:51:30 公開日:2020-10-30
# 自動車事故における倫理的意思決定

Ethical Decision Making During Automated Vehicle Crashes ( http://arxiv.org/abs/2010.16309v1 )

ライセンス: Link先を確認
Noah Goodall(参考訳) 自動運転車は最近、特にdarpa urban challenge vehicles、googleの自動運転車、その他の自動車メーカーから多くの注目を集めている。 これらの車両は事故を著しく減らし、運転者の責任を自動化することで道路効率を向上させる可能性がある。 それでも、すべてのセンサー、車両制御コンポーネント、アルゴリズムが完璧に機能している場合でも、自動運転車は時々クラッシュすると予想されている。 人間のドライバーが時間内に制御できなければ、コンピュータはクラッシュ前の行動に責任を負うことになる。 あらゆる衝突が壊滅的な状況にある航空機や、一次元に自動化された道路車両の衝突を回避できる誘導軌道システムとは異なり、様々な衝突経路の代替案を予測し、最も損傷の少ない経路や衝突の可能性を選択することができる。 いくつかの場合、好ましい経路は曖昧である。 本研究は, 自動走行車両の衝突事故を調査し, 結論を下す。(1) 自動走行車両がほぼ確実にクラッシュし, (2) 事故前の自動走行車両の判断が道徳的要素を持ち, (3) ソフトウェアに複雑な人間の道徳を効果的に符号化する方法が存在しない。 倫理的クラッシュアルゴリズムを開発するための3段階のアプローチが提示され、合理的アプローチ、人工知能アプローチ、自然言語要件からなる。 フェーズは理論的であり、技術が利用可能になると実装されるべきである。

Automated vehicles have received much attention recently, particularly the DARPA Urban Challenge vehicles, Google's self-driving cars, and various others from auto manufacturers. These vehicles have the potential to significantly reduce crashes and improve roadway efficiency by automating the responsibilities of the driver. Still, automated vehicles are expected to crash occasionally, even when all sensors, vehicle control components, and algorithms function perfectly. If a human driver is unable to take control in time, a computer will be responsible for pre-crash behavior. Unlike other automated vehicles--such as aircraft, where every collision is catastrophic, and guided track systems, which can only avoid collisions in one dimension--automated roadway vehicles can predict various crash trajectory alternatives and select a path with the lowest damage or likelihood of collision. In some situations, the preferred path may be ambiguous. This study investigates automated vehicle crashing and concludes the following: (1) automated vehicles will almost certainly crash, (2) an automated vehicle's decisions preceding certain crashes will have a moral component, and (3) there is no obvious way to effectively encode complex human morals in software. A three-phase approach to developing ethical crashing algorithms is presented, consisting of a rational approach, an artificial intelligence approach, and a natural language requirement. The phases are theoretical and should be implemented as the technology becomes available.
翻訳日:2023-04-26 07:50:52 公開日:2020-10-30
# 積基底を持たない部分空間の最大次元

Maximum Dimension of Subspaces with No Product Basis ( http://arxiv.org/abs/2010.16293v1 )

ライセンス: Link先を確認
Yuuya Yoshida(参考訳) n\ge2$と$d_1,\ldots,d_n\ge2$を整数とし、$\mathcal{F}$をフィールドとする。 ベクトル $u\in\mathcal{F}^{d_1}\otimes\cdots\otimes\mathcal{F}^{d_n}$ が積ベクトルと呼ばれるのは、ある$u^{[1]}\in\mathcal{F}^{d_1},\ldots,u^{[n]}\in\mathcal{F}^{d_n}$ に対して $u=u^{[1]}\otimes\cdots\otimes u^{[n]}$ である。 積ベクトルからなる基底は積基底(product basis)と呼ばれる。 本稿では, $\mathcal{F}^{d_1}\otimes\cdots\otimes\mathcal{F}^{d_n}$ の積基底を持たない部分空間の最大次元が$d_1d_2\cdots d_n-2$ であることを示す。 (i)$n=2$または (ii) $n\ge3$ と $\#\mathcal{f}>\max\{d_i : i\not=n_1,n_2\}$ は$n_1$ と $n_2$ である。 $\mathcal{F}=\mathbb{C}$ の場合、この結果は一般確率論(GPT)において同時に区別可能な状態の最大数に関係している。

Let $n\ge2$ and $d_1,\ldots,d_n\ge2$ be integers, and $\mathcal{F}$ be a field. A vector $u\in\mathcal{F}^{d_1}\otimes\cdots\otimes\mathcal{F}^{d_n}$ is called a product vector if $u=u^{[1]}\otimes\cdots\otimes u^{[n]}$ for some $u^{[1]}\in\mathcal{F}^{d_1},\ldots,u^{[n]}\in\mathcal{F}^{d_n}$. A basis composed of product vectors is called a product basis. In this paper, we show that the maximum dimension of subspaces of $\mathcal{F}^{d_1}\otimes\cdots\otimes\mathcal{F}^{d_n}$ with no product basis is equal to $d_1d_2\cdots d_n-2$ if either (i) $n=2$ or (ii) $n\ge3$ and $\#\mathcal{F}>\max\{d_i : i\not=n_1,n_2\}$ for some $n_1$ and $n_2$. When $\mathcal{F}=\mathbb{C}$, this result is related to the maximum number of simultaneously distinguishable states in general probabilistic theories (GPTs).
翻訳日:2023-04-26 07:50:11 公開日:2020-10-30
# 完全通勤操作者戦略を持つ3XORゲームは、テンソル製品戦略が完璧であり、多項式時間で決定可能である

3XOR Games with Perfect Commuting Operator Strategies Have Perfect Tensor Product Strategies and are Decidable in Polynomial Time ( http://arxiv.org/abs/2010.16290v1 )

ライセンス: Link先を確認
Adam Bene Watts and J. William Helton(参考訳) 完全通勤操作戦略を持つ3XORゲームを考える。 任意の3xorゲームが与えられると、ゲームに対する完全可換作用素戦略の存在は多項式時間で決定できる。 以前はこの問題は決定不可能であった。 我々の証明は、3XORゲームが完全可換作用素戦略を持つことを示す構成へと導いており、3 qubit (8 次元) GHZ 状態を用いた完全テンソル積戦略を持つ。 これは完全3XORゲームにおいて、古典的戦略(古典的バイアス比によって定義される)よりも量子戦略の利点が有界であることを示している。 一般的な3XORの場合とは対照的に、最適量子戦略は高次元状態を必要とし、量子上の優位性に縛られない。 これらの結果を証明するために、まず、xorゲームの価値の決定と、右アングルコクセター群のクラスにおけるサブグループメンバーシップ問題の解との同値性を示す。 そして、この論文の大部分を消費する証明において、3XORゲームに対応する問題の事例を多項式時間で解くことができることを示す。

We consider 3XOR games with perfect commuting operator strategies. Given any 3XOR game, we show existence of a perfect commuting operator strategy for the game can be decided in polynomial time. Previously this problem was not known to be decidable. Our proof leads to a construction, showing a 3XOR game has a perfect commuting operator strategy iff it has a perfect tensor product strategy using a 3 qubit (8 dimensional) GHZ state. This shows that for perfect 3XOR games the advantage of a quantum strategy over a classical strategy (defined by the quantum-classical bias ratio) is bounded. This is in contrast to the general 3XOR case where the optimal quantum strategies can require high dimensional states and there is no bound on the quantum advantage. To prove these results, we first show equivalence between deciding the value of an XOR game and solving an instance of the subgroup membership problem on a class of right angled Coxeter groups. We then show, in a proof that consumes most of this paper, that the instances of this problem corresponding to 3XOR games can be solved in polynomial time.
翻訳日:2023-04-26 07:49:46 公開日:2020-10-30
# 量子距離と制御不能性と量子速度限界

Quantum Distance to Uncontrollability and Quantum Speed Limits ( http://arxiv.org/abs/2010.16156v1 )

ライセンス: Link先を確認
Daniel Burgarth, Jeff Borggaard, Zolt\'an Zimbor\'as(参考訳) 不制御性への距離は古典的制御理論において決定的な概念である。 ここでは、普遍量子系が非普遍量子系にいかに近いかの尺度として、量子距離と非制御性を紹介する。 これにより、量子スピード限界の定量的バージョンを提供し、境界を幾何学的および動的成分に分解することができる。 我々は,大域的に制御された固体量子ビットやクロスカーシステムを含むいくつかの物理例を考察し,量子距離がスペクトル群,弱い相互作用,その他のボトルネックを普遍性に有することを示す。 我々は、この尺度は量子技術の設計において考慮すべきものであることを示唆する。

Distance to Uncontrollability is a crucial concept in classical control theory. Here, we introduce Quantum Distance to Uncontrollability as a measure how close a universal quantum system is to a non-universal one. This allows us to provide a quantitative version of the Quantum Speed Limit, decomposing the bound into a geometric and dynamical component. We consider several physical examples including globally controlled solid state qubits and a cross-Kerr system, showing that the Quantum Distance to Uncontrollability provides a precise meaning to spectral crowding, weak interactions and other bottlenecks to universality. We suggest that this measure should be taken into consideration in the design of quantum technology.
翻訳日:2023-04-26 07:49:15 公開日:2020-10-30
# 従来型rydbergポンプによる中性原子に対する toffoli ゲートの一段階実装

One-step implementation of Toffoli gate for neutral atoms based on unconventional Rydberg pumping ( http://arxiv.org/abs/2010.16036v1 )

ライセンス: Link先を確認
H. D. Yin, X. X. Li, G. C. Wang, and X. Q. Shao(参考訳) 普遍量子計算の考え方と比較すると、多ビット論理ゲートの直接合成は量子情報処理タスクの効率を大幅に向上させることができる。 本稿では,従来のrydbergポンプによる中性原子の3量子制御非制御(toffoli)ゲートを効率的に実装する手法を提案する。 駆動場のrabi周波数の強さを調整することで、トッフォリゲートは1ステップ以内に達成でき、ライドバーグ-リドバーグ相互作用の揺らぎにも影響を受けない。 異なる原子アライメントを考えると、同じ操作時間$\sim 7~\mu s$ で高忠実度な toffoli ゲートが得られる。 さらに,本方式は動作時間を変更することなく,さらに4キュービットケースに拡張できる。

Compared with the idea of universal quantum computation, a direct synthesis of a multiqubit logic gate can greatly improve the efficiency of quantum information processing tasks. Here we propose an efficient scheme to implement a three-qubit controlled-not (Toffoli) gate of neutral atoms based on unconventional Rydberg pumping. By adjusting the strengths of Rabi frequencies of driving fields, the Toffoli gate can be achieved within one step, which is also insensitive to the fluctuation of the Rydberg-Rydberg interaction. Considering different atom alignments, we can obtain a high-fidelity Toffoli gate at the same operation time $\sim 7~\mu s$. In addition, our scheme can be further extended to the four-qubit case without altering the operating time.
翻訳日:2023-04-26 07:47:50 公開日:2020-10-30
# 抽象化を破るリソース効率の高い量子コンピューティング

Resource-Efficient Quantum Computing by Breaking Abstractions ( http://arxiv.org/abs/2011.00028v1 )

ライセンス: Link先を確認
Yunong Shi, Pranav Gokhale, Prakash Murali, Jonathan M. Baker, Casey Duckering, Yongshan Ding, Natalie C. Brown, Christopher Chamberland, Ali Javadi Abhari, Andrew W. Cross, David I. Schuster, Kenneth R. Brown, Margaret Martonosi, Frederic T. Chong(参考訳) 古典的な計算能力を超える量子コンピュータを構築することは、素晴らしいエンジニアリング上の挑戦だ。 量子ソフトウェア最適化は、最初の世代の量子コンピューティングアプリケーションへの加速された経路を提供することができる。 現在の量子ソフトウェアスタックは、複雑さを管理するために設計された古典的コンピュータスタックに似た階層的アプローチに従っている。 本稿では,これらの層間の抽象化を分割することで,量子コンピューティングシステムの効率を向上できることを示す。 量子命令セットアーキテクチャ(isa)の抽象化を損なう2つのハードウェアアウェアコンパイル最適化と、qubitの抽象化を損なう2つのエラー訂正/情報処理スキームを含む。 最後に,今後の展望について述べる。

Building a quantum computer that surpasses the computational power of its classical counterpart is a great engineering challenge. Quantum software optimizations can provide an accelerated pathway to the first generation of quantum computing applications that might save years of engineering effort. Current quantum software stacks follow a layered approach similar to the stack of classical computers, which was designed to manage the complexity. In this review, we point out that greater efficiency of quantum computing systems can be achieved by breaking the abstractions between these layers. We review several works along this line, including two hardware-aware compilation optimizations that break the quantum Instruction Set Architecture (ISA) abstraction and two error-correction/information-processing schemes that break the qubit abstraction. Last, we discuss several possible future directions.
翻訳日:2023-04-26 07:42:15 公開日:2020-10-30
# 固体スピン欠陥のqubitガイドライン

Qubit guidelines for solid-state spin defects ( http://arxiv.org/abs/2010.16395v1 )

ライセンス: Link先を確認
Gary Wolfowicz, F. Joseph Heremans, Christopher P. Anderson, Shun Kanai, Hosung Seo, Adam Gali, Giulia Galli, David D. Awschalom(参考訳) 固体材料中の電子と核スピンの欠陥は、1950年代にシリコンドーパントを用いた最初のスピンエコー実験まで遡る量子情報科学に関連する長い歴史を持つ。 世紀の変わり目以降、この分野は急速に、量子通信、センシング、計算に応用できる多数の欠陥やホスト結晶へと広がりつつある。 単純なスピン共鳴から遠方の遠方絡みまで、スピン欠陥を扱う複雑さは急速に進んでおり、現代の文脈ではスピン、光学、電荷、物質の性質を深く理解する必要がある。 これは特に、特定の量子アプリケーションに特化した新しい関連するシステムを発見するために重要である。 このレビューでは、欠陥とホスト素材の性質、エンジニアリングの機会、改善のための他の経路を強調しながら、すべての重要なコンポーネントを拡張します。 最後に、このレビューは、量子情報に対する固体スピン欠陥の分野の広範なガイドラインを提供する光学エミッタに重点を置いて、可能な限り欠陥と材料非依存になることを目指している。

Defects with associated electron and nuclear spins in solid-state materials have a long history relevant to quantum information science going back to the first spin echo experiments with silicon dopants in the 1950s. Since the turn of the century, the field has rapidly spread to a vast array of defects and host crystals applicable to quantum communication, sensing, and computing. From simple spin resonance to long-distance remote entanglement, the complexity of working with spin defects is fast advancing, and requires an in-depth understanding of their spin, optical, charge, and material properties in this modern context. This is especially critical for discovering new relevant systems dedicated to specific quantum applications. In this review, we therefore expand upon all the key components with an emphasis on the properties of defects and the host material, on engineering opportunities and other pathways for improvement. Finally, this review aims to be as defect and material agnostic as possible, with some emphasis on optical emitters, providing a broad guideline for the field of solid-state spin defects for quantum information.
翻訳日:2023-04-26 07:41:35 公開日:2020-10-30
# 密集した非分離光の偏光による微小球運動学

Microsphere kinematics from the polarization of tightly focused nonseparable light ( http://arxiv.org/abs/2010.16387v1 )

ライセンス: Link先を確認
Stefan Berg-Johansen (1 and 2), Martin Neugebauer (1 and 2), Andrea Aiello (1), Gerd Leuchs (1 and 2), Peter Banzer (1 and 2 and 3), Christoph Marquardt (1 and 2) ((1) Max Planck Institute for the Science of Light, Erlangen (2) Institute of Optics, Information and Photonics, University Erlangen-Nuremberg (3) Institute of Physics, University of Graz, NAWI Graz)(参考訳) 近年, ベクトルビームは, 地球偏光状態[Optica 2(10), 864 (2015)]の測定により, 高速運動学的なセンシングに利用できることが示されている。 この方法は、その非分離モード構造から生じる照明場の空間的自由度と偏光度の間の相関に依存する。 ここでは、この手法を非同軸系に拡張する。 粒子位置の関数として、密集したベクトルビームにおける誘電体微粒子の散乱によって生じる遠場偏極状態について実験的に理論的に検討する。 偏光測定のみを用いて,三重粒子の位置センシングを3次元で示す。 我々の研究は、後方焦点面干渉法の概念を拡張し、構造光を用いた光トウェザにおける偏光解析の可能性を強調した。

Recently, it was shown that vector beams can be utilized for fast kinematic sensing via measurements of their global polarization state [Optica 2(10), 864 (2015)]. The method relies on correlations between the spatial and polarization degrees of freedom of the illuminating field which result from its nonseparable mode structure. Here, we extend the method to the nonparaxial regime. We study experimentally and theoretically the far-field polarization state generated by the scattering of a dielectric microsphere in a tightly focused vector beam as a function of the particle position. Using polarization measurements only, we demonstrate position sensing of a Mie particle in three dimensions. Our work extends the concept of back focal plane interferometry and highlights the potential of polarization analysis in optical tweezers employing structured light.
翻訳日:2023-04-26 07:41:21 公開日:2020-10-30
# ユークリッド量子重力のu(1)^3$モデルに対する漸近的に平坦な境界条件

Asymptotically flat boundary conditions for the $U(1)^3$ model for Euclidean Quantum Gravity ( http://arxiv.org/abs/2010.16359v1 )

ライセンス: Link先を確認
Sepideh Bakhoda, Hossein Shojaie and Thomas Thiemann(参考訳) ユークリッド一般相対性理論の $g_n \to 0$ 極限を記述する一般共変量 $u(1)^3$ ゲージ理論は一般相対性理論の興味深い試験実験室である。 本研究は, U(1)^3$モデルの境界条件と漸近対称性について検討し, 漸近時変変換ではよく定義された生成元が認められるが, 昇降と回転は認められないことを示す。 ユークリッド一般相対性理論と比較すると、u(1)^3$モデルにないsu(2)$ gauss制約の非可換部分は、ブーストおよび回転生成器を得る上で重要な役割を果たすことが分かる。

A generally covariant $U(1)^3$ gauge theory describing the $G_N \to 0$ limit of Euclidean general relativity is an interesting test laboratory for general relativity, specially because the algebra of the Hamiltonian and diffeomorphism constraints of this limit is isomorphic to the algebra of the corresponding constraints in general relativity. In the present work, we study boundary conditions and asymptotic symmetries of the $U(1)^3$ model and show that while asymptotic spacetime translations admit well-defined generators, boosts and rotations do not. Comparing with Euclidean general relativity, one finds that exactly the non-Abelian part of the $SU(2)$ Gauss constraint which is absent in the $U(1)^3$ model plays a crucial role in obtaining boost and rotation generators.
翻訳日:2023-04-26 07:40:26 公開日:2020-10-30
# ウェアラブルセンサを用いた長期連続モニタリングにおける精神病患者とコントロール者の身体活動と自律神経機能パターンの差異の同定

Identifying differences in physical activity and autonomic function patterns between psychotic patients and controls over a long period of continuous monitoring using wearable sensors ( http://arxiv.org/abs/2011.02285v1 )

ライセンス: Link先を確認
Panagiotis P. Filntisis, Athanasia Zlatintsi, Niki Efthymiou, Emmanouil Kalisperakis, Thomas Karantinos, Marina Lazaridi, Nikolaos Smyrnis, Petros Maragos(参考訳) デジタル表現型(digital phenotyping)は、精神医学とその臨床実践に革命をもたらす可能性を持つ、生まれたばかりの多分野の分野である。 本稿では,ウェアラブルデータから抽出した短期的特徴の厳密な統計分析を行い,精神疾患患者と健康管理者に対する長期連続モニタリングを行った。 この新しい分析により,両群間で著しく変動する特徴を特定し,それらの特徴を区別するいくつかの要因について考察し,今後の再発防止や個別支援に活用できる可能性が示唆された。

Digital phenotyping is a nascent multidisciplinary field that has the potential to revolutionize psychiatry and its clinical practice. In this paper, we present a rigorous statistical analysis of short-time features extracted from wearable data, during long-term continuous monitoring of patients with psychotic disorders and healthy control counterparts. Our novel analysis identifies features that fluctuate significantly between the two groups, and offers insights on several factors that differentiate them, which could be leveraged in the future for relapse prevention and individualized assistance.
翻訳日:2023-04-26 07:32:20 公開日:2020-10-30
# 米国株3,171株の新規量子および古典的解法による効率的なポートフォリオ選択

Picking Efficient Portfolios from 3,171 US Common Stocks with New Quantum and Classical Solvers ( http://arxiv.org/abs/2011.01308v1 )

ライセンス: Link先を確認
Jeffrey Cohen, Clark Alexander(参考訳) シカゴ量子ネットスコア(cqns)とポートフォリオ最適化に基づく効率的なポートフォリオを作成するために,米国株3,171株を分析した。 古典的な解法から始まり、量子アニールを取り入れます。 新しい古典的解法としてシミュレーション式分岐器と,新しいd-wave advantage(tm)量子アニーリングコンピュータを新しい量子解法として追加した。

We analyze 3,171 US common stocks to create an efficient portfolio based on the Chicago Quantum Net Score (CQNS) and portfolio optimization. We begin with classical solvers and incorporate quantum annealing. We add a simulated bifurcator as a new classical solver and the new D-Wave Advantage(TM) quantum annealing computer as our new quantum solver.
翻訳日:2023-04-26 07:31:55 公開日:2020-10-30
# 猫状態の単一光子を感知する

Sensing Single Photon in a Cat State ( http://arxiv.org/abs/2011.00990v1 )

ライセンス: Link先を確認
Arman, Gargi Tyagi and Prasanta K. Panigrahi(参考訳) 猫の状態は、直交する直交状態と励起振動子状態の重畳を通じて単一の光子を「保存する」ことが示される。 光子付加は、観測されたウィグナー関数の位相空間干渉の原点における$\pi $の位相シフトをもたらし、猫状態を構成するコヒーレント状態の平均光子数(|\alpha|^2$)によって制御される負性を示す。 子猫状態の相空間におけるサブプランクタイルの極大および極小は光子付加後に交換され、それらの直交性に繋がる。 興味深いことに、ポアソン統計によって特徴づけられるユルケ・ストーラー状態への光子付加は、準ポアソン分布をもたらす。

The cat state is shown to `store' a single photon through the superposition of its orthogonal counterpart with itself, and an excited oscillator state. Photon addition leads to a $\pi $ phase shift at origin in the observed phase space interference of the Wigner function, which also displays negativity, controlled by the average photon number ($|\alpha|^2$) of coherent states comprising the cat state. The maxima and minima of the sub-Planck tiles in the phase space of the kitten state are interchanged after photon addition, leading to their orthogonality. Interestingly, photon addition to Yurke-Stoler state characterized by Poissonian statistics leads to a sub-Poissonian distribution.
翻訳日:2023-04-26 07:31:47 公開日:2020-10-30
# 高次元の効率的な量子ゲートテレポーテーション

Efficient quantum gate teleportation in higher dimensions ( http://arxiv.org/abs/2011.00127v1 )

ライセンス: Link先を確認
Nadish de Silva(参考訳) クリフォード階層は、フォールトトレラント量子計算を達成するのに不可欠な量子ゲートの集合のネスト配列である。 クリフォード階層の対角ゲートと「ほぼ対角」セミクリフォードゲートは特に重要であり、マジック状態のような補助的な量子リソースが少なくこれらのゲートを実装する効率的なゲートテレポーテーションプロトコルが認められている。 これらのゲートセットの実用的重要性にもかかわらず、その構造に関する多くの疑問は未解決であり、特に高次元のクディット設定において当てはまる。 我々の貢献は、離散ストーン・ヴォン・ノイマンの定理とチューディット安定化力学のシンプレクティック形式を、Zeng-Cheng-Chuang (2008) とBeigi-Shor (2010) の結果を一様に高次元に拡張することである。 さらに,クリフォード階層のすべてのゲートを再帰的に列挙する簡単なアルゴリズム,半クリフォードゲートの認識と対角化のための単純なアルゴリズム,およびクイ=ゴットマン=クリシュナ(2016年)による対角的クリフォード階層ゲートの分類の簡潔な証明を与える。 半クリフォードゲートの効率的なゲートテレポーテーションプロトコルをクディット設定に一般化し、1つのクディット(任意の素次元)と2つのクディットのすべての3階ゲートを効率的に実装できることを証明する。 上記のアルゴリズムを通じて収集された数値的な証拠は、高階ゲートを効率的に実装できるという予想を支持する。

The Clifford hierarchy is a nested sequence of sets of quantum gates critical to achieving fault-tolerant quantum computation. Diagonal gates of the Clifford hierarchy and 'nearly diagonal' semi-Clifford gates are particularly important: they admit efficient gate teleportation protocols that implement these gates with fewer ancillary quantum resources such as magic states. Despite the practical importance of these sets of gates, many questions about their structure remain open; this is especially true in the higher-dimensional qudit setting. Our contribution is to leverage the discrete Stone-von Neumann theorem and the symplectic formalism of qudit stabiliser mechanics towards extending results of Zeng-Cheng-Chuang (2008) and Beigi-Shor (2010) to higher dimensions in a uniform manner. We further give a simple algorithm for recursively enumerating all gates of the Clifford hierarchy, a simple algorithm for recognising and diagonalising semi-Clifford gates, and a concise proof of the classification of the diagonal Clifford hierarchy gates due to Cui-Gottesman-Krishna (2016) for the single-qudit case. We generalise the efficient gate teleportation protocols of semi-Clifford gates to the qudit setting and prove that every third level gate of one qudit (of any prime dimension) and of two qutrits can be implemented efficiently. Numerical evidence gathered via the aforementioned algorithms support the conjecture that higher-level gates can be implemented efficiently.
翻訳日:2023-04-26 07:30:36 公開日:2020-10-30
# 半古典的状態における常温散逸下での量子ダッフィング発振器のカオス

Chaos in the quantum Duffing oscillator in the semiclassical regime under parametrized dissipation ( http://arxiv.org/abs/2011.00118v1 )

ライセンス: Link先を確認
Andrew D. Maris, Bibek Pokharel, Sharan Ganjam Seshachallam, Moses Z. R. Misplon, Arjendu K. Pattanayak(参考訳) 量子散逸ダフィング発振器について, 半古典近似を異にするシステムサイズと環境結合について検討した。 空間(位相空間の誘引子間のKullback-Leibler距離に基づく)と時間的(リャプノフ指数に基づく)複雑性メトリクスを用いて、環境の影響を量子古典的差に分離する。 さらに,半古典的あるいはノイズ付加古典近似を用いて量子力学をシミュレートできないシステムサイズを定量化する。 驚くべきことに、パラメトリック不変なメタattractorは特定の長さスケールで出現し、ノイズ付加古典モデルはこのスケール以下の量子力学から強く逸脱する。 我々の発見はまた、古典的な規則軌道が半古典的状態において最大の量子-古典的な違いを持つという以前の驚くべき結果も一般化した。 特に,量子古典的差分の動的成長は古典的カオスの程度によって決定されないことを示す。

We study the quantum dissipative Duffing oscillator across a range of system sizes and environmental couplings under varying semiclassical approximations. Using spatial (based on Kullback-Leibler distances between phase-space attractors) and temporal (Lyapunov exponent-based) complexity metrics, we isolate the effect of the environment on quantum-classical differences. Moreover, we quantify the system sizes where quantum dynamics cannot be simulated using semiclassical or noise-added classical approximations. Remarkably, we find that a parametrically invariant meta-attractor emerges at a specific length scale and noise-added classical models deviate strongly from quantum dynamics below this scale. Our findings also generalize the previous surprising result that classically regular orbits can have the greatest quantum-classical differences in the semiclassical regime. In particular, we show that the dynamical growth of quantum-classical differences is not determined by the degree of classical chaos.
翻訳日:2023-04-26 07:30:08 公開日:2020-10-30
# 多ビット系のGHZ状態のフィードバック指数安定化

Feedback exponential stabilization of GHZ states of multi-qubit systems ( http://arxiv.org/abs/2011.00097v1 )

ライセンス: Link先を確認
Weichao Liang, Nina H. Amini, Paolo Mason(参考訳) 本稿では,連続時間計測を行う電磁界と相互作用するマルチキュービット系の進化を記述する確率的マスター方程式を考える。 複数のz型(異なるキュービット上のPauli z行列)とx型(全てのキュービット上のPauli x行列)と1つの制御ハミルトニアンを考慮し、フィードバックコントローラと制御ハミルトニアンに対して、測定作用素の共通固有状態と仮定される所定のグリーンベルガー・ホルン・ザイリンガー状態(GHZ)にほぼ確実に指数収束を保証するための一般的な条件を提供する。 このような条件を満たすフィードバックコントローラの明示的な表現を提供する。 また、z型測定と多重制御ハミルトニアンの場合にのみ考慮し、所定のGHZ状態への漸近収束について議論する。 最後に,数値シミュレーションによる3ビットシステムの方法論の有効性を実証する。

In this paper, we consider stochastic master equations describing the evolution of a multi-qubit system interacting with electromagnetic fields undergoing continuous-time measurements. By considering multiple z-type (Pauli z matrix on different qubits) and x-type (Pauli x matrix on all qubits) measurements and one control Hamiltonian, we provide general conditions on the feedback controller and the control Hamiltonian ensuring almost sure exponential convergence to a predetermined Greenberger-Horne-Zeilinger (GHZ) state, which is assumed to be a common eigenstate of the measurement operators. We provide explicit expressions of feedback controllers satisfying such conditions. We also consider the case of only z-type measurements and multiple control Hamiltonians, and we discuss asymptotic convergence towards a predetermined GHZ state. Finally, we demonstrate the effectiveness of our methodology for a three-qubit system through numerical simulations.
翻訳日:2023-04-26 07:29:49 公開日:2020-10-30
# 古典双極子-双極子相互作用系における光円錐

Light Cones in Classical Dipole-Dipole Interacting Systems ( http://arxiv.org/abs/2011.00040v1 )

ライセンス: Link先を確認
Josep Batle, Joan J. Cerd\`a, Ph. Depondt, and J.-C. S. L\'evy(参考訳) 磁気相互作用が古典的な双極子の連鎖に沿って伝播する速度について論じる。 情報伝達速度がパラマウントである長距離相互作用スピンに対応する量子情報では、光円錐が存在するかどうかは厳密には定かでないが、ここでは相互作用双極子が摂動が起こった直後に線形光円錐となることを示す数値的な証拠を提供する。 具体的には、関連する相互作用の線形伝播に続き、パワー-ロー展開が発生する。 量子の場合とは対照的に、いわゆる重力の速度問題と同様に、情報伝達の速度は古典的文脈において任意に大きいことが分かる。 特殊相対性理論に適合するため,フレーム独立ランダウ・リフシッツ方程式の導出を提案する。

The speed at which the magnetic interaction propagates along a chain of classic dipoles is discussed here. While in the quantum information counterpart for long-range interacting spins, where the speed of propagation of the information plays a paramount role, it is not strictly clear whether a light cone exists or not, here we provide numerical evidence that interacting dipoles do posses a linear light cone shortly after a perturbation takes place. Specifically, a power-law expansion occurs which is followed by a linear propagation of the associated interaction. As opposed to the quantum case, and in analogy with the so-called speed of gravity problem, we find that the speed of propagation of information can be arbitrarily large in the classic context. In order to agree with special relativity, we propose the derivation of a frame-independent Landau-Lifshitz equation.
翻訳日:2023-04-26 07:29:30 公開日:2020-10-30
# 量子化ギャップの閉鎖:シングル層流としてのPixelCNN

Closing the Dequantization Gap: PixelCNN as a Single-Layer Flow ( http://arxiv.org/abs/2002.02547v3 )

ライセンス: Link先を確認
Didrik Nielsen, Ole Winther(参考訳) 近年,画像や音声などの離散データモデリングにおいて,フローモデルは大きな進歩を遂げている。 フローモデルの連続的な性質から、デカルト化はそのような離散データに使用する場合に一般的に適用され、その結果、確率の上限を低く見積もる。 本稿では,有限体積を気道的に変換し,離散データに対する確率の正確な計算を可能にする流れのクラスである部分集合フローを紹介する。 部分集合流に基づいて,ウェーブネット,ピクセルcnn,トランスフォーマなどの順序離散自己回帰モデルを単層流として同定する。 フロー定式化(flow formula)を使用して、トレーニングおよび評価されたモデルと正確な確率または脱量子化下限のどちらかを比較した。 最後に,pixelcnnsと非自己回帰結合層からなる多層膜流れを解析し,脱量子化を施した流れモデルに対するcifar-10の最先端結果を示す。

Flow models have recently made great progress at modeling ordinal discrete data such as images and audio. Due to the continuous nature of flow models, dequantization is typically applied when using them for such discrete data, resulting in lower bound estimates of the likelihood. In this paper, we introduce subset flows, a class of flows that can tractably transform finite volumes and thus allow exact computation of likelihoods for discrete data. Based on subset flows, we identify ordinal discrete autoregressive models, including WaveNets, PixelCNNs and Transformers, as single-layer flows. We use the flow formulation to compare models trained and evaluated with either the exact likelihood or its dequantization lower bound. Finally, we study multilayer flows composed of PixelCNNs and non-autoregressive coupling layers and demonstrate state-of-the-art results on CIFAR-10 for flow models trained with dequantization.
翻訳日:2023-01-03 09:44:26 公開日:2020-10-30
# Federated Matrix Factorization:アルゴリズムの設計とデータクラスタリングへの応用

Federated Matrix Factorization: Algorithm Design and Application to Data Clustering ( http://arxiv.org/abs/2002.04930v2 )

ライセンス: Link先を確認
Shuai Wang and Tsung-Hui Chang(参考訳) データプライバシに関する近年の要求は、大規模で異種ネットワークにおける新たな分散学習パラダイムとして、フェデレーション学習(FL)を求めている。 多くのflアルゴリズムが提案されているが、行列分解 (mf) モデルを考える者はほとんどおらず、多くの信号処理や機械学習の応用が知られている。 単一変数ブロックの滑らかな問題のために設計された既存のflアルゴリズムとは異なり、フェデレーションmf(fedmf)では、2つの変数ブロックによる非凸および非スムース問題(制約または正規化による)に対処する必要がある。 本稿では,モデル平均化と勾配共有の原理に基づいて,FedMAvgとFedMGSという2つの新しいFedMFアルゴリズムを提案する。 fedmavg と fedmgs は、コンバージェンスを高速化するために、通信ラウンドごとに複数のローカル更新のステップを採用しており、ランダムにサンプリングされたクライアントのサブセットのみが、通信コストを削減するためにサーバと通信できるようにしている。 2つのアルゴリズムの収束解析を行い,データ分布,局所更新数,部分的クライアント通信がアルゴリズム性能に与える影響を明らかにした。 データクラスタリングタスクに注目することで,両アルゴリズムの実用性を検討するとともに,既存の分散クラスタリングアルゴリズムの有効性を示すために,広範な実験結果が得られた。

Recent demands on data privacy have called for federated learning (FL) as a new distributed learning paradigm in massive and heterogeneous networks. Although many FL algorithms have been proposed, few of them have considered the matrix factorization (MF) model, which is known to have a vast number of signal processing and machine learning applications. Different from the existing FL algorithms that are designed for smooth problems with single block of variables, in federated MF (FedMF), one has to deal with challenging non-convex and non-smooth problems (due to constraints or regularization) with two blocks of variables. In this paper, we address the challenge by proposing two new FedMF algorithms, namely, FedMAvg and FedMGS, based on the model averaging and gradient sharing principles, respectively. Both FedMAvg and FedMGS adopt multiple steps of local updates per communication round to speed up convergence, and allow only a randomly sampled subset of clients to communicate with the server for reducing the communication cost. Convergence analyses for the two algorithms are respectively presented, which delineate the impacts of data distribution, local update number, and partial client communication on the algorithm performance. By focusing on a data clustering task, extensive experiment results are presented to examine the practical performance of both algorithms, as well as demonstrating their efficacy over the existing distributed clustering algorithms.
翻訳日:2023-01-01 19:49:02 公開日:2020-10-30
# 定理生成の学習による定理証明の学習

Learning to Prove Theorems by Learning to Generate Theorems ( http://arxiv.org/abs/2002.07019v2 )

ライセンス: Link先を確認
Mingzhe Wang, Jia Deng(参考訳) 我々は、AIの重要な課題である自動定理証明の課題を考える。 深層学習は、トレーニング定理証明者にとって有望であるが、教師付き学習に利用可能な人間による定理や証明は限られている。 この制限に対処するため,定理証明器を訓練するために,定理と証明を自動的に合成するニューラルジェネレータを提案する。 実世界の課題に関する実験は、この手法による合成データが定理証明器を改良し、メタ数学における自動定理証明技術の進歩を示すものである。 コードはhttps://github.com/princeton-vl/MetaGenで入手できる。

We consider the task of automated theorem proving, a key AI task. Deep learning has shown promise for training theorem provers, but there are limited human-written theorems and proofs available for supervised learning. To address this limitation, we propose to learn a neural generator that automatically synthesizes theorems and proofs for the purpose of training a theorem prover. Experiments on real-world tasks demonstrate that synthetic data from our approach improves the theorem prover and advances the state of the art of automated theorem proving in Metamath. Code is available at https://github.com/princeton-vl/MetaGen.
翻訳日:2022-12-31 11:41:08 公開日:2020-10-30
# 公立図書館におけるソーシャルメディアによるユーザ獲得

Engaging Users through Social Media in Public Libraries ( http://arxiv.org/abs/2003.04204v2 )

ライセンス: Link先を確認
Hongbo Zou, Hsuanwei Michelle Chen and Sharmistha Dey(参考訳) 参加型ライブラリは,統合型ライブラリシステムにおいて,周辺に係わるのではなく,利用者がライブラリの中核機能に参加できるようにしなくてはならない,という考え方の新たな概念である。 参加型アイデアを受け入れるために、図書館はソーシャルメディアなどの多くの技術を用いて、参加型サービスの構築とユーザへのエンゲージメントを支援してきた。 本稿では,新技術が参加型サービス構築に与える影響を理解するために,ソーシャルメディアを事例として,ソーシャルメディアがより多くのユーザをエンゲージメントするためのさまざまなエンゲージメント戦略の活用方法を検討する。 本稿では,図書館システムへの3つの貢献について述べる。 ライブラリは、結果のエンゲージメント戦略を使ってユーザをエンゲージできる。 さらに、最適な戦略を推測し、ユーザの好みに基づいて設計することができる。 最後に、ソーシャルメディアのデータ分析に基づいて、ユーザの好みを理解することができる。 このような3つの貢献は、ソーシャルメディア上でさまざまなエンゲージメント戦略を活用し、参加型図書館サービスを構築し、より多くの利用者を図書館に招待する方法について、提案された研究課題を十分に解決するために行われた。

The participatory library is an emerging concept which refers to the idea that an integrated library system must allow users to take part in core functions of the library rather than engaging on the periphery. To embrace the participatory idea, libraries have employed many technologies, such as social media to help them build participatory services and engage users. To help librarians understand the impact of emerging technologies on a participatory service building, this paper takes social media as an example to explore how to use different engagement strategies that social media provides to engage more users. This paper provides three major contributions to the library system. The libraries can use the resultant engagement strategies to engage its users. Additionally, the best-fit strategy can be inferred and designed based on the preferences of users. Lastly, the preferences of users can be understood based on data analysis of social media. Three such contributions put together to fully address the proposed research question of how to use different engagement strategies on social media to build participatory library services and better engage more users visiting the library?
翻訳日:2022-12-28 22:19:36 公開日:2020-10-30
# 神経odeにおける勾配伝播の高速化のための補間法

Interpolation Technique to Speed Up Gradients Propagation in Neural ODEs ( http://arxiv.org/abs/2003.05271v2 )

ライセンス: Link先を確認
Talgat Daulbaev and Alexandr Katrutsa and Larisa Markeeva and Julia Gusak and Andrzej Cichocki and Ivan Oseledets(参考訳) ニューラルネットワークモデルにおける勾配の効率的な近似のための簡単な補間法を提案する。 本稿では,ニューラルネットワークの分類,密度推定,推論近似タスクを学習するために,逆動的手法(文献ではadjoint methodと呼ばれている)と比較する。 また,対数ノルム形式を用いたアプローチの理論的正当化も提案する。 その結果,いくつかの標準ベンチマークにおける広範囲な数値実験により検証,検証された逆動的手法よりも高速なモデルトレーニングが可能となった。

We propose a simple interpolation-based method for the efficient approximation of gradients in neural ODE models. We compare it with the reverse dynamic method (known in the literature as "adjoint method") to train neural ODEs on classification, density estimation, and inference approximation tasks. We also propose a theoretical justification of our approach using logarithmic norm formalism. As a result, our method allows faster model training than the reverse dynamic method that was confirmed and validated by extensive numerical experiments for several standard benchmarks.
翻訳日:2022-12-24 13:18:04 公開日:2020-10-30
# 多様性: ホワイトボックスとブラックボックス攻撃のアウトプット多様化

Diversity can be Transferred: Output Diversification for White- and Black-box Attacks ( http://arxiv.org/abs/2003.06878v3 )

ライセンス: Link先を確認
Yusuke Tashiro, Yang Song, Stefano Ermon(参考訳) 敵攻撃は、例えば最適化ベースのホワイトボックス攻撃を初期化したり、ブラックボックス攻撃で更新方向を生成するために、均一あるいはガウス分布から引き出された入力のランダムな摂動を伴うことが多い。 しかし、これらの単純な摂動は、攻撃されるモデルに非依存であるため、準最適である可能性がある。 これらの攻撃の効率を向上させるために,本研究では,対象モデルの出力の多様性を最大化するための新しいサンプリング手法である出力拡散サンプリング(ODS)を提案する。 ODSは勾配に基づく戦略であるが、ODSが提供する多様性は転送可能であり、代理モデルによるホワイトボックス攻撃とブラックボックス攻撃の両方に役立つ。 経験的に、ODSは既存のホワイトボックス攻撃とブラックボックス攻撃の性能を大幅に改善することを示した。 特に、ODSはImageNetに対する最先端のブラックボックス攻撃に必要なクエリ数を2倍に削減する。

Adversarial attacks often involve random perturbations of the inputs drawn from uniform or Gaussian distributions, e.g., to initialize optimization-based white-box attacks or generate update directions in black-box attacks. These simple perturbations, however, could be sub-optimal as they are agnostic to the model being attacked. To improve the efficiency of these attacks, we propose Output Diversified Sampling (ODS), a novel sampling strategy that attempts to maximize diversity in the target model's outputs among the generated samples. While ODS is a gradient-based strategy, the diversity offered by ODS is transferable and can be helpful for both white-box and black-box attacks via surrogate models. Empirically, we demonstrate that ODS significantly improves the performance of existing white-box and black-box attacks. In particular, ODS reduces the number of queries needed for state-of-the-art black-box attacks on ImageNet by a factor of two.
翻訳日:2022-12-23 08:28:03 公開日:2020-10-30
# 新型コロナウイルスパンデミック時代のWASH意識向上のための機械学習アプリケーション

A Machine Learning Application for Raising WASH Awareness in the Times of COVID-19 Pandemic ( http://arxiv.org/abs/2003.07074v3 )

ライセンス: Link先を確認
Rohan Pandey, Vaibhav Gautam, Ridam Pal, Harsh Bandhey, Lovedeep Singh Dhingra, Himanshu Sharma, Chirag Jain, Kanav Bhagat, Arushi, Lajjaben Patel, Mudit Agarwal, Samprati Agrawal, Rishabh Jalan, Akshat Wadhwa, Ayush Garg, Vihaan Misra, Yashwin Agrawal, Bhavika Rana, Ponnurangam Kumaraguru, Tavpritesh Sethi(参考訳) 背景:新型コロナウイルス(COVID-19)パンデミックは、国の健康を形作るデジタル誤報の可能性を明らかにした。 感染拡大自体よりも早く拡散する未確認情報の流出は、何百万人もの命を危険にさらす前例のない現象だ。 このInfodemicを誤用するには、エンゲージメント、頂点的、スケーラブル、効果的で、偽情報の新たなパターンを継続的に学習する強力なヘルスメッセージングシステムが必要です。 目的: 会話型ai、機械翻訳、自然言語処理による誤情報を緩和するための多段階的介入であるwoshkaroを開発した。 WashKaroは、AIを通じてWHOガイドラインにマッチする適切な情報を提供し、ローカル言語で適切なフォーマットで提供する。 方法:我々は i)NLPベースのAIエンジンで,ユーザのフィードバックを継続的に取り入れて情報関連性を向上させる。 (ii)性別識字率の歪んだ国における浸透性を改善するための局所言語における咬合サイズの音声 (iii)コミュニティの健康意識向上に向けたユーザとの対話的かつ対話的なaiエンゲージメント。 結果:調査ウィンドウでアプリをダウンロードした利用者は5026人,うち1545人がアクティブユーザだった。 我々の研究では、ヒンディー語でアプリに関わった女性の割合が男性に比べて3.4倍、連続機械学習の45日以内にAIフィルタリングされたニュースコンテンツが2倍になり、統合されたAIチャットボットSatyaの忍耐が高まり、mHealthプラットフォームの有用性が証明された。 結論: 口唇サイズの音声と会話型aiを提供するマルチプロンギング機械学習アプリケーションは, 健康的誤情報を軽減するための効果的なアプローチである。

Background: The COVID-19 pandemic has uncovered the potential of digital misinformation in shaping the health of nations. The deluge of unverified information that spreads faster than the epidemic itself is an unprecedented phenomenon that has put millions of lives in danger. Mitigating this Infodemic requires strong health messaging systems that are engaging, vernacular, scalable, effective and continuously learn the new patterns of misinformation. Objective: We created WashKaro, a multi-pronged intervention for mitigating misinformation through conversational AI, machine translation and natural language processing. WashKaro provides the right information matched against WHO guidelines through AI, and delivers it in the right format in local languages. Methods: We theorize (i) an NLP based AI engine that could continuously incorporate user feedback to improve relevance of information, (ii) bite sized audio in the local language to improve penetrance in a country with skewed gender literacy ratios, and (iii) conversational but interactive AI engagement with users towards an increased health awareness in the community. Results: A total of 5026 people who downloaded the app during the study window, among those 1545 were active users. Our study shows that 3.4 times more females engaged with the App in Hindi as compared to males, the relevance of AI-filtered news content doubled within 45 days of continuous machine learning, and the prudence of integrated AI chatbot Satya increased thus proving the usefulness of an mHealth platform to mitigate health misinformation. Conclusion: We conclude that a multi-pronged machine learning application delivering vernacular bite-sized audios and conversational AI is an effective approach to mitigate health misinformation.
翻訳日:2022-12-23 02:46:04 公開日:2020-10-30
# 冠動脈疾患の自動的・非侵襲的診断のための状態空間高度ファジィ認知マップアプローチ

State Space Advanced Fuzzy Cognitive Map approach for automatic and non Invasive diagnosis of Coronary Artery Disease ( http://arxiv.org/abs/2004.03372v2 )

ライセンス: Link先を確認
Ioannis D. Apostolopoulos, Peter P. Groumpos, Dimitris I. Apostolopoulos(参考訳) 目的:本研究では,冠動脈疾患(CAD)の自動診断および非侵襲診断を実現するために,最近出現したファジィ認知地図(FCM)の進歩について検討し,応用した。 方法: 状態空間advanced fcm (afcm) 法を用いたcadの許容・非侵襲的予測のためのコンピュータ支援診断モデルを提案する。 また、システムに関する知識と決定機構の解釈可能性をさらに高めるために、ルールベース機構が組み込まれている。 提案手法は,パトラス大学の核医学研究所のcadデータセットを用いて検証した。 具体的には、AFCMの2つのアーキテクチャを設計し、異なるパラメータテストを実行する。 さらに、最近提案された新しい方程式を基にしたAFCMを従来のFCM手法と比較した。 結果: 実験では, 従来の手法に対するAFCM法の有効性と新式の有効性を強調し, 78.21%の精度, 分類作業における7%(+7%)の増加, 85.47%の精度を得た。 結論: ファジィ認知マップの開発におけるAFCMアプローチは, 冠動脈疾患の診断に信頼性の高い手法であると同時に, 従来のアプローチよりも優れていた。 新型コロナウイルスのパンデミックに関する結論と今後の研究が提供される。

Purpose: In this study, the recently emerged advances in Fuzzy Cognitive Maps (FCM) are investigated and employed, for achieving the automatic and non-invasive diagnosis of Coronary Artery Disease (CAD). Methods: A Computer-Aided Diagnostic model for the acceptable and non-invasive prediction of CAD using the State Space Advanced FCM (AFCM) approach is proposed. Also, a rule-based mechanism is incorporated, to further increase the knowledge of the system and the interpretability of the decision mechanism. The proposed method is tested utilizing a CAD dataset from the Laboratory of Nuclear Medicine of the University of Patras. More specifically, two architectures of AFCMs are designed, and different parameter testing is performed. Furthermore, the proposed AFCMs, which are based on the new equations proposed recently, are compared with the traditional FCM approach. Results: The experiments highlight the effectiveness of the AFCM approach and the new equations over the traditional approach, which obtained an accuracy of 78.21%, achieving an increase of seven percent (+7%) on the classification task, and obtaining 85.47% accuracy. Conclusions: It is demonstrated that the AFCM approach in developing Fuzzy Cognitive Maps outperforms the conventional approach, while it constitutes a reliable method for the diagnosis of Coronary Artery Disease. Conclusions and future research related to recent pandemic of coronavirus are provided.
翻訳日:2022-12-17 05:03:22 公開日:2020-10-30
# テキスト生成のための構文駆動型反復拡張言語モデル

Syntax-driven Iterative Expansion Language Models for Controllable Text Generation ( http://arxiv.org/abs/2004.02211v2 )

ライセンス: Link先を確認
Noe Casas, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\`a(参考訳) 支配的な言語モデリングパラダイムは、テキストを離散トークンのシーケンスとして扱う。 このアプローチはテキストの潜在構造をキャプチャするが、本質的にはテキスト生成のシーケンシャルなダイナミックスに制約される。 本稿では,ニューラルテキスト生成に構文的帰納バイアスを導入するための新しいパラダイムを提案する。そこでは,依存関係解析木を用いてトランスフォーマーモデルを駆動し,文を反復的に生成する。 提案手法はテキスト生成に有効であり, lstmとトランスフォーマー間の品質, 同等の多様性を有し, 復号化ステップの半分以下を要し, 生成プロセスによって生成したテキストの構文構成を直接制御し, スタイル的バリエーションの誘導を可能にする。

The dominant language modeling paradigm handles text as a sequence of discrete tokens. While that approach can capture the latent structure of the text, it is inherently constrained to sequential dynamics for text generation. We propose a new paradigm for introducing a syntactic inductive bias into neural text generation, where the dependency parse tree is used to drive the Transformer model to generate sentences iteratively. Our experiments show that this paradigm is effective at text generation, with quality between LSTMs and Transformers, and comparable diversity, requiring less than half their decoding steps, and its generation process allows direct control over the syntactic constructions of the generated text, enabling the induction of stylistic variations.
翻訳日:2022-12-16 12:54:37 公開日:2020-10-30
# 指数平滑なリカレントニューラルネットワークによる産業予測

Industrial Forecasting with Exponentially Smoothed Recurrent Neural Networks ( http://arxiv.org/abs/2004.04717v2 )

ライセンス: Link先を確認
Matthew F Dixon(参考訳) 時系列モデリングは、新しいモデリングアプローチを必要とするデータのサイズと複雑さが前例のない成長を遂げた時代に入った。 多くの新しい汎用機械学習アプローチが登場したが、従来の統計モデリングアプローチとあまり理解されず、相容れないままである。 本稿では,産業応用における非定常力学系のモデル化に好適な指数スムーズリカレントニューラルネットワーク(RNN)の一般クラスを提案する。 特に,時系列の非線形部分自己相関構造を特徴付ける能力を分析し,季節性や傾向といった動的効果を直接捉えた。 指数スムーズなRNNの電力負荷、気象データ、株価予測への応用は、多段階時系列予測における隠れ状態の指数スムーズ化の有効性を強調している。 LSTMやGRUなどの音声処理用に設計された一般的な、しかしより複雑なニューラルネットワークアーキテクチャは、工業的な予測や軽量で指数関数的にスムーズなアーキテクチャのために過度に設計され、わずかな時間で訓練され、単純なRNNやARIMAモデルよりも優れ、堅牢である。 さらに,ベイズ推定による指数型平滑化リカレントニューラルネットワークの不確かさの定量化により,精度が向上した。

Time series modeling has entered an era of unprecedented growth in the size and complexity of data which require new modeling approaches. While many new general purpose machine learning approaches have emerged, they remain poorly understand and irreconcilable with more traditional statistical modeling approaches. We present a general class of exponential smoothed recurrent neural networks (RNNs) which are well suited to modeling non-stationary dynamical systems arising in industrial applications. In particular, we analyze their capacity to characterize the non-linear partial autocorrelation structure of time series and directly capture dynamic effects such as seasonality and trends. Application of exponentially smoothed RNNs to forecasting electricity load, weather data, and stock prices highlight the efficacy of exponential smoothing of the hidden state for multi-step time series forecasting. The results also suggest that popular, but more complicated neural network architectures originally designed for speech processing, such as LSTMs and GRUs, are likely over-engineered for industrial forecasting and light-weight exponentially smoothed architectures, trained in a fraction of the time, capture the salient features while being superior and more robust than simple RNNs and ARIMA models. Additionally uncertainty quantification of the exponential smoothed recurrent neural networks, provided by Bayesian estimation, is shown to provide improved coverage.
翻訳日:2022-12-15 02:09:12 公開日:2020-10-30
# 潜在ポーズ記述子を用いた神経頭部再生

Neural Head Reenactment with Latent Pose Descriptors ( http://arxiv.org/abs/2004.12000v2 )

ライセンス: Link先を確認
Egor Burkov, Igor Pasechnik, Artur Grigorev, Victor Lempitsky(参考訳) 本稿では,rgb画像と並行して前景セグメンテーションを予測可能な,潜在的なポーズ表現によるニューラルヘッド再現システムを提案する。 潜在ポーズ表現は、再現システム全体の一部として学習され、学習プロセスは、画像再構成損失のみに基づいて行われる。 その単純さにもかかわらず、大規模で多種多様なトレーニングデータセットを持つ学習は、アイデンティティからポーズを適切に分解する。 得られたシステムは、運転者の模倣を再現することができ、さらに、対人再現を行うことができる。 さらに,学習した記述子は,キーポイント予測やポーズに基づく検索など,他のポーズ関連タスクに有用であることを示す。

We propose a neural head reenactment system, which is driven by a latent pose representation and is capable of predicting the foreground segmentation alongside the RGB image. The latent pose representation is learned as a part of the entire reenactment system, and the learning process is based solely on image reconstruction losses. We show that despite its simplicity, with a large and diverse enough training dataset, such learning successfully decomposes pose from identity. The resulting system can then reproduce mimics of the driving person and, furthermore, can perform cross-person reenactment. Additionally, we show that the learned descriptors are useful for other pose-related tasks, such as keypoint prediction and pose-based retrieval.
翻訳日:2022-12-10 03:08:48 公開日:2020-10-30
# 音楽を学ぶ: 言語モデルにおける言語構造を学ぶためにトランスファーを使う

Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models ( http://arxiv.org/abs/2004.14601v3 )

ライセンス: Link先を確認
Isabel Papadimitriou and Dan Jurafsky(参考訳) 本稿では,ニューラルネットワークモデルにおける文法構造の符号化解析手法としてトランスファーラーニングを提案する。 我々はLSTMを非言語データで学習し、自然言語上での性能を評価し、LSTMが自然言語に利用できる一般化可能な構造的特徴をどの種類のデータから導き出すかを評価する。 また,非言語的データ(MIDI音楽やJavaコード)の学習は,表層構造や語彙の重なりが無く,自然言語によるテスト性能の向上を図っている。 この改良につながるためにモデルが符号化している抽象構造の種類を特定するために、階層的再帰構造を持つ2つの人工括弧言語と、ペアトークンを持つが再帰はしない制御とを用いて同様の実験を行う。 驚くべきことに、これらの人工言語でモデルをトレーニングすることは、自然言語でテストするときにも同様に大幅に向上する。 語彙重複を制御した自然言語間の伝達に関するさらなる実験により、テスト言語におけるゼロショット性能は、訓練言語とタイプ論的構文類似度と高い相関関係にあり、事前学習によって引き起こされる表現は、言語横断構文特性に対応していることが示唆された。 本研究は,ニューラルネットワークが抽象構文構造を表現する方法や,自然言語獲得を可能にする構造的帰納的バイアスの類型に関する知見を提供する。

We propose transfer learning as a method for analyzing the encoding of grammatical structure in neural language models. We train LSTMs on non-linguistic data and evaluate their performance on natural language to assess which kinds of data induce generalizable structural features that LSTMs can use for natural language. We find that training on non-linguistic data with latent structure (MIDI music or Java code) improves test performance on natural language, despite no overlap in surface form or vocabulary. To pinpoint the kinds of abstract structure that models may be encoding to lead to this improvement, we run similar experiments with two artificial parentheses languages: one which has a hierarchical recursive structure, and a control which has paired tokens but no recursion. Surprisingly, training a model on either of these artificial languages leads to the same substantial gains when testing on natural language. Further experiments on transfer between natural languages controlling for vocabulary overlap show that zero-shot performance on a test language is highly correlated with typological syntactic similarity to the training language, suggesting that representations induced by pre-training correspond to the cross-linguistic syntactic properties. Our results provide insights into the ways that neural models represent abstract syntactic structure, and also about the kind of structural inductive biases which allow for natural language acquisition.
翻訳日:2022-12-08 04:06:13 公開日:2020-10-30
# 制御可能なテキスト生成技術の探求

Exploring Controllable Text Generation Techniques ( http://arxiv.org/abs/2005.01822v2 )

ライセンス: Link先を確認
Shrimai Prabhumoye, Alan W Black, Ruslan Salakhutdinov(参考訳) ニューラルコントロール可能なテキスト生成は、多くのアプリケーションのために注目を集める重要な領域である。 制御可能なテキスト生成に先立つ多くの作業があるが、統一されたテーマは存在しない。 本研究では,5つのモジュールに分類することで,生成プロセスのパイプラインの新しいスキーマを提供する。 生成プロセスにおける属性の制御には、これらのモジュールの変更が必要である。 本稿では,これらモジュールの変調を行うための様々な手法について概説する。 また、これらの手法の利点と欠点について分析する。 本稿では,モジュールの組み合わせに基づいて新しいアーキテクチャを開発する方法について述べる。

Neural controllable text generation is an important area gaining attention due to its plethora of applications. Although there is a large body of prior work in controllable text generation, there is no unifying theme. In this work, we provide a new schema of the pipeline of the generation process by classifying it into five modules. The control of attributes in the generation process requires modification of these modules. We present an overview of different techniques used to perform the modulation of these modules. We also provide an analysis on the advantages and disadvantages of these techniques. We further pave ways to develop new architectures based on the combination of the modules described in this paper.
翻訳日:2022-12-07 00:55:05 公開日:2020-10-30
# WiscKeyからBourbonへ:ログ構造化されたマージツリーの学習指標

From WiscKey to Bourbon: A Learned Index for Log-Structured Merge Trees ( http://arxiv.org/abs/2005.14213v2 )

ライセンス: Link先を確認
Yifan Dai, Yien Xu, Aishwarya Ganesan, Ramnatthan Alagappan, Brian Kroth, Andrea C. Arpaci-Dusseau, and Remzi H. Arpaci-Dusseau(参考訳) 本稿では,機械学習を用いて高速なルックアップを提供するログ構造マージ(lsm)ツリーであるboulbonを紹介する。 我々は,LSM設計を慎重に分析することで導出する経験則に基づいて,BOURBONの設計と実装を行う。 BOURBONは、キーの分布を学習するために派手な線形回帰を採用し、最小限の計算で高速な検索を可能にし、学習の価値を決定するために費用対効果の戦略を適用している。 合成と実世界の両方のデータセットに関する一連の実験を通して、BOURBONは最先端のLSMと比較してルックアップ性能を1.23x-1.78倍改善することを示した。

We introduce BOURBON, a log-structured merge (LSM) tree that utilizes machine learning to provide fast lookups. We base the design and implementation of BOURBON on empirically-grounded principles that we derive through careful analysis of LSM design. BOURBON employs greedy piecewise linear regression to learn key distributions, enabling fast lookup with minimal computation, and applies a cost-benefit strategy to decide when learning will be worthwhile. Through a series of experiments on both synthetic and real-world datasets, we show that BOURBON improves lookup performance by 1.23x-1.78x as compared to state-of-the-art production LSMs.
翻訳日:2022-11-27 05:53:32 公開日:2020-10-30
# 変分変動:単純・信頼性・校正型異方性雑音のパラメータ化

Variational Variance: Simple, Reliable, Calibrated Heteroscedastic Noise Variance Parameterization ( http://arxiv.org/abs/2006.04910v3 )

ライセンス: Link先を確認
Andrew Stirn and David A. Knowles(参考訳) 弱最適化は、(ランダム)変数からのニューラルネットワークマッピングを依存ガウス変数の平均と分散に同時に適用する際に、回帰とVOEのモデル確率に悪影響を及ぼす。 以前の研究は最適化と可能性の向上を後押ししたが、他の基本的な後方予測チェック(ppc)は失敗している。 ppcフレームワークでは,予測平均および分散キャリブレーションおよび予測分布が有理データを生成する能力をテストするための批判を提案する。 我々の魅力的な単純な解法は、不均質な分散を変動的に扱うために、これらのPPCを通過させるために分散を十分に規則化する。 我々は,既存および新規のプリエントを多種多様に適用し,提案手法が既存モデルの確率を保ち,かつ,回帰やvaesのパラメータキャリブレーションやサンプル品質を著しく向上させるのに優れていることを見出した。

Brittle optimization has been observed to adversely impact model likelihoods for regression and VAEs when simultaneously fitting neural network mappings from a (random) variable onto the mean and variance of a dependent Gaussian variable. Previous works have bolstered optimization and improved likelihoods, but fail other basic posterior predictive checks (PPCs). Under the PPC framework, we propose critiques to test predictive mean and variance calibration and the predictive distribution's ability to generate sensible data. We find that our attractively simple solution, to treat heteroscedastic variance variationally, sufficiently regularizes variance to pass these PPCs. We consider a diverse gamut of existing and novel priors and find our methods preserve or outperform existing model likelihoods while significantly improving parameter calibration and sample quality for regression and VAEs.
翻訳日:2022-11-24 01:09:22 公開日:2020-10-30
# 同一クラスタクエリを用いたマングルクラスタの完全回復

Exact Recovery of Mangled Clusters with Same-Cluster Queries ( http://arxiv.org/abs/2006.04675v3 )

ライセンス: Link先を確認
Marco Bressan, Nicol\`o Cesa-Bianchi, Silvio Lattanzi, Andrea Paudice(参考訳) 半教師付きアクティブクラスタリングフレームワークにおけるクラスタリカバリ問題について検討する。 入力ポイントの有限セットと、2つのポイントが同じクラスタにあるかどうかを明記するオラクルが与えられた場合、我々のゴールは、できるだけ少ないクエリを使って、すべてのクラスタを正確に回復することである。 この目的のために、ashtiani et al の球形 $k$-means クラスタの仮定を緩和する。 任意の楕円体クラスタをマージンで許容する。 これはクラスタリングが中心に基づく(すなわち最適化問題によって定義される)仮定を排除し、回転、軸のスケーリング、点削除の組み合わせによって球状クラスタが個別に変換されるすべてのケースを含む。 より一般的な設定であっても、入力ポイントの数に対数的にしかスケールしない多くのクエリを使用して、潜在クラスタリングを正確に復元することが可能であることを示す。 より正確には、$n$のポイントを$k$クラスタに分割するアルゴリズムを設計し、$o(k^3 \ln k \ln n)$ oracleクエリと$\tilde{o}(kn + k^3)$時間を使用してクラスタリングを誤分類エラーなく回復する。 O(\cdot)$表記法はクラスタの次元性への指数関数的依存を隠蔽し、この問題の問合せ複雑性を特徴付ける必要があることを示す。 我々のアルゴリズムは単純で実装が容易であり、さらに理論的な保証が加えられた楕円形のクラスであるlow-stretch separatorsを使ってクラスタを学習することもできる。 大規模合成データセットの実験により、クラスタリングを正確にかつ効率的に再構築できることが確認された。

We study the cluster recovery problem in the semi-supervised active clustering framework. Given a finite set of input points, and an oracle revealing whether any two points lie in the same cluster, our goal is to recover all clusters exactly using as few queries as possible. To this end, we relax the spherical $k$-means cluster assumption of Ashtiani et al.\ to allow for arbitrary ellipsoidal clusters with margin. This removes the assumption that the clustering is center-based (i.e., defined through an optimization problem), and includes all those cases where spherical clusters are individually transformed by any combination of rotations, axis scalings, and point deletions. We show that, even in this much more general setting, it is still possible to recover the latent clustering exactly using a number of queries that scales only logarithmically with the number of input points. More precisely, we design an algorithm that, given $n$ points to be partitioned into $k$ clusters, uses $O(k^3 \ln k \ln n)$ oracle queries and $\tilde{O}(kn + k^3)$ time to recover the clustering with zero misclassification error. The $O(\cdot)$ notation hides an exponential dependence on the dimensionality of the clusters, which we show to be necessary thus characterizing the query complexity of the problem. Our algorithm is simple, easy to implement, and can also learn the clusters using low-stretch separators, a class of ellipsoids with additional theoretical guarantees. Experiments on large synthetic datasets confirm that we can reconstruct clusterings exactly and efficiently.
翻訳日:2022-11-24 00:51:52 公開日:2020-10-30
# 確率比クリッピングとサンプル重み付けによるganトレーニングの改善

Improving GAN Training with Probability Ratio Clipping and Sample Reweighting ( http://arxiv.org/abs/2006.06900v4 )

ライセンス: Link先を確認
Yue Wu, Pan Zhou, Andrew Gordon Wilson, Eric P. Xing, Zhiting Hu(参考訳) 視覚にまつわる幅広い問題において成功したにもかかわらず、生成的敵ネットワーク(GAN)は不安定な訓練、特にテキスト生成において、性能が劣る。 そこで本研究では,より優れたトレーニング安定性を享受できる変分GANトレーニングフレームワークを提案する。 提案手法は,GANと強化学習の相互関係から着想を得たものである。 その結果,(1) 大量更新を防止するため, ジェネレータトレーニングを標準化する確率比クリッピング, (2) 品質の悪い偽検体を下書きすることで識別器トレーニングを改善するサンプル再重み付け機構が得られた。 さらに, 変動型ganフレームワークは, 最適判別器がトレーニング生成器に有意な勾配を与えることができない多くのganにおいて, 学習課題を克服することができる。 多様な最先端のGANアーキテクチャにトレーニングアプローチを組み込むことで,テキスト生成,テキストスタイル転送,画像生成など,さまざまなタスクに対して大幅な性能向上を実現した。

Despite success on a wide range of problems related to vision, generative adversarial networks (GANs) often suffer from inferior performance due to unstable training, especially for text generation. To solve this issue, we propose a new variational GAN training framework which enjoys superior training stability. Our approach is inspired by a connection of GANs and reinforcement learning under a variational perspective. The connection leads to (1) probability ratio clipping that regularizes generator training to prevent excessively large updates, and (2) a sample re-weighting mechanism that improves discriminator training by downplaying bad-quality fake samples. Moreover, our variational GAN framework can provably overcome the training issue in many GANs that an optimal discriminator cannot provide any informative gradient to training generator. By plugging the training approach in diverse state-of-the-art GAN architectures, we obtain significantly improved performance over a range of tasks, including text generation, text style transfer, and image generation.
翻訳日:2022-11-22 02:05:32 公開日:2020-10-30
# スパーススパイク行列推定における統計的および計算的相転移

All-or-nothing statistical and computational phase transitions in sparse spiked matrix estimation ( http://arxiv.org/abs/2006.07971v2 )

ライセンス: Link先を確認
Jean Barbier, Nicolas Macris and Cynthia Rush(参考訳) 本研究では,次数1行列(スパイク)を加法ガウス雑音行列で推定する統計的および計算的限界を,下位の隠れベクトル(階数1行列を構成する)がベクトルの総次元に準線形にスケールする多数の非ゼロ成分を持ち,信号対雑音比が適切な速度で無限大となるようなスパース極限で決定する。 スパイクと観測された雑音行列間の漸近的相互情報に対する明示的な低次元変分公式を証明し,スパースレジームにおける近似メッセージパッシングアルゴリズムを解析した。 Bernoulli と Bernoulli-Rademacher の分散ベクトルに対して、スパーシリティと信号強度が適切なスケーリング関係を満たすとき、漸近的最小誤差とアルゴリズム的平均二乗誤差の全てあるいはなしの位相遷移を求める。 これらは、漸近値が正確に決定される信号対雑音閾値において、最大値からゼロにジャンプする。 漸近的な状況下では、スパースリカバリが近似メッセージパッシングに困難であることを示す統計的-アルゴリズム的ギャップが分岐する。

We determine statistical and computational limits for estimation of a rank-one matrix (the spike) corrupted by an additive gaussian noise matrix, in a sparse limit, where the underlying hidden vector (that constructs the rank-one matrix) has a number of non-zero components that scales sub-linearly with the total dimension of the vector, and the signal-to-noise ratio tends to infinity at an appropriate speed. We prove explicit low-dimensional variational formulas for the asymptotic mutual information between the spike and the observed noisy matrix and analyze the approximate message passing algorithm in the sparse regime. For Bernoulli and Bernoulli-Rademacher distributed vectors, and when the sparsity and signal strength satisfy an appropriate scaling relation, we find all-or-nothing phase transitions for the asymptotic minimum and algorithmic mean-square errors. These jump from their maximum possible value to zero, at well defined signal-to-noise thresholds whose asymptotic values we determine exactly. In the asymptotic regime the statistical-to-algorithmic gap diverges indicating that sparse recovery is hard for approximate message passing.
翻訳日:2022-11-21 13:41:01 公開日:2020-10-30
# SAR復号化のための多目的CNNアルゴリズム

Multi-Objective CNN Based Algorithm for SAR Despeckling ( http://arxiv.org/abs/2006.09050v4 )

ライセンス: Link先を確認
Sergio Vitale, Giampaolo Ferraioli and Vito Pascazio(参考訳) 遠隔センシングにおける深層学習(DL)は, 変化検出, 画像復元, セグメンテーション, 検出, 分類などの応用に広く利用されている。 合成開口レーダ(SAR)領域については,SAR画像の非自明な解釈,特にスペックルの存在に起因するため,DL技術の適用は容易ではない。 SARの切り離しのためのいくつかのディープラーニングソリューションが、ここ数年で提案されている。 これらのソリューションのほとんどは、SAR画像プロパティを含まない同様のコスト関数を持つ異なるネットワークアーキテクチャの定義に焦点を当てている。 本稿では,SAR画像の空間的および統計的特性を考慮した多目的コスト関数を持つ畳み込みニューラルネットワーク(CNN)を提案する。 これは、3つの異なる項の重み付け結合によって得られる特異な損失関数の定義によって達成される。 この用語は、主に、空間的詳細、スペックル統計特性、強い散乱体識別という、以下のSAR画像の特徴の1つである。 これらの組み合わせはこれらの効果のバランスをとることができる。 さらに,フレームワーク内の特徴を効果的に抽出する特化設計アーキテクチャを提案する。 シミュレーションおよび実sar画像を用いた実験は, 定量的および質的観点から, 最先端のデスペックリングアルゴリズムと比較し, 提案手法の精度を示した。 コスト関数におけるそのようなSAR特性を考慮することの重要性は、均一性、不均一性、および極めて不均一性などの異なる下線シナリオにおいて、正しいノイズ拒絶と詳細保存のために重要である。

Deep learning (DL) in remote sensing has nowadays become an effective operative tool: it is largely used in applications such as change detection, image restoration, segmentation, detection and classification. With reference to synthetic aperture radar (SAR) domain the application of DL techniques is not straightforward due to non trivial interpretation of SAR images, specially caused by the presence of speckle. Several deep learning solutions for SAR despeckling have been proposed in the last few years. Most of these solutions focus on the definition of different network architectures with similar cost functions not involving SAR image properties. In this paper, a convolutional neural network (CNN) with a multi-objective cost function taking care of spatial and statistical properties of the SAR image is proposed. This is achieved by the definition of a peculiar loss function obtained by the weighted combination of three different terms. Each of this term is dedicated mainly to one of the following SAR image characteristics: spatial details, speckle statistical properties and strong scatterers identification. Their combination allows to balance these effects. Moreover, a specifically designed architecture is proposed for effectively extract distinctive features within the considered framework. Experiments on simulated and real SAR images show the accuracy of the proposed method compared to the State-of-Art despeckling algorithms, both from quantitative and qualitative point of view. The importance of considering such SAR properties in the cost function is crucial for a correct noise rejection and details preservation in different underlined scenarios, such as homogeneous, heterogeneous and extremely heterogeneous.
翻訳日:2022-11-20 21:22:40 公開日:2020-10-30
# アノテーションを限定した医用画像分割のためのグローバル特徴とローカル特徴の対比学習

Contrastive learning of global and local features for medical image segmentation with limited annotations ( http://arxiv.org/abs/2006.10511v2 )

ライセンス: Link先を確認
Krishna Chaitanya, Ertunc Erdil, Neerav Karani, Ender Konukoglu(参考訳) 教師付きディープラーニングの成功のための重要な要件は、大きなラベル付きデータセットである。 自己教師付き学習(SSL)は、ラベルのないデータでニューラルネットワークを事前トレーニングする戦略を提供することで、この点において役立つ。 対照的な学習は、SSLの特定の変種であり、画像レベルの表現を学ぶための強力な技術である。 そこで本研究では,半教師付き設定の量的医用画像のセグメンテーションのためのコントラスト学習フレームワークを,限定的なアノテーションで拡張する手法を提案する。 具体的には,(1)体積医用画像(ドメイン固有手がかり)間の構造的類似性を活用した新しいコントラスト戦略,(2)ピクセル単位のセグメンテーションに有用な局所領域の識別表現を学ぶためのコントラスト損失の局所バージョンを提案する。 我々は3つのMRIデータセットについて広範囲に評価を行った。 限定的なアノテーション設定では、提案手法は、他の自己超越的および半教師付き学習技術と比較して大幅に改善される。 単純なデータ拡張技術と組み合わせると、ベンチマークのトレーニングに使用するトレーニングデータのわずか4%(adc)に相当する2つのラベル付きmriボリュームのみを使用して、ベンチマークパフォーマンスの8%以内に到達する。 コードはhttps://github.com/krishnabits001/domain_specific_clで公開されている。

A key requirement for the success of supervised deep learning is a large labeled dataset - a condition that is difficult to meet in medical image analysis. Self-supervised learning (SSL) can help in this regard by providing a strategy to pre-train a neural network with unlabeled data, followed by fine-tuning for a downstream task with limited annotations. Contrastive learning, a particular variant of SSL, is a powerful technique for learning image-level representations. In this work, we propose strategies for extending the contrastive learning framework for segmentation of volumetric medical images in the semi-supervised setting with limited annotations, by leveraging domain-specific and problem-specific cues. Specifically, we propose (1) novel contrasting strategies that leverage structural similarity across volumetric medical images (domain-specific cue) and (2) a local version of the contrastive loss to learn distinctive representations of local regions that are useful for per-pixel segmentation (problem-specific cue). We carry out an extensive evaluation on three Magnetic Resonance Imaging (MRI) datasets. In the limited annotation setting, the proposed method yields substantial improvements compared to other self-supervision and semi-supervised learning techniques. When combined with a simple data augmentation technique, the proposed method reaches within 8% of benchmark performance using only two labeled MRI volumes for training, corresponding to only 4% (for ACDC) of the training data used to train the benchmark. The code is made public at https://github.com/krishnabits001/domain_specific_cl.
翻訳日:2022-11-19 09:50:30 公開日:2020-10-30
# オフライン政策学習と評価のためのエキスパート監督強化学習

Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation ( http://arxiv.org/abs/2006.13189v2 )

ライセンス: Link先を確認
Aaron Sonabend-W, Junwei Lu, Leo A. Celi, Tianxi Cai, Peter Szolovits(参考訳) オフライン強化学習(rl)は、直接探索が高価で不可能である環境で最適なポリシーを学ぶための有望なアプローチである。 しかし、そのようなポリシーを実際に採用することは、アプリケーションコンテキスト内で解釈することが困難であり、学習したポリシーの価値とその決定に対する不確実性の尺度が欠如しているため、しばしば困難である。 これらの課題を克服するために,オフライン政策学習のための不確実性定量化を利用するExpert-Supervised RL (ESRL) フレームワークを提案する。 特に3つの貢献があります 1)仮説テストにより安全かつ最適な政策を学習することができる。 2)ESRLは、アプリケーションコンテキストに合わせて異なるレベルのリスク回避実装を可能にします。 3) 各状態におけるESRLのポリシーを後続分布を通して解釈する方法を提案し,この枠組みを用いて非政治値関数後端の計算を行う。 RL (Posterior Sampling for RL) と一致する推定値と後悔境界について理論的に保証する。 ESRLのサンプル効率は、選択されたリスク回避しきい値と行動ポリシーの品質とは独立である。

Offline Reinforcement Learning (RL) is a promising approach for learning optimal policies in environments where direct exploration is expensive or unfeasible. However, the adoption of such policies in practice is often challenging, as they are hard to interpret within the application context, and lack measures of uncertainty for the learned policy value and its decisions. To overcome these issues, we propose an Expert-Supervised RL (ESRL) framework which uses uncertainty quantification for offline policy learning. In particular, we have three contributions: 1) the method can learn safe and optimal policies through hypothesis testing, 2) ESRL allows for different levels of risk averse implementations tailored to the application context, and finally, 3) we propose a way to interpret ESRL's policy at every state through posterior distributions, and use this framework to compute off-policy value function posteriors. We provide theoretical guarantees for our estimators and regret bounds consistent with Posterior Sampling for RL (PSRL). Sample efficiency of ESRL is independent of the chosen risk aversion threshold and quality of the behavior policy.
翻訳日:2022-11-17 21:33:56 公開日:2020-10-30
# 自己監督型マルチモーダルバーサタイルネットワーク

Self-Supervised MultiModal Versatile Networks ( http://arxiv.org/abs/2006.16228v2 )

ライセンス: Link先を確認
Jean-Baptiste Alayrac, Adri\`a Recasens, Rosalia Schneider, Relja Arandjelovi\'c, Jason Ramapuram, Jeffrey De Fauw, Lucas Smaira, Sander Dieleman, Andrew Zisserman(参考訳) ビデオはマルチモーダル監視の豊富な情報源である。 本研究では,映像に自然に存在する3つのモダリティ(映像,音声,言語ストリーム)を活用して,自己スーパービジョンを用いて表現を学習する。 そこで本研究では,複数のモダリティを取り込み,複数のモダリティでダウンストリームタスクを可能にするネットワークであるマルチモーダル汎用ネットワークの概念を紹介する。 特に、視覚と音声のモーダルのきめ細かい表現を維持しながら、テキストを共通の埋め込みに統合するなど、モダリティを最もうまく組み合わせる方法について検討する。 また、汎用性によって駆動されるデフレの新たなプロセスを導入し、ビデオや静的画像の形式で、ネットワークを視覚データに適用できるようにします。 ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを適用可能であることを示す。 これらの表現を具備し,従来の自己監督型作業と比較して,UCF101,HMDB51,Kineetics600,AudioSet,ESC-50など,難易度の高い複数のベンチマークの最先端性能を得る。 私たちのモデルは公開されています。

Videos are a rich source of multi-modal supervision. In this work, we learn representations using self-supervision by leveraging three modalities naturally present in videos: visual, audio and language streams. To this end, we introduce the notion of a multimodal versatile network -- a network that can ingest multiple modalities and whose representations enable downstream tasks in multiple modalities. In particular, we explore how best to combine the modalities, such that fine-grained representations of the visual and audio modalities can be maintained, whilst also integrating text into a common embedding. Driven by versatility, we also introduce a novel process of deflation, so that the networks can be effortlessly applied to the visual data in the form of video or a static image. We demonstrate how such networks trained on large collections of unlabelled video data can be applied on video, video-text, image and audio tasks. Equipped with these representations, we obtain state-of-the-art performance on multiple challenging benchmarks including UCF101, HMDB51, Kinetics600, AudioSet and ESC-50 when compared to previous self-supervised work. Our models are publicly available.
翻訳日:2022-11-15 14:58:59 公開日:2020-10-30
# SurVAEの流れ:VAEと流れの間のギャップを橋渡しする試み

SurVAE Flows: Surjections to Bridge the Gap between VAEs and Flows ( http://arxiv.org/abs/2007.02731v2 )

ライセンス: Link先を確認
Didrik Nielsen, Priyank Jaini, Emiel Hoogeboom, Ole Winther, Max Welling(参考訳) 流れの正規化と変分オートエンコーダは、複雑な密度関数を表現できる強力な生成モデルである。 しかし、どちらもモデルに制約を課す: 正規化フローはモデル密度に単射変換を使用するのに対し、VAEは非可逆な確率変換を学習するので、通常は限界確率の抽出可能な推定を与えない。 本稿では,VAE と正規化フローを含む構成可能な変換のモジュラーフレームワークである SurVAE Flows を紹介する。 サーベイ流(survae flow)は、正規化フローとvaesの間のギャップを全射変換で橋渡しし、そこでは変換は一方向に決定論的であり、それによって正確な確率計算が可能となり、逆方向に確率的になる。 数値化や拡張正規化といった最近提案された手法のいくつかは, サーベイ流として表現できることを示した。 最後に,SurVAEフローの構成可能な層として,最大値,絶対値,ソート,確率置換などの共通演算を導入する。

Normalizing flows and variational autoencoders are powerful generative models that can represent complicated density functions. However, they both impose constraints on the models: Normalizing flows use bijective transformations to model densities whereas VAEs learn stochastic transformations that are non-invertible and thus typically do not provide tractable estimates of the marginal likelihood. In this paper, we introduce SurVAE Flows: A modular framework of composable transformations that encompasses VAEs and normalizing flows. SurVAE Flows bridge the gap between normalizing flows and VAEs with surjective transformations, wherein the transformations are deterministic in one direction -- thereby allowing exact likelihood computation, and stochastic in the reverse direction -- hence providing a lower bound on the corresponding likelihood. We show that several recently proposed methods, including dequantization and augmented normalizing flows, can be expressed as SurVAE Flows. Finally, we introduce common operations such as the max value, the absolute value, sorting and stochastic permutation as composable layers in SurVAE Flows.
翻訳日:2022-11-13 01:23:47 公開日:2020-10-30
# 効果的なデータ拡張技術を用いた深層学習による脳mriの局所的運動アーチファクト削減

Localized Motion Artifact Reduction on Brain MRI Using Deep Learning with Effective Data Augmentation Techniques ( http://arxiv.org/abs/2007.05149v2 )

ライセンス: Link先を確認
Yijun Zhao, Jacek Ossowski, Xuming Wang, Shangjin Li, Orrin Devinsky, Samantha P. Martin, and Heath R. Pardoe(参考訳) In-Scanner運動はMRI(MRI)の画質を低下させ、臨床的に関連のある異常の検出においてその有用性を低下させる。 深層学習に基づくMRIアーティファクト縮小モデル(DMAR)を導入し,脳MRIスキャンにおける頭部運動アーティファクトの局在と補正を行う。 提案手法は,コンピュータビジョンにおける物体検出とノイズ低減の最新の進歩を統合している。 具体的には、DMARは2段階のアプローチを採用する:第1に、単一ショットマルチボックス検出器(SSD)を用いて劣化した領域を検出し、第2に、発見された領域内のアーティファクトは、畳み込みオートエンコーダ(CAE)を使用して減少させる。 また,MRI画像の高次元性やデータ不足に対処するための新しいデータ拡張手法についても紹介する。 その結果,脳t1強調mriスキャン375例から生成した225,000画像の大規模合成データセットを解析した。 DMARは、多施設自閉症脳画像データ交換(ABIDE)研究の18人の被験者から、合成テスト画像と実世界の55の運動影響スライスの両方に適用した場合、画像アーティファクトを視覚的に低減する。 定量的には, 劣化レベルに応じて, RMSEの27.8%~48.1%, PSNRの2.88~5.79dBを5000サンプルの合成画像で達成した。 ABIDEによる実世界のアーティファクト影響スキャンでは、アーティファクト影響脳領域における画像ボクセル強度のばらつき(p = 0.014。

In-scanner motion degrades the quality of magnetic resonance imaging (MRI) thereby reducing its utility in the detection of clinically relevant abnormalities. We introduce a deep learning-based MRI artifact reduction model (DMAR) to localize and correct head motion artifacts in brain MRI scans. Our approach integrates the latest advances in object detection and noise reduction in Computer Vision. Specifically, DMAR employs a two-stage approach: in the first, degraded regions are detected using the Single Shot Multibox Detector (SSD), and in the second, the artifacts within the found regions are reduced using a convolutional autoencoder (CAE). We further introduce a set of novel data augmentation techniques to address the high dimensionality of MRI images and the scarcity of available data. As a result, our model was trained on a large synthetic dataset of 225,000 images generated from 375 whole brain T1-weighted MRI scans. DMAR visibly reduces image artifacts when applied to both synthetic test images and 55 real-world motion-affected slices from 18 subjects from the multi-center Autism Brain Imaging Data Exchange (ABIDE) study. Quantitatively, depending on the level of degradation, our model achieves a 27.8%-48.1% reduction in RMSE and a 2.88--5.79 dB gain in PSNR on a 5000-sample set of synthetic images. For real-world artifact-affected scans from ABIDE, our model reduced the variance of image voxel intensity within artifact-affected brain regions (p = 0.014).
翻訳日:2022-11-11 21:40:50 公開日:2020-10-30
# スパーススペクトルクラスタリングのためのマニフォールド近似線形法と単一セルRNAシークエンシングデータ解析への応用

A Manifold Proximal Linear Method for Sparse Spectral Clustering with Application to Single-Cell RNA Sequencing Data Analysis ( http://arxiv.org/abs/2007.09524v2 )

ライセンス: Link先を確認
Zhongruo Wang, Bingyuan Liu, Shixiang Chen, Shiqian Ma, Lingzhou Xue, Hongyu Zhao(参考訳) スペクトルクラスタリングは、データ分析で広く使われている教師なし学習方法の1つである。 スパーススペクトルクラスタリング(SSC)は、スペクトルクラスタリングにスパース性を課し、モデルの解釈可能性を改善する。 本稿では,非滑らかかつ非凸な対象を持つスティーフェル多様体上の最適化問題として定式化できるsscのモデルについて考察する。 このような最適化問題は解くのがとても難しい。 既存の方法は通常凸緩和を解くか、ある平滑化技術を用いて非滑らかな部分を滑らかにする必要がある。 本稿では,元のSSCの定式化を解く多様体近位線形法(ManPL)を提案する。 また,マルチカーネルSSC問題を解くためにアルゴリズムを拡張し, ManPLアルゴリズムを交互に提案する。 提案手法の収束と反復複雑性の結果が得られた。 単一セルRNAシークエンシングデータ解析による既存手法に対する提案手法の利点を実証する。

Spectral clustering is one of the fundamental unsupervised learning methods widely used in data analysis. Sparse spectral clustering (SSC) imposes sparsity to the spectral clustering and it improves the interpretability of the model. This paper considers a widely adopted model for SSC, which can be formulated as an optimization problem over the Stiefel manifold with nonsmooth and nonconvex objective. Such an optimization problem is very challenging to solve. Existing methods usually solve its convex relaxation or need to smooth its nonsmooth part using certain smoothing techniques. In this paper, we propose a manifold proximal linear method (ManPL) that solves the original SSC formulation. We also extend the algorithm to solve the multiple-kernel SSC problems, for which an alternating ManPL algorithm is proposed. Convergence and iteration complexity results of the proposed methods are established. We demonstrate the advantage of our proposed methods over existing methods via the single-cell RNA sequencing data analysis.
翻訳日:2022-11-09 05:23:43 公開日:2020-10-30
# 自己教師型話者認識のための強化対人訓練

Augmentation adversarial training for self-supervised speaker recognition ( http://arxiv.org/abs/2007.12085v3 )

ライセンス: Link先を確認
Jaesung Huh, Hee Soo Heo, Jingu Kang, Shinji Watanabe, Joon Son Chung(参考訳) この研究の目的は、話者ラベルなしで堅牢な話者認識モデルを訓練することである。 教師なし話者表現(unsupervised speaker representations)に関する最近の研究は、発話内埋め込みが類似し、発話間埋め込みが類似することを奨励する、対照的な学習に基づいている。 しかし、発話内セグメントは同じ音響特性を持っているため、話者情報をチャンネル情報から分離することは困難である。 そこで本研究では,ネットワークが話者情報に対して識別的になるように訓練し,適用される拡張性に不変な強化学習戦略を提案する。 拡張は音響特性をシミュレートするので、拡張に不変であるようにネットワークを訓練することで、ネットワークが一般にチャネル情報に不変になるように促す。 voxcelebとvoicesデータセットに関する広範な実験では、従来のセルフスーパービジョンによる作業よりも大幅に改善されています。

The goal of this work is to train robust speaker recognition models without speaker labels. Recent works on unsupervised speaker representations are based on contrastive learning in which they encourage within-utterance embeddings to be similar and across-utterance embeddings to be dissimilar. However, since the within-utterance segments share the same acoustic characteristics, it is difficult to separate the speaker information from the channel information. To this end, we propose augmentation adversarial training strategy that trains the network to be discriminative for the speaker information, while invariant to the augmentation applied. Since the augmentation simulates the acoustic characteristics, training the network to be invariant to augmentation also encourages the network to be invariant to the channel information in general. Extensive experiments on the VoxCeleb and VOiCES datasets show significant improvements over previous works using self-supervision, and the performance of our self-supervised models far exceed that of humans.
翻訳日:2022-11-07 13:24:21 公開日:2020-10-30
# データジャーナリズムのための構造化・半構造化・非構造化データのグラフ統合

Graph integration of structured, semistructured and unstructured data for data journalism ( http://arxiv.org/abs/2007.12488v2 )

ライセンス: Link先を確認
Oana Balalau (CEDAR), Catarina Concei\c{c}{\~a}o (INESC-ID, IST), Helena Galhardas (INESC-ID, IST), Ioana Manolescu (CEDAR), Tayeb Merabti (CEDAR), Jingmao You (CEDAR, IP Paris), Youssr Youssef (CEDAR, ENSAE, IP Paris)(参考訳) 今日では、多くのオープンデータを含む大量のデジタルデータソースの存在によってジャーナリズムが促進されている。 このようなデータソースは、高度に構造的な(リレーショナルデータベース)、半構造化(json、xml、html)、グラフ(例えばrdf)、テキストなど、非常に異種である。 ジャーナリスト(ほとんどの非政府組織や小さな行政機関のような先進的なIT専門知識を欠いている他のクラスのユーザー)は、たとえネを脱落させ、カスタムな抽出-変換-ロード作業の成果を展開できないとしても、このような異質なコーパスを理解できる必要がある。 これらは、任意の異種入力のために設定するdiカルトであるだけでなく、ユーザーがコーパスにデータセットを追加(または削除)したいと仮定する。 このようなグラフを便利にするために私たちが直面した課題は、それらの統合をスケール可能にすること、そして、我々がこれらの問題のために提案した解決策です。 提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。

Nowadays, journalism is facilitated by the existence of large amounts of digital data sources, including many Open Data ones. Such data sources are extremely heterogeneous, ranging from highly struc-tured (relational databases), semi-structured (JSON, XML, HTML), graphs (e.g., RDF), and text. Journalists (and other classes of users lacking advanced IT expertise, such as most non-governmental-organizations, or small public administrations) need to be able to make sense of such heterogeneous corpora, even if they lack the ability to de ne and deploy custom extract-transform-load work ows. These are di cult to set up not only for arbitrary heterogeneous inputs , but also given that users may want to add (or remove) datasets to (from) the corpus. We describe a complete approach for integrating dynamic sets of heterogeneous data sources along the lines described above: the challenges we faced to make such graphs useful, allow their integration to scale, and the solutions we proposed for these problems. Our approach is implemented within the ConnectionLens system; we validate it through a set of experiments.
翻訳日:2022-11-07 13:15:43 公開日:2020-10-30
# 反復オークションにおける学習による入札予測

Bid Prediction in Repeated Auctions with Learning ( http://arxiv.org/abs/2007.13193v2 )

ライセンス: Link先を確認
Gali Noti and Vasilis Syrgkanis(参考訳) 繰り返しオークションにおける入札予測の問題点を検討し,メインストリームの検索オークション市場からのデータセットを用いた学習エージェントの計量的手法の性能評価を行った。 スポンサー付き検索オークションは10億ドルの業界であり、テック大企業の収入源となっている。 このような市場を最適化する上で重要な問題は、入札者がオークションデザインの変化にどう反応するかを理解することである。 提案手法は,提案手法を応用したノンレグレット型econometricsを用いて入札予測を行い,非レグレット学習者としてのプレイヤをモデル化する手法である。 本稿では,プレイヤーの実用性と学習ルールのパラメータを同時に学習する新しい計量的手法を提案し,bingads主催の検索オークションマーケットプレースから実世界のデータセットに適用する。 本研究では,非レグレット・エコノメトリ手法が,トレーニング期間とテスト期間の共変時において,共変時差がない場合の最先端の時系列機械学習手法に匹敵する性能を示した。 これは、プレイヤーが市場の変化にどう反応するかを予測するために構造的計量的アプローチを使うことの重要性を表している。 さらに,構造的計量法において,非回帰学習に基づくアプローチは,プレーヤが競争に最もよく対応していると仮定する従来型,平衡型,計量的手法よりも優れていることを示す。 最後に,可視性バイアス成分でユーティリティ関数を最適化する入札者を考えることにより,非回帰学習アルゴリズムの予測性能がさらに向上することを示す。

We consider the problem of bid prediction in repeated auctions and evaluate the performance of econometric methods for learning agents using a dataset from a mainstream sponsored search auction marketplace. Sponsored search auctions is a billion dollar industry and the main source of revenue of several tech giants. A critical problem in optimizing such marketplaces is understanding how bidders will react to changes in the auction design. We propose the use of no-regret based econometrics for bid prediction, modeling players as no-regret learners with respect to a utility function, unknown to the analyst. We propose new econometric approaches to simultaneously learn the parameters of a player's utility and her learning rule, and apply these methods in a real-world dataset from the BingAds sponsored search auction marketplace. We show that the no-regret econometric methods perform comparable to state-of-the-art time-series machine learning methods when there is no co-variate shift, but significantly outperform machine learning methods when there is a co-variate shift between the training and test periods. This portrays the importance of using structural econometric approaches in predicting how players will respond to changes in the market. Moreover, we show that among structural econometric methods, approaches based on no-regret learning outperform more traditional, equilibrium-based, econometric methods that assume that players continuously best-respond to competition. Finally, we demonstrate how the prediction performance of the no-regret learning algorithms can be further improved by considering bidders who optimize a utility function with a visibility bias component.
翻訳日:2022-11-06 20:18:01 公開日:2020-10-30
# 階層的潜在変数をもつ神経過程の二重確率的変分推論

Doubly Stochastic Variational Inference for Neural Processes with Hierarchical Latent Variables ( http://arxiv.org/abs/2008.09469v2 )

ライセンス: Link先を確認
Qi Wang, Herke van Hoof(参考訳) ニューラルプロセス(NPs)は確率過程の変分近似モデルの一種であり、計算効率と不確実性定量化において有望な性質を持つ。 これらのプロセスは、潜在変数入力を持つニューラルネットワークを使用して予測分布を誘導する。 しかしながら、バニラnpsの表現性はグローバル潜在変数のみを使用するため限定的であり、対象とする特定の局所的な変動は時として重要となることがある。 この課題に対処するため,我々はNPを体系的に検討し,Douubly Stochastic Variational Neural Process (DSVNP) と呼ぶ新しいNPモデルを提案する。 このモデルは、グローバル潜在変数と局所潜在変数を組み合わせて予測する。 本研究では,複数の実験でこのモデルを評価し,マルチアウトプット回帰と分類の不確実性推定における競合予測性能を示す。

Neural processes (NPs) constitute a family of variational approximate models for stochastic processes with promising properties in computational efficiency and uncertainty quantification. These processes use neural networks with latent variable inputs to induce predictive distributions. However, the expressiveness of vanilla NPs is limited as they only use a global latent variable, while target specific local variation may be crucial sometimes. To address this challenge, we investigate NPs systematically and present a new variant of NP model that we call Doubly Stochastic Variational Neural Process (DSVNP). This model combines the global latent variable and local latent variables for prediction. We evaluate this model in several experiments, and our results demonstrate competitive prediction performance in multi-output regression and uncertainty estimation in classification.
翻訳日:2022-10-26 21:18:21 公開日:2020-10-30
# 部分観測可能な連続非線形ダイナミクスを用いた逆有理制御

Inverse Rational Control with Partially Observable Continuous Nonlinear Dynamics ( http://arxiv.org/abs/2009.12576v2 )

ライセンス: Link先を確認
Minhae Kwon, Saurabh Daptardar, Paul Schrater, Xaq Pitkow(参考訳) 神経科学における根本的な疑問は、脳がどのように世界の内部モデルを作成し、曖昧な感覚情報を用いて行動のガイドを行うかである。 これは、部分的に観察された強化学習問題として、エージェントがその証拠から世界の関連する潜在変数を推定し、将来の状態を予測し、全体的な期待報酬を最適化するアクションを選択する必要がある。 この問題は制御理論によって解くことができ、与えられた系のダイナミクスと目的関数の最適作用を見つけることができる。 しかし、動物はしばしば非最適に振る舞う。 なぜだ? 我々は、動物は世界の欠陥のある内部モデルを持っていると仮定し、欠陥のあるモデルに従って最も期待される主観的な報酬を持つ行動を選択する。 この行動は合理的だが最適ではない。 Inverse Rational Control (IRC) の問題は、エージェントのアクションを最もよく説明できる内部モデルを特定することである。 ここでは,部分可観測マルコフ決定過程における離散制御の問題を解いた逆有理制御に関する過去の研究を一般化する。 ここでは,連続的な非線形ダイナミクスと連続的な行動に適応し,動物にプライベートな未知の雑音によって腐敗した感覚観察を示唆する。 まず,モデル空間全体に一般化した最適方針を学習する最適なベイズエージェントを,深層強化学習を用いて構築する。 重要なことに、これはサブオプティマイズから取得した実験的に観測可能なアクショントラジェクタのモデルよりも可能性を計算することができる。 次に、勾配上昇を用いた確率を最大化するモデルパラメータを求める。

A fundamental question in neuroscience is how the brain creates an internal model of the world to guide actions using sequences of ambiguous sensory information. This is naturally formulated as a reinforcement learning problem under partial observations, where an agent must estimate relevant latent variables in the world from its evidence, anticipate possible future states, and choose actions that optimize total expected reward. This problem can be solved by control theory, which allows us to find the optimal actions for a given system dynamics and objective function. However, animals often appear to behave suboptimally. Why? We hypothesize that animals have their own flawed internal model of the world, and choose actions with the highest expected subjective reward according to that flawed model. We describe this behavior as rational but not optimal. The problem of Inverse Rational Control (IRC) aims to identify which internal model would best explain an agent's actions. Our contribution here generalizes past work on Inverse Rational Control which solved this problem for discrete control in partially observable Markov decision processes. Here we accommodate continuous nonlinear dynamics and continuous actions, and impute sensory observations corrupted by unknown noise that is private to the animal. We first build an optimal Bayesian agent that learns an optimal policy generalized over the entire model space of dynamics and subjective rewards using deep reinforcement learning. Crucially, this allows us to compute a likelihood over models for experimentally observable action trajectories acquired from a suboptimal agent. We then find the model parameters that maximize the likelihood using gradient ascent.
翻訳日:2022-10-14 08:17:43 公開日:2020-10-30
# 佐藤の機械学習-テイト・コンジェクチャ-

Machine-Learning the Sato--Tate Conjecture ( http://arxiv.org/abs/2010.01213v2 )

ライセンス: Link先を確認
Yang-Hui He, Kyu-Hwan Lee, Thomas Oliver(参考訳) 超楕円曲線の算術に機械学習から最新の手法を適用した。 より正確には、印象的な精度と信頼性(99と100%の精度)と非常に短い時間(通常のラップトップでは数秒)で、ベイズ分類器はL-函数に対して少数のオイラー因子を与えられたサト・テイト群を区別できることを示した。 我々の観測は低次の曲線に対する佐藤テイト予想と一致している。 楕円曲線の場合、これは(佐藤テイト群 su(2) と)複素乗法を持つ曲線とを区別する。 属2では、サト・テイト群USp(4)を非遺伝子群から分離する主成分分析が観察される。 さらに,楕円曲線よりも多くの非遺伝的可能性が存在する場合には,同一成分を持つ複数の里テイト群の正確な特徴付けを示す。 概して、文献とlmfdbで利用可能なデータから既知の結果を用いて、我々の観察が検証される。 本研究の結果から, 機械は佐藤テイト分布を学習するために訓練が可能であり, 文献の手法よりも曲線の分類を効率的に行うことができる可能性が示唆された。

We apply some of the latest techniques from machine-learning to the arithmetic of hyperelliptic curves. More precisely we show that, with impressive accuracy and confidence (between 99 and 100 percent precision), and in very short time (matter of seconds on an ordinary laptop), a Bayesian classifier can distinguish between Sato-Tate groups given a small number of Euler factors for the L-function. Our observations are in keeping with the Sato-Tate conjecture for curves of low genus. For elliptic curves, this amounts to distinguishing generic curves (with Sato-Tate group SU(2)) from those with complex multiplication. In genus 2, a principal component analysis is observed to separate the generic Sato-Tate group USp(4) from the non-generic groups. Furthermore in this case, for which there are many more non-generic possibilities than in the case of elliptic curves, we demonstrate an accurate characterisation of several Sato-Tate groups with the same identity component. Throughout, our observations are verified using known results from the literature and the data available in the LMFDB. The results in this paper suggest that a machine can be trained to learn the Sato-Tate distributions and may be able to classify curves much more efficiently than the methods available in the literature.
翻訳日:2022-10-12 02:37:43 公開日:2020-10-30
# 話者認識のための最適スコアについて

Remarks on Optimal Scores for Speaker Recognition ( http://arxiv.org/abs/2010.04862v2 )

ライセンス: Link先を確認
Dong Wang(参考訳) 本稿では,まず,話者認識のための最適スコアの理論を定式化する。 本分析により,話者識別タスクと話者検証タスクの最小ベイズリスク (MBR) は正規化可能性 (NL) に基づいて決定できることが示された。 基底生成モデルが線型ガウスであれば、NLスコアはPLDA確率比と数学的に等価であり、ある条件下では、コサイン距離とユークリッド距離に基づく経験的スコアは、この線形ガウスNLスコアの近似として見ることができる。 我々はNLスコアの諸特性について議論し、NLスコアの特性を実証するための簡単なシミュレーション実験を行う。

In this article, we first establish the theory of optimal scores for speaker recognition. Our analysis shows that the minimum Bayes risk (MBR) decisions for both the speaker identification and speaker verification tasks can be based on a normalized likelihood (NL). When the underlying generative model is a linear Gaussian, the NL score is mathematically equivalent to the PLDA likelihood ratio, and the empirical scores based on cosine distance and Euclidean distance can be seen as approximations of this linear Gaussian NL score under some conditions. We discuss a number of properties of the NL score and perform a simple simulation experiment to demonstrate the properties of the NL score.
翻訳日:2022-10-08 22:17:20 公開日:2020-10-30
# CAPT:Denoized Sequence Representationを学習するための対照的な事前学習

CAPT: Contrastive Pre-Training for Learning Denoised Sequence Representations ( http://arxiv.org/abs/2010.06351v4 )

ライセンス: Link先を確認
Fuli Luo, Pengcheng Yang, Shicheng Li, Xuancheng Ren, Xu Sun(参考訳) BERTのような事前訓練された自己教師型モデルは、特に自然言語処理において、シーケンス表現の学習において大きな成功を収めている。 これらのモデルは通常、与えられたシーケンスをマスキング、シャッフル、置換などの特定の種類のノイズで破壊し、元の入力を復元しようとする。 しかし、そのような事前学習アプローチはノイズと共変する表現を学習する傾向があるため、事前学習と微調整の段階の相違が生じる。 そこで本研究では,ノイズ不変列表現を学習するためのコントラストプリトレーニング(capt)を提案する。 提案したCAPTは、教師なしのインスタンスワイドトレーニング信号を介して、元のシーケンスの表現と破損したバージョンとの整合性を促進する。 このように、事前訓練のノイズによって引き起こされる事前訓練-ファイントゥン差を緩和するだけでなく、より効果的な文レベルの監督によって入力のグローバルな意味をよりよく把握する事前訓練モデルを支援する。 11の自然言語理解とクロスモーダルタスクに関する包括的な経験的エビデンスから、CAPTは言語と視覚言語の両方のタスクに適用可能であることを示し、GLUEベンチマークの0.6\%、$\text{NLVR}^2$での0.8\%の絶対増分を含む驚くほど一貫した改善が得られる。

Pre-trained self-supervised models such as BERT have achieved striking success in learning sequence representations, especially for natural language processing. These models typically corrupt the given sequences with certain types of noise, such as masking, shuffling, or substitution, and then try to recover the original input. However, such pre-training approaches are prone to learning representations that are covariant with the noise, leading to the discrepancy between the pre-training and fine-tuning stage. To remedy this, we present ContrAstive Pre-Training (CAPT) to learn noise invariant sequence representations. The proposed CAPT encourages the consistency between representations of the original sequence and its corrupted version via unsupervised instance-wise training signals. In this way, it not only alleviates the pretrain-finetune discrepancy induced by the noise of pre-training, but also aids the pre-trained model in better capturing global semantics of the input via more effective sentence-level supervision. Different from most prior work that focuses on a particular modality, comprehensive empirical evidence on 11 natural language understanding and cross-modal tasks illustrates that CAPT is applicable for both language and vision-language tasks, and obtains surprisingly consistent improvement, including 0.6\% absolute gain on GLUE benchmarks and 0.8\% absolute increment on $\text{NLVR}^2$.
翻訳日:2022-10-07 23:39:32 公開日:2020-10-30
# 専門家ベイズ型破産予測手法を用いた金融データ分析

Financial Data Analysis Using Expert Bayesian Framework For Bankruptcy Prediction ( http://arxiv.org/abs/2010.13892v2 )

ライセンス: Link先を確認
Amir Mukeri, Habibullah Shaikh, Dr. D.P. Gaikwad(参考訳) 近年、破産予測は金融リスク管理の分野でも研究者や実践者から多くの注目を集めている。 倒産予測では、過去に提案された様々なアプローチが会計比率に依存し、統計モデルや機械学習手法を用いている。 これらのモデルは様々な成功を収めた。 線形判別分析やニューラルネットワークのようなモデルは識別分類技術を用いる。 専門知識を含むための明確な規定がない。 本稿では,専門家ベイズフレームワークを用いた生成モデリングの新たな経路を提案する。 提案フレームワークの最大の利点は、モデリングプロセスに専門家の判断を明示的に取り入れることである。 また,提案手法は予測の不確実性を定量化する方法を提供する。 その結果、ベイズフレームワークを用いて構築されたモデルは、本質的に非常に柔軟で解釈可能で直感的である。 提案手法は,金融や医療診断など,高度に規制された,あるいは安全上重要な応用に適している。 このような場合、予測の正確性だけが意思決定者にとって問題ではない。 意思決定者や他のステークホルダーは、予測の不確実性やモデルの解釈可能性にも関心を持っている。 確率的プログラミング言語であるStanを用いて,実世界のデータセット上で提案したフレームワークの利点を実証的に示す。 提案したモデルは他の既存手法と同等か優れていることがわかった。 また、得られたモデルは、既存の多くの技術手法と比較して、偽陽性率をはるかに少なくする。 実験用の対応するRコードはGithubリポジトリで公開されている。

In recent years, bankruptcy forecasting has gained lot of attention from researchers as well as practitioners in the field of financial risk management. For bankruptcy prediction, various approaches proposed in the past and currently in practice relies on accounting ratios and using statistical modeling or machine learning methods. These models have had varying degrees of successes. Models such as Linear Discriminant Analysis or Artificial Neural Network employ discriminative classification techniques. They lack explicit provision to include prior expert knowledge. In this paper, we propose another route of generative modeling using Expert Bayesian framework. The biggest advantage of the proposed framework is an explicit inclusion of expert judgment in the modeling process. Also the proposed methodology provides a way to quantify uncertainty in prediction. As a result the model built using Bayesian framework is highly flexible, interpretable and intuitive in nature. The proposed approach is well suited for highly regulated or safety critical applications such as in finance or in medical diagnosis. In such cases accuracy in the prediction is not the only concern for decision makers. Decision makers and other stakeholders are also interested in uncertainty in the prediction as well as interpretability of the model. We empirically demonstrate these benefits of proposed framework on real world dataset using Stan, a probabilistic programming language. We found that the proposed model is either comparable or superior to the other existing methods. Also resulting model has much less False Positive Rate compared to many existing state of the art methods. The corresponding R code for the experiments is available at Github repository.
翻訳日:2022-10-05 23:18:07 公開日:2020-10-30
# アトラス畳み込みと残留学習を用いた知識グラフ埋め込み

Knowledge Graph Embedding with Atrous Convolution and Residual Learning ( http://arxiv.org/abs/2010.12121v2 )

ライセンス: Link先を確認
Feiliang Ren, Juchen Li, Huihui Zhang, Shilei Liu, Bochao Li, Ruicheng Ming, Yujia Bai(参考訳) 知識グラフの埋め込みは重要なタスクであり、多くの下流アプリケーションに役立ちます。 現在、ディープニューラルネットワークに基づく手法は最先端のパフォーマンスを実現している。 しかし、これらの既存の手法のほとんどは非常に複雑で、トレーニングや推論に多くの時間が必要です。 そこで本研究では,単純かつ効果的な畳み込みに基づく知識グラフ埋め込み手法を提案する。 従来の最先端手法と比較して,本手法の主な特徴は以下の通りである。 第1に,アトラス畳み込みを用いることで,機能インタラクションを効果的に向上させる。 次に、元の情報忘れ問題と消滅/爆発勾配問題に対処するため、残差学習法を用いる。 第3に、構造は単純だがパラメータ効率はずっと高い。 評価基準の異なる6つのベンチマークデータセットを用いて評価を行った。 広範な実験により、我々のモデルは非常に効果的であることが示された。 これらの多様なデータセットでは、ほとんどの評価指標で比較された最先端の方法よりも優れた結果が得られる。 われわれのモデルのソースコードはhttps://github.com/neukg/AcrE.comで確認できる。

Knowledge graph embedding is an important task and it will benefit lots of downstream applications. Currently, deep neural networks based methods achieve state-of-the-art performance. However, most of these existing methods are very complex and need much time for training and inference. To address this issue, we propose a simple but effective atrous convolution based knowledge graph embedding method. Compared with existing state-of-the-art methods, our method has following main characteristics. First, it effectively increases feature interactions by using atrous convolutions. Second, to address the original information forgotten issue and vanishing/exploding gradient issue, it uses the residual learning method. Third, it has simpler structure but much higher parameter efficiency. We evaluate our method on six benchmark datasets with different evaluation metrics. Extensive experiments show that our model is very effective. On these diverse datasets, it achieves better results than the compared state-of-the-art methods on most of evaluation metrics. The source codes of our model could be found at https://github.com/neukg/AcrE.
翻訳日:2022-10-03 21:23:04 公開日:2020-10-30
# TD学習による政策追跡のためのアディバティック理論

An Adiabatic Theorem for Policy Tracking with TD-learning ( http://arxiv.org/abs/2010.12848v2 )

ライセンス: Link先を確認
Neil Walton(参考訳) 本研究では、時間とともに変化する政策の報酬関数を追跡するための時間差学習能力を評価する。 この結果は、時間的不均一なマルコフ鎖の混合時間を束縛する新しい断熱定理を適用する。 トレーニングに使用するポリシが時間とともに変化する場合,テーブル型時間差学習と$q$-learningの有限時間境界を導出する。 これを実現するために,非同期断熱更新の下で確率近似のバウンダリを開発する。

We evaluate the ability of temporal difference learning to track the reward function of a policy as it changes over time. Our results apply a new adiabatic theorem that bounds the mixing time of time-inhomogeneous Markov chains. We derive finite-time bounds for tabular temporal difference learning and $Q$-learning when the policy used for training changes in time. To achieve this, we develop bounds for stochastic approximation under asynchronous adiabatic updates.
翻訳日:2022-10-03 12:25:59 公開日:2020-10-30
# 深層学習によるハッブル宇宙望遠鏡画像中の小惑星跡の検出

Detection of asteroid trails in Hubble Space Telescope images using Deep Learning ( http://arxiv.org/abs/2010.15425v2 )

ライセンス: Link先を確認
Andrei A. Parfeni, Laurentiu I. Caramete, Andreea M. Dobre, Nguyen Tran Bach(参考訳) 本稿では,ハッブル宇宙望遠鏡で撮影した単一露光写真における小惑星軌道の画像認識へのDeep Learningの適用について述べる。 多層深層畳み込みニューラルネットワークに基づくアルゴリズムを用いて,検証セットの80%以上の精度を報告した。 我々のプロジェクトは、ゾニバースのハッブル小惑星ハンタープロジェクト(Hubble Asteroid Hunter project)によって動機づけられた。 我々は,天文学や天文学と密接に関連している問題を解く上で,機械学習技術が非常に有用であることを示すことを目的としている。

We present an application of Deep Learning for the image recognition of asteroid trails in single-exposure photos taken by the Hubble Space Telescope. Using algorithms based on multi-layered deep Convolutional Neural Networks, we report accuracies of above 80% on the validation set. Our project was motivated by the Hubble Asteroid Hunter project on Zooniverse, which focused on identifying these objects in order to localize and better characterize them. We aim to demonstrate that Machine Learning techniques can be very useful in trying to solve problems that are closely related to Astronomy and Astrophysics, but that they are still not developed enough for very specific tasks.
翻訳日:2022-10-02 00:05:33 公開日:2020-10-30
# アナログフェデレーション学習のための高速収束アルゴリズム

Fast Convergence Algorithm for Analog Federated Learning ( http://arxiv.org/abs/2011.06658v1 )

ライセンス: Link先を確認
Shuhao Xia, Jingyang Zhu, Yuhan Yang, Yong Zhou, Yuanming Shi and Wei Chen(参考訳) 本稿では,マルチアクセスチャネル (MAC) 上のフェデレーション学習 (FL) について考察する。そこでは,エッジサーバが複数のエンドデバイスから送信されるローカルモデルを,オーバー・ザ・エア計算 (AirComp) によって集約する。 無線チャネル上での効率的なアナログフェデレーション学習を実現するために,しきい値に基づくデバイス選択方式を採用し,信頼性の高いローカルモデルアップロードを実現するAirCompベースのFedSplitアルゴリズムを提案する。 特に,提案アルゴリズムの性能を解析し,目的関数が強く凸かつ滑らかであるという仮定の下で,提案アルゴリズムが最適解に線形収束することを証明した。 また,提案アルゴリズムのロバスト性を不条件な問題に適用し,高速収束率と通信ラウンドの低減を図る。 さらに、収束挙動とチャネルフェージングとノイズの関係を明らかにするために、有限誤差境界を設ける。 本アルゴリズムは,他のベンチマークflアルゴリズムに比べて,コンバージェンスが高速で不調な問題に対してより頑健であることが理論的に実験的に証明されている。

In this paper, we consider federated learning (FL) over a noisy fading multiple access channel (MAC), where an edge server aggregates the local models transmitted by multiple end devices through over-the-air computation (AirComp). To realize efficient analog federated learning over wireless channels, we propose an AirComp-based FedSplit algorithm, where a threshold-based device selection scheme is adopted to achieve reliable local model uploading. In particular, we analyze the performance of the proposed algorithm and prove that the proposed algorithm linearly converges to the optimal solutions under the assumption that the objective function is strongly convex and smooth. We also characterize the robustness of proposed algorithm to the ill-conditioned problems, thereby achieving fast convergence rates and reducing communication rounds. A finite error bound is further provided to reveal the relationship between the convergence behavior and the channel fading and noise. Our algorithm is theoretically and experimentally verified to be much more robust to the ill-conditioned problems with faster convergence compared with other benchmark FL algorithms.
翻訳日:2022-10-01 17:41:58 公開日:2020-10-30
# 分散型自動運転車とマルチエージェントrlによる混合自律交通の最適化

Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous Vehicles and Multi-Agent RL ( http://arxiv.org/abs/2011.00120v1 )

ライセンス: Link先を確認
Eugene Vinitsky, Nathan Lichtle, Kanaad Parvate, Alexandre Bayen(参考訳) 本研究では,完全分散制御方式を併用した混合自律運転環境において,ボトルネックのスループットを向上させるための自律車両の能力について検討する。 サンフランシスコ・オークランド・ベイブリッジのスケールモデルでは,4車線を2車線に減らし,1車線に減らした2段ボトルネックという,スループット向上の問題を考察する。 集中型環境でのボトルネック制御の変種を調べる研究は多いが、多数の相互作用型AVが強化学習法において大きな最適化困難をもたらすような、困難なマルチエージェント設定についての研究は少ない。 本研究では,マルチエージェント強化アルゴリズムをこの問題に適用し,ボトルネックスループットの大幅な向上,すなわち5\%の浸透率で20\%から40\%の浸透率で33\%に到達できることを実証した。 実験結果と手作りのフィードバックコントローラを比較し,広範囲なチューニングにもかかわらず,結果がフィードバックコントローラを著しく上回っていることを示す。 さらに,RLをベースとした制御系は浸透速度にまたがるロバストな戦略を採用するのに対し,フィードバック制御系は浸透速度の変動によって直ちに劣化することを示した。 我々は,行動と観察の分散化の実現可能性を調査し,純粋に局所的センシングを用いて効果的な戦略が可能であることを示す。 最後に、コードをhttps://github.com/eugenevinitsky/decentralized_bottlenecksでオープンソースにしました。

We study the ability of autonomous vehicles to improve the throughput of a bottleneck using a fully decentralized control scheme in a mixed autonomy setting. We consider the problem of improving the throughput of a scaled model of the San Francisco-Oakland Bay Bridge: a two-stage bottleneck where four lanes reduce to two and then reduce to one. Although there is extensive work examining variants of bottleneck control in a centralized setting, there is less study of the challenging multi-agent setting where the large number of interacting AVs leads to significant optimization difficulties for reinforcement learning methods. We apply multi-agent reinforcement algorithms to this problem and demonstrate that significant improvements in bottleneck throughput, from 20\% at a 5\% penetration rate to 33\% at a 40\% penetration rate, can be achieved. We compare our results to a hand-designed feedback controller and demonstrate that our results sharply outperform the feedback controller despite extensive tuning. Additionally, we demonstrate that the RL-based controllers adopt a robust strategy that works across penetration rates whereas the feedback controllers degrade immediately upon penetration rate variation. We investigate the feasibility of both action and observation decentralization and demonstrate that effective strategies are possible using purely local sensing. Finally, we open-source our code at https://github.com/eugenevinitsky/decentralized_bottlenecks.
翻訳日:2022-10-01 17:41:32 公開日:2020-10-30
# COVI-AgentSim:デジタル接触追跡手法評価のためのエージェントベースモデル

COVI-AgentSim: an Agent-based Model for Evaluating Methods of Digital Contact Tracing ( http://arxiv.org/abs/2010.16004v1 )

ライセンス: Link先を確認
Prateek Gupta, Tegan Maharaj, Martin Weiss, Nasim Rahaman, Hannah Alsdurf, Abhinav Sharma, Nanor Minoyan, Soren Harnois-Leblanc, Victor Schmidt, Pierre-Luc St. Charles, Tristan Deleu, Andrew Williams, Akshay Patel, Meng Qu, Olexa Bilaniuk, Ga\'etan Marceau Caron, Pierre Luc Carrier, Satya Ortiz-Gagn\'e, Marc-Andre Rousseau, David Buckeridge, Joumana Ghosn, Yang Zhang, Bernhard Sch\"olkopf, Jian Tang, Irina Rish, Christopher Pal, Joanna Merckx, Eilif B. Muller, Yoshua Bengio(参考訳) 新型コロナウイルス(COVID-19)の世界的な普及は、感染拡大を緩和するための効果的な方法に対する前例のない需要をもたらし、様々なデジタル接触追跡法(DCT)がソリューションの構成要素となっている。 情報提供された公衆衛生選択を行うには,dct法の評価と比較を可能にするツールが必要である。 covi-agentsimと呼ばれるエージェントベースのコンパートメントシミュレータを導入し,実験的な研究から得られたパラメータに基づいて,ウイルス学,疾患進行,ソーシャル・コンタクト・ネットワーク,モビリティ・パターンの詳細な考察を行う。 我々は、COVI-AgentSimが現実的なCOVID-19拡散動態を再現できる実データと比較し、感度解析を行い、接触追跡手法の相対的性能が様々な設定で一致していることを検証する。 我々はCOVI-AgentSimを用いて費用対効果の分析を行う。 1)バイナリテスト結果に基づいてバイナリレコメンデーションを割り当てる標準バイナリコンタクトトレース(BCT) 2) 特徴に基づく接触追跡 (FCT) のルールベースの手法で, 多様な特徴に基づくレコメンデーションのグレードレベルを割り当てる。 いずれのDCT法も疾患の拡散を一貫して減少させ,BCTに対するFCTの優位性は広範囲な採用率で維持されている。 特徴に基づく接触追跡手法は、社会経済的コスト(生産時間損失)当たりの障害調整寿命(DALY)を回避する。 以上の結果から,dct法は人命の節約,経済の再開支援,第2波のアウトブレイクの防止に有効であり,fct法は自己報告症状を用いてbctを増強し,早期の警告信号と社会経済的コスト当たりのウイルスの拡散を著しく減少させる有望な方向性であることが示唆された。

The rapid global spread of COVID-19 has led to an unprecedented demand for effective methods to mitigate the spread of the disease, and various digital contact tracing (DCT) methods have emerged as a component of the solution. In order to make informed public health choices, there is a need for tools which allow evaluation and comparison of DCT methods. We introduce an agent-based compartmental simulator we call COVI-AgentSim, integrating detailed consideration of virology, disease progression, social contact networks, and mobility patterns, based on parameters derived from empirical research. We verify by comparing to real data that COVI-AgentSim is able to reproduce realistic COVID-19 spread dynamics, and perform a sensitivity analysis to verify that the relative performance of contact tracing methods are consistent across a range of settings. We use COVI-AgentSim to perform cost-benefit analyses comparing no DCT to: 1) standard binary contact tracing (BCT) that assigns binary recommendations based on binary test results; and 2) a rule-based method for feature-based contact tracing (FCT) that assigns a graded level of recommendation based on diverse individual features. We find all DCT methods consistently reduce the spread of the disease, and that the advantage of FCT over BCT is maintained over a wide range of adoption rates. Feature-based methods of contact tracing avert more disability-adjusted life years (DALYs) per socioeconomic cost (measured by productive hours lost). Our results suggest any DCT method can help save lives, support re-opening of economies, and prevent second-wave outbreaks, and that FCT methods are a promising direction for enriching BCT using self-reported symptoms, yielding earlier warning signals and a significantly reduced spread of the virus per socioeconomic cost.
翻訳日:2022-10-01 17:40:05 公開日:2020-10-30
# persgnn: トポロジカルデータ解析と幾何学的ディープラーニングを用いたタンパク質機能予測

PersGNN: Applying Topological Data Analysis and Geometric Deep Learning to Structure-Based Protein Function Prediction ( http://arxiv.org/abs/2010.16027v1 )

ライセンス: Link先を確認
Nicolas Swenson, Aditi S. Krishnapriyan, Aydin Buluc, Dmitriy Morozov, and Katherine Yelick(参考訳) タンパク質の構造と機能の関係を理解することは計算生物学における重要な課題であり、バイオテクノロジーや医薬品産業に応用されている。 タンパク質構造がタンパク質機能に直接影響を与えることは知られているが、多くの機能予測タスクはタンパク質配列のみを使用する。 本研究では,タンパク質構造を分離し,タンパク質データバンク内のタンパク質に対する機能アノテーションを作成し,構造に基づく予測スキームの表現性について検討する。 我々は,グラフ表現学習とトポロジカルデータ分析を組み合わせた,エンドツーエンドのトレーニング可能なディープラーニングモデルであるpersgnnを提案する。 これらの手法のバリエーションは、これまでもタンパク質に適用されてきたが、我々のハイブリッド化アプローチであるPersGNNは、同じ情報から学習するベースラインニューラルネットワークと同様に、独自の手法よりも優れていることを実証している。 PersGNNは、正しいリコール曲線(AUPR)の下での領域の9.3%の上昇を達成するとともに、異なる遺伝子オントロジーカテゴリにわたる高いF1スコアを達成し、このアプローチの伝達可能性を示している。

Understanding protein structure-function relationships is a key challenge in computational biology, with applications across the biotechnology and pharmaceutical industries. While it is known that protein structure directly impacts protein function, many functional prediction tasks use only protein sequence. In this work, we isolate protein structure to make functional annotations for proteins in the Protein Data Bank in order to study the expressiveness of different structure-based prediction schemes. We present PersGNN - an end-to-end trainable deep learning model that combines graph representation learning with topological data analysis to capture a complex set of both local and global structural features. While variations of these techniques have been successfully applied to proteins before, we demonstrate that our hybridized approach, PersGNN, outperforms either method on its own as well as a baseline neural network that learns from the same information. PersGNN achieves a 9.3% boost in area under the precision recall curve (AUPR) compared to the best individual model, as well as high F1 scores across different gene ontology categories, indicating the transferability of this approach.
翻訳日:2022-10-01 17:39:34 公開日:2020-10-30
# 深層言語モデルを用いた意味的ラベル付け

Semantic Labeling Using a Deep Contextualized Language Model ( http://arxiv.org/abs/2010.16037v1 )

ライセンス: Link先を確認
Mohamed Trabelsi, Jin Cao, Jeff Heflin(参考訳) データテーブルの列値を自動的に生成するスキーマラベルには、スキーママッチングやデータ発見、リンクなど、多くのデータサイエンスアプリケーションがある。 例えば、ヘッダーを欠いた自動的に抽出されたテーブルは、予測されたスキーマラベルによって埋められる。 さらに、予測ラベルは複数のデータテーブルにまたがる一貫性のない名前の影響を低減することができる。 カラム値とコンテキスト情報の関連性を理解することは、従来提案されていた手法が各カラムを独立に扱うため、重要かつ無視された側面である。 本稿では,コラム値とコンテキストの両方を用いた文脈認識型意味ラベリング手法を提案する。 提案手法は,ヘッダの欠落した入力テーブルのラベルを逐次予測する,意味的ラベリングの新しい設定に基づいている。 我々は、複数の自然言語処理タスクにおいて大幅な改善を達成した、事前訓練された文脈型言語モデルBERTを用いて、各データ列の値とコンテキストの両方を組み込んだ。 私たちの知る限り、semantic labelingタスクの解決にbertをうまく適用したのは当社が初めてです。 我々は、異なるドメインの2つの実世界のデータセットを用いて、このアプローチを評価し、最先端の機能ベースメソッドに対する評価メトリクスの大幅な改善を実証する。

Generating schema labels automatically for column values of data tables has many data science applications such as schema matching, and data discovery and linking. For example, automatically extracted tables with missing headers can be filled by the predicted schema labels which significantly minimizes human effort. Furthermore, the predicted labels can reduce the impact of inconsistent names across multiple data tables. Understanding the connection between column values and contextual information is an important yet neglected aspect as previously proposed methods treat each column independently. In this paper, we propose a context-aware semantic labeling method using both the column values and context. Our new method is based on a new setting for semantic labeling, where we sequentially predict labels for an input table with missing headers. We incorporate both the values and context of each data column using the pre-trained contextualized language model, BERT, that has achieved significant improvements in multiple natural language processing tasks. To our knowledge, we are the first to successfully apply BERT to solve the semantic labeling task. We evaluate our approach using two real-world datasets from different domains, and we demonstrate substantial improvements in terms of evaluation metrics over state-of-the-art feature-based methods.
翻訳日:2022-10-01 17:39:13 公開日:2020-10-30
# 最大ガウス性訓練による深部話者ベクトル正規化

Deep Speaker Vector Normalization with Maximum Gaussianality Training ( http://arxiv.org/abs/2010.16148v1 )

ライセンス: Link先を確認
Yunqi Cai, Lantian Li, Dong Wang and Andrew Abel(参考訳) ディープスピーカー埋め込みは、話者認識のための最先端技術である。 このアプローチの重要な問題は、結果の深い話者ベクトルが不規則に分布する傾向があることである。 これまでの研究では、個々の話者の分布が確実に均質なガウス型に変換される新しい判別正規化フロー(dnf)モデルに基づく深い正規化手法を提案した。 この正規化は有効であることが証明されたが、この顕著な成功にもかかわらず、dnfモデルによって生成される潜在符号は一般に均質でもガウス的でもないことが実証された。 本稿では,この問題はdnfモデルの最大親和性(ml)訓練基準に起因しており,潜在コードのガウス性が必ずしも向上するとは限らないが,観測の可能性を最大化することを目的としている。 そこで我々は,潜在符号のガウス性を直接最大化する,新しい最大ガウス性(MG)トレーニング手法を提案する。 SITWとCNCelebの2つのデータセットに対する実験により、新しいMGトレーニングアプローチが従来のMLトレーニングよりもはるかに優れたパフォーマンスを実現できることが示され、特にコサインスコアに関して、ドメインの一般化性が改善されている。

Deep speaker embedding represents the state-of-the-art technique for speaker recognition. A key problem with this approach is that the resulting deep speaker vectors tend to be irregularly distributed. In previous research, we proposed a deep normalization approach based on a new discriminative normalization flow (DNF) model, by which the distributions of individual speakers are arguably transformed to homogeneous Gaussians. This normalization was demonstrated to be effective, but despite this remarkable success, we empirically found that the latent codes produced by the DNF model are generally neither homogeneous nor Gaussian, although the model has assumed so. In this paper, we argue that this problem is largely attributed to the maximum-likelihood (ML) training criterion of the DNF model, which aims to maximize the likelihood of the observations but not necessarily improve the Gaussianality of the latent codes. We therefore propose a new Maximum Gaussianality (MG) training approach that directly maximizes the Gaussianality of the latent codes. Our experiments on two data sets, SITW and CNCeleb, demonstrate that our new MG training approach can deliver much better performance than the previous ML training, and exhibits improved domain generalizability, particularly with regard to cosine scoring.
翻訳日:2022-10-01 17:38:54 公開日:2020-10-30
# DeepRx MIMO:学習多重変換を用いた畳み込みMIMO検出

DeepRx MIMO: Convolutional MIMO Detection with Learned Multiplicative Transformations ( http://arxiv.org/abs/2010.16283v1 )

ライセンス: Link先を確認
Dani Korpi, Mikko Honkala, Janne M.J. Huttunen, Vesa Starck(参考訳) 近年,無線受信機の物理層性能向上のための潜在的な技術としてディープラーニングが提案されている。 大量の励まし結果にもかかわらず、ほとんどの研究は、マルチインプットとマルチアウトプット(MIMO)レシーバーの文脈において空間多重化を考慮していない。 本稿では,resnetベースの畳み込みニューラルネットワークであるdeeprxと,いわゆるトランスフォーメーション層を組み合わせた,ディープラーニングベースのmimoレシーバアーキテクチャを提案する。 変換層に対して,最大比組合せ変換,あるいは完全学習変換という2つの新しい方法を提案する。 前者は専門知識に依存し、後者は学習した乗算層を利用する。 提案するトランスフォーメーションレイヤはいずれも,従来のベースラインレシーバ,特にパイロット構成の疎さを明らかに上回っている。 我々の知る限り、これらは完全に学習されたMIMO受信機の性能を示す最初の成果である。

Recently, deep learning has been proposed as a potential technique for improving the physical layer performance of radio receivers. Despite the large amount of encouraging results, most works have not considered spatial multiplexing in the context of multiple-input and multiple-output (MIMO) receivers. In this paper, we present a deep learning-based MIMO receiver architecture that consists of a ResNet-based convolutional neural network, also known as DeepRx, combined with a so-called transformation layer, all trained together. We propose two novel alternatives for the transformation layer: a maximal ratio combining-based transformation, or a fully learned transformation. The former relies more on expert knowledge, while the latter utilizes learned multiplicative layers. Both proposed transformation layers are shown to clearly outperform the conventional baseline receiver, especially with sparse pilot configurations. To the best of our knowledge, these are some of the first results showing such high performance for a fully learned MIMO receiver.
翻訳日:2022-10-01 17:38:19 公開日:2020-10-30
# 機械学習(In)セキュリティ: 問題の流れ

Machine Learning (In) Security: A Stream of Problems ( http://arxiv.org/abs/2010.16045v1 )

ライセンス: Link先を確認
Fabr\'icio Ceschin and Heitor Murilo Gomes and Marcus Botacin and Albert Bifet and Bernhard Pfahringer and Luiz S. Oliveira and Andr\'e Gr\'egio(参考訳) 機械学習(ML)はサイバーセキュリティに広く適用されており、現在、この分野のオープンな問題の多くを解決するための最先端技術と考えられている。 しかし、セキュリティで直面する課題は(少なくとも同じようには)他の領域に現れないため、生成したソリューションがどれほど優れているかを評価することは極めて困難である。 これらの課題の1つは、実際に攻撃者と防御者の間の武力競争を生み出す概念ドリフトであり、攻撃者が(防衛ソリューションを克服するために)時が経つにつれて、新しい異なる脅威を生み出す可能性があり、この「進化」は、多くの作品において常に考慮されるわけではない。 この種の問題のため、MLベースのセキュリティソリューションを正しく構築し、評価する方法を知っておくことが基本である。 本稿では、コンセプトドリフト、コンセプト進化、遅延ラベル、敵機械学習など、MLをサイバーセキュリティに適用する際の課題をリストアップ、詳細化、議論する。 また、既存の解決策がどのように失敗するかを示し、場合によっては修正可能な解決策を提案する。

Machine Learning (ML) has been widely applied to cybersecurity, and is currently considered state-of-the-art for solving many of the field's open issues. However, it is very difficult to evaluate how good the produced solutions are, since the challenges faced in security may not appear in other areas (at least not in the same way). One of these challenges is the concept drift, that actually creates an arms race between attackers and defenders, given that any attacker may create novel, different threats as time goes by (to overcome defense solutions) and this "evolution" is not always considered in many works. Due to this type of issue, it is fundamental to know how to correctly build and evaluate a ML-based security solution. In this work, we list, detail, and discuss some of the challenges of applying ML to cybersecurity, including concept drift, concept evolution, delayed labels, and adversarial machine learning. We also show how existing solutions fail and, in some cases, we propose possible solutions to fix them.
翻訳日:2022-10-01 17:30:20 公開日:2020-10-30
# クラウドソーシングによるネットワークモニタリングの性能評価のためのシミュレーションフレームワークSatified Tomorrow

Unsatisfied Today, Satisfied Tomorrow: a simulation framework for performance evaluation of crowdsourcing-based network monitoring ( http://arxiv.org/abs/2010.16162v1 )

ライセンス: Link先を確認
Andrea Pimpinella, Marianna Repossi, Alessandro Enrico Cesare Redondi(参考訳) ネットワークオペレータは、顧客満足度を維持するために、インフラストラクチャを継続的にアップグレードする必要があります。 クラウドソーシングベースのアプローチは一般的に採用されており、ユーザエクスペリエンスに関する調査に顧客が直接回答するよう求められている。 共同ユーザの数は一般的に少ないため、ネットワークオペレータは機械学習モデルを使用して、調査を通じて直接測定するのではなく、ユーザの満足度/QoEを予測する。 最後に、実際の/予測されたユーザ満足度レベルと各ユーザモビリティに関する情報(例えば、各ユーザが訪問したネットワークサイトや期間など)を組み合わせることで、オペレータはネットワークの重要な領域を明らかにし、投資を適切に推進/優先順位付けすることができる。 本研究では,主観的ユーザエクスペリエンスの段階から,パフォーマンスの低い細胞の検出品質を評価するための経験的枠組みを提案する。 このフレームワークは多様なネットワークシナリオをシミュレートすることができ、実際のモビリティモデルに従って移動している異種ユーザによって、小さなパフォーマンスの低いセルによって特徴づけられるネットワークが訪れる。 このフレームワークは、異なるデリバリ戦略を考慮し、異なる予測性能を特徴とする予測アルゴリズムを評価することにより、満足度調査のプロセスとユーザの満足度予測の両方をシミュレートする。 シミュレーションフレームワークを用いて,異なるユーザ密度とモビリティモデルによって特徴付けられる一般的なシナリオにおいて,パフォーマンスの低いサイト検出の性能を実証的にテストし,一般化可能な洞察を得るとともに,ネットワークオペレータに興味深いガイドラインを提供する。

Network operators need to continuosly upgrade their infrastructures in order to keep their customer satisfaction levels high. Crowdsourcing-based approaches are generally adopted, where customers are directly asked to answer surveys about their user experience. Since the number of collaborative users is generally low, network operators rely on Machine Learning models to predict the satisfaction levels/QoE of the users rather than directly measuring it through surveys. Finally, combining the true/predicted user satisfaction levels with information on each user mobility (e.g, which network sites each user has visited and for how long), an operator may reveal critical areas in the networks and drive/prioritize investments properly. In this work, we propose an empirical framework tailored to assess the quality of the detection of under-performing cells starting from subjective user experience grades. The framework allows to simulate diverse networking scenarios, where a network characterized by a small set of under-performing cells is visited by heterogeneous users moving through it according to realistic mobility models. The framework simulates both the processes of satisfaction surveys delivery and users satisfaction prediction, considering different delivery strategies and evaluating prediction algorithms characterized by different prediction performance. We use the simulation framework to test empirically the performance of under-performing sites detection in general scenarios characterized by different users density and mobility models to obtain insights which are generalizable and that provide interesting guidelines for network operators.
翻訳日:2022-10-01 17:30:00 公開日:2020-10-30
# 独身であることには利点がある。 マルウェアの分類を欺く事例

Being Single Has Benefits. Instance Poisoning to Deceive Malware Classifiers ( http://arxiv.org/abs/2010.16323v1 )

ライセンス: Link先を確認
Tzvika Shapira and David Berend and Ishai Rosenberg and Yang Liu and Asaf Shabtai and Yuval Elovici(参考訳) 機械学習ベースのマルウェア分類器の性能は、モデル誘導に使用される大規模で更新されたトレーニングセットに依存する。 最新のトレーニングセットを維持するためには、さまざまなソースから良質で悪意のあるファイルを継続的に収集し、攻撃者に悪用可能なターゲットを提供する必要がある。 本研究では,攻撃者がマルウェア分類器の訓練に使用するデータセットをターゲットとした,高度で効率的な攻撃攻撃を行う方法を示す。 攻撃者の最終的な目標は、有害データセットによって誘導されたモデルが攻撃者のマルウェアを検出できず、他のマルウェアを検出できないようにすることである。 マルウェア検出領域における他の中毒攻撃とは対照的に、我々の攻撃はマルウェアファミリーではなく、移植されたトリガーを含む特定のマルウェアインスタンスに焦点を当て、毒の量に応じて検出率が99.23%から0%に低下する。 我々は,VirusTotalの最先端分類器とマルウェアサンプルを用いてEMBERデータセットに対する攻撃を評価し,作業のエンドツーエンド検証を行った。 我々は、この新たに発見された深刻な脅威に対する将来の高度な防御に役立つ包括的検出手法を提案する。

The performance of a machine learning-based malware classifier depends on the large and updated training set used to induce its model. In order to maintain an up-to-date training set, there is a need to continuously collect benign and malicious files from a wide range of sources, providing an exploitable target to attackers. In this study, we show how an attacker can launch a sophisticated and efficient poisoning attack targeting the dataset used to train a malware classifier. The attacker's ultimate goal is to ensure that the model induced by the poisoned dataset will be unable to detect the attacker's malware yet capable of detecting other malware. As opposed to other poisoning attacks in the malware detection domain, our attack does not focus on malware families but rather on specific malware instances that contain an implanted trigger, reducing the detection rate from 99.23% to 0% depending on the amount of poisoning. We evaluate our attack on the EMBER dataset with a state-of-the-art classifier and malware samples from VirusTotal for end-to-end validation of our work. We propose a comprehensive detection approach that could serve as a future sophisticated defense against this newly discovered severe threat.
翻訳日:2022-10-01 17:29:21 公開日:2020-10-30
# 量子ニューラルネットワークの力は

The power of quantum neural networks ( http://arxiv.org/abs/2011.00027v1 )

ライセンス: Link先を確認
Amira Abbas, David Sutter, Christa Zoufal, Aur\'elien Lucchi, Alessio Figalli, Stefan Woerner(参考訳) フォールトトレラントな量子コンピュータは、計算の高速化やモデルのスケーラビリティの向上を通じて、機械学習を劇的に改善する。 しかし、短期的には、量子機械学習の利点はそれほど明確ではない。 量子モデルおよび量子ニューラルネットワークの表現可能性と訓練性を理解する。 本研究では,情報幾何学のツールを用いて,量子モデルと古典モデルの表現可能性の概念を定義する。 フィッシャー情報に依存する実効次元は、新しい一般化境界を証明し、表現可能性の堅牢な尺度を確立するために用いられる。 量子ニューラルネットワークは、同等の古典的ニューラルネットワークよりもはるかに優れた次元を実現できることを示す。 次に、量子モデルのトレーサビリティを評価するために、フィッシャー情報スペクトルと不毛高原を接続し、勾配の消失問題を解く。 重要なことに、特定の量子ニューラルネットワークは、この現象に対するレジリエンスを示し、より均等に広がるフィッシャー情報スペクトルによって捉えられる、最適化された景色のために古典的なモデルよりも速く訓練することができる。 私たちの研究は、よく設計された量子ニューラルネットワークが、より効率的な次元とより高速なトレーニング能力を通じて、古典的なニューラルネットワークよりも有利であることを示す最初のものです。

Fault-tolerant quantum computers offer the promise of dramatically improving machine learning through speed-ups in computation or improved model scalability. In the near-term, however, the benefits of quantum machine learning are not so clear. Understanding expressibility and trainability of quantum models-and quantum neural networks in particular-requires further investigation. In this work, we use tools from information geometry to define a notion of expressibility for quantum and classical models. The effective dimension, which depends on the Fisher information, is used to prove a novel generalisation bound and establish a robust measure of expressibility. We show that quantum neural networks are able to achieve a significantly better effective dimension than comparable classical neural networks. To then assess the trainability of quantum models, we connect the Fisher information spectrum to barren plateaus, the problem of vanishing gradients. Importantly, certain quantum neural networks can show resilience to this phenomenon and train faster than classical models due to their favourable optimisation landscapes, captured by a more evenly spread Fisher information spectrum. Our work is the first to demonstrate that well-designed quantum neural networks offer an advantage over classical neural networks through a higher effective dimension and faster training ability, which we verify on real quantum hardware.
翻訳日:2022-10-01 17:28:41 公開日:2020-10-30
# レーダーと赤外線センシングを用いた全天候物体認識

All-Weather Object Recognition Using Radar and Infrared Sensing ( http://arxiv.org/abs/2010.16285v1 )

ライセンス: Link先を確認
Marcel Sheeny(参考訳) 自動運転車は、人間の生活を変える能力を持つ緊急技術である。 知覚能力が最も高い現在のセンサーシステムは光学センサーをベースとしている。 例えば、ディープニューラルネットワークは、カメラやLiDAR(Light Detection And Ranging)センサーからのデータを処理する際にオブジェクトを認識する際、優れた結果を示す。 しかし、これらのセンサは、雨、霧、雪などの悪天候下では、センサーの波長による性能が悪い。 この論文は、物体を認識するための長波偏光赤外線(ir)画像とイメージングレーダに基づく新しいセンシングの発展を探求する。 まず、偏光赤外データを用いたストークスパラメータに基づく手法を開発し、深層ニューラルネットワークを用いた車両の認識を行った。 第2に,低thzレーダセンサで捕捉されたパワースペクトルのみを使用して,制御されたシナリオで物体認識を行う可能性を検討した。 後者の研究は、減衰、範囲、スペックルノイズに基づくデータ拡張手法の開発とともに、データ駆動アプローチに基づいている。 最後に私たちは、さまざまな天候シナリオ(正気、オーバーキャスト、夜、霧、雨、雪)で、悪天候下で車両を検出するレーダーロバスト性を示す"ワイルド"に新しい大規模なデータセットを作成しました。 高分解能レーダーと偏光赤外線画像は、深層学習のアプローチと相まって、現在の可視光技術に基づく自動車センシングシステムの潜在的な選択肢として示され、厳しい天候や悪条件下ではより堅牢である。

Autonomous cars are an emergent technology which has the capacity to change human lives. The current sensor systems which are most capable of perception are based on optical sensors. For example, deep neural networks show outstanding results in recognising objects when used to process data from cameras and Light Detection And Ranging (LiDAR) sensors. However these sensors perform poorly under adverse weather conditions such as rain, fog, and snow due to the sensor wavelengths. This thesis explores new sensing developments based on long wave polarised infrared (IR) imagery and imaging radar to recognise objects. First, we developed a methodology based on Stokes parameters using polarised infrared data to recognise vehicles using deep neural networks. Second, we explored the potential of using only the power spectrum captured by low-THz radar sensors to perform object recognition in a controlled scenario. This latter work is based on a data-driven approach together with the development of a data augmentation method based on attenuation, range and speckle noise. Last, we created a new large-scale dataset in the "wild" with many different weather scenarios (sunny, overcast, night, fog, rain and snow) showing radar robustness to detect vehicles in adverse weather. High resolution radar and polarised IR imagery, combined with a deep learning approach, are shown as a potential alternative to current automotive sensing systems based on visible spectrum optical technology as they are more robust in severe weather and adverse light conditions.
翻訳日:2022-10-01 17:22:26 公開日:2020-10-30
# 腎細胞癌の生検・切除スライドにおける組織学的分類のためのディープニューラルネットワークの開発と評価

Development and Evaluation of a Deep Neural Network for Histologic Classification of Renal Cell Carcinoma on Biopsy and Surgical Resection Slides ( http://arxiv.org/abs/2010.16380v1 )

ライセンス: Link先を確認
Mengdan Zhu, Bing Ren, Ryland Richards, Matthew Suriawinata, Naofumi Tomita, Saeed Hassanpour(参考訳) 腎細胞癌 (rcc) は、成人で最も多い腎がんである。 RCCの病理組織学的分類は、患者の診断、予後、管理に不可欠である。 顕微鏡下生検および外科的切除スライドにおけるRCCの複雑な組織学的パターンの再編成と分類は、病理医にとって非常に専門的で、エラーを起こし、時間を要する課題である。 本研究では, 深部神経回路モデルを用いて, 外科的切除スライドと生検スライドを, クリアセルRCC, 乳頭RCC, クロモフォブRCC, 腎腫瘍, 正常の5つの関連クラスに正確に分類することができる。 診断モデルの説明可能性を確保するため,パッチレベルの分類結果の再処理による分類用スライド上の識別指標領域と特徴を可視化した。 今回我々は,第3次医療機関からの78例の手術全例と79例の生検例と,癌ゲノムアトラス(tcga)データベースからランダムに選択された69例の手術全例について評価した。 内生検スライド,内生検スライドおよび外生検スライドにおける分類器の曲線(AUC)の平均面積は0.98,0.98,0.99である。 その結果、異なるデータソースと標本タイプにまたがるアプローチの高一般化性が示唆された。 さらに,(1)偽陰性症例を自動スクリーニングし,(2)診断を加速するデジタル化スライドの重要性領域を強調し,(3)客観的かつ正確な診断を第2の意見として提供することにより,病理学者を支援する可能性を秘めている。

Renal cell carcinoma (RCC) is the most common renal cancer in adults. The histopathologic classification of RCC is essential for diagnosis, prognosis, and management of patients. Reorganization and classification of complex histologic patterns of RCC on biopsy and surgical resection slides under a microscope remains a heavily specialized, error-prone, and time-consuming task for pathologists. In this study, we developed a deep neural network model that can accurately classify digitized surgical resection slides and biopsy slides into five related classes: clear cell RCC, papillary RCC, chromophobe RCC, renal oncocytoma, and normal. In addition to the whole-slide classification pipeline, we visualized the identified indicative regions and features on slides for classification by reprocessing patch-level classification results to ensure the explainability of our diagnostic model. We evaluated our model on independent test sets of 78 surgical resection whole slides and 79 biopsy slides from our tertiary medical institution, and 69 randomly selected surgical resection slides from The Cancer Genome Atlas (TCGA) database. The average area under the curve (AUC) of our classifier on the internal resection slides, internal biopsy slides, and external TCGA slides is 0.98, 0.98 and 0.99, respectively. Our results suggest that the high generalizability of our approach across different data sources and specimen types. More importantly, our model has the potential to assist pathologists by (1) automatically pre-screening slides to reduce false-negative cases, (2) highlighting regions of importance on digitized slides to accelerate diagnosis, and (3) providing objective and accurate diagnosis as the second opinion.
翻訳日:2022-10-01 17:22:02 公開日:2020-10-30
# EDCNN:低線量CT用複合損失を用いたエッジ強化型高密度接続ネットワーク

EDCNN: Edge enhancement-based Densely Connected Network with Compound Loss for Low-Dose CT Denoising ( http://arxiv.org/abs/2011.00139v1 )

ライセンス: Link先を確認
Tengfei Liang, Yi Jin, Yidong Li, Tao Wang, Songhe Feng, Congyan Lang(参考訳) 過去数十年間、CT(Computed tomography)のX線リスクを減らすために、低用量CT画像のデノナイズが研究者から注目され、医療画像の分野で重要な研究課題となっている。 近年、ディープラーニング技術の急速な発展に伴い、多くのアルゴリズムがこのタスクに畳み込みニューラルネットワークを適用するようになり、有望な結果が得られている。 しかし、低ノイズ化効率や過剰smoothed resultなど、いくつかの問題がまだ残っている。 本稿では,エッジ拡張に基づくDensely connected Convolutional Neural Network (EDCNN)を提案する。 本ネットワークでは,新たな学習可能なSobel畳み込みを用いたエッジ拡張モジュールを設計する。 このモジュールをベースとして,抽出したエッジ情報を融合した密結合モデルを構築し,終端画像の復調を実現する。 さらに, モデルトレーニング時に, MSE損失と多スケールの知覚損失を組み合わせた複合的損失を導入し, 過度にスムースな問題を解消し, 復調後の画像品質を著しく向上させる。 提案手法は,従来の低線量CT画像復調アルゴリズムと比較して,ディテールの保存やノイズ抑制に優れた性能を有する。

In the past few decades, to reduce the risk of X-ray in computed tomography (CT), low-dose CT image denoising has attracted extensive attention from researchers, which has become an important research issue in the field of medical images. In recent years, with the rapid development of deep learning technology, many algorithms have emerged to apply convolutional neural networks to this task, achieving promising results. However, there are still some problems such as low denoising efficiency, over-smoothed result, etc. In this paper, we propose the Edge enhancement based Densely connected Convolutional Neural Network (EDCNN). In our network, we design an edge enhancement module using the proposed novel trainable Sobel convolution. Based on this module, we construct a model with dense connections to fuse the extracted edge information and realize end-to-end image denoising. Besides, when training the model, we introduce a compound loss that combines MSE loss and multi-scales perceptual loss to solve the over-smoothed problem and attain a marked improvement in image quality after denoising. Compared with the existing low-dose CT image denoising algorithms, our proposed model has a better performance in preserving details and suppressing noise.
翻訳日:2022-10-01 17:19:49 公開日:2020-10-30
# OpenKinoAI: インテリジェントシネマトグラフィーとライブパフォーマンスの編集のためのオープンソースフレームワーク

OpenKinoAI: An Open Source Framework for Intelligent Cinematography and Editing of Live Performances ( http://arxiv.org/abs/2011.05203v1 )

ライセンス: Link先を確認
R\'emi Ronfard and R\'emi Colin de Verdi\`ere(参考訳) openkinoaiは、超高精細ビデオのポストプロダクションのためのオープンソースフレームワークであり、単一のカメラ記録の場合、プロのマルチクリップ編集技術をエミュレートすることができる。 OpenKinoAIは、リモートWebサーバにライブパフォーマンスの生のビデオ映像をアップロードし、元の素材のパフォーマーを検出し、追跡し、認識し、生のビデオを多くの撮影用ラッシュに再フレーミングし、映画に急流を編集し、文書化のためにラッシュや映画を注釈付けするツールを含んでいる。 OpenKinoAIは、超高解像度ビデオのマルチクリップビデオ編集の研究を促進し、アーティストや企業がこの研究を革新的な方法でオンラインでのアーカイブ、文書化、共有に利用できるようにする。

OpenKinoAI is an open source framework for post-production of ultra high definition video which makes it possible to emulate professional multiclip editing techniques for the case of single camera recordings. OpenKinoAI includes tools for uploading raw video footage of live performances on a remote web server, detecting, tracking and recognizing the performers in the original material, reframing the raw video into a large choice of cinematographic rushes, editing the rushes into movies, and annotating rushes and movies for documentation purposes. OpenKinoAI is made available to promote research in multiclip video editing of ultra high definition video, and to allow performing artists and companies to use this research for archiving, documenting and sharing their work online in an innovative fashion.
翻訳日:2022-10-01 17:19:01 公開日:2020-10-30
# 産業用AIにおける機械学習の検証と実現

Validate and Enable Machine Learning in Industrial AI ( http://arxiv.org/abs/2012.09610v1 )

ライセンス: Link先を確認
Hongbo Zou, Guangjing Chen, Pengtao Xie, Sean Chen, Yongtian He, Hochih Huang, Zheng Nie, Hongbao Zhang, Tristan Bala, Kazi Tulip, Yuqi Wang, Shenlin Qin, and Eric P. Xing(参考訳) 産業人工知能(industrial artificial intelligence、industrial ai)は、人工知能を産業に適用することを指す新しい概念である。 産業AIは、より効率的な将来の産業制御システムを約束する。 しかし、製造業者とソリューションパートナーは、既存の産業制御システムにaiモデルを実装および統合する方法を理解する必要がある。 十分に訓練された機械学習(ML)モデルは、産業制御最適化のための多くの利点と機会を提供するが、劣る産業AI設計と統合は、MLモデルの能力を制限している。 トレーニングされたMLモデルを従来の産業用制御システムにどのように組み込むかをよりよく理解するために、デプロイされたAI制御システムをテストし、最終的には従来のシステム、製造業者、そしてAIソリューションパートナーが多くの課題に取り組む必要がある。 産業用AIをデプロイする際の実際の問題である6つの主要な課題が論文で紹介されている。 Petuum Optimumシステムは、AIモデルの作成とテストの課題、さらに重要なのは、産業用AIシステムにおけるこのような課題にどのように対処するかを示す例として使用される。

Industrial Artificial Intelligence (Industrial AI) is an emerging concept which refers to the application of artificial intelligence to industry. Industrial AI promises more efficient future industrial control systems. However, manufacturers and solution partners need to understand how to implement and integrate an AI model into the existing industrial control system. A well-trained machine learning (ML) model provides many benefits and opportunities for industrial control optimization; however, an inferior Industrial AI design and integration limits the capability of ML models. To better understand how to develop and integrate trained ML models into the traditional industrial control system, test the deployed AI control system, and ultimately outperform traditional systems, manufacturers and their AI solution partners need to address a number of challenges. Six top challenges, which were real problems we ran into when deploying Industrial AI, are explored in the paper. The Petuum Optimum system is used as an example to showcase the challenges in making and testing AI models, and more importantly, how to address such challenges in an Industrial AI system.
翻訳日:2022-10-01 17:11:50 公開日:2020-10-30
# 因果関係を考える:先天的なオペレータを持つ因果関係言語

Thinking About Causation: A Causal Language with Epistemic Operators ( http://arxiv.org/abs/2010.16217v1 )

ライセンス: Link先を確認
Fausto Barbero and Katrin Schulz and Sonja Smets and Fernando R. Vel\'azquez-Quesada and Kaibo Xie(参考訳) 本稿では,因果関係の相互作用をモデル化するための公式な枠組みを提案する。 この目的のために,エージェントの認識状態を表現することで因果モデルの概念を拡張する。 オブジェクト言語側では、知識を表現する演算子と、新しい情報を観察する行為を追加します。 我々は、論理の健全かつ完全な公理化を提供し、このフレームワークと因果的チーム意味論との関係について論じる。

This paper proposes a formal framework for modeling the interaction of causal and (qualitative) epistemic reasoning. To this purpose, we extend the notion of a causal model with a representation of the epistemic state of an agent. On the side of the object language, we add operators to express knowledge and the act of observing new information. We provide a sound and complete axiomatization of the logic, and discuss the relation of this framework to causal team semantics.
翻訳日:2022-10-01 17:11:31 公開日:2020-10-30
# Directional ASR: 音源定位によるE2Eマルチスピーカ音声認識のための新しいパラダイム

Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition with Source Localization ( http://arxiv.org/abs/2011.00091v1 )

ライセンス: Link先を確認
Aswin Shanmugam Subramanian, Chao Weng, Shinji Watanabe, Meng Yu, Yong Xu, Shi-Xiong Zhang, Dong Yu(参考訳) 本稿では,音源話者の位置を明示的にモデル化する指向性自動音声認識(d-asr)と呼ばれる,遠方界マルチスピーカデータをエンドツーエンドニューラルネットワーク方式で扱うための新しいパラダイムを提案する。 D−ASRでは、マイクロホンアレイに対するソースの方位角が潜時変数として定義される。 この角度は分離の質を制御し、ASR性能を決定する。 D-ASRの3つの機能: 局所化、分離、認識は単一の微分可能なニューラルネットワークとして接続され、ASRエラー最小化目的のみに基づいて訓練される。 既存の手法に対するD-ASRの利点は、(1)明示的な話者位置を提供し、(2)説明可能性の向上、(3)プロセスがより合理化されるにつれて、より良いASR性能を達成することである。 さらに、D-ASRは、既存のデータ駆動ローカライゼーションモデルのような、明確な到着方向(DOA)の監督を必要としないため、現実的なデータに適している。 2つのソース混合の場合、D-ASRは平均3度未満のDOA予測誤差を達成する。 また、分離品質とASR性能の両方において、強力な遠距離マルチスピーカエンドツーエンドシステムより優れている。

This paper proposes a new paradigm for handling far-field multi-speaker data in an end-to-end neural network manner, called directional automatic speech recognition (D-ASR), which explicitly models source speaker locations. In D-ASR, the azimuth angle of the sources with respect to the microphone array is defined as a latent variable. This angle controls the quality of separation, which in turn determines the ASR performance. All three functionalities of D-ASR: localization, separation, and recognition are connected as a single differentiable neural network and trained solely based on ASR error minimization objectives. The advantages of D-ASR over existing methods are threefold: (1) it provides explicit speaker locations, (2) it improves the explainability factor, and (3) it achieves better ASR performance as the process is more streamlined. In addition, D-ASR does not require explicit direction of arrival (DOA) supervision like existing data-driven localization models, which makes it more appropriate for realistic data. For the case of two source mixtures, D-ASR achieves an average DOA prediction error of less than three degrees. It also outperforms a strong far-field multi-speaker end-to-end system in both separation quality and ASR performance.
翻訳日:2022-10-01 17:11:23 公開日:2020-10-30
# 畳み込みニューラルネットワークモデルによるマルウェア画像の分類

Classifying Malware Images with Convolutional Neural Network Models ( http://arxiv.org/abs/2010.16108v1 )

ライセンス: Link先を確認
Ahmed Bensaoud, Nawaf Abudawaood, Jugal Kalita(参考訳) 数と複雑さの両方において悪意のあるソフトウェア(マルウェア)からの脅威が増大しているため、研究者は、時間を要する作業において、手動でマルウェアファイルの方法を分析する代わりに、マルウェアの自動検出と分類のアプローチを開発した。 同時に、マルウェアの著者は、アンチウイルス会社が使用するシグネチャベースの検出技術を回避する技術を開発した。 最近では、この問題を解決するためにマルウェア分類にディープラーニングが使われている。 本稿では,静的マルウェア分類にいくつかの畳み込みニューラルネットワーク(CNN)モデルを用いる。 特に、6つのディープラーニングモデルを使用します。そのうち3つは、ImageNet Large-Scale Visual Recognition Challengeの過去の勝者です。 他の3つのモデルとしては、CNN-SVM、GRU-SVM、MLP-SVMがある。 我々は,Portable Executable のマルウェアバイナリから変換されたマルウェア画像を持つ Malimg データセットを用いて実験を行った。 データセットは25のマルウェアファミリーに分けられる。 比較では、インセプションV3モデルは99.24%の精度を達成しており、これは現在の最先端システムであるM-CNNモデルによって達成された98.52%の精度よりも優れている。

Due to increasing threats from malicious software (malware) in both number and complexity, researchers have developed approaches to automatic detection and classification of malware, instead of analyzing methods for malware files manually in a time-consuming effort. At the same time, malware authors have developed techniques to evade signature-based detection techniques used by antivirus companies. Most recently, deep learning is being used in malware classification to solve this issue. In this paper, we use several convolutional neural network (CNN) models for static malware classification. In particular, we use six deep learning models, three of which are past winners of the ImageNet Large-Scale Visual Recognition Challenge. The other three models are CNN-SVM, GRU-SVM and MLP-SVM, which enhance neural models with support vector machines (SVM). We perform experiments using the Malimg dataset, which has malware images that were converted from Portable Executable malware binaries. The dataset is divided into 25 malware families. Comparisons show that the Inception V3 model achieves a test accuracy of 99.24%, which is better than the accuracy of 98.52% achieved by the current state-of-the-art system called the M-CNN model.
翻訳日:2022-10-01 17:10:39 公開日:2020-10-30
# 深層畳み込みネットワークを用いた遅延心筋mriによる心筋梗塞自動評価

Automatic Myocardial Infarction Evaluation from Delayed-Enhancement Cardiac MRI using Deep Convolutional Networks ( http://arxiv.org/abs/2010.16198v1 )

ライセンス: Link先を確認
Kibrom Berihu Girum, Youssef Skandarani, Raabid Hussain, Alexis Bozorg Grayeli, Gilles Cr\'ehange, Alain Lalande(参考訳) 本稿では,臨床情報と遅延強調MRI(DE-MRI)による心筋梗塞自動評価のための新しいディープラーニングフレームワークを提案する。 提案するフレームワークは2つのタスクに対処する。 第1の課題は、短軸 de-mri シリーズからの心筋輪郭、梗塞領域、逆流領域、左室腔の自動検出である。 2つのセグメンテーションニューラルネットワークを使用する。 第1のネットワークは、心筋や左室腔などの解剖学的構造を分断するために使用される。 第2のネットワークは、心筋梗塞、非リフロー、正常心筋領域などの病理領域を区分するために使用される。 第1ネットワークからのセグメンテーション心筋領域は、さらに第2ネットワークの病理学的セグメンテーション結果を洗練するために使用される。 第2の課題は、ある症例をD-MRIの有無にかかわらず、臨床情報から正常または病理学的に自動的に分類することである。 カスケード支援ベクターマシン(SVM)を使用して、その関連する臨床情報から所定の症例を分類する。 DE-MRIから分離した病理領域も分類作業に使用される。 本研究では,2020 EMIDEC MICCAIチャレンジデータセットを用いて評価を行った。 平均dice指数は0.93および0.84であり,左室腔および心筋は0。 臨床情報のみを用いた分類は,5倍のクロスバリデーションに対して80%の精度を示した。 DE-MRIを用いて93.3%の精度でケースを分類できる。 これらの実験結果から,提案手法は心筋梗塞を自動的に評価できることがわかった。

In this paper, we propose a new deep learning framework for an automatic myocardial infarction evaluation from clinical information and delayed enhancement-MRI (DE-MRI). The proposed framework addresses two tasks. The first task is automatic detection of myocardial contours, the infarcted area, the no-reflow area, and the left ventricular cavity from a short-axis DE-MRI series. It employs two segmentation neural networks. The first network is used to segment the anatomical structures such as the myocardium and left ventricular cavity. The second network is used to segment the pathological areas such as myocardial infarction, myocardial no-reflow, and normal myocardial region. The segmented myocardium region from the first network is further used to refine the second network's pathological segmentation results. The second task is to automatically classify a given case into normal or pathological from clinical information with or without DE-MRI. A cascaded support vector machine (SVM) is employed to classify a given case from its associated clinical information. The segmented pathological areas from DE-MRI are also used for the classification task. We evaluated our method on the 2020 EMIDEC MICCAI challenge dataset. It yielded an average Dice index of 0.93 and 0.84, respectively, for the left ventricular cavity and the myocardium. The classification from using only clinical information yielded 80% accuracy over five-fold cross-validation. Using the DE-MRI, our method can classify the cases with 93.3% accuracy. These experimental results reveal that the proposed method can automatically evaluate the myocardial infarction.
翻訳日:2022-10-01 17:10:18 公開日:2020-10-30
# ニューラル3次元シーン表現の対応と定量化による3次元物体認識

3D Object Recognition By Corresponding and Quantizing Neural 3D Scene Representations ( http://arxiv.org/abs/2010.16279v1 )

ライセンス: Link先を確認
Mihir Prabhudesai, Shamit Lal, Hsiao-Yu Fish Tung, Adam W. Harley, Shubhankar Potdar, Katerina Fragkiadaki(参考訳) オブジェクトを検出し,RGB-D画像中の3Dポーズを推測するシステムを提案する。 多くの既存のシステムはオブジェクトを識別し、3Dのポーズを推測できるが、それらは人間のラベルや3Dアノテーションに大きく依存している。 ここでの課題は、強い監督信号に頼ることなくこれを達成することです。 そこで本研究では,rgb-d画像から3次元視覚特徴マップのセットを微分可能な完全畳み込み方式でマッピングするモデルを提案する。 3D特徴マップは、画像に描かれた3Dワールドシーンの偉業化に対応する。 オブジェクト3Dの特徴表現は、カメラ視点の変化やズームに不変であり、特徴マッチングは異なるカメラ視点下で類似したオブジェクトを識別することができる。 2つのオブジェクトの3d特徴マップを比較して、スケール間のアライメントと3d回転を探索し、操作の結果、3dポーズアノテーションを必要とせずにポーズとスケールの変化を推定できる。 オブジェクトの特徴マップを、標準的なスケールと向きで馴染みのあるオブジェクトを表す3Dプロトタイプのセットにクラスタ化する。 次に,検出対象毎にプロトタイプのアイデンティティと3Dポーズを推定して画像解析を行う。 提案手法を3次元特徴表現を学習しない,あるいはシーン間の特徴対応を行なわない,多数のベースラインと比較し,オブジェクト検索とオブジェクトポーズ推定のタスクにおいて,大きなマージンでそれらを上回ります。 オブジェクト中心の特徴マップの3D特性により、視覚的類似性は3Dポーズの変化や小さなスケールの変化に不変であり、2D法や1D法よりも有利である。

We propose a system that learns to detect objects and infer their 3D poses in RGB-D images. Many existing systems can identify objects and infer 3D poses, but they heavily rely on human labels and 3D annotations. The challenge here is to achieve this without relying on strong supervision signals. To address this challenge, we propose a model that maps RGB-D images to a set of 3D visual feature maps in a differentiable fully-convolutional manner, supervised by predicting views. The 3D feature maps correspond to a featurization of the 3D world scene depicted in the images. The object 3D feature representations are invariant to camera viewpoint changes or zooms, which means feature matching can identify similar objects under different camera viewpoints. We can compare the 3D feature maps of two objects by searching alignment across scales and 3D rotations, and, as a result of the operation, we can estimate pose and scale changes without the need for 3D pose annotations. We cluster object feature maps into a set of 3D prototypes that represent familiar objects in canonical scales and orientations. We then parse images by inferring the prototype identity and 3D pose for each detected object. We compare our method to numerous baselines that do not learn 3D feature visual representations or do not attempt to correspond features across scenes, and outperform them by a large margin in the tasks of object retrieval and object pose estimation. Thanks to the 3D nature of the object-centric feature maps, the visual similarity cues are invariant to 3D pose changes or small scale changes, which gives our method an advantage over 2D and 1D methods.
翻訳日:2022-10-01 17:04:16 公開日:2020-10-30
# コンピュータビジョンとディープラーニングに基づく列車ワゴンの自動カウントと識別

Automatic Counting and Identification of Train Wagons Based on Computer Vision and Deep Learning ( http://arxiv.org/abs/2010.16307v1 )

ライセンス: Link先を確認
Rayson Laroca, Alessander Cidral Boslooper, David Menotti(参考訳) 本研究では,コンピュータビジョンとディープラーニングを用いた列車ワゴンのカウントと識別のための,堅牢で効率的なソリューションを提案する。 提案手法は費用対効果が高く,高い設置コストとメンテナンスコストが知られているRFID(Radio frequency Identification)に基づくソリューションを簡単に置き換えることができる。 我々の実験によれば、2段階の手法は実世界のシナリオ、すなわち計算段階における100%精度と識別過程における99.7%の認識率で印象的な結果が得られる。 さらに、このシステムは、識別コードに障害があるため、うまくカウントされた列車ワゴンのいくつかを自動で拒否することができる。 その結果,提案システムは低処理能力(ローエンド設定で実行可能である)と比較的少数の画像を用いて文字認識のための畳み込みニューラルネットワーク(CNN)を訓練することを考えると,意外な結果を得た。 BR512020000808-9に登録され,国立産業財産研究所(Brazil)に登録されている。

In this work, we present a robust and efficient solution for counting and identifying train wagons using computer vision and deep learning. The proposed solution is cost-effective and can easily replace solutions based on radiofrequency identification (RFID), which are known to have high installation and maintenance costs. According to our experiments, our two-stage methodology achieves impressive results on real-world scenarios, i.e., 100% accuracy in the counting stage and 99.7% recognition rate in the identification one. Moreover, the system is able to automatically reject some of the train wagons successfully counted, as they have damaged identification codes. The results achieved were surprising considering that the proposed system requires low processing power (i.e., it can run in low-end setups) and that we used a relatively small number of images to train our Convolutional Neural Network (CNN) for character recognition. The proposed method is registered, under number BR512020000808-9, with the National Institute of Industrial Property (Brazil).
翻訳日:2022-10-01 17:03:47 公開日:2020-10-30
# 身体, 文脈, 視覚的セマンティック・エンベッドによる映像の感情理解

Emotion Understanding in Videos Through Body, Context, and Visual-Semantic Embedding Loss ( http://arxiv.org/abs/2010.16396v1 )

ライセンス: Link先を確認
Panagiotis Paraskevas Filntisis and Niki Efthymiou and Gerasimos Potamianos and Petros Maragos(参考訳) 我々は,bodily expressed emotion understanding (beeu) challengeに関する第1回国際ワークショップの優勝作品を紹介する。 近年の文脈/環境が感情に与える影響と,単語埋め込みを用いた意味的意味を持つ視覚表現に基づいて,時間セグメントネットワークの枠組みを拡張した。 本手法は,Body Language Dataset (BOLD) の検証セット上で検証し,テストセット上で0.26235感情認識スコアを達成し,前回の0.2530を上回った。

We present our winning submission to the First International Workshop on Bodily Expressed Emotion Understanding (BEEU) challenge. Based on recent literature on the effect of context/environment on emotion, as well as visual representations with semantic meaning using word embeddings, we extend the framework of Temporal Segment Network to accommodate these. Our method is verified on the validation set of the Body Language Dataset (BoLD) and achieves 0.26235 Emotion Recognition Score on the test set, surpassing the previous best result of 0.2530.
翻訳日:2022-10-01 17:03:28 公開日:2020-10-30
# ミシガン州:ポートレート編集のためのマルチインプットコンディショニングヘア画像生成

MichiGAN: Multi-Input-Conditioned Hair Image Generation for Portrait Editing ( http://arxiv.org/abs/2010.16417v1 )

ライセンス: Link先を確認
Zhentao Tan and Menglei Chai and Dongdong Chen and Jing Liao and Qi Chu and Lu Yuan and Sergey Tulyakov and Nenghai Yu(参考訳) GANによる顔画像生成の成功にもかかわらず、その幾何学と外観の未探索の複雑さのため、条件付き毛髪編集は難しいままである。 本稿では,インタラクティブな肖像画毛髪操作のための条件付き画像生成手法であるMulti-Input-Conditioned Hair Image GANを提案する。 すべての主要毛髪視覚因子をユーザ制御するために、毛髪を形、構造、外観、背景の4つの直交属性に明示的に区別する。 それぞれに対して,ユーザ入力を表現,処理,変換するための条件モジュールを設計し,異なる視覚属性の性質を尊重する方法で画像生成パイプラインを変調する。 これらの条件モジュールはすべて、バックボーンジェネレータと統合され、最終的なエンドツーエンドネットワークを形成し、複数のユーザ入力から完全に条件付き毛髪生成を可能にする。 さらに,絵の具やストロークの案内,参照写真などの直感的かつ高レベルの入力を,明確に定義された条件表現に投影することにより,髪髪の操作を容易にするインタラクティブな髪髪編集システムを構築した。 実験と評価を通じて,結果品質とユーザ制御性の両方に関して,本手法の優位性を実証した。 コードはhttps://github.com/tzt101/michiganで入手できる。

Despite the recent success of face image generation with GANs, conditional hair editing remains challenging due to the under-explored complexity of its geometry and appearance. In this paper, we present MichiGAN (Multi-Input-Conditioned Hair Image GAN), a novel conditional image generation method for interactive portrait hair manipulation. To provide user control over every major hair visual factor, we explicitly disentangle hair into four orthogonal attributes, including shape, structure, appearance, and background. For each of them, we design a corresponding condition module to represent, process, and convert user inputs, and modulate the image generation pipeline in ways that respect the natures of different visual attributes. All these condition modules are integrated with the backbone generator to form the final end-to-end network, which allows fully-conditioned hair generation from multiple user inputs. Upon it, we also build an interactive portrait hair editing system that enables straightforward manipulation of hair by projecting intuitive and high-level user inputs such as painted masks, guiding strokes, or reference photos to well-defined condition representations. Through extensive experiments and evaluations, we demonstrate the superiority of our method regarding both result quality and user controllability. The code is available at https://github.com/tzt101/MichiGAN.
翻訳日:2022-10-01 17:03:18 公開日:2020-10-30
# 感情・精神症状解釈のための詩型ボディランゲージ認識

Pose-based Body Language Recognition for Emotion and Psychiatric Symptom Interpretation ( http://arxiv.org/abs/2011.00043v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Amanda Kay, Yuncheng Li, Wendi Cross, Jiebo Luo(参考訳) 身体言語から感情を推測する人間の能力に着想を得て,通常のrgbビデオからボディランゲージに基づく感情認識の自動フレームワークを提案する。 心理学者と連携して,精神症状予測の枠組みをさらに拡張する。 提案されたフレームワークの特定のアプリケーションドメインは限られた量のデータしか提供できないため、フレームワークは小さなトレーニングセットで動作し、優れた転送性を持つように設計されている。 提案システムでは,入力映像から推定した人間のポーズに基づいて,身体言語予測のシーケンスを生成する。 第2段階では、予測されたシーケンスは感情解釈と精神症状予測のための時間的ネットワークに供給される。 提案手法の精度と伝達性について,複数の公開行動認識データセットを用いて検証した。 次に、標準化された患者と行動保健専門家との会話と、身体言語、感情、潜在的な精神症状に関する専門家アノテーションからなるURMCデータセットの枠組みを評価した。 提案手法はURMCデータセット上の他の手法よりも優れている。

Inspired by the human ability to infer emotions from body language, we propose an automated framework for body language based emotion recognition starting from regular RGB videos. In collaboration with psychologists, we further extend the framework for psychiatric symptom prediction. Because a specific application domain of the proposed framework may only supply a limited amount of data, the framework is designed to work on a small training set and possess a good transferability. The proposed system in the first stage generates sequences of body language predictions based on human poses estimated from input videos. In the second stage, the predicted sequences are fed into a temporal network for emotion interpretation and psychiatric symptom prediction. We first validate the accuracy and transferability of the proposed body language recognition method on several public action recognition datasets. We then evaluate the framework on a proposed URMC dataset, which consists of conversations between a standardized patient and a behavioral health professional, along with expert annotations of body language, emotions, and potential psychiatric symptoms. The proposed framework outperforms other methods on the URMC dataset.
翻訳日:2022-10-01 17:02:53 公開日:2020-10-30
# AI研究のナビゲートと組織化のためのニューラルサーチとインサイトプラットフォーム

A New Neural Search and Insights Platform for Navigating and Organizing AI Research ( http://arxiv.org/abs/2011.00061v1 )

ライセンス: Link先を確認
Marzieh Fadaee, Olga Gureenkova, Fernando Rejon Barrera, Carsten Schnober, Wouter Weerkamp, Jakub Zavrel(参考訳) 研究文献の爆発的成長に対処する最新のツールをAI研究者に提供するために,古典的なキーワード検索とニューラル検索を組み合わせた,関連文献の発見と整理を行う新たなプラットフォームであるAI Research Navigatorを導入する。 このシステムは、自然言語とドメイン固有の知識グラフのナビゲーションを通じて、文章から文書間の集約まで、さまざまなレベルのテキストの粒度を検索する。 本稿では,システム全体のアーキテクチャの概要と,文書分析,質問応答,検索,分析,専門家検索,レコメンデーションの構成要素について概説する。

To provide AI researchers with modern tools for dealing with the explosive growth of the research literature in their field, we introduce a new platform, AI Research Navigator, that combines classical keyword search with neural retrieval to discover and organize relevant literature. The system provides search at multiple levels of textual granularity, from sentences to aggregations across documents, both in natural language and through navigation in a domain-specific Knowledge Graph. We give an overview of the overall architecture of the system and of the components for document analysis, question answering, search, analytics, expert search, and recommendations.
翻訳日:2022-10-01 17:02:07 公開日:2020-10-30
# 未知のダイナミクスを持つマルコフ鎖の集中的能動追跡

Centralized active tracking of a Markov chain with unknown dynamics ( http://arxiv.org/abs/2010.16095v1 )

ライセンス: Link先を確認
Mrigank Raman, Ojal Kumar, Arpan Chattopadhyay(参考訳) 本稿では、離散時間を追跡するアクティブセンササブセットの選択について、未知の遷移確率行列(TPM)を有する有限状態マルコフ連鎖について考察する。 マルコフ連鎖の観測には合計n個のセンサーが利用可能であり、そのうちの1つはプロセスの信頼できる推定を行うために、各時間にセンサーのサブセットが活性化される。 トレードオフは、リモート推定のためにより多くのセンサーを活性化し、エネルギーと帯域消費を節約するためにセンサーの使用を制限することである。 この問題は、推定における長期平均二乗誤差(MSE)が目的であり、センサアクティベーションレートが制約となる制約最小化問題として定式化される。 問題のラグランジアン緩和は、mse最小化のためのgibbsサンプリングと、未知のtpmを推定するための期待最大化(em)のオンラインバージョンという2つのツールの巧妙なブレンドによって解決される。 最後に、ラグランジュ乗算器を遅い時間スケール確率近似を用いて更新し、センサの活性化率制約を満たす。 オンラインEMアルゴリズムは文献から適応したものの、センサ観測の時間変化次元の下でもベクトル値パラメータを推定することができる。 数値計算により, 均一なセンササンプリングよりも約1dBの誤差性能と, 完全センサ観測に対する2dBの誤差性能を比較検討した。 これにより,提案アルゴリズムは実用化可能である。

In this paper, selection of an active sensor subset for tracking a discrete time, finite state Markov chain having an unknown transition probability matrix (TPM) is considered. A total of N sensors are available for making observations of the Markov chain, out of which a subset of sensors are activated each time in order to perform reliable estimation of the process. The trade-off is between activating more sensors to gather more observations for the remote estimation, and restricting sensor usage in order to save energy and bandwidth consumption. The problem is formulated as a constrained minimization problem, where the objective is the long-run averaged mean-squared error (MSE) in estimation, and the constraint is on sensor activation rate. A Lagrangian relaxation of the problem is solved by an artful blending of two tools: Gibbs sampling for MSE minimization and an on-line version of expectation maximization (EM) to estimate the unknown TPM. Finally, the Lagrange multiplier is updated using slower timescale stochastic approximation in order to satisfy the sensor activation rate constraint. The on-line EM algorithm, though adapted from literature, can estimate vector-valued parameters even under time-varying dimension of the sensor observations. Numerical results demonstrate approximately 1 dB better error performance than uniform sensor sampling and comparable error performance (within 2 dB bound) against complete sensor observation. This makes the proposed algorithm amenable to practical implementation.
翻訳日:2022-10-01 17:01:37 公開日:2020-10-30
# Augmented Memory Transformer を用いた同時音声翻訳

Streaming Simultaneous Speech Translation with Augmented Memory Transformer ( http://arxiv.org/abs/2011.00033v1 )

ライセンス: Link先を確認
Xutai Ma, Yongqiang Wang, Mohammad Javad Dousti, Philipp Koehn, Juan Pino(参考訳) トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。 しかし、入力シーケンス全体にわたって自己注意が計算され、入力シーケンスの長さとともに計算コストが2次的に増加するため、ストリーミングシナリオではモデルアーキテクチャは十分効率的ではない。 それにもかかわらず、部分的な音声入力から翻訳を生成するタスクである同時音声翻訳に関するこれまでの作業のほとんどは、レイテンシを分析する際に翻訳生成に要する時間を無視している。 この仮定では、システムは優れたレイテンシ品質のトレードオフを持つかもしれないが、リアルタイムシナリオでは適用できない。 本稿では,部分的な入力で翻訳できるだけでなく,非常に長いあるいは連続的な入力を処理できるシステムである,同時音声翻訳のタスクに焦点を当てる。 本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。 提案モデルのセグメント,コンテキスト,メモリサイズについて経験的評価を行い,一方向マスクとトランスフォーマーとの比較を行った。

Transformer-based models have achieved state-of-the-art performance on speech translation tasks. However, the model architecture is not efficient enough for streaming scenarios since self-attention is computed over an entire input sequence and the computational cost grows quadratically with the length of the input sequence. Nevertheless, most of the previous work on simultaneous speech translation, the task of generating translations from partial audio input, ignores the time spent in generating the translation when analyzing the latency. With this assumption, a system may have good latency quality trade-offs but be inapplicable in real-time scenarios. In this paper, we focus on the task of streaming simultaneous speech translation, where the systems are not only capable of translating with partial input but are also able to handle very long or continuous input. We propose an end-to-end transformer-based sequence-to-sequence model, equipped with an augmented memory transformer encoder, which has shown great success on the streaming automatic speech recognition task with hybrid or transducer-based models. We conduct an empirical evaluation of the proposed model on segment, context and memory sizes and we compare our approach to a transformer with a unidirectional mask.
翻訳日:2022-10-01 16:55:13 公開日:2020-10-30
# 物語におけるジェンダーバイアスの分析

Analyzing Gender Bias within Narrative Tropes ( http://arxiv.org/abs/2011.00092v1 )

ライセンス: Link先を確認
Dhruvil Gala, Mohammad Omar Khursheed, Hannah Lerner, Brendan O'Connor, Mohit Iyyer(参考訳) ポピュラーメディアは、メディア全体で頻繁に起こるアーキティパル文字やプロットアークといった物語要素であるトロープを用いて、社会的バイアスを反映し、強化する。 本稿では,大規模なトロープ群における性別バイアスについて検討する。 本研究は,映画,テレビ,文学で発生した1.9万件の事例に関連する30万件のトロープを含むオンラインユーザ作成リポジトリであるtvtropes.orgをクロールする。 本研究は,TVTROPESデータセットにおける各トロープの「ジェンダーネス」を自動的にスコアし,(1)高ジェンダーのトピックの分析,(2)ジェンダーバイアスと人気レセプションの関係,(3)作品作成者のジェンダーが使用するトロープの種類とどのように関連しているかを解析する。

Popular media reflects and reinforces societal biases through the use of tropes, which are narrative elements, such as archetypal characters and plot arcs, that occur frequently across media. In this paper, we specifically investigate gender bias within a large collection of tropes. To enable our study, we crawl tvtropes.org, an online user-created repository that contains 30K tropes associated with 1.9M examples of their occurrences across film, television, and literature. We automatically score the "genderedness" of each trope in our TVTROPES dataset, which enables an analysis of (1) highly-gendered topics within tropes, (2) the relationship between gender bias and popular reception, and (3) how the gender of a work's creator correlates with the types of tropes that they use.
翻訳日:2022-10-01 16:54:40 公開日:2020-10-30
# smot: シングルショットのマルチオブジェクトトラッキング

SMOT: Single-Shot Multi Object Tracking ( http://arxiv.org/abs/2010.16031v1 )

ライセンス: Link先を確認
Wei Li, Yuanjun Xiong, Shuo Yang, Siqi Deng, Wei Xia(参考訳) 我々はsmot(single-shot multi-object tracker)を提案する。ssd(single-shot detector)モデルをオンラインマルチオブジェクトトラッカに変換する,新たなトラッキングフレームワークである。 物体検出器による誤差に苦しむ検出アプローチによる既存の追跡とは対照的に、smotは最近提案された再検出による追跡方式を採用している。 我々はこの方式をSSD検出器と組み合わせ、新しいトラッキングアンカー割り当てモジュールを提案する。 この設計によりSMOTは、フレーム単位で一定の実行時間でトラックレットを生成することができる。 次に、ライトウェイト付きリンクアルゴリズムがオンライントラックレットリンクに使用される。 Hannah、Music Videos、MOT17の3つのオブジェクトトラッキングのベンチマークにおいて、提案されたSMOTは最先端のパフォーマンスを達成する。

We present single-shot multi-object tracker (SMOT), a new tracking framework that converts any single-shot detector (SSD) model into an online multiple object tracker, which emphasizes simultaneously detecting and tracking of the object paths. Contrary to the existing tracking by detection approaches which suffer from errors made by the object detectors, SMOT adopts the recently proposed scheme of tracking by re-detection. We combine this scheme with SSD detectors by proposing a novel tracking anchor assignment module. With this design SMOT is able to generate tracklets with a constant per-frame runtime. A light-weighted linkage algorithm is then used for online tracklet linking. On three benchmarks of object tracking: Hannah, Music Videos, and MOT17, the proposed SMOT achieves state-of-the-art performance.
翻訳日:2022-10-01 16:53:21 公開日:2020-10-30
# 対応行列の定式化

Correspondence Matrices are Underrated ( http://arxiv.org/abs/2010.16085v1 )

ライセンス: Link先を確認
Tejas Zodage, Rahul Chakwate, Vinit Sarode, Rangaprasad Arun Srivatsan, and Howie Choset(参考訳) ポイントクラウド登録(PCR)は、ロボット操作、拡張現実、SLAMなど、さまざまなアプリケーションにおいて重要なタスクである。 PCRは、変換パラメータとポイント・ツー・ポイント対応という2種類の相互依存変数の最小化を含む最適化問題である。 近年のディープラーニングの進歩はPCRの高速なアプローチを生み出している。 これらのネットワークで最適化された損失関数は、変換パラメータのエラーに基づいている。 変換パラメータの誤差のみを用いるのではなく、対応誤差を用いて損失関数を計算すれば、これらの手法がかなり良くなると仮定した。 対応誤差を不正確な一致点対に基づく計量として定義する。 本論では, 既存の手法を変換に基づく損失ではなく, 対応に基づく損失を使用するように変更することによって, 仮説を検証した。 これらの実験により、修正されたネットワークはより高速に収束し、元のネットワークと比較して大きなミスアライメントでもより正確に登録できることが示された。

Point-cloud registration (PCR) is an important task in various applications such as robotic manipulation, augmented and virtual reality, SLAM, etc. PCR is an optimization problem involving minimization over two different types of interdependent variables: transformation parameters and point-to-point correspondences. Recent developments in deep-learning have produced computationally fast approaches for PCR. The loss functions that are optimized in these networks are based on the error in the transformation parameters. We hypothesize that these methods would perform significantly better if they calculated their loss function using correspondence error instead of only using error in transformation parameters. We define correspondence error as a metric based on incorrectly matched point pairs. We provide a fundamental explanation for why this is the case and test our hypothesis by modifying existing methods to use correspondence-based loss instead of transformation-based loss. These experiments show that the modified networks converge faster and register more accurately even at larger misalignment when compared to the original networks.
翻訳日:2022-10-01 16:53:07 公開日:2020-10-30
# ジェネレーティブ・ディバイサル・ネットワークを用いた人間の皮膚緊張を抑えるための教師なしアプローチ

An Unsupervised Approach towards Varying Human Skin Tone Using Generative Adversarial Networks ( http://arxiv.org/abs/2010.16092v1 )

ライセンス: Link先を確認
Debapriya Roy, Diganta Mukherjee and Bhabatosh Chanda(参考訳) 拡張現実(AR)や仮想現実(VR)の普及に伴い、小売店は売上を増やすために顧客満足度を重視している。 拡張現実は新しい概念ではないが、ここ数年で多くの注目を集めてきた。 本研究は,様々な仮想および拡張現実アプリケーションにおいて,ユーザエクスペリエンスを向上させるために使用されるであろうこの方向を対象としている。 人の肌の色を変えるモデルを提案する。 肌の色の変化を所望する所望の変化を示す値の人物または集団の入力画像が公平または暗黒に与えられた場合、画像中の人物の肌色を変えることができる。 これは教師なしの方法であり、ポーズ、照明、人物数などの観点からも制限されていない。 この研究の目的は、プロや初心者が既存のアプリケーション(Photoshopなど)を使って肌の色を変えるのに必要な時間と労力を減らすことである。 本手法の有効性を確立するため,本手法は一般的なフォトエディタと,ヒューマン属性操作に関連する既存のベンチマーク手法との比較を行った。 異なるデータセットに対する厳密な実験は、知覚的に説得力のある出力を合成することで、この手法の有効性を示す。

With the increasing popularity of augmented and virtual reality, retailers are now focusing more towards customer satisfaction to increase the amount of sales. Although augmented reality is not a new concept but it has gained much needed attention over the past few years. Our present work is targeted towards this direction which may be used to enhance user experience in various virtual and augmented reality based applications. We propose a model to change skin tone of a person. Given any input image of a person or a group of persons with some value indicating the desired change of skin color towards fairness or darkness, this method can change the skin tone of the persons in the image. This is an unsupervised method and also unconstrained in terms of pose, illumination, number of persons in the image etc. The goal of this work is to reduce the time and effort which is generally required for changing the skin tone using existing applications (e.g., Photoshop) by professionals or novice. To establish the efficacy of this method we have compared our result with that of some popular photo editor and also with the result of some existing benchmark method related to human attribute manipulation. Rigorous experiments on different datasets show the effectiveness of this method in terms of synthesizing perceptually convincing outputs.
翻訳日:2022-10-01 16:52:52 公開日:2020-10-30
# PyraPose: ドメインシフト下での高速かつ正確なオブジェクトポース推定のための特徴ピラミド

PyraPose: Feature Pyramids for Fast and Accurate Object Pose Estimation under Domain Shift ( http://arxiv.org/abs/2010.16117v1 )

ライセンス: Link先を確認
Stefan Thalhammer, Markus Leitner, Timothy Patten and Markus Vincze(参考訳) オブジェクトのポーズ推定により、ロボットは環境を理解し、対話することができる。 新たな状況に適応するためには、合成データによるトレーニングが必要である。 残念なことに、ドメインシフトの下でのポーズ推定、すなわち、合成データに関するトレーニングと現実世界のテストは困難である。 深層学習に基づくアプローチは、エンコーダデコーダネットワークを使用する場合、現在最もよく機能するが、通常、異なるシーン特性を持つ新しいシナリオに一般化しない。 パッチベースのアプローチは、エンコーダ・デコーダネットワークではなく、ローカルからグローバルへのオブジェクト情報がより表現しやすいため、合成から現実への転送に適していると論じる。 そこで本研究では,異なる特徴マップ解像度のポーズ仮説を並列に作成するための,特殊な特徴ピラミッドネットワークに基づく新しい手法を提案する。 我々の単発ポーズ推定アプローチは、複数の標準データセットで評価され、アートの状態を最大35%向上させる。 また, 合成データを用いた新しい環境への一般化の利点を実証するために, 実世界における把持実験を行う。

Object pose estimation enables robots to understand and interact with their environments. Training with synthetic data is necessary in order to adapt to novel situations. Unfortunately, pose estimation under domain shift, i.e., training on synthetic data and testing in the real world, is challenging. Deep learning-based approaches currently perform best when using encoder-decoder networks but typically do not generalize to new scenarios with different scene characteristics. We argue that patch-based approaches, instead of encoder-decoder networks, are more suited for synthetic-to-real transfer because local to global object information is better represented. To that end, we present a novel approach based on a specialized feature pyramid network to compute multi-scale features for creating pose hypotheses on different feature map resolutions in parallel. Our single-shot pose estimation approach is evaluated on multiple standard datasets and outperforms the state of the art by up to 35%. We also perform grasping experiments in the real world to demonstrate the advantage of using synthetic data to generalize to novel environments.
翻訳日:2022-10-01 16:52:32 公開日:2020-10-30
# 変形型対称ガボールウェーブレットネットワークを用いた小型雑音・遠近的顔検出

Small Noisy and Perspective Face Detection using Deformable Symmetric Gabor Wavelet Network ( http://arxiv.org/abs/2010.16164v1 )

ライセンス: Link先を確認
Sherzod Salokhiddinov, Seungkyu Lee(参考訳) 低解像度画像における顔検出と追跡は、顔キャラクタリゼーションの外観特徴の制限のため、ささいな作業ではない。 さらに、表情は、この小さくノイズの多い顔にさらなる歪みを与える。 本稿では,低解像度画像における顔検出のための変形可能な対称ガボルウェーブレットネットワークモデルを提案する。 本モデルでは, 面モデルの回転, 翻訳, 拡張, 視点, 部分変形量を対称性制約で最適化する。 対称性の制約は、モデルがノイズや歪みに対してより堅牢になるのに役立つ。 低解像度の顔画像データセットとビデオによる実験結果から,様々な困難条件下での有望な顔検出と追跡結果が得られた。

Face detection and tracking in low resolution image is not a trivial task due to the limitation in the appearance features for face characterization. Moreover, facial expression gives additional distortion on this small and noisy face. In this paper, we propose deformable symmetric Gabor wavelet network face model for face detection in low resolution image. Our model optimizes the rotation, translation, dilation, perspective and partial deformation amount of the face model with symmetry constraints. Symmetry constraints help our model to be more robust to noise and distortion. Experimental results on our low resolution face image dataset and videos show promising face detection and tracking results under various challenging conditions.
翻訳日:2022-10-01 16:52:15 公開日:2020-10-30
# 計測・ロバスト制御障壁関数による学習知覚モジュールの安全性の保証

Guaranteeing Safety of Learned Perception Modules via Measurement-Robust Control Barrier Functions ( http://arxiv.org/abs/2010.16001v1 )

ライセンス: Link先を確認
Sarah Dean, Andrew J. Taylor, Ryan K. Cosner, Benjamin Recht, Aaron D. Ames(参考訳) 現代の非線形制御理論は、安全性や安定性などの特性を持つシステムを与えるフィードバックコントローラの開発を目指している。 これらのコントローラによって保証される保証は、しばしば制御アクションを決定するためにシステム状態の正確な推定に依存する。 実際、測定モデルの不確実性は、これらの保証を劣化させる状態推定の誤りにつながる可能性がある。 本稿では,制御理論と機械学習の技術を統一し,測定モデルの不確実性が存在する場合に安全性を実現する制御器を合成する。 計測-ロバスト制御障壁関数(mr-cbf)の概念を,測定モデルの不確実性に直面する場合に安全な制御入力を決定するツールとして定義する。 さらに、MR-CBFは、学習に基づく知覚システムのサンプリング手法を通知し、学習モデルにおける許容誤差を定量化する。 シミュレーションセグウェイシステムにおいて, MR-CBFが測定モデルの不確実性による安全性を実現するための有効性を示す。

Modern nonlinear control theory seeks to develop feedback controllers that endow systems with properties such as safety and stability. The guarantees ensured by these controllers often rely on accurate estimates of the system state for determining control actions. In practice, measurement model uncertainty can lead to error in state estimates that degrades these guarantees. In this paper, we seek to unify techniques from control theory and machine learning to synthesize controllers that achieve safety in the presence of measurement model uncertainty. We define the notion of a Measurement-Robust Control Barrier Function (MR-CBF) as a tool for determining safe control inputs when facing measurement model uncertainty. Furthermore, MR-CBFs are used to inform sampling methodologies for learning-based perception systems and quantify tolerable error in the resulting learned models. We demonstrate the efficacy of MR-CBFs in achieving safety with measurement model uncertainty on a simulated Segway system.
翻訳日:2022-10-01 16:46:10 公開日:2020-10-30
# 複数プロトタイプ埋め込みによるリレーショナルトリプル抽出のためのブリッジテキストと知識

Bridging Text and Knowledge with Multi-Prototype Embedding for Few-Shot Relational Triple Extraction ( http://arxiv.org/abs/2010.16059v1 )

ライセンス: Link先を確認
Haiyang Yu, Ningyu Zhang, Shumin Deng, Hongbin Ye, Wei Zhang, Huajun Chen(参考訳) 現在の教師付きリレーショナルトリプル抽出アプローチでは,大量のラベル付きデータが必要となるため,少数の設定ではパフォーマンスが低下する。 しかし、人々はいくつかの例を学ぶことで新しい知識を把握できる。 この目的のために,我々は,まだよく分かっていない3重項抽出法について,まず第一歩を踏み出す。 従来のシングルタスク数ショット問題とは異なり、実体と関係が暗黙の相関を持つため、リレーショナルトリプル抽出はより困難である。 本稿では,関係三重項,すなわちエンティティペアと対応する関係の合成を共同で抽出する,新しいマルチプロトタイプ埋め込みネットワークモデルを提案する。 具体的には,テキストと関係性の両方に関する知識をブリッジするハイブリッドなプロトタイプ学習機構を設計する。 したがって、実体と関係の間の暗黙の相関が注入される。 さらに,より代表的なプロトタイプを学習するためのプロトタイプ認識正規化を提案する。 実験の結果, 提案手法は, 数発トリプル抽出の性能を向上できることがわかった。

Current supervised relational triple extraction approaches require huge amounts of labeled data and thus suffer from poor performance in few-shot settings. However, people can grasp new knowledge by learning a few instances. To this end, we take the first step to study the few-shot relational triple extraction, which has not been well understood. Unlike previous single-task few-shot problems, relational triple extraction is more challenging as the entities and relations have implicit correlations. In this paper, We propose a novel multi-prototype embedding network model to jointly extract the composition of relational triples, namely, entity pairs and corresponding relations. To be specific, we design a hybrid prototypical learning mechanism that bridges text and knowledge concerning both entities and relations. Thus, implicit correlations between entities and relations are injected. Additionally, we propose a prototype-aware regularization to learn more representative prototypes. Experimental results demonstrate that the proposed method can improve the performance of the few-shot triple extraction.
翻訳日:2022-10-01 16:44:07 公開日:2020-10-30
# ゼロショット関係分類のための論理誘導意味表現学習

Logic-guided Semantic Representation Learning for Zero-Shot Relation Classification ( http://arxiv.org/abs/2010.16068v1 )

ライセンス: Link先を確認
Juan Li, Ruoxu Wang, Ningyu Zhang, Wen Zhang, Fan Yang, Huajun Chen(参考訳) 関係分類は、文からエンティティペア間の意味関係を抽出することを目的としている。 しかし、既存のほとんどのメソッドは、トレーニング中に発生した関係クラスのみを識別できる。 テスト時に見当たらない関係を認識するために,ゼロショット関係分類の問題を検討する。 従来の研究は、関係型の理解性を改善するために、人工的な記述情報に頼らざるを得ない「理解」や「テキストの包含」が問題であると考えている。 したがって、関係ラベルの豊富な意味知識は無視される。 本稿では,ゼロショット関係分類のための論理誘導型意味表現学習モデルを提案する。 我々のアプローチは、暗黙的および明示的な意味表現と知識グラフの埋め込みと論理規則との接続を構築する。 広範な実験結果から,本手法は未知の関係型に一般化し,有望な改善が得られた。

Relation classification aims to extract semantic relations between entity pairs from the sentences. However, most existing methods can only identify seen relation classes that occurred during training. To recognize unseen relations at test time, we explore the problem of zero-shot relation classification. Previous work regards the problem as reading comprehension or textual entailment, which have to rely on artificial descriptive information to improve the understandability of relation types. Thus, rich semantic knowledge of the relation labels is ignored. In this paper, we propose a novel logic-guided semantic representation learning model for zero-shot relation classification. Our approach builds connections between seen and unseen relations via implicit and explicit semantic representations with knowledge graph embeddings and logic rules. Extensive experimental results demonstrate that our method can generalize to unseen relation types and achieve promising improvements.
翻訳日:2022-10-01 16:43:51 公開日:2020-10-30
# 位置音韻分解能のためのターゲット語マスキング

Target Word Masking for Location Metonymy Resolution ( http://arxiv.org/abs/2010.16097v1 )

ライセンス: Link先を確認
Haonan Li, Maria Vasardani, Martin Tomko, Timothy Baldwin(参考訳) 既存のメトニミーの解決手法は辞書や手作りの語彙資源といった外部資源から抽出された特徴に依存している。 本稿では,タグ,パーザ,地名のキュレーション辞書,その他の外部リソースに依存することなく,BERTのみに基づくエンドツーエンドの単語レベル分類手法を提案する。 提案手法は,従来のBERTモデルやベンチマークを大きなマージンで上回る5つのデータセットの最先端性を実現する。 また、我々の手法は目に見えないデータによく当てはまることを示す。

Existing metonymy resolution approaches rely on features extracted from external resources like dictionaries and hand-crafted lexical resources. In this paper, we propose an end-to-end word-level classification approach based only on BERT, without dependencies on taggers, parsers, curated dictionaries of place names, or other external resources. We show that our approach achieves the state-of-the-art on 5 datasets, surpassing conventional BERT models and benchmarks by a large margin. We also show that our approach generalises well to unseen data.
翻訳日:2022-10-01 16:43:37 公開日:2020-10-30
# 正確かつ一貫した評価に向けて:遠隔教師付き関係抽出のためのデータセット

Towards Accurate and Consistent Evaluation: A Dataset for Distantly-Supervised Relation Extraction ( http://arxiv.org/abs/2010.16275v1 )

ライセンス: Link先を確認
Tong Zhu, Haitao Wang, Junjie Yu, Xiabing Zhou, Wenliang Chen, Wei Zhang, Min Zhang(参考訳) 近年,深層ニューラルネットワークを用いた遠隔教師付き関係抽出が一定の成功を収めている。 Distant Supervision(DS)は、知識ベース(KB)から文へのエンティティペアのアノテートによって、大規模なアノテートデータを自動的に生成する。 しかし、これらのDS生成データセットは、テスト中に誤った評価スコアをもたらす間違ったラベルを持っているため、研究者を誤解させる可能性がある。 この問題を解決するために,ds生成データをトレーニングデータとして使用し,テストデータのラベル付けにアノテーションを採用可能な,新たなデータセットnythを構築した。 以前のデータセットと比較すると、NYT-Hははるかに大きなテストセットを持ち、より正確で一貫した評価を行うことができます。 最後に,nyt-h上で広く利用されているシステムの実験結果を示す。 実験結果から,DSラベル付きテストデータと人間アノテーション付きテストデータとでは,比較システムのランキング表が異なることが明らかとなった。 これは, 遠隔教師付き関係抽出の評価には, 人間の注釈データが必要であることを示している。

In recent years, distantly-supervised relation extraction has achieved a certain success by using deep neural networks. Distant Supervision (DS) can automatically generate large-scale annotated data by aligning entity pairs from Knowledge Bases (KB) to sentences. However, these DS-generated datasets inevitably have wrong labels that result in incorrect evaluation scores during testing, which may mislead the researchers. To solve this problem, we build a new dataset NYTH, where we use the DS-generated data as training data and hire annotators to label test data. Compared with the previous datasets, NYT-H has a much larger test set and then we can perform more accurate and consistent evaluation. Finally, we present the experimental results of several widely used systems on NYT-H. The experimental results show that the ranking lists of the comparison systems on the DS-labelled test data and human-annotated test data are different. This indicates that our human-annotated data is necessary for evaluation of distantly-supervised relation extraction.
翻訳日:2022-10-01 16:43:28 公開日:2020-10-30
# CT-CAPS:カプセルネットワークを用いた胸部CTスキャンからのCOVID-19病の特定のための特徴抽出に基づく自動フレームワーク

CT-CAPS: Feature Extraction-based Automated Framework for COVID-19 Disease Identification from Chest CT Scans using Capsule Networks ( http://arxiv.org/abs/2010.16043v1 )

ライセンス: Link先を確認
Shahin Heidarian, Parnian Afshar, Arash Mohammadi, Moezedin Javad Rafiee, Anastasia Oikonomou, Konstantinos N. Plataniotis, and Farnoosh Naderkhani(参考訳) 新型コロナウイルス(COVID-19)の世界的な流行は、世界に大きな影響を与え、第二次世界大戦以来、世界で最も困難な危機の1つとなった。 新型ウイルスの早期診断と分離は、感染拡大を予防し、流行曲線を平坦化するための重要なステップと考えられている。 胸部CT(Chest Computed Tomography)スキャンは、RT-PCR(Reverse Transcription Polymerase Chain Reaction)を補完する高感度、迅速、高精度な診断技術である。 近年,畳み込みニューラルネットワーク(cnn)に基づくディープラーニングモデルが有望な診断結果を示している。 しかし、CNNは画像インスタンス間の空間的関係をキャプチャできず、大きなデータセットを必要とする。 一方、カプセルネットワークは、空間的関係を捉えることができ、より小さなデータセットを必要とし、パラメータがかなり少ない。 本稿では,CT-CAPS(CT-CAPS)と呼ばれるCapsule Networkフレームワークを用いて,胸部CTスキャンの特徴を自動抽出する手法を提案する。 これらの特徴は最終カプセル層の前の層から抽出され、covid-19と非共発例を区別するために利用される。 307例の社内データセットを用いた実験では, 精度90.8%, 感度94.5%, 特異度86.0%の最先端性能を示した。

The global outbreak of the novel corona virus (COVID-19) disease has drastically impacted the world and led to one of the most challenging crisis across the globe since World War II. The early diagnosis and isolation of COVID-19 positive cases are considered as crucial steps towards preventing the spread of the disease and flattening the epidemic curve. Chest Computed Tomography (CT) scan is a highly sensitive, rapid, and accurate diagnostic technique that can complement Reverse Transcription Polymerase Chain Reaction (RT-PCR) test. Recently, deep learning-based models, mostly based on Convolutional Neural Networks (CNN), have shown promising diagnostic results. CNNs, however, are incapable of capturing spatial relations between image instances and require large datasets. Capsule Networks, on the other hand, can capture spatial relations, require smaller datasets, and have considerably fewer parameters. In this paper, a Capsule network framework, referred to as the "CT-CAPS", is presented to automatically extract distinctive features of chest CT scans. These features, which are extracted from the layer before the final capsule layer, are then leveraged to differentiate COVID-19 from Non-COVID cases. The experiments on our in-house dataset of 307 patients show the state-of-the-art performance with the accuracy of 90.8%, sensitivity of 94.5%, and specificity of 86.0%.
翻訳日:2022-10-01 16:37:57 公開日:2020-10-30
# オートパノプティクス:パノプティカルセグメンテーションのための協調多成分アーキテクチャ探索

Auto-Panoptic: Cooperative Multi-Component Architecture Search for Panoptic Segmentation ( http://arxiv.org/abs/2010.16119v1 )

ライセンス: Link先を確認
Yangxin Wu, Gengwei Zhang, Hang Xu, Xiaodan Liang, Liang Lin(参考訳) パノプティクスのセグメンテーションは、最先端の総合的なシーン理解手法のための新しいテストベッドとして、前景と背景の両方を同時にセグメンテーションする必要がある。 最先端のパン光学セグメンテーションネットワークは、バックボーン、プロポーザルベースのフォアグラウンドブランチ、セグメンテーションベースのバックグラウンドブランチ、および、専門知識と退屈な試行に大きく依存する機能融合モジュールなど、異なるネットワークコンポーネントにおいて高い構造的複雑さを示す。 本研究では,バックボーン,セグメンテーションブランチ,機能融合モジュールを含むすべての主要コンポーネントを,ワンショットネットワークアーキテクチャサーチ(NAS)パラダイムに基づいて一元的に探索する,効率的で協調的で高度に自動化されたフレームワークを提案する。 特に,新たに提案したモジュール内探索空間と問題指向のモジュール間探索空間を利用して,共通タスクNASをマルチコンポーネントシナリオに拡張することで,インスタンスセグメンテーションとセグメンテーションの両タスクでよく機能するだけでなく,前景物と背景物との相互関係も認識できる最適なネットワークアーキテクチャを実現する。 複雑なネットワークアーキテクチャにNASを適用することで発生する膨大な計算負担を軽減するため、探索オーバーヘッドを大幅に低減した堅牢で転送可能なアーキテクチャを見つけるための経路優先の検索ポリシーを提案する。 検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。 さらに、異なるデータセット間でのパス優先ポリシーの有効性とオートパノプティクスの転送可能性を示すために、広範囲な実験を行った。 コードとモデルは、https://github.com/Jacobew/AutoPanoptic.comで入手できる。

Panoptic segmentation is posed as a new popular test-bed for the state-of-the-art holistic scene understanding methods with the requirement of simultaneously segmenting both foreground things and background stuff. The state-of-the-art panoptic segmentation network exhibits high structural complexity in different network components, i.e. backbone, proposal-based foreground branch, segmentation-based background branch, and feature fusion module across branches, which heavily relies on expert knowledge and tedious trials. In this work, we propose an efficient, cooperative and highly automated framework to simultaneously search for all main components including backbone, segmentation branches, and feature fusion module in a unified panoptic segmentation pipeline based on the prevailing one-shot Network Architecture Search (NAS) paradigm. Notably, we extend the common single-task NAS into the multi-component scenario by taking the advantage of the newly proposed intra-modular search space and problem-oriented inter-modular search space, which helps us to obtain an optimal network architecture that not only performs well in both instance segmentation and semantic segmentation tasks but also be aware of the reciprocal relations between foreground things and background stuff classes. To relieve the vast computation burden incurred by applying NAS to complicated network architectures, we present a novel path-priority greedy search policy to find a robust, transferrable architecture with significantly reduced searching overhead. Our searched architecture, namely Auto-Panoptic, achieves the new state-of-the-art on the challenging COCO and ADE20K benchmarks. Moreover, extensive experiments are conducted to demonstrate the effectiveness of path-priority policy and transferability of Auto-Panoptic across different datasets. Codes and models are available at: https://github.com/Jacobew/AutoPanoptic.
翻訳日:2022-10-01 16:37:32 公開日:2020-10-30
# ベイズ最適化によるロボットイントロスペクションのラプラス近似

Bayesian Optimization Meets Laplace Approximation for Robotic Introspection ( http://arxiv.org/abs/2010.16141v1 )

ライセンス: Link先を確認
Matthias Humt, Jongseok Lee, Rudolph Triebel(参考訳) ロボット工学において、深層学習(DL)法はますます広く使われているが、信頼度を推定できないため、最終的には脆弱で信頼性の低いシステムに繋がる。 これは長期的な自律性のためのdlメソッドの潜在的展開を妨げる。 そこで本稿では,Deep Neural Networks (DNN) をより内省的にするためのスケーラブルなLaplace Approximation (LA) 手法を提案する。 特に,本手法では,実際の重みを後方に満たさない傾向を緩和し,キャリブレーションと予測の精度を同時に最適化するベイズ最適化 (bo) アルゴリズムを提案する。 提案するboアプローチがランダム検索に比べて少ないイテレーションを必要とすることを実証し,提案フレームワークを大規模データセットやアーキテクチャにスケールアップ可能であることを示す。

In robotics, deep learning (DL) methods are used more and more widely, but their general inability to provide reliable confidence estimates will ultimately lead to fragile and unreliable systems. This impedes the potential deployments of DL methods for long-term autonomy. Therefore, in this paper we introduce a scalable Laplace Approximation (LA) technique to make Deep Neural Networks (DNNs) more introspective, i.e. to enable them to provide accurate assessments of their failure probability for unseen test data. In particular, we propose a novel Bayesian Optimization (BO) algorithm to mitigate their tendency of under-fitting the true weight posterior, so that both the calibration and the accuracy of the predictions can be simultaneously optimized. We demonstrate empirically that the proposed BO approach requires fewer iterations for this when compared to random search, and we show that the proposed framework can be scaled up to large datasets and architectures.
翻訳日:2022-10-01 16:37:03 公開日:2020-10-30
# 画像分類における知覚改善 : 不可避なブラックボックス・アドバーサリー攻撃の探索

Perception Improvement for Free: Exploring Imperceptible Black-box Adversarial Attacks on Image Classification ( http://arxiv.org/abs/2011.05254v1 )

ライセンス: Link先を確認
Yongwei Wang, Mingquan Feng, Rabab Ward, Z. Jane Wang, Lanjun Wang(参考訳) ディープニューラルネットワークは敵の攻撃に弱い。 ホワイトボックスのadversarial attackは、小さな敵の摂動を伴うニューラルネットワークを騙すことができる。 しかし, 移動型ブラックボックス攻撃では, 敵の摂動を抑えることが特に困難である。 しばしばそのような敵対的な例は、不快なほど視力が悪く、実際には敵対的な攻撃の脅威を損なうために容易に発見できる。 本研究では,ブラックボックスの敵対的事例のイメージ品質を知覚的に向上させるため,心理的知覚モデルに基づく敵対的画像の生成による構造認識的敵攻撃を提案する。 具体的には、視覚に敏感な領域に低または無の摂動を割り当てながら、知覚的に重要でない領域に高い摂動を許容する。 空間制約付き対向摂動に加えて,離散コサイン変換(DCT)領域における新しい構造対応の周波数対向攻撃法を提案する。 提案する攻撃は勾配推定に依存しないため、既存の勾配に基づく攻撃に直接組み込むことができる。 実験の結果,攻撃成功率 (asr) を比較検討した結果,提案手法は視覚品質が大幅に向上した逆例を無償で生成できることがわかった。 特に周波数構造認識攻撃の場合、平均的なASRはベースライン攻撃よりも10%以上改善される。

Deep neural networks are vulnerable to adversarial attacks. White-box adversarial attacks can fool neural networks with small adversarial perturbations, especially for large size images. However, keeping successful adversarial perturbations imperceptible is especially challenging for transfer-based black-box adversarial attacks. Often such adversarial examples can be easily spotted due to their unpleasantly poor visual qualities, which compromises the threat of adversarial attacks in practice. In this study, to improve the image quality of black-box adversarial examples perceptually, we propose structure-aware adversarial attacks by generating adversarial images based on psychological perceptual models. Specifically, we allow higher perturbations on perceptually insignificant regions, while assigning lower or no perturbation on visually sensitive regions. In addition to the proposed spatial-constrained adversarial perturbations, we also propose a novel structure-aware frequency adversarial attack method in the discrete cosine transform (DCT) domain. Since the proposed attacks are independent of the gradient estimation, they can be directly incorporated with existing gradient-based attacks. Experimental results show that, with the comparable attack success rate (ASR), the proposed methods can produce adversarial examples with considerably improved visual quality for free. With the comparable perceptual quality, the proposed approaches achieve higher attack success rates: particularly for the frequency structure-aware attacks, the average ASR improves more than 10% over the baseline attacks.
翻訳日:2022-10-01 16:34:50 公開日:2020-10-30
# 深層学習を用いた道路損傷検出

Road Damage Detection using Deep Ensemble Learning ( http://arxiv.org/abs/2011.00728v1 )

ライセンス: Link先を確認
Keval Doshi, Yasin Yilmaz(参考訳) 道路の損傷検出は、伝統的に高価な高性能センサーを使用して行われている道路の維持に不可欠である。 近年の技術の進歩、特にコンピュータビジョンでは、様々な種類の道路損傷を検出して分類することが可能となり、効率的な保守と資源管理が容易になった。 本稿では,IEEE BigData Cup Challenge 2020に提出した道路損傷の効率的な検出と分類のためのアンサンブルモデルを提案する。 you only look once (yolo-v4) と呼ばれる最先端の物体検出装置を使用し、チェコ、日本、インドからの様々な道路損傷の画像を訓練している。 我々のアンサンブルアプローチは、いくつかの異なるモデルバージョンで広範囲にテストされ、テスト1データセットで0.628、テスト2データセットで0.6358のスコアを達成できた。

Road damage detection is critical for the maintenance of a road, which traditionally has been performed using expensive high-performance sensors. With the recent advances in technology, especially in computer vision, it is now possible to detect and categorize different types of road damages, which can facilitate efficient maintenance and resource management. In this work, we present an ensemble model for efficient detection and classification of road damages, which we have submitted to the IEEE BigData Cup Challenge 2020. Our solution utilizes a state-of-the-art object detector known as You Only Look Once (YOLO-v4), which is trained on images of various types of road damages from Czech, Japan and India. Our ensemble approach was extensively tested with several different model versions and it was able to achieve an F1 score of 0.628 on the test 1 dataset and 0.6358 on the test 2 dataset.
翻訳日:2022-10-01 16:29:39 公開日:2020-10-30
# 高周波・低周波情報による畳み込みニューラルネットワークの性能について

On the Performance of Convolutional Neural Networks under High and Low Frequency Information ( http://arxiv.org/abs/2011.06496v1 )

ライセンス: Link先を確認
Roshan Reddy Yedla and Shiv Ram Dubey(参考訳) 畳み込みニューラルネットワーク(cnns)は、オブジェクト認識、顔認識、医療画像解析など、さまざまな問題に対して、近年非常に有望なパフォーマンスを示している。 しかし、一般的に訓練されたcnnモデルは、訓練されたセットに非常によく似たテストセット上でテストされる。 CNNモデルの一般化性と堅牢性は、目に見えないデータを扱うために非常に重要な側面である。 本稿では,cnnモデルの性能を画像の高頻度および低周波数情報に対して検討する。 我々は、訓練されたCNNが高周波・低周波画像の一般化に失敗したことを観察する。 高速・低周波画像に対してCNNを堅牢にするために,トレーニング中の確率的フィルタリングに基づくデータ拡張を提案する。 確率フィルタリングに基づくデータ拡張手法により,高次・低周波一般化とロバスト性の観点から,良好な性能向上が得られた。 実験は、CIFAR-10データセット上のResNet50モデルとTiny-ImageNetデータセット上のResNet101モデルを使用して行われる。

Convolutional neural networks (CNNs) have shown very promising performance in recent years for different problems, including object recognition, face recognition, medical image analysis, etc. However, generally the trained CNN models are tested over the test set which is very similar to the trained set. The generalizability and robustness of the CNN models are very important aspects to make it to work for the unseen data. In this letter, we study the performance of CNN models over the high and low frequency information of the images. We observe that the trained CNN fails to generalize over the high and low frequency images. In order to make the CNN robust against high and low frequency images, we propose the stochastic filtering based data augmentation during training. A satisfactory performance improvement has been observed in terms of the high and low frequency generalization and robustness with the proposed stochastic filtering based data augmentation approach. The experimentations are performed using ResNet50 model over the CIFAR-10 dataset and ResNet101 model over Tiny-ImageNet dataset.
翻訳日:2022-10-01 16:29:02 公開日:2020-10-30
# 治療の公平な配分に固有のトレードオフ

Inherent Trade-offs in the Fair Allocation of Treatments ( http://arxiv.org/abs/2010.16409v1 )

ライセンス: Link先を確認
Yuzi He, Keith Burghardt, Siyi Guo, Kristina Lerman(参考訳) 明示的かつ暗黙的な偏見は人間の判断を曇らせ、少数民族の差別的扱いに繋がる。 アルゴリズム的公平性の基本的な目標は、保護されたクラスに対して公平な待遇を提供しながら、全体的な結果を改善する政策を学ぶことによって、人間の判断の落とし穴を避けることである。 本稿では,公平な制約を受けるデータから最適な介入方針を学習する因果的枠組みを提案する。 治療バイアスの尺度を2つ定義し、全体の結果に最適化しながらバイアスを最小化する最善の治療課題を推定する。 公平さと全体的な利益のバランスをとるジレンマがあることを実証するが、特定の状況(肯定的な行動)において保護されたクラスに優先的な処置を行うことで、公正さを保ちながら全体的な利益を劇的に改善することができる。 このフレームワークを,標準化テストにおける学生結果を含むデータに適用し,学生テストスコアをかなり向上させる実世界ポリシーの設計に利用する方法を示す。 我々のフレームワークは、現実世界の設定で公正な治療ポリシーを学ぶための原則的な方法を提供する。

Explicit and implicit bias clouds human judgement, leading to discriminatory treatment of minority groups. A fundamental goal of algorithmic fairness is to avoid the pitfalls in human judgement by learning policies that improve the overall outcomes while providing fair treatment to protected classes. In this paper, we propose a causal framework that learns optimal intervention policies from data subject to fairness constraints. We define two measures of treatment bias and infer best treatment assignment that minimizes the bias while optimizing overall outcome. We demonstrate that there is a dilemma of balancing fairness and overall benefit; however, allowing preferential treatment to protected classes in certain circumstances (affirmative action) can dramatically improve the overall benefit while also preserving fairness. We apply our framework to data containing student outcomes on standardized tests and show how it can be used to design real-world policies that fairly improve student test scores. Our framework provides a principled way to learn fair treatment policies in real-world settings.
翻訳日:2022-10-01 16:28:31 公開日:2020-10-30
# マルチビュー・スタックリングにおけるビュー選択:メタラーナーの選択

View selection in multi-view stacking: Choosing the meta-learner ( http://arxiv.org/abs/2010.16271v1 )

ライセンス: Link先を確認
Wouter van Loon, Marjolein Fokkema, Botond Szabo, Mark de Rooij(参考訳) マルチビュー・スタックング(Multi-view stacking)は、異なるビュー(つまり異なる特徴集合)から同じオブジェクト群を記述する情報を組み合わせるためのフレームワークである。 このフレームワークでは、ベースリーナーアルゴリズムは各ビューで個別に訓練され、それらの予測はメタリーナーアルゴリズムによって合成される。 前回の研究では、重ね合わせペナルティ付きロジスティック回帰(英語版)が、予測に最も重要なビューを特定するのに有用であることが示されている。 本稿では,メタリーナーとして使用する7つの異なるアルゴリズムを考察し,シミュレーションにおける視点選択と分類性能の評価と,実際の遺伝子発現データセットに対する2つの応用により,この研究を拡大する。 以上の結果から,検討対象の視点選択と分類精度が重要である場合,非負のラッソ,非負の適応ラッソ,非負の弾性ネットが適当であることが示唆された。 この3つのうちどれが好まれるかは、研究の文脈に依存する。 残りの4つのメタラーナー(非負の尾根回帰、非負の前方選択、安定性の選択、補間予測器)は、他の3つよりも好まれる利点はほとんどなかった。

Multi-view stacking is a framework for combining information from different views (i.e. different feature sets) describing the same set of objects. In this framework, a base-learner algorithm is trained on each view separately, and their predictions are then combined by a meta-learner algorithm. In a previous study, stacked penalized logistic regression, a special case of multi-view stacking, has been shown to be useful in identifying which views are most important for prediction. In this article we expand this research by considering seven different algorithms to use as the meta-learner, and evaluating their view selection and classification performance in simulations and two applications on real gene-expression data sets. Our results suggest that if both view selection and classification accuracy are important to the research at hand, then the nonnegative lasso, nonnegative adaptive lasso and nonnegative elastic net are suitable meta-learners. Exactly which among these three is to be preferred depends on the research context. The remaining four meta-learners, namely nonnegative ridge regression, nonnegative forward selection, stability selection and the interpolating predictor, show little advantages in order to be preferred over the other three.
翻訳日:2022-10-01 16:28:13 公開日:2020-10-30
# グラフ表現学習による欠落データ処理

Handling Missing Data with Graph Representation Learning ( http://arxiv.org/abs/2010.16418v1 )

ライセンス: Link先を確認
Jiaxuan You, Xiaobai Ma, Daisy Yi Ding, Mykel Kochenderfer, Jure Leskovec(参考訳) データの欠落した機械学習は、観測された値に基づいて特徴値の欠落を推定する機能インプテーションと、不完全なデータから直接下流ラベルを学習するラベル予測の2つの方法によってアプローチされている。 しかし、既存の計算モデルには事前仮定が強く、下流のタスクから学べない傾向があり、ラベル予測を対象とするモデルはヒューリスティックスを伴い、スケーラビリティの問題に遭遇することがある。 本稿では,特徴量計算とラベル予測のためのグラフベースのフレームワークであるGRAPEを提案する。 GRAPEはグラフ表現を用いて欠落したデータ問題に対処し、観察と特徴を二部グラフ内の2種類のノードと見なし、観察された特徴値をエッジとみなす。 GRAPEフレームワークでは,特徴計算をエッジレベルの予測タスクとして,ラベル予測をノードレベルの予測タスクとして定式化する。 これらのタスクは、Graph Neural Networksで解決される。 9つのベンチマークデータセットによる実験結果から、GRAPEは計算タスクの平均絶対誤差を20%低く、ラベル予測タスクを10%低くすることがわかった。

Machine learning with missing data has been approached in two different ways, including feature imputation where missing feature values are estimated based on observed values, and label prediction where downstream labels are learned directly from incomplete data. However, existing imputation models tend to have strong prior assumptions and cannot learn from downstream tasks, while models targeting label prediction often involve heuristics and can encounter scalability issues. Here we propose GRAPE, a graph-based framework for feature imputation as well as label prediction. GRAPE tackles the missing data problem using a graph representation, where the observations and features are viewed as two types of nodes in a bipartite graph, and the observed feature values as edges. Under the GRAPE framework, the feature imputation is formulated as an edge-level prediction task and the label prediction as a node-level prediction task. These tasks are then solved with Graph Neural Networks. Experimental results on nine benchmark datasets show that GRAPE yields 20% lower mean absolute error for imputation tasks and 10% lower for label prediction tasks, compared with existing state-of-the-art methods.
翻訳日:2022-10-01 16:27:02 公開日:2020-10-30
# FLANNEL:COVID-19検出のための音声ロスベースのニューラルネットワーク

FLANNEL: Focal Loss Based Neural Network Ensemble for COVID-19 Detection ( http://arxiv.org/abs/2010.16039v1 )

ライセンス: Link先を確認
Zhi Qiao, Austin Bae, Lucas M. Glass, Cao Xiao, and Jimeng Sun(参考訳) 深層ニューラルネットワークを用いて、新型コロナウイルスの胸部x線像を他の肺炎や健康な患者と区別する可能性をテストする。 我々は, 正常, 細菌性肺炎, 非ウイルス性肺炎, COVID-19の4つのクラスを持つ2874名の患者を対象に, 5508個の胸部X線画像を含む2つの公開ソースからのX線画像データを構築した。 FLANNEL(Focal Loss Based Neural Ensemble Network)は、いくつかの畳み込みニューラルネットワーク(CNN)モデルをアンサンブルする柔軟なモジュールであり、クラス不均衡データ上での正確なCOVID-19検出のための焦点損失を伴うヒューズである。 FLANNELは、すべての指標において、COVID-19識別タスクのベースラインモデルを上回っている。 最高のベースラインと比較すると、FLANNELのマクロF1スコアは6%増加し、精度0.7833(0.07)、リコール0.8609(0.03)、F1スコア0.8168(0.03)となる。

To test the possibility of differentiating chest x-ray images of COVID-19 against other pneumonia and healthy patients using deep neural networks. We construct the X-ray imaging data from two publicly available sources, which include 5508 chest x-ray images across 2874 patients with four classes: normal, bacterial pneumonia, non-COVID-19 viral pneumonia, and COVID-19. To identify COVID-19, we propose a Focal Loss Based Neural Ensemble Network (FLANNEL), a flexible module to ensemble several convolutional neural network (CNN) models and fuse with a focal loss for accurate COVID-19 detection on class imbalance data. FLANNEL consistently outperforms baseline models on COVID-19 identification task in all metrics. Compared with the best baseline, FLANNEL shows a higher macro-F1 score with 6% relative increase on Covid-19 identification task where it achieves 0.7833(0.07) in Precision, 0.8609(0.03) in Recall, and 0.8168(0.03) F1 score.
翻訳日:2022-10-01 16:26:43 公開日:2020-10-30
# COVID-FACT:胸部CT検査によるCOVID-19症例の同定のための完全自動化カプセルネットワークベースのフレームワーク

COVID-FACT: A Fully-Automated Capsule Network-based Framework for Identification of COVID-19 Cases from Chest CT scans ( http://arxiv.org/abs/2010.16041v1 )

ライセンス: Link先を確認
Shahin Heidarian, Parnian Afshar, Nastaran Enshaei, Farnoosh Naderkhani, Anastasia Oikonomou, S. Farokh Atashzar, Faranak Babaki Fard, Kaveh Samimi, Konstantinos N. Plataniotis, Arash Mohammadi, and Moezedin Javad Rafiee(参考訳) 新たに発見されたコロナウイルス感染症2019(COVID-19)は、2019年後半に初めて発生し、世界中で数十万人の死者を出した。 ctスキャンは、他の診断試験、特に現在のゴールド標準、すなわちrt-pcr(reverse transcription polymerase chain reaction)テストと比較して、特徴的な特徴と高い感度を示した。 現在のディープラーニングベースのアルゴリズムは、主に畳み込みニューラルネットワーク(cnns)に基づいて開発され、covid-19肺炎の症例を特定する。 しかしcnnは、画像インスタンス間の詳細な空間関係を特定するために、広範なデータ拡張と大規模なデータセットを必要とする。 さらに、CTスキャンを利用した既存のアルゴリズムでは、簡単なしきい値設定機構を使用して患者レベルの予測をスライスレベルに拡張するか、あるいは病気を特定するための高度な感染症セグメンテーションに依存している。 本稿では,「COVID-FACT(COVID-FACT)」と呼ばれる陽性症例の同定のための2段階フルオートマチックCTベースのフレームワークを提案する。 COVID-FACTはCapsule Networksを主要なビルディングブロックとして利用しており、空間情報をキャプチャすることができる。 特に、感染領域の洗練された区分から新型コロナウイルスの成果を独立させるため、第1段階で感染を示すスライスが検出され、第2段階では、患者を新型コロナウイルスや非感染性に分類する責任がある。 COVID-FACTは感染したスライスを検知し、社内CTスキャンデータセットを使用して陽性のCOVID-19患者を同定する。 この実験に基づいて、COVID-FACTは90.82%の精度、94.55%の感度、86.04%の特異度、および0.98のエリアアンダー・ザ・カーブ(AUC)を達成できるが、それに比べてはるかに少ない監督とアノテーションに依存している。

The newly discovered Corona virus Disease 2019 (COVID-19) has been globally spreading and causing hundreds of thousands of deaths around the world as of its first emergence in late 2019. Computed tomography (CT) scans have shown distinctive features and higher sensitivity compared to other diagnostic tests, in particular the current gold standard, i.e., the Reverse Transcription Polymerase Chain Reaction (RT-PCR) test. Current deep learning-based algorithms are mainly developed based on Convolutional Neural Networks (CNNs) to identify COVID-19 pneumonia cases. CNNs, however, require extensive data augmentation and large datasets to identify detailed spatial relations between image instances. Furthermore, existing algorithms utilizing CT scans, either extend slice-level predictions to patient-level ones using a simple thresholding mechanism or rely on a sophisticated infection segmentation to identify the disease. In this paper, we propose a two-stage fully-automated CT-based framework for identification of COVID-19 positive cases referred to as the "COVID-FACT". COVID-FACT utilizes Capsule Networks, as its main building blocks and is, therefore, capable of capturing spatial information. In particular, to make the proposed COVID-FACT independent from sophisticated segmentation of the area of infection, slices demonstrating infection are detected at the first stage and the second stage is responsible for classifying patients into COVID and non-COVID cases. COVID-FACT detects slices with infection, and identifies positive COVID-19 cases using an in-house CT scan dataset, containing COVID-19, community acquired pneumonia, and normal cases. Based on our experiments, COVID-FACT achieves an accuracy of 90.82%, a sensitivity of 94.55%, a specificity of 86.04%, and an Area Under the Curve (AUC) of 0.98, while depending on far less supervision and annotation, in comparison to its counterparts.
翻訳日:2022-10-01 16:26:19 公開日:2020-10-30
# 深部発生型LDA

Deep generative LDA ( http://arxiv.org/abs/2010.16138v1 )

ライセンス: Link先を確認
Yunqi Cai, Dong Wang(参考訳) 線形判別分析(LDA)は分類と次元減少のための一般的なツールである。 しかし、その線型形式と基礎となるガウスの仮定によって制限されるが、LDAはデータ分布が複雑である状況では適用できない。 近年,識別正規化フロー(DNF)モデルを提案する。 本研究では,DNFを深部生成型LDAモデルとして再解釈し,複素データを表現する際の特性について検討する。 シミュレーション実験と話者認識実験を行った。 その結果、DNFとその部分空間バージョンは、複雑なデータのモデリングや低次元表現の検索において、従来のLDAよりもはるかに強力であることがわかった。

Linear discriminant analysis (LDA) is a popular tool for classification and dimension reduction. Limited by its linear form and the underlying Gaussian assumption, however, LDA is not applicable in situations where the data distribution is complex. Recently, we proposed a discriminative normalization flow (DNF) model. In this study, we reinterpret DNF as a deep generative LDA model, and study its properties in representing complex data. We conducted a simulation experiment and a speaker recognition experiment. The results show that DNF and its subspace version are much more powerful than the conventional LDA in modeling complex data and retrieving low-dimensional representations.
翻訳日:2022-10-01 16:19:35 公開日:2020-10-30
# テンソル分解と部分モジュラリティによる情報理論的特徴選択

Information-theoretic Feature Selection via Tensor Decomposition and Submodularity ( http://arxiv.org/abs/2010.16181v1 )

ライセンス: Link先を確認
Magda Amiridi, Nikos Kargas, Nicholas D. Sidiropoulos(参考訳) 選択した特徴ベクトルと対象変数の高次相互情報を最大化する特徴選択は、予測モデルの性能を最大化する関連する特徴の最良のサブセットを選択するという点において、ゴールドスタンダードである。 しかし、そのようなアプローチは一般に、すべての特徴と対象の多変量確率分布の知識を必要とし、挑戦的な組合せ最適化問題を伴う。 近年の研究では、任意の関節確率質量関数 (PMF) がカノニカルポリアディクス(テンソルランク)分解を介して、ベイズモデルとして表現できることが示されている。 本稿では,すべての変数のジョイントpmfの低ランクテンソルモデルと間接的ターゲティングを,複雑性を緩和し,与えられた特徴量の分類性能を最大化する手法として導入する。 関節PMFの低ランクモデリングにより,関節分布の主成分を学習することにより,次元の呪いを回避することができる。 もともとの目標変数ではなく、ナイーブ・ベイズモデルの潜在変数を間接的に予測することを目的として、性能保証を伴う欲望アルゴリズムを用いて取り組むことができる濃度制約に従う単調部分モジュラー関数の最大化として特徴選択問題を定式化することができる。 いくつかの標準データセットを用いた数値実験により、提案されたアプローチは、この重要な問題に対して最先端と好適に比較できることが示唆された。

Feature selection by maximizing high-order mutual information between the selected feature vector and a target variable is the gold standard in terms of selecting the best subset of relevant features that maximizes the performance of prediction models. However, such an approach typically requires knowledge of the multivariate probability distribution of all features and the target, and involves a challenging combinatorial optimization problem. Recent work has shown that any joint Probability Mass Function (PMF) can be represented as a naive Bayes model, via Canonical Polyadic (tensor rank) Decomposition. In this paper, we introduce a low-rank tensor model of the joint PMF of all variables and indirect targeting as a way of mitigating complexity and maximizing the classification performance for a given number of features. Through low-rank modeling of the joint PMF, it is possible to circumvent the curse of dimensionality by learning principal components of the joint distribution. By indirectly aiming to predict the latent variable of the naive Bayes model instead of the original target variable, it is possible to formulate the feature selection problem as maximization of a monotone submodular function subject to a cardinality constraint - which can be tackled using a greedy algorithm that comes with performance guarantees. Numerical experiments with several standard datasets suggest that the proposed approach compares favorably to the state-of-art for this important problem.
翻訳日:2022-10-01 16:19:25 公開日:2020-10-30
# 昇降モデルに対するニューラルネットワークの適用

Adapting Neural Networks for Uplift Models ( http://arxiv.org/abs/2011.00041v1 )

ライセンス: Link先を確認
Belbahri Mouloud, Gandouet Olivier, Kazma Ghaith(参考訳) アップリフトは個々の治療効果モデリングの特別な例である。 このようなモデルは、マーケティング介入のような特定の要因の因果推論を扱う。 実際にこれらのモデルは、製品マーケティングを改善するために製品やサービスを購入した顧客データに基づいて構築される。 upliftはどちらかを使って見積もる 一 条件付き平均回帰又は ii) 結果回帰が変化した。 既存のアプローチのほとんどは、アップリフトの場合の分類と回帰木の適応である。 しかし、実際にはこれらの従来のアプローチは過度に適合しがちである。 本稿ではニューラルネットワークを用いた新しい手法を提案する。 この表現は条件付き手段の違いと変換結果の損失を共同で最適化することができる。 その結果、モデルは上昇を見積もるだけでなく、結果を予測する上で一貫性を確保します。 データの場合、完全にランダム化された実験に重点を置いています。 提案手法は, 合成データと実データに関する最新技術を改善した。

Uplift is a particular case of individual treatment effect modeling. Such models deal with cause-and-effect inference for a specific factor, such as a marketing intervention. In practice, these models are built on customer data who purchased products or services to improve product marketing. Uplift is estimated using either i) conditional mean regression or ii) transformed outcome regression. Most existing approaches are adaptations of classification and regression trees for the uplift case. However, in practice, these conventional approaches are prone to overfitting. Here we propose a new method using neural networks. This representation allows to jointly optimize the difference in conditional means and the transformed outcome losses. As a consequence, the model not only estimates the uplift, but also ensures consistency in predicting the outcome. We focus on fully randomized experiments, which is the case of our data. We show our proposed method improves the state-of-the-art on synthetic and real data.
翻訳日:2022-10-01 16:18:13 公開日:2020-10-30
# 機能データのための分類と回帰木の誘導測定

Measure Inducing Classification and Regression Trees for Functional Data ( http://arxiv.org/abs/2011.00046v1 )

ライセンス: Link先を確認
Edoardo Belli, Simone Vantini(参考訳) 本稿では,ノードレベルでの表現学習と分割規則を活用し,ツリーの解釈可能性を維持しつつ一般化誤差を低減できる関数型データ解析の文脈における分類と回帰問題に対する木ベースアルゴリズムを提案する。 これは、制約付き凸最適化によって重み付き関数 $l^{2}$ 空間を学習することで実現され、入力関数から複数の重み付き積分特徴を抽出し、ツリーの内部ノードごとにバイナリスプリットを決定するために使用される。 この手法は、特定の問題に依存し得る適切な分割ルールと損失関数を定義し、木を元のgreedy CARTアルゴリズムで成長させ、スカラーデータやカテゴリデータと組み合わせることによって、複数の機能入力や出力を管理するように設計されている。 我々は,一次元領域上で定義されるスカラー値関数入力の場合に注目し,シミュレーション研究と4つの実世界応用を通して,分類・回帰タスクにおける本手法の有効性を説明する。

We propose a tree-based algorithm for classification and regression problems in the context of functional data analysis, which allows to leverage representation learning and multiple splitting rules at the node level, reducing generalization error while retaining the interpretability of a tree. This is achieved by learning a weighted functional $L^{2}$ space by means of constrained convex optimization, which is then used to extract multiple weighted integral features from the input functions, in order to determine the binary split for each internal node of the tree. The approach is designed to manage multiple functional inputs and/or outputs, by defining suitable splitting rules and loss functions that can depend on the specific problem and can also be combined with scalar and categorical data, as the tree is grown with the original greedy CART algorithm. We focus on the case of scalar-valued functional inputs defined on unidimensional domains and illustrate the effectiveness of our method in both classification and regression tasks, through a simulation study and four real world applications.
翻訳日:2022-10-01 16:18:04 公開日:2020-10-30
# 個別化治療を最適化するマルチドメイン成果の統合のための表現学習

Representation Learning for Integrating Multi-domain Outcomes to Optimize Individualized Treatments ( http://arxiv.org/abs/2011.00094v1 )

ライセンス: Link先を確認
Yuan Chen, Donglin Zeng, Tianchen Xu, Yuanjia Wang(参考訳) 精神疾患では、患者の基礎となる精神状態は、診断症状や患者機能スコアなどの観察された多領域の測定から推測される非保存的潜在構造である。 さらに, 患者間の疾患診断における相当な不均一性は, 個別治療方針の最適化に対処する必要がある。 これらの課題に対処するために,患者の精神状態を同時に学習し,各個人に対して最適な治療を推奨できる統合学習フレームワークを提案する。 この学習枠組みは、根本原因(真の精神状態)から生じる複数の疾患診断尺度をモデル化するための精神医学における測定理論に基づいている。 患者の潜在精神状態を表す不変構造を保ちつつ、多変量前および治療後の結果を組み込むことができる。 多層ニューラルネットワークは、複雑な処理効果の不均一性を許容するために用いられる。 治療方針の最適化は,多領域前処置測定により異なる治療条件下での潜在精神状態を比較することによって推察できる。 シミュレーションデータと実世界の臨床試験データを用いた実験により、学習された治療警察は異種治療効果の代替方法と好意的に比較でき、複数の領域において患者がより良い結果をもたらす幅広いユーティリティを有することが示された。

For mental disorders, patients' underlying mental states are non-observed latent constructs which have to be inferred from observed multi-domain measurements such as diagnostic symptoms and patient functioning scores. Additionally, substantial heterogeneity in the disease diagnosis between patients needs to be addressed for optimizing individualized treatment policy in order to achieve precision medicine. To address these challenges, we propose an integrated learning framework that can simultaneously learn patients' underlying mental states and recommend optimal treatments for each individual. This learning framework is based on the measurement theory in psychiatry for modeling multiple disease diagnostic measures as arising from the underlying causes (true mental states). It allows incorporation of the multivariate pre- and post-treatment outcomes as well as biological measures while preserving the invariant structure for representing patients' latent mental states. A multi-layer neural network is used to allow complex treatment effect heterogeneity. Optimal treatment policy can be inferred for future patients by comparing their potential mental states under different treatments given the observed multi-domain pre-treatment measurements. Experiments on simulated data and a real-world clinical trial data show that the learned treatment polices compare favorably to alternative methods on heterogeneous treatment effects, and have broad utilities which lead to better patient outcomes on multiple domains.
翻訳日:2022-10-01 16:17:27 公開日:2020-10-30
# トピック保存型合成ニュース生成:敵対的深層強化学習アプローチ

Topic-Preserving Synthetic News Generation: An Adversarial Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2010.16324v1 )

ライセンス: Link先を確認
Ahmadreza Mosallanezhad, Kai Shu, Huan Liu(参考訳) 現在、OpenAIのGPT-2のような強力な言語モデルがあり、読みやすいテキストを生成することができ、特定のドメイン用のテキストを生成するように微調整することができる。 gpt-2を考えると、特定のトピックに関する合成ニュースを直接生成することはできず、言語モデルの出力を明示的に制御することはできない。 本稿では,トピック保存型ニュース生成の新しい課題について検討する。 本稿では,gpt-2の出力を制御する新しい深層強化学習ベース手法を提案する。 GPT-2を用いてテキストを生成する場合、デフォルトで最も確率の高い単語が語彙から選択される。 GPT-2の出力から毎回最高の単語を選択する代わりに、RLエージェントは与えられたトピックのマッチングを最適化する単語を選択する。 また,偽ニュース検知器を敵として使用し,提案手法を用いて現実的なニュースを生成する。 本稿では,偽ニュース分類器では容易に検出できないニュースとして,現実のニュースを考察する。 実験結果は,最先端のベースラインよりもトピック保存型ニュースコンテンツ生成における提案フレームワークの有効性を示す。

Nowadays, there exist powerful language models such as OpenAI's GPT-2 that can generate readable text and can be fine-tuned to generate text for a specific domain. Considering GPT-2, it cannot directly generate synthetic news with respect to a given topic and the output of the language model cannot be explicitly controlled. In this paper, we study the novel problem of topic-preserving synthetic news generation. We propose a novel deep reinforcement learning-based method to control the output of GPT-2 with respect to a given news topic. When generating text using GPT-2, by default, the most probable word is selected from the vocabulary. Instead of selecting the best word each time from GPT-2's output, an RL agent tries to select words that optimize the matching of a given topic. In addition, using a fake news detector as an adversary, we investigate generating realistic news using our proposed method. In this paper, we consider realistic news as news that cannot be easily detected by a fake news classifier. Experimental results demonstrate the effectiveness of the proposed framework on generating topic-preserving news content than state-of-the-art baselines.
翻訳日:2022-10-01 16:09:59 公開日:2020-10-30
# 能力推定によるカリキュラム学習のための動的データ選択

Dynamic Data Selection for Curriculum Learning via Ability Estimation ( http://arxiv.org/abs/2011.00080v1 )

ライセンス: Link先を確認
John P. Lalor and Hong Yu(参考訳) カリキュラム学習法は通常、訓練例の難しさやモデルの能力を評価するためにヒューリスティックスに依存する。 本研究では,難易度を学習難易度パラメータに置き換えることを提案する。 また、各トレーニングエポックにおけるモデル能力を調査し、その時点で最高のトレーニング例を選択する戦略であるDDaCLAE(Dynamic Data selection for Curriculum Learning via Ability Estimation)を提案する。 学習難易度と能力を用いたモデルがGLUE分類タスクにおけるヒューリスティックなカリキュラム学習モデルより優れていることを示す。

Curriculum learning methods typically rely on heuristics to estimate the difficulty of training examples or the ability of the model. In this work, we propose replacing difficulty heuristics with learned difficulty parameters. We also propose Dynamic Data selection for Curriculum Learning via Ability Estimation (DDaCLAE), a strategy that probes model ability at each training epoch to select the best training examples at that point. We show that models using learned difficulty and/or ability outperform heuristic-based curriculum learning models on the GLUE classification tasks.
翻訳日:2022-10-01 16:09:42 公開日:2020-10-30
# 半教師付き学習による対話障害検出の改善

Improving Dialogue Breakdown Detection with Semi-Supervised Learning ( http://arxiv.org/abs/2011.00136v1 )

ライセンス: Link先を確認
Nathan Ng and Marzyeh Ghassemi and Narendran Thangarajan and Jiacheng Pan and Qi Guo(参考訳) 対話エージェントにユーザ信頼を構築するには、スムーズで一貫した対話交換が必要である。 しかし、エージェントは会話的なコンテキストを失い、無関係な発話を生成することができる。 これらの状況は対話分解と呼ばれ、エージェントの発話によってユーザーが会話を続けるのを防ぐ。 対話の破壊を検知するシステムを構築することにより、エージェントは適切に復旧するか、完全に破壊を避けることができる。 本稿では,Redditデータセットの事前学習や,多様体に基づくデータ拡張手法を含む,対話分解検出のための半教師付き学習手法について検討する。 本研究は,DBDC(Dilogue Breakdown Detection Challenge)英語共有タスクにおいて,これらの手法の有効性を示す。 2020 DBDC5への提出は、まずタスクの場所を共有し、ベースラインやその他の提出を12倍の精度で上回りました。 半教師付き学習法は,2019年のdbdc4データを用いたアブレーションにおいて,ベースラインbertモデルの性能を2\%精度で向上させる。 これらの手法は一般に任意の対話タスクに適用でき、モデル性能を改善するための簡単な方法を提供する。

Building user trust in dialogue agents requires smooth and consistent dialogue exchanges. However, agents can easily lose conversational context and generate irrelevant utterances. These situations are called dialogue breakdown, where agent utterances prevent users from continuing the conversation. Building systems to detect dialogue breakdown allows agents to recover appropriately or avoid breakdown entirely. In this paper we investigate the use of semi-supervised learning methods to improve dialogue breakdown detection, including continued pre-training on the Reddit dataset and a manifold-based data augmentation method. We demonstrate the effectiveness of these methods on the Dialogue Breakdown Detection Challenge (DBDC) English shared task. Our submissions to the 2020 DBDC5 shared task place first, beating baselines and other submissions by over 12\% accuracy. In ablations on DBDC4 data from 2019, our semi-supervised learning methods improve the performance of a baseline BERT model by 2\% accuracy. These methods are applicable generally to any dialogue task and provide a simple way to improve model performance.
翻訳日:2022-10-01 16:09:21 公開日:2020-10-30
# リソースアウェアパレート最適自動機械学習プラットフォーム

Resource-Aware Pareto-Optimal Automated Machine Learning Platform ( http://arxiv.org/abs/2011.00073v1 )

ライセンス: Link先を確認
Yao Yang, Andrew Nam, Mohamad M. Nasr-Azadani, Teresa Tung(参考訳) 本研究では,複数の目的を考慮した機械学習モデルの構築と,リソースとハードウエアの制約を柔軟かつ一般化したアルゴリズムを実現するための,新しいプラットフォームであるResource-Aware AutoML(RA-AutoML)を提案する。 RA-AutoMLは、ハイパーパラメータサーチ(HPS)とニューラルアーキテクチャサーチ(NAS)をインテリジェントに実行し、事前定義された目的を最適化するモデルを構築する。 ra-automlは、問題やビジネス要件によって要求される目的とともに、多くのリソース/ハードウェア制約を規定できる汎用フレームワークである。 RA-AutoMLのコアとなるのは,制約を意識したベイズ最適化と遺伝的アルゴリズムを組み合わせた社内検索エンジンアルゴリズムMOBOGAである。 CIFAR-10データセットに対する実験は、最先端のニューラルネットワークモデルによる結果と比較して非常に精度が良いが、モデルサイズという形で資源制約を受ける。

In this study, we introduce a novel platform Resource-Aware AutoML (RA-AutoML) which enables flexible and generalized algorithms to build machine learning models subjected to multiple objectives, as well as resource and hard-ware constraints. RA-AutoML intelligently conducts Hyper-Parameter Search(HPS) as well as Neural Architecture Search (NAS) to build models optimizing predefined objectives. RA-AutoML is a versatile framework that allows user to prescribe many resource/hardware constraints along with objectives demanded by the problem at hand or business requirements. At its core, RA-AutoML relies on our in-house search-engine algorithm,MOBOGA, which combines a modified constraint-aware Bayesian Optimization and Genetic Algorithm to construct Pareto optimal candidates. Our experiments on CIFAR-10 dataset shows very good accuracy compared to results obtained by state-of-art neural network models, while subjected to resource constraints in the form of model size.
翻訳日:2022-10-01 16:08:57 公開日:2020-10-30
# マニフォールド学習の数学的基礎

The Mathematical Foundations of Manifold Learning ( http://arxiv.org/abs/2011.01307v1 )

ライセンス: Link先を確認
Luke Melas-Kyriazi(参考訳) マニフォールド学習(英: Manifold learning)は、高次元空間に埋め込まれた低次元多様体上の観測データの仮定に基づいて、機械学習のポピュラーで急速に成長するサブフィールドである。 この論文は多様体学習に関する数学的視点を示し、カーネル学習、スペクトルグラフ理論、微分幾何学の交点を掘り下げている。 グラフと多様体の間の顕著な相互作用に強調され、多様体正則化の広く用いられる技法の基礎となる。 この研究は、一般的な多様体学習アルゴリズムと次元減少技術の基礎となる定理を理解することに興味を持つ機械学習研究者や実践者を含む、幅広い数学的聴衆に公開するために書かれた。

Manifold learning is a popular and quickly-growing subfield of machine learning based on the assumption that one's observed data lie on a low-dimensional manifold embedded in a higher-dimensional space. This thesis presents a mathematical perspective on manifold learning, delving into the intersection of kernel learning, spectral graph theory, and differential geometry. Emphasis is placed on the remarkable interplay between graphs and manifolds, which forms the foundation for the widely-used technique of manifold regularization. This work is written to be accessible to a broad mathematical audience, including machine learning researchers and practitioners interested in understanding the theorems underlying popular manifold learning algorithms and dimensionality reduction techniques.
翻訳日:2022-10-01 16:08:41 公開日:2020-10-30
# ユークリッド空間における階層構造の教師なし埋め込み

Unsupervised Embedding of Hierarchical Structure in Euclidean Space ( http://arxiv.org/abs/2010.16055v1 )

ライセンス: Link先を確認
Jinyu Zhao, Yi Hao, Cyrus Rashtchian(参考訳) ディープ埋め込み法は教師なし学習の多くの領域に影響を与えた。 しかし、階層構造を学ぶ最良の方法は非ユークリッド表現を使うのに対し、ユークリッド幾何学は多くの階層的クラスタリングアルゴリズムの背後にある理論の根底にある。 これら2つの領域間のギャップを埋めるため、凝集アルゴリズムによって生成される階層的クラスタリングを改善する方法として、ユークリッド空間にデータの非線形埋め込みを学ぶことを検討する。 組込みを学習するために,ガウス混合を用いた変分オートエンコーダを用いて再検討を行い,潜在空間の組込みを再スケーリングし,ウォードのリンケージに基づくアルゴリズムを適用すると,デンドログラム純度とモーゼリー・ワンコスト関数の両方の結果が向上することを示す。 最後に,本手法の有効性を理論的に説明し,実験結果を補完する。 組込みベクトルの合成モデルを調査し,ウォード法が植込みされた階層的クラスタリングを高い確率で正確に復元することを示す。

Deep embedding methods have influenced many areas of unsupervised learning. However, the best methods for learning hierarchical structure use non-Euclidean representations, whereas Euclidean geometry underlies the theory behind many hierarchical clustering algorithms. To bridge the gap between these two areas, we consider learning a non-linear embedding of data into Euclidean space as a way to improve the hierarchical clustering produced by agglomerative algorithms. To learn the embedding, we revisit using a variational autoencoder with a Gaussian mixture prior, and we show that rescaling the latent space embedding and then applying Ward's linkage-based algorithm leads to improved results for both dendrogram purity and the Moseley-Wang cost function. Finally, we complement our empirical results with a theoretical explanation of the success of this approach. We study a synthetic model of the embedded vectors and prove that Ward's method exactly recovers the planted hierarchical clustering with high probability.
翻訳日:2022-10-01 16:08:28 公開日:2020-10-30
# 最適移動量を用いたエッジ予測の公平性

All of the Fairness for Edge Prediction with Optimal Transport ( http://arxiv.org/abs/2010.16326v1 )

ライセンス: Link先を確認
Charlotte Laclau, Ievgen Redko, Manvi Choudhary, Christine Largeron(参考訳) 機械学習とデータマイニングアルゴリズムは、医療、教育、セキュリティなど、社会的重要性の高い多くの領域で意思決定システムをサポートするために、最近ますます使われている。 その予測能力は非常に効率的であるが、デプロイされたアルゴリズムは、学習サンプルに後者が存在するため、差別バイアスのある帰納的モデルを学ぶ傾向がある。 この問題は、モデルの出力から分離するために、ある属性によって導入された識別バイアスを正すという、アルゴリズムの公平性の新たな分野を生み出した。 本稿では,グラフにおけるエッジ予測の課題に対する公平性の問題について検討する。 この目的のために、フェアエッジ予測の問題を定式化し、理論的に解析し、グループと個人のフェアネスの間のトレードオフを伴う任意のグラフの隣接行列に対する埋め込み非依存の修復手順を提案する。 フェアネスと予測精度の異なる概念を明確に制御するためのアプローチの汎用性とその能力について実験的に示す。

Machine learning and data mining algorithms have been increasingly used recently to support decision-making systems in many areas of high societal importance such as healthcare, education, or security. While being very efficient in their predictive abilities, the deployed algorithms sometimes tend to learn an inductive model with a discriminative bias due to the presence of this latter in the learning sample. This problem gave rise to a new field of algorithmic fairness where the goal is to correct the discriminative bias introduced by a certain attribute in order to decorrelate it from the model's output. In this paper, we study the problem of fairness for the task of edge prediction in graphs, a largely underinvestigated scenario compared to a more popular setting of fair classification. To this end, we formulate the problem of fair edge prediction, analyze it theoretically, and propose an embedding-agnostic repairing procedure for the adjacency matrix of an arbitrary graph with a trade-off between the group and individual fairness. We experimentally show the versatility of our approach and its capacity to provide explicit control over different notions of fairness and prediction accuracy.
翻訳日:2022-10-01 16:01:32 公開日:2020-10-30
# 障害回避のための学習ビジョンに基づくリアクティブポリシ

Learning Vision-based Reactive Policies for Obstacle Avoidance ( http://arxiv.org/abs/2010.16298v1 )

ライセンス: Link先を確認
Elie Aljalbout and Ji Chen and Konstantin Ritt and Maximilian Ulmer and Sami Haddadin(参考訳) 本稿では,ロボットマニピュレータにおける視覚的障害物回避の問題に対処する。 この話題は知覚と運動の生成の両方に課題をもたらす。 この分野の作業の多くは、これらの側面の1つを改善することを目的としていますが、この問題に取り組むための統一的なフレームワークを提供します。 このフレームワークの主な目標は、視覚入力と対応する動き表現の関係を識別することで、知覚と動きを結びつけることである。 そこで本研究では,リアクティブ障害回避ポリシーを学習する手法を提案する。 単一障害および複数障害シナリオに対する目標到達タスクの手法を評価した。 提案手法は,人間とロボットのインタラクションのような重要なアプリケーションに必要な閉ループ応答性を維持しつつ,高い成功率で安定した障害物回避戦略を効率的に学習する能力を示す。

In this paper, we address the problem of vision-based obstacle avoidance for robotic manipulators. This topic poses challenges for both perception and motion generation. While most work in the field aims at improving one of those aspects, we provide a unified framework for approaching this problem. The main goal of this framework is to connect perception and motion by identifying the relationship between the visual input and the corresponding motion representation. To this end, we propose a method for learning reactive obstacle avoidance policies. We evaluate our method on goal-reaching tasks for single and multiple obstacles scenarios. We show the ability of the proposed method to efficiently learn stable obstacle avoidance strategies at a high success rate, while maintaining closed-loop responsiveness required for critical applications like human-robot interaction.
翻訳日:2022-10-01 16:01:15 公開日:2020-10-30
# 整数プログラミングに基づくロバスト分類のための誤り訂正符号設計

Integer Programming-based Error-Correcting Output Code Design for Robust Classification ( http://arxiv.org/abs/2011.00144v1 )

ライセンス: Link先を確認
Samarth Gupta, Saurabh Amin(参考訳) 誤り訂正出力コード(ECOC)は、単純なバイナリ分類器をマルチクラス分類器に結合する原則的なアプローチを提供する。 本稿では,SVM(Support Vector Machines)とバイナリディープラーニングモデルを用いて,名目精度と対角精度の両方を達成するために最適なECOCを設計する問題について検討する。 従来の文献とは対照的に,所望の誤り訂正特性を持つ最小限のコードブックを設計するための整数計画法を提案する。 我々の研究はipソルバの進歩を利用して最適な保証付きコードブックを生成する。 トラクタビリティを実現するために,IP定式化における制約セットのグラフ理論構造を利用する。 これにより、エッジ斜め被覆を用いて制約セットを大幅に削減できる。 私たちのコードブックは、標準のコードブック(例えば、1-vs-all, 1-vs-one, dense/sparse codes)と比較して高い精度を達成する。 また,ECOCに基づく分類器の逆精度をホワイトボックス設定で推定する。 我々のip生成コードブックは、敵意の摂動に対して非自明な堅牢性を提供します。

Error-Correcting Output Codes (ECOCs) offer a principled approach for combining simple binary classifiers into multiclass classifiers. In this paper, we investigate the problem of designing optimal ECOCs to achieve both nominal and adversarial accuracy using Support Vector Machines (SVMs) and binary deep learning models. In contrast to previous literature, we present an Integer Programming (IP) formulation to design minimal codebooks with desirable error correcting properties. Our work leverages the advances in IP solvers to generate codebooks with optimality guarantees. To achieve tractability, we exploit the underlying graph-theoretic structure of the constraint set in our IP formulation. This enables us to use edge clique covers to substantially reduce the constraint set. Our codebooks achieve a high nominal accuracy relative to standard codebooks (e.g., one-vs-all, one-vs-one, and dense/sparse codes). We also estimate the adversarial accuracy of our ECOC-based classifiers in a white-box setting. Our IP-generated codebooks provide non-trivial robustness to adversarial perturbations even without any adversarial training.
翻訳日:2022-10-01 16:00:42 公開日:2020-10-30
# 逆薬物事象同定のためのRoBERTaを用いたSwi Generis QAアプローチ

A Sui Generis QA Approach using RoBERTa for Adverse Drug Event Identification ( http://arxiv.org/abs/2011.00057v1 )

ライセンス: Link先を確認
Harshit Jain and Nishant Raj and Suyash Mishra(参考訳) バイオメディカル文献やその他のテキストデータから有害薬物イベントを抽出することは、医薬品の安全性を監視する重要な要素であり、多くの医学研究者が注目している。 既存の作業は、最高の特徴表現を達成できない双方向長短メモリネットワーク(Bi-LSTM)を用いて、エンティティ-リレーション抽出を中心に、より重要視されている。 本稿では,RoBERTaのロバスト性,マスキング,動的注意力を利用した質問応答フレームワークを提案する。 我々のモデルは、以前の仕事を9.53%F1スコアで上回る。

Extraction of adverse drug events from biomedical literature and other textual data is an important component to monitor drug-safety and this has attracted attention of many researchers in healthcare. Existing works are more pivoted around entity-relation extraction using bidirectional long short term memory networks (Bi-LSTM) which does not attain the best feature representations. In this paper, we introduce a question answering framework that exploits the robustness, masking and dynamic attention capabilities of RoBERTa by a technique of domain adaptation and attempt to overcome the aforementioned limitations. Our model outperforms the prior work by 9.53% F1-Score.
翻訳日:2022-10-01 16:00:23 公開日:2020-10-30
# アクティブラーニングと弱い監督によるエンティティ名の構造化表現の学習

Learning Structured Representations of Entity Names using Active Learning and Weak Supervision ( http://arxiv.org/abs/2011.00105v1 )

ライセンス: Link先を確認
Kun Qian, Poornima Chozhiyath Raman, Yunyao Li, Lucian Popa(参考訳) エンティティ名の構造化表現は、エンティティの正規化や変形生成といった多くのエンティティ関連のタスクに有用である。 文脈や外部知識なしでエンティティ名の暗黙的な構造化表現を学ぶことは特に困難である。 本稿では,この問題を解決するために,能動的学習と弱監督を組み合わせた新しい学習枠組みを提案する。 実験結果から,このフレームワークは1ダース以上のラベル付き例から高品質なモデルを学習できることがわかった。

Structured representations of entity names are useful for many entity-related tasks such as entity normalization and variant generation. Learning the implicit structured representations of entity names without context and external knowledge is particularly challenging. In this paper, we present a novel learning framework that combines active learning and weak supervision to solve this problem. Our experimental evaluation show that this framework enables the learning of high-quality models from merely a dozen or so labeled examples.
翻訳日:2022-10-01 16:00:13 公開日:2020-10-30
# ノイズのある視覚文書におけるドメイン固有語彙基底化

Domain-Specific Lexical Grounding in Noisy Visual-Textual Documents ( http://arxiv.org/abs/2010.16363v1 )

ライセンス: Link先を確認
Gregory Yauney, Jack Hessel, David Mimno(参考訳) 画像は単語の文脈的意味に関する洞察を与えることができるが、現在の画像テキストの基盤化アプローチでは詳細なアノテーションが必要である。 このような粒度のアノテーションは稀で、高価であり、ほとんどのドメイン固有のコンテキストでは利用できない。 対照的に、ラベルのないマルチイメージのマルチセンテンス文書は豊富である。 語彙的・視覚的重複が顕著であっても,このような文書から語彙的接地を学べるだろうか? 不動産リスティングのケーススタディデータセットを用いて,「キッチン」や「ベッドルーム」といった高相関な用語を識別する上での課題を明らかにし,この文書の類似性を評価する指標を導入する。 本稿では,データセットのラベル付きサブセットで評価した場合,オブジェクト検出および画像タグ付けベースラインを越えた精度の向上とリコールを行う,単純なクラスタリングに基づくクラスタリング手法を提案する。 提案手法は,例えば"granite"と不動産データセットのカウンタートップと,wikipediaデータセットのロッキーランドスケープとを関連付けるなど,単語の局所的文脈的意味に特に有効である。

Images can give us insights into the contextual meanings of words, but current image-text grounding approaches require detailed annotations. Such granular annotation is rare, expensive, and unavailable in most domain-specific contexts. In contrast, unlabeled multi-image, multi-sentence documents are abundant. Can lexical grounding be learned from such documents, even though they have significant lexical and visual overlap? Working with a case study dataset of real estate listings, we demonstrate the challenge of distinguishing highly correlated grounded terms, such as "kitchen" and "bedroom", and introduce metrics to assess this document similarity. We present a simple unsupervised clustering-based method that increases precision and recall beyond object detection and image tagging baselines when evaluated on labeled subsets of the dataset. The proposed method is particularly effective for local contextual meanings of a word, for example associating "granite" with countertops in the real estate dataset and with rocky landscapes in a Wikipedia dataset.
翻訳日:2022-10-01 16:00:05 公開日:2020-10-30
# SLM: 文アンシャッフルによる談話言語表現の学習

SLM: Learning a Discourse Language Representation with Sentence Unshuffling ( http://arxiv.org/abs/2010.16249v1 )

ライセンス: Link先を確認
Haejun Lee, Drew A. Hudson, Kangwook Lee and Christopher D. Manning(参考訳) 講演言語表現を自己指導型で学習するための,新たな事前学習目標である文レベル言語モデリングを導入する。 NLPにおける最近の事前学習手法は、下層または上層言語表現の学習に焦点を当てている: 言語モデルの対象から1つの極端に派生した文脈化された単語表現と、2つの与えられたテキストセグメントの順序分類によって学習された全シーケンス表現である。 しかし、これらのモデルは、文やそれらの間の関係のような自然言語に存在する中間サイズの構造の表現を直接的に捉えることを奨励されない。 そこで本稿では,入力文のシーケンスをシャッフルし,階層型トランスフォーマーモデルを訓練することにより,文脈化された文レベルの表現の学習を促進する手法を提案する。 GLUE, SQuAD, DiscoEval などの下流タスクの実験を通じて,本モデルの特徴として, 従来の BERT の性能を大きなマージンで向上させることを示す。

We introduce Sentence-level Language Modeling, a new pre-training objective for learning a discourse language representation in a fully self-supervised manner. Recent pre-training methods in NLP focus on learning either bottom or top-level language representations: contextualized word representations derived from language model objectives at one extreme and a whole sequence representation learned by order classification of two given textual segments at the other. However, these models are not directly encouraged to capture representations of intermediate-size structures that exist in natural languages such as sentences and the relationships among them. To that end, we propose a new approach to encourage learning of a contextualized sentence-level representation by shuffling the sequence of input sentences and training a hierarchical transformer model to reconstruct the original ordering. Through experiments on downstream tasks such as GLUE, SQuAD, and DiscoEval, we show that this feature of our model improves the performance of the original BERT by large margins.
翻訳日:2022-10-01 15:59:18 公開日:2020-10-30
# 海馬アーキテクチャを用いた特定インスタンスと一般化クラスの両方の教師なしワンショット学習

Unsupervised One-shot Learning of Both Specific Instances and Generalised Classes with a Hippocampal Architecture ( http://arxiv.org/abs/2010.15999v1 )

ライセンス: Link先を確認
Gideon Kowadlo, Abdelrahman Ahmed, David Rawlinson(参考訳) ワンショット機械学習のための実験的な手順は、動物の知能の重要な特徴である特定のクラスのインスタンスを学習または記憶する能力をテストするものではない。 特定のインスタンスを識別することは、あなたが属するカップを記憶するなど、現実世界の多くのタスクに必要である。 クラス内の一般化は、クラスのインスタンスを分離する能力と矛盾し、単一のアーキテクチャ内で両方の機能を達成するのが難しくなる。 本稿では,単一被曝後に特定のインスタンスを識別する機能をテストし,ノイズや咬合破壊をもたらす標準全言語分類一般化フレームワークの拡張を提案する。 学習は、トレーニングサンプルを分類し、リコールする能力として定義される。 補足学習システム(CLS)は、刺激への単一曝露から学習において重要な役割を果たすと考えられている哺乳類の脳領域の一般的なモデルである。 我々は、CLSの人工ニューラルネットワーク実装を作成し、拡張Omniglotベンチマークに適用した。 我々の教師なしモデルは、ドメイン固有の帰納バイアスを必要とせず、Omniglot分類タスク(一般化の要求)において既存の教師付きANNに匹敵する性能を示す。 拡張されたOmniglotインスタンス認識タスクでは、同じモデルが、部分閉塞とノイズを与えられたベースライン近傍アプローチよりもはるかに優れた性能を示す。

Established experimental procedures for one-shot machine learning do not test the ability to learn or remember specific instances of classes, a key feature of animal intelligence. Distinguishing specific instances is necessary for many real-world tasks, such as remembering which cup belongs to you. Generalisation within classes conflicts with the ability to separate instances of classes, making it difficult to achieve both capabilities within a single architecture. We propose an extension to the standard Omniglot classification-generalisation framework that additionally tests the ability to distinguish specific instances after one exposure and introduces noise and occlusion corruption. Learning is defined as an ability to classify as well as recall training samples. Complementary Learning Systems (CLS) is a popular model of mammalian brain regions believed to play a crucial role in learning from a single exposure to a stimulus. We created an artificial neural network implementation of CLS and applied it to the extended Omniglot benchmark. Our unsupervised model demonstrates comparable performance to existing supervised ANNs on the Omniglot classification task (requiring generalisation), without the need for domain-specific inductive biases. On the extended Omniglot instance-recognition task, the same model also demonstrates significantly better performance than a baseline nearest-neighbour approach, given partial occlusion and noise.
翻訳日:2022-10-01 15:53:21 公開日:2020-10-30
# バイオメディカルコンセプト関連性 -- EHRベースの大規模ベンチマーク

Biomedical Concept Relatedness -- A large EHR-based benchmark ( http://arxiv.org/abs/2010.16218v1 )

ライセンス: Link先を確認
Claudia Schulz and Josh Levy-Kramer and Camille Van Assel and Miklos Kepes and Nils Hammerla(参考訳) 医療へのAIの有望な応用は、電子健康記録(EHR)から情報を検索することである。 これは単純な文字列マッチングをはるかに超える検索機能を必要とし、問題となっている概念(診断、症状、薬品など)の検索を含む。 このようなアプリケーションに対するAI手法の適合性は、概念の関連性を既知の関連性スコアで予測することによって検証される。 しかし、既存の生体医学的概念関連データセットはすべて小さく、ハンドピックされた概念ペアで構成されている。 既存のデータセットの6倍の大きさであり、コンセプトペアはEHRの共起に基づいて選択され、関心の応用に対するそれらの関連性を保証する。 我々は、新しいデータセットを詳細に分析し、既存のデータセットと比較し、それがより大きなだけでなく、含まれている概念のタイプの観点から既存のデータセットを補完していることを強調する。 最先端の埋め込み手法による最初の実験は、我々のデータセットが概念関連性モデルをテストするための挑戦的な新しいベンチマークであることを示している。

A promising application of AI to healthcare is the retrieval of information from electronic health records (EHRs), e.g. to aid clinicians in finding relevant information for a consultation or to recruit suitable patients for a study. This requires search capabilities far beyond simple string matching, including the retrieval of concepts (diagnoses, symptoms, medications, etc.) related to the one in question. The suitability of AI methods for such applications is tested by predicting the relatedness of concepts with known relatedness scores. However, all existing biomedical concept relatedness datasets are notoriously small and consist of hand-picked concept pairs. We open-source a novel concept relatedness benchmark overcoming these issues: it is six times larger than existing datasets and concept pairs are chosen based on co-occurrence in EHRs, ensuring their relevance for the application of interest. We present an in-depth analysis of our new dataset and compare it to existing ones, highlighting that it is not only larger but also complements existing datasets in terms of the types of concepts included. Initial experiments with state-of-the-art embedding methods show that our dataset is a challenging new benchmark for testing concept relatedness models.
翻訳日:2022-10-01 15:52:03 公開日:2020-10-30
# インフォデミック管理のための言語間自然言語処理フレームワーク

A Cross-lingual Natural Language Processing Framework for Infodemic Management ( http://arxiv.org/abs/2010.16357v1 )

ライセンス: Link先を確認
Ridam Pal, Rohan Pandey, Vaibhav Gautam, Kanav Bhagat, Tavpritesh Sethi(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、医療システムに多大な圧力をかけている。 このような状況下では、適切なタイミングで適切な情報を提供することが重要です。 人工知能を利用して拡散する情報の管理に対する需要が高まっている。 そこで我々は,自然言語処理の可能性を生かして,広範に広める必要のある関連情報を同定した。 本研究では,世界保健機関(WHO)の信頼できるガイドラインと日々のニュースを一致させて関連情報を提供する,新たな言語間自然言語処理フレームワークを提案する。 提案するパイプラインは,要約語,単語埋め込み,類似度など,NLPのさまざまなテクニックをデプロイし,ニュース記事と対応する医療ガイドラインを提供する。 合計36モデルの評価を行い,word2vec埋め込みのlexrank based summaryrとword mover distance metricの組み合わせは,他のすべてのモデルよりも優れていた。 この新たなオープンソースアプローチは、流行に伴う誤報が広まる中で、関連する医療情報を積極的に広めるためのテンプレートとして使用できる。

The COVID-19 pandemic has put immense pressure on health systems which are further strained due to the misinformation surrounding it. Under such a situation, providing the right information at the right time is crucial. There is a growing demand for the management of information spread using Artificial Intelligence. Hence, we have exploited the potential of Natural Language Processing for identifying relevant information that needs to be disseminated amongst the masses. In this work, we present a novel Cross-lingual Natural Language Processing framework to provide relevant information by matching daily news with trusted guidelines from the World Health Organization. The proposed pipeline deploys various techniques of NLP such as summarizers, word embeddings, and similarity metrics to provide users with news articles along with a corresponding healthcare guideline. A total of 36 models were evaluated and a combination of LexRank based summarizer on Word2Vec embedding with Word Mover distance metric outperformed all other models. This novel open-source approach can be used as a template for proactive dissemination of relevant healthcare information in the midst of misinformation spread associated with epidemics.
翻訳日:2022-10-01 15:51:04 公開日:2020-10-30
# zero-inflated multi-target regressionのためのディープハードルネットワーク:多種多量推定への応用

Deep Hurdle Networks for Zero-Inflated Multi-Target Regression: Application to Multiple Species Abundance Estimation ( http://arxiv.org/abs/2010.16040v1 )

ライセンス: Link先を確認
Shufeng Kong, Junwen Bai, Jae Hee Lee, Di Chen, Andrew Allyn, Michelle Stuart, Malin Pinsky, Katherine Mills, Carla P. Gomes(参考訳) 計算持続可能性の鍵となる問題は、時間とともに景観にまたがる種の分布を理解することである。 この疑問は大規模な予測問題を引き起こす。 (i)何百もの種を同時にモデル化し (ii) 調査データは通常, 多数の部位に種が存在しないため, ゼロで膨らませる。 ゼロ膨張多目標回帰問題 (zero-inflated multi-target regression problem) と呼ぶ2つの問題を同時に取り組む問題は、これまでの統計学や機械学習の手法では解決されていない。 本稿では,ゼロ膨張多目標回帰問題に対する新しい深層モデルを提案する。 この目的のために、まず複数の応答変数の結合分布を多変量プロビットモデルとしてモデル化し、その正の結果を多変量ログ正規分布と組み合わせる。 2つの分布の共分散行列の差分をペナル化することにより、両分布間のリンクを確立する。 モデル全体をエンドツーエンドの学習フレームワークとしてキャストし、GPUで完全に実装可能なモデルのための効率的な学習アルゴリズムを提供する。 鳥と魚の個体群に関する2つの実世界の種分布データセットにおいて,本モデルが既存の最先端のベースラインを上回っていることを示す。

A key problem in computational sustainability is to understand the distribution of species across landscapes over time. This question gives rise to challenging large-scale prediction problems since (i) hundreds of species have to be simultaneously modeled and (ii) the survey data are usually inflated with zeros due to the absence of species for a large number of sites. The problem of tackling both issues simultaneously, which we refer to as the zero-inflated multi-target regression problem, has not been addressed by previous methods in statistics and machine learning. In this paper, we propose a novel deep model for the zero-inflated multi-target regression problem. To this end, we first model the joint distribution of multiple response variables as a multivariate probit model and then couple the positive outcomes with a multivariate log-normal distribution. By penalizing the difference between the two distributions' covariance matrices, a link between both distributions is established. The whole model is cast as an end-to-end learning framework and we provide an efficient learning algorithm for our model that can be fully implemented on GPUs. We show that our model outperforms the existing state-of-the-art baselines on two challenging real-world species distribution datasets concerning bird and fish populations.
翻訳日:2022-10-01 15:50:47 公開日:2020-10-30