このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210507となっている論文です。

PDF登録状況(公開日: 20210507)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子拡張古典通信のための量子メッセージによる信念伝播

Belief Propagation with Quantum Messages for Quantum-Enhanced Classical Communications ( http://arxiv.org/abs/2003.04356v2 )

ライセンス: Link先を確認
Narayanan Rengaswamy, Kaushik P. Seshadreesan, Saikat Guha, Henry D. Pfister(参考訳) 宇宙レーザー通信では、受信光パルス当たりの平均光子数が1よりはるかに小さい場合、個々のパルスバイパルス検出を行う受信機で実現可能な通信容量と、変調パルスの長い符号語ブロックに集合的に作用する量子光学的「ジョイント検出受信機」との間に大きなギャップがある。 本稿では、コヒーレント状態のバイナリ位相シフトキー付き純損失チャネル(BPSK)変調という、高付加能のキャパシティが知られている最も単純なシナリオについて考察する。 2つのBPSK状態は、パルス当たりの平均光子数の関数である内部積によって記述された、量子ビットの2つの非直交状態に概念的にマッピングすることができる。 このマップを用いて,近年の"belief-propagation with quantum messages" (bpqm) (arxiv:1607.04833) に基づく共同検出受信機の量子回路を明示的に構成する。 最適パルスバイパルス検出を行うドリナー受信機の性能改善を定量化し,最適な「古典的」アプローチを示す。 本手法を厳密に解析し,木因子グラフを用いた長さ5バイナリ線形符号の8(BPSK)符号の識別において,最小平均誤差確率の量子限界を達成することを示す。 以上の結果から,BPQM受信機はこのBPSK変調純損失チャネルのホレボ容量を達成できる可能性が示唆された。 さらに,本回路は,cat-basisユニバーサル量子ビット論理を実行可能な小型のフォトニック量子コンピュータ上で実装可能な,特定のアプリケーションを対象とした量子超越実験の代替提案を提供する。

For space-based laser communications, when the mean photon number per received optical pulse is much smaller than one, there is a large gap between communications capacity achievable with a receiver that performs individual pulse-by-pulse detection, and the quantum-optimal "joint-detection receiver" that acts collectively on long codeword-blocks of modulated pulses; an effect often termed "superadditive capacity". In this paper, we consider the simplest scenario where a large superadditive capacity is known: a pure-loss channel with a coherent-state binary phase-shift keyed (BPSK) modulation. The two BPSK states can be mapped conceptually to two non-orthogonal states of a qubit, described by an inner product that is a function of the mean photon number per pulse. Using this map, we derive an explicit construction of the quantum circuit of a joint-detection receiver based on a recent idea of "belief-propagation with quantum messages" (BPQM) (arXiv:1607.04833). We quantify its performance improvement over the Dolinar receiver that performs optimal pulse-by-pulse detection, which represents the best "classical" approach. We analyze the scheme rigorously and show that it achieves the quantum limit of minimum average error probability in discriminating 8 (BPSK) codewords of a length-5 binary linear code with a tree factor graph. Our result suggests that a BPQM-receiver might attain the Holevo capacity of this BPSK-modulated pure-loss channel. Moreover, our receiver circuit provides an alternative proposal for a quantum supremacy experiment, targeted at a specific application that can potentially be implemented on a small, special-purpose, photonic quantum computer capable of performing cat-basis universal qubit logic.
翻訳日:2023-05-30 03:05:45 公開日:2021-05-07
# 非線形増幅器類における雑音の量子制限

Quantum limits on noise for a class of nonlinear amplifiers ( http://arxiv.org/abs/2010.13851v2 )

ライセンス: Link先を確認
Jeffrey M. Epstein, K. Birgitta Whaley, Joshua Combes(参考訳) トランジスタのような非線形増幅器は古典的技術ではユビキタスであるが、量子アナログはよく理解されていない。 通常の演算子を増幅し、出力に半量子の真空雑音を加える非線形増幅器のクラスを導入する。 大利得極限では、ノイズの多い線形検出器と併用する場合、これらの増幅器は正規作用素の理想的な測定を行う。

Nonlinear amplifiers such as the transistor are ubiquitous in classical technology, but their quantum analogues are not well understood. We introduce a class of nonlinear amplifiers that amplify any normal operator and add only a half-quantum of vacuum noise at the output. In the large-gain limit, when used in conjunction with a noisy linear detector, these amplifiers implement ideal measurements of the normal operator.
翻訳日:2023-04-27 11:10:58 公開日:2021-05-07
# 量子シークエンシャル仮説試験

Quantum Sequential Hypothesis Testing ( http://arxiv.org/abs/2011.10773v2 )

ライセンス: Link先を確認
Esteban Mart\'inez-Vargas, Christoph Hirche, Gael Sent\'is, Michalis Skotiniotis, Marta Carrizo, Ramon Mu\~noz-Tapia, John Calsamiglia(参考訳) 量子仮説テストの基本課題に着目し,量子情報処理における逐次解析を導入する。 特に私たちの目標は、必要に応じて状態のコピーが必要な場合に、所定の誤差しきい値である$\epsilon$の2つの任意の量子状態を区別することにあります。 我々は、タスクを達成するのに必要なコピー数の平均値の最終的な下限を得る。 我々は、いくつかの状態のクラスに対して下限を実現できるブロックサンプリング戦略を与える。 境界は、他のすべての手続きのうち、コピー数を時間前に固定するものを含め、最小平均コピー数を必要とするという意味では、対称および非対称な設定の両方において最適である。 キュービット状態に対しては、最小平均コピー数に対する明示的な表現を導出し、固定された局所測定に基づく逐次戦略が、所定コピー数で最高の集団測定を上回ることを示す。 一般的な状態の場合、コピー数は$\log 1/\epsilon$として増加するが、純粋な状態のシーケンシャル戦略では、完全判別の場合、例えば$\epsilon=0$のように有限平均サンプル数を必要とする。

We introduce sequential analysis in quantum information processing, by focusing on the fundamental task of quantum hypothesis testing. In particular our goal is to discriminate between two arbitrary quantum states with a prescribed error threshold, $\epsilon$, when copies of the states can be required on demand. We obtain ultimate lower bounds on the average number of copies needed to accomplish the task. We give a block-sampling strategy that allows to achieve the lower bound for some classes of states. The bound is optimal in both the symmetric as well as the asymmetric setting in the sense that it requires the least mean number of copies out of all other procedures, including the ones that fix the number of copies ahead of time. For qubit states we derive explicit expressions for the minimum average number of copies and show that a sequential strategy based on fixed local measurements outperforms the best collective measurement on a predetermined number of copies. Whereas for general states the number of copies increases as $\log 1/\epsilon$, for pure states sequential strategies require a finite average number of samples even in the case of perfect discrimination, i.e., $\epsilon=0$.
翻訳日:2023-04-23 12:59:01 公開日:2021-05-07
# 任意次元における半古典展開の再帰的生成

Recursive Generation of The Semi-Classical Expansion in Arbitrary Dimension ( http://arxiv.org/abs/2012.06041v2 )

ライセンス: Link先を確認
Cihan Pazarba\c{s}{\i}(参考訳) 本稿では、任意の次元における量子力学的ポテンシャルに対する「textit{quantum action}」の半古典的展開を生成するために、プロパゲータの小さな時間展開に基づく再帰的手順を提案する。 この方法では、スペクトル情報は複素$t$平面上のプロパゲータの特異点から生じ、これは$i\ve$の処方と基本的な複素解析によって処理される。 この特徴はより高次元への一般化を可能にする。 非相対論的量子力学の簡単な例を提供する。

We present a recursive procedure, which is based on the small time expansion of the propagator, in order to generate a semi-classical expansion of the \textit{quantum action} for a quantum mechanical potential in arbitrary dimensions. In the method we use the spectral information emerges from the singularities of the propagator on the complex $t$ plane, which are handled by the $i\ve$ prescription and basic complex analysis. This feature allows for generalization to higher dimensions. We illustrate the procedure by providing simple examples in non-relativistic quantum mechanics.
翻訳日:2023-04-21 03:39:03 公開日:2021-05-07
# エントロピー生産への代替実験方法

Alternative experimental ways to access entropy production ( http://arxiv.org/abs/2012.13640v2 )

ライセンス: Link先を確認
Zheng Tan, Patrice A. Camati, Guillaume Coeuret Cauquil, Alexia Auff\`eves, and Igor Dotsenko(参考訳) フィードバック制御下で量子プロセス内のエントロピー生成にアクセスするいくつかの異なる方法を理論的に導出し、実験的に比較する。 我々は、ナジェラ・サントスらによって報告されたマクスウェルの自律的なデーモンスキームを実現する二部量子システムに焦点を当てる。 ここでは、デーモンにエンコードされた情報が消費され、コールドキュービットからホットキャビティに熱を伝達します。 混合デーモンキャビティ量子ビット系の個々の量子軌道を測定することにより、エントロピー生成を、システム記述とその進化に対する異なるアプローチから導かれる6つの異なる表現で計算する。 各メソッドは特定のトラジェクトリとデータ処理を使用する。 この結果は,量子系における可逆性の様々な意味を統一的に把握し,熱的枠組みを超えたエントロピー生成の測定方法を示す。

We theoretically derive and experimentally compare several different ways to access entropy production in a quantum process under feedback control. We focus on a bipartite quantum system realizing an autonomous Maxwell's demon scheme reported by Najera-Santos et al. [Phys.~Rev.~Research 2, 032025(R) (2020)], where information encoded in a demon is consumed to transfer heat from a cold qubit to a hot cavity. By measuring individual quantum trajectories of the joint demon-cavity-qubit system, we compute the entropy production with six distinct expressions derived from different approaches to the system description and its evolution. Each method uses a specific set of trajectories and data processing. Our results provide a unified view on the various meanings of irreversibility in quantum systems and pave the way to the measurement of entropy production beyond thermal frameworks.
翻訳日:2023-04-19 07:40:24 公開日:2021-05-07
# 量子参照フレーム間の動的変換の群構造

The group structure of dynamical transformations between quantum reference frames ( http://arxiv.org/abs/2012.15769v2 )

ライセンス: Link先を確認
Angel Ballesteros, Flaminia Giacomini, Giulia Gubitosi(参考訳) 近年、参照フレームが量子システムに関連付けられている場合、参照フレームの量子的および動的特徴を考慮した量子参照フレーム間の変換法則を変更する必要があることが示されている。 これにより、量子参照フレームの一部となる量子システムの位相空間変数のリレーショナル記述が導かれた。 このような変換はシステムのハミルトニアンの対称性であることが示されているが、量子力学における古典的基準系に関連するガリレイ群と類似した群構造を楽しむかどうかについての疑問は解決されていない。 本研究では、量子参照系を構成する量子系の位相空間上の正準変換を同定し、これらの変換が、通常のガリレイ代数の量子力学とは異なるリー代数によって定義される群構造を閉じていることを示す。 さらに、この新しい代数の元は、以前に特定した量子参照フレーム変換のビルディングブロックであり、それが復元されることも判明した。 最後に、標準ガリレイ群対称性によって記述された古典的参照フレーム間の変換は、慣性変換の量子の性質によってもたらされる追加的な非可換性を支配するパラメータのゼロ極限を取ることにより、量子的参照フレーム間の変換群から得られることを示す。

Recently, it was shown that when reference frames are associated to quantum systems, the transformation laws between such quantum reference frames need to be modified to take into account the quantum and dynamical features of the reference frames. This led to a relational description of the phase space variables of the quantum system of which the quantum reference frames are part of. While such transformations were shown to be symmetries of the system's Hamiltonian, the question remained unanswered as to whether they enjoy a group structure, similar to that of the Galilei group relating classical reference frames in quantum mechanics. In this work, we identify the canonical transformations on the phase space of the quantum systems comprising the quantum reference frames, and show that these transformations close a group structure defined by a Lie algebra, which is different from the usual Galilei algebra of quantum mechanics. We further find that the elements of this new algebra are in fact the building blocks of the quantum reference frames transformations previously identified, which we recover. Finally, we show how the transformations between classical reference frames described by the standard Galilei group symmetries can be obtained from the group of transformations between quantum reference frames by taking the zero limit of the parameter that governs the additional noncommutativity introduced by the quantum nature of inertial transformations.
翻訳日:2023-04-18 05:41:32 公開日:2021-05-07
# 新型コロナウイルスの検査結果:プライバシー、効力性、ミス管理、誤解

COVID-19 Tests Gone Rogue: Privacy, Efficacy, Mismanagement and Misunderstandings ( http://arxiv.org/abs/2101.01693v3 )

ライセンス: Link先を確認
Manuel Morales, Rachel Barbar, Darshan Gandhi, Sanskruti Landage, Joseph Bae, Arpita Vats, Jil Kothari, Sheshank Shankar, Rohan Sukumaran, Himi Mathur, Krutika Misra, Aishwarya Saxena, Parth Patwa, Sethuraman T. V., Maurizio Arseni, Shailesh Advani, Kasia Jakimowicz, Sunaina Anand, Priyanshi Katiyar, Ashley Mehra, Rohan Iyer, Srinidhi Murali, Aryan Mahindra, Mikhail Dmitrienko, Saurish Srivastava, Ananya Gangavarapu, Steve Penrod, Vivek Sharma, Abhishek Singh and Ramesh Raskar(参考訳) 新型コロナウイルス(covid-19)の感染者を効果的にスクリーニングし、特定するための基礎となるcovid-19検査は、地域レベルと全国レベルの両方でのcovid-19の感染を抑制するための介入ツールとして、依然として最重要視されている。 しかし、パンデミック発生の速さと対応の展開、医療インフラへの広範な影響、公衆衛生システムにおける十分な準備の欠如、危機の複雑化により、受験者の間で混乱が生じている。 プライバシーの侵害は依然として重要な問題だ。 テストテイクのユーザエクスペリエンスは低いままである。 ユーザの摩擦はユーザの行動に影響を与え、テストプログラムへの参加を妨げます。 テストの有効性は誇張されている。 テスト結果の理解が不十分なため、フォローアップの推奨が不適切になる。 ここでは,covid-19テストの現状を振り返り,4つの重要な課題を特定し,これらの課題への対処に失敗した結果について議論する。 テストと情報伝達に関する現在のインフラストラクチャは、非常にプライバシーを侵害し、スケーラブルなデジタルコンポーネントを利用できない。 本研究では,既存のcovid-19テストエコシステムを複雑化する課題について議論し,ユーザのテストエクスペリエンスの向上とプライバシ侵害の低減の必要性を強調する。 デジタルツールはこれらの課題を解決する上で重要な役割を果たします。

COVID-19 testing, the cornerstone for effective screening and identification of COVID-19 cases, remains paramount as an intervention tool to curb the spread of COVID-19 both at local and national levels. However, the speed at which the pandemic struck and the response was rolled out, the widespread impact on healthcare infrastructure, the lack of sufficient preparation within the public health system, and the complexity of the crisis led to utter confusion among test-takers. Invasion of privacy remains a crucial concern. The user experience of test takers remains low. User friction affects user behavior and discourages participation in testing programs. Test efficacy has been overstated. Test results are poorly understood resulting in inappropriate follow-up recommendations. Herein, we review the current landscape of COVID-19 testing, identify four key challenges, and discuss the consequences of the failure to address these challenges. The current infrastructure around testing and information propagation is highly privacy-invasive and does not leverage scalable digital components. In this work, we discuss challenges complicating the existing covid-19 testing ecosystem and highlight the need to improve the testing experience for the user and reduce privacy invasions. Digital tools will play a critical role in resolving these challenges.
翻訳日:2023-04-17 19:48:18 公開日:2021-05-07
# ボソニックバスを用いたオープン量子系の包含-排他原理

Inclusion-Exclusion Principle for Open Quantum Systems with Bosonic Bath ( http://arxiv.org/abs/2103.01423v2 )

ライセンス: Link先を確認
Siyao Yang, Zhenning Cai, Jianfeng Lu(参考訳) 素図形量子モンテカルロ法 (dQMC) とインチワームモンテカルロ法 (inchworm Monte Carlo method) のボゾン図上での包含排他原理を適用した2つの高速アルゴリズムを提案する。 inchworm monte carloの場合、提案された高速アルゴリズムは、フェルミオン系からボソニック系への作業 ["inclusion-exclusion principle for many-body diagrammatics", phys. rev. b, 98:115152, 2018] の拡張を与える。 提案した高速アルゴリズムは,計算複雑性を2因子から指数関数に還元する。 理論的結果を検証し,提案手法の有効性を比較するための数値実験を行った。

We present two fast algorithms which apply inclusion-exclusion principle to sum over the bosonic diagrams in bare diagrammatic quantum Monte Carlo (dQMC) and inchworm Monte Carlo method, respectively. In the case of inchworm Monte Carlo, the proposed fast algorithm gives an extension to the work ["Inclusion-exclusion principle for many-body diagrammatics", Phys. Rev. B, 98:115152, 2018] from fermionic to bosonic systems. We prove that the proposed fast algorithms reduce the computational complexity from double factorial to exponential. Numerical experiments are carried out to verify the theoretical results and to compare the efficiency of the methods.
翻訳日:2023-04-09 12:28:52 公開日:2021-05-07
# フェルミオンガウス状態のためのページ曲線

The Page Curve for Fermionic Gaussian States ( http://arxiv.org/abs/2103.05416v2 )

ライセンス: Link先を確認
Eugenio Bianchi, Lucas Hackl, Mario Kieburg(参考訳) 論文の中で、ページは純粋なランダム状態に対する平均絡み合いエントロピーの正確な公式を発見した。 我々は、無作為自由ハミルトニアンの文脈において重要な役割を果たす純粋なフェルミオン的ガウス状態のアンサンブルに対する類似の問題を考える。 ランダム行列理論の最近の結果から、$N$自由度のうち$N_A$のサブシステムにおける純粋ランダムフェルミオンガウス状態の平均絡み合いエントロピーが$\langle S_A\rangle_\mathrm{G}\! =\! (N! -\! 1}{2})\Psi(2N)\! +\! (\tfrac{1}{4}\! -\! n_a)\psi(n)\! +\! (\tfrac{1}{2}\! +\! n_a\! -\! N)\Psi(2N\! -\! 2N_A)\! -\! tfrac{1}{4}\psi(n\! -\! N_A)\! -\! N_A$, where $\Psi$ はジガンマ関数である。 その熱力学極限における漸近挙動は、$\langle S_A\rangle_\mathrm{G}\! =\! n(\log 2-1)f+n(f-1)\log(1-f)+\tfrac{1}{2}f+\tfrac{1}{4}\log{(1-f)}\,+\,o(1/n)$, ここで$f=n_a/n$である。 注目すべきことに、その先頭の順序は、Lydzba、Rigol、Vidmarなどの数保存を持つランダムな二次ハミルトンの固有状態の平均と一致している。 最後に、定数 $\lim_{N\to\infty}(\Delta S_A)^2_{\mathrm{G}}=\frac{1}{2}(f+f^2+\log(1-f))$ で与えられる熱力学極限の分散を計算する。

In a seminal paper, Page found the exact formula for the average entanglement entropy for a pure random state. We consider the analogous problem for the ensemble of pure fermionic Gaussian states, which plays a crucial role in the context of random free Hamiltonians. Using recent results from random matrix theory, we show that the average entanglement entropy of pure random fermionic Gaussian states in a subsystem of $N_A$ out of $N$ degrees of freedom is given by $\langle S_A\rangle_\mathrm{G}\!=\!(N\!-\!\tfrac{1}{2})\Psi(2N)\!+\!(\tfrac{1}{4}\!-\!N_A)\Psi(N)\!+\!(\tfrac{1}{2}\!+\!N_A\!-\!N)\Psi(2N\!-\!2N_A)\!-\!\tfrac{1}{4}\Psi(N\!-\!N_A)\!-\!N_A$, where $\Psi$ is the digamma function. Its asymptotic behavior in the thermodynamic limit is given by $\langle S_A\rangle_\mathrm{G}\!=\! N(\log 2-1)f+N(f-1)\log(1-f)+\tfrac{1}{2}f+\tfrac{1}{4}\log{(1-f)}\,+\,O(1/N)$, where $f=N_A/N$. Remarkably, its leading order agrees with the average over eigenstates of random quadratic Hamiltonians with number conservation, as found by Lydzba, Rigol and Vidmar. Finally, we compute the variance in the thermodynamic limit, given by the constant $\lim_{N\to\infty}(\Delta S_A)^2_{\mathrm{G}}=\frac{1}{2}(f+f^2+\log(1-f))$.
翻訳日:2023-04-08 16:00:04 公開日:2021-05-07
# 時間パターン学習のためのニューロモルフィックアルゴリズムハードウェア符号

Neuromorphic Algorithm-hardware Codesign for Temporal Pattern Learning ( http://arxiv.org/abs/2104.10712v2 )

ライセンス: Link先を確認
Haowen Fang, Brady Taylor, Ziru Li, Zaidao Mei, Hai Li, Qinru Qiu(参考訳) ニューロモルフィックコンピューティングとスパイクニューラルネットワーク(SNN)は生物学的システムの振る舞いを模倣し、高いエネルギー効率で認知タスクを実行する可能性に関心を寄せている。 しかし、時間的ダイナミクスやスパイクタイミングといったいくつかの要因は情報処理には不可欠であるが、ニューロモルフィックコンピューティングの性能と応用を制限して、既存の研究によって無視されることが多い。 一方で、効果的なsnトレーニングアルゴリズムが欠如しているため、時間的神経動力学を利用するのが困難である。 多くの既存のアルゴリズムは依然としてニューロンの活性化を統計的に扱っている。 一方、時間的ニューラルダイナミクスの利用は、ハードウェア設計にも課題をもたらす。 シナプスは時間的ダイナミクスを示し、歴史的情報を保持する記憶ユニットとして機能するが、重みとの結びつきとしてしばしば単純化される。 現在のモデルのほとんどは、膜電位を表すためにいくつかの記憶媒体にシナプス活性化を統合し、ニューロンがスパイクを放出した後、膜電位をハードリセットする。 これはハードウェアにおける単純さのために行われ、記憶媒体を消去するために「クリア」信号のみを必要とするが、ニューロンに格納された時間情報を破壊する。 本研究では,複雑な空間時間パターンを学習するためにSNNを訓練可能なLeaky IntegrateとFireニューロンの効率的なトレーニングアルゴリズムを導出する。 2つの複雑なデータセットで競合精度を達成した。 また,新しい時間的パターン関連タスクによるモデルの有用性を示す。 このアルゴリズムで設計し,複雑度を低減した臨界ニューラルダイナミクスを保ちながら,ニューロンとシナプスのメムリスタベースのネットワークのためのCMOS回路実装を開発した。 このニューロンモデルの回路実装は、適応しきい値の時間的スパイクパターンに反応する能力を示すためにシミュレーションされている。

Neuromorphic computing and spiking neural networks (SNN) mimic the behavior of biological systems and have drawn interest for their potential to perform cognitive tasks with high energy efficiency. However, some factors such as temporal dynamics and spike timings prove critical for information processing but are often ignored by existing works, limiting the performance and applications of neuromorphic computing. On one hand, due to the lack of effective SNN training algorithms, it is difficult to utilize the temporal neural dynamics. Many existing algorithms still treat neuron activation statistically. On the other hand, utilizing temporal neural dynamics also poses challenges to hardware design. Synapses exhibit temporal dynamics, serving as memory units that hold historical information, but are often simplified as a connection with weight. Most current models integrate synaptic activations in some storage medium to represent membrane potential and institute a hard reset of membrane potential after the neuron emits a spike. This is done for its simplicity in hardware, requiring only a "clear" signal to wipe the storage medium, but destroys temporal information stored in the neuron. In this work, we derive an efficient training algorithm for Leaky Integrate and Fire neurons, which is capable of training a SNN to learn complex spatial temporal patterns. We achieved competitive accuracy on two complex datasets. We also demonstrate the advantage of our model by a novel temporal pattern association task. Codesigned with this algorithm, we have developed a CMOS circuit implementation for a memristor-based network of neuron and synapses which retains critical neural dynamics with reduced complexity. This circuit implementation of the neuron model is simulated to demonstrate its ability to react to temporal spiking patterns with an adaptive threshold.
翻訳日:2023-04-03 00:13:14 公開日:2021-05-07
# n$-次元格子グラフ上での動的プログラミングのための量子スピードアップ

Quantum speedups for dynamic programming on $n$-dimensional lattice graphs ( http://arxiv.org/abs/2104.14384v2 )

ライセンス: Link先を確認
Adam Glos, Martins Kokainis, Ryuhei Mori, Jevg\=enijs Vihrovs(参考訳) ambainis et al. (2019) によるboolean hypercube 上の動的プログラミングの量子スピードアップに動機づけられ、どのグラフが同様の量子アドバンテージを持つかを調査した。 本稿では, ブールハイパーキューブグラフ, $n$次元格子グラフ $Q(D,n)$ の一般化を, $\{0,1,\ldots,D\}^n$ の頂点で検討する。 グラフ$G$ of $Q(D,n)$がエッジへのクエリアクセスを介して与えられると、$0^n$から$D^n$への経路が存在するかどうかが決定される。 古典的なクエリ複雑性は$\widetilde{\Theta}((D+1)^n)$であるが、複雑性を持つ量子アルゴリズムは$\widetilde O(T_D^n)$である。 T_D$の最初の値は$T_1 \approx 1.817$, $T_2 \approx 2.660$, $T_3 \approx 3.529$, $T_4 \approx 4.421$, $T_5 \approx 5.332$である。 また、$t_d \geq \frac{d+1}{\mathrm e}$を証明し、一般の$d$に対して、このアルゴリズムは、例えば、格子の大きさの速度アップ多項式を提供しない。 提示された量子アルゴリズムは、アンバニスらによって既知の量子アルゴリズムの自然な一般化であるが、複雑さの分析はかなり複雑である。 正確な解析には、解析的組合せ論において一般的なツールであるsaddle-point法を用いるが、この分野では広く使われていない。 次に、時間複雑性$\text{poly}(n)^{\log n} t_d^n$を持つこのアルゴリズムの実装を示し、集合のマルチカバー問題に適用する。 この問題では、$[n]$の$m$サブセットが与えられ、そのタスクは、$[n]$のそれぞれの要素をカバーする最小のサブセットを見つけることである。 最もよく知られた古典的アルゴリズムの時間複雑性は$o(m(d+1)^n)$であるが、量子アルゴリズムの時間複雑性は$\text{poly}(m,n)^{\log n} t_d^n$である。

Motivated by the quantum speedup for dynamic programming on the Boolean hypercube by Ambainis et al. (2019), we investigate which graphs admit a similar quantum advantage. In this paper, we examine a generalization of the Boolean hypercube graph, the $n$-dimensional lattice graph $Q(D,n)$ with vertices in $\{0,1,\ldots,D\}^n$. We study the complexity of the following problem: given a subgraph $G$ of $Q(D,n)$ via query access to the edges, determine whether there is a path from $0^n$ to $D^n$. While the classical query complexity is $\widetilde{\Theta}((D+1)^n)$, we show a quantum algorithm with complexity $\widetilde O(T_D^n)$, where $T_D < D+1$. The first few values of $T_D$ are $T_1 \approx 1.817$, $T_2 \approx 2.660$, $T_3 \approx 3.529$, $T_4 \approx 4.421$, $T_5 \approx 5.332$. We also prove that $T_D \geq \frac{D+1}{\mathrm e}$, thus for general $D$, this algorithm does not provide, for example, a speedup, polynomial in the size of the lattice. While the presented quantum algorithm is a natural generalization of the known quantum algorithm for $D=1$ by Ambainis et al., the analysis of complexity is rather complicated. For the precise analysis, we use the saddle-point method, which is a common tool in analytic combinatorics, but has not been widely used in this field. We then show an implementation of this algorithm with time complexity $\text{poly}(n)^{\log n} T_D^n$, and apply it to the Set Multicover problem. In this problem, $m$ subsets of $[n]$ are given, and the task is to find the smallest number of these subsets that cover each element of $[n]$ at least $D$ times. While the time complexity of the best known classical algorithm is $O(m(D+1)^n)$, the time complexity of our quantum algorithm is $\text{poly}(m,n)^{\log n} T_D^n$.
翻訳日:2023-04-02 02:11:15 公開日:2021-05-07
# ブラックホール蒸発の因果ユニタリ量子ビットモデル

Causal unitary qubit model of black hole evaporation ( http://arxiv.org/abs/2104.14901v2 )

ライセンス: Link先を確認
Bogus{\l}aw Broda(参考訳) ブラックホール蒸発の新しい簡単な量子ビットモデルを提案する。 このモデルは4つの量子ビット上で動作し、量子ゲートと量子回路で定義される。 モデルの主な特徴は、明らかなユニタリティと(特に顕著な)因果関係であり、これはブラックホールの内部から地平線を通しての情報伝達が不可能であると理解されている。 対応するフォン・ノイマン絡み合いエントロピーは、ページ曲線の粗(四ビット)近似をもたらす。

A new simple qubit model of black hole evaporation is proposed. The model operates on four qubits and is defined in terms of quantum gates and a quantum circuit. The chief features of the model include explicit unitarity and (most notably) causality which is understood as the impossibility of the transfer of information from the interior of the black hole through its horizon. The corresponding von Neumann entanglement entropy yields a crude (four-qubit) approximation of the Page curve.
翻訳日:2023-04-02 00:03:00 公開日:2021-05-07
# sr$^+$7d$および8p$しきい値以下のsrの惑星状態の構造と電子動力学

Structure and electron dynamics of planetary states of Sr below the Sr$^+$ $7d$ and $8p$ thresholds ( http://arxiv.org/abs/2105.03196v1 )

ライセンス: Link先を確認
Matthieu G\'en\'evriez, Christian Rosen and Ulrich Eichmann(参考訳) 実験と理論的研究を組み合わせることで、srの二重励起状態である7dnl$と8pnl$(n\ge 11$, $l=9-12$)を調査した。 実験スペクトルは5光子共鳴励起法を用いて得られた。 2つの高励起電子のエネルギー準位構造とダイナミクスを第一原理から計算するために、外部複素スケーリングと構成相互作用の方法が用いられた。 我々が記録したスペクトルと良好な量的一致が得られ、理論計算はそれらの複素構造と電子相関のシグネチャに光を当てた。 計算した2電子確率密度は、7dnl$と8pnl$の惑星状態における2つの電子の強相関角運動を明らかにし、外「凍った」電子の電場による高速な内部電子の偏光として電子力学を記述する凍った平面近似の予測を定量的に確認する。

In a combined experimental and theoretical study we investigate the $7dnl$ and $8pnl$ ($n\ge 11$, $l=9-12$) doubly-excited planetary states of Sr. The experimental spectrum was obtained using a five-photon resonant excitation scheme. The method of configuration interaction with exterior complex scaling was used to compute the energy-level structure and dynamics of the two highly excited electrons from first principles. Good quantitative agreement was obtained with the spectra we recorded, and the theoretical calculations shed light on their complex structure and the signatures of electron correlations therein. The two-electron probability densities we calculated reveal the strongly-correlated angular motion of the two electrons in the $7dnl$ and $8pnl$ planetary states, and confirm quantitatively the predictions of the frozen-planet approximation describing electron dynamics as the polarization of the fast inner electron by the electric field of the outer "frozen" electron.
翻訳日:2023-04-01 05:44:29 公開日:2021-05-07
# テール付き量子ウォークと有限グラフ上のシンク付き量子ウォークの関係

Relation between quantum walks with tails and quantum walks with sinks on finite graphs ( http://arxiv.org/abs/2105.03111v1 )

ライセンス: Link先を確認
Norio Konno, Etsuo Segawa, Martin \v{S}tefa\v{n}\'ak(参考訳) 私たちはGroverのウォークをシンクで接続し、Groverのウォークをテールで接続します。 長期間に限って沈み込むグロバーウォークの生存確率は、尾を持つグロバーウォークの中心となる一般化固有空間によって特徴づけられる。 グローバー・ウォークの中心となる固有空間は、グロバー・ウォークのアトラクター固有空間であり、シンクがある。 基礎となるランダムウォークの永続固有空間によって記述され、その支援はグラフ理論におけるグラフの境界と組合せフローと重複しない。

We connect the Grover walk with sinks to the Grover walk with tails. The survival probability of the Grover walk with sinks in the long time limit is characterized by the centered generalized eigenspace of the Grover walk with tails. The centered eigenspace of the Grover walk is the attractor eigenspace of the Grover walk with sinks. It is described by the persistent eigenspace of the underlying random walk whose support has no overlap to the boundaries of the graph and combinatorial flow in the graph theory.
翻訳日:2023-04-01 05:43:23 公開日:2021-05-07
# 3量子GHZクラスとWクラスの識別のためのコヒーレンスに基づく不等式

Coherence based inequality for the discrimination of three-qubit GHZ and W class ( http://arxiv.org/abs/2105.03097v1 )

ライセンス: Link先を確認
Pranav Kairon, Mukhtiyar Singh, Satyabrata Adhikari(参考訳) 量子コヒーレンスと絡み合いは重ね合わせの原理から生じる。 我々は、コヒーレンスと共起の${l_1}$-ノルムの間の厳密な関係を導出し、前者は後者よりも常に大きいことを示す。 この結果はコヒーレンスとコヒーレンスの間の階層的な関係を強調し、コヒーレンスが基本的でユビキタスな資源であることを証明している。 我々は、還元された2量子ビットと3量子ビット状態の特定のクラスの1量子ビットの部分コヒーレンスに基づく一夫多妻不等式(英語版)の類似形式を導出する。 さらに、3量子状態のGHZクラスとWクラスの分類にコヒーレンスに基づく不等式を提供する。 最後に,提案手法を実験で実現するための理論的議論を行う。

Quantum coherence and entanglement orignate from the superposition principle. We derive a rigorous relation between the ${l_1}$-norm of coherence and concurrence, in that we show that the former is always greater than the latter. This result highlights the hierarchical relationship between coherence and concurrence, and proves coherence to be a fundamental and ubiquitous resource. We derive an analogous form of monogamy inequality which is based on the partial coherence of the reduced two-qubit and reduced single qubit of the particular class of three-qubit state. Moreover, we provide coherence based inequality for the classification of GHZ class and W class of three-qubit states. Finally, we provide theoretical discussion for the possible implementation of the scheme in an experiment.
翻訳日:2023-04-01 05:42:47 公開日:2021-05-07
# エンタングルメント強化センサーによる核スピンの迅速検出

Proposed rapid detection of nuclear spins with entanglement-enhanced sensors ( http://arxiv.org/abs/2105.03069v1 )

ライセンス: Link先を確認
Hideaki Hakoshima, Yuichiro Matsuzaki, and Toyofumi Ishikawa(参考訳) 近年、ダイヤモンド中の窒素空孔(NV)中心を持つ核スピンを検出するための重要な開発が進んでいる。 しかし、短距離双極子-双極子相互作用の性質のため、NV中心との遠方の核スピンを検出するには長い時間がかかる。 本稿では,NV中心間の絡み合いを伴う核スピンの迅速検出を提案する。 核スピンを絡み合うことで検出するために必要な時間は、分離可能なNV中心よりも数桁短いことが示される。 我々の結果は、ナノスケール核磁気共鳴分光の新しい応用の道を開く。

Recently, there have been significant developments to detect nuclear spins with an nitrogen vacancy (NV) center in diamond. However, due to the nature of the short range dipole-dipole interaction, it takes a long time to detect distant nuclear spins with the NV centers. Here, we propose a rapid detection of nuclear spins with an entanglement between the NV centers. We show that the necessary time to detect the nuclear spins with the entanglement is several orders of magnitude shorter than that with separable NV centers. Our result pave the way for new applications in nanoscale nuclear magnetic resonance spectroscopy.
翻訳日:2023-04-01 05:42:32 公開日:2021-05-07
# 極低温浴の単一不純物検出のためのコヒーレント・デファスメント分光

Coherent and dephasing spectroscopy for single-impurity probing of an ultracold bath ( http://arxiv.org/abs/2105.03331v1 )

ライセンス: Link先を確認
Daniel Adam (1), Quentin Bouton (1), Jens Nettersheim (1), Sabrina Burgardt (1) and Artur Widera (1) ((1) Department of Physics and Research Center OPTIMAS, Technische Universit\"at Kaiserslautern, Germany)(参考訳) 超低温rb浴に浸漬した個々のcs不純物の時計状態に関するラムジー分光法を報告する。 相互作用駆動位相変化とラムゼー干渉信号の縞コントラストの減衰の両方を記録し,浴密度や非破壊温度に関する情報を得る。 ラムゼーの縁は、2つのCs状態がRb浴と重なり合うときに衝突エネルギーの差分シフトによって修正される。 この微分シフトは、平均気体密度とrb-cs種間散乱長の詳細によって直接影響を受け、位相変化とラムゼー信号のコントラストに影響を及ぼす。 さらに, 位相シフトの温度依存性が向上し, 低磁場feshbach共鳴系に近接し, $s$-wave散乱長が衝突エネルギー(運動エネルギー)の影響を強く受けている。 ラムゼー縞のコントラストのコヒーレント相の進化と崩壊を分析し、Rb雲の密度と温度を調査する。 この結果は、複雑な量子系において、個々の不純物原子を非破壊量子プローブとして用いることを指す。

We report Ramsey spectroscopy on the clock states of individual Cs impurities immersed in an ultracold Rb bath. We record both the interaction-driven phase evolution and the decay of fringe contrast of the Ramsey interference signal to obtain information about bath density or temperature nondestructively. The Ramsey fringe is modified by a differential shift of the collisional energy when the two Cs states superposed interact with the Rb bath. This differential shift is directly affected by the mean gas density and the details of the Rb-Cs interspecies scattering length, affecting the phase evolution and the contrast of the Ramsey signal. Additionally, we enhance the temperature dependence of the phase shift preparing the system close to a low-magnetic-field Feshbach resonance where the $s$-wave scattering length is significantly affected by the collisional (kinetic) energy. Analyzing coherent phase evolution and decay of the Ramsey fringe contrast, we probe the Rb cloud's density and temperature. Our results point at using individual impurity atoms as nondestructive quantum probes in complex quantum systems.
翻訳日:2023-04-01 05:37:27 公開日:2021-05-07
# 位相空間上の新しい量子力学

A new Quantum Mechanics on phase space ( http://arxiv.org/abs/2105.03327v1 )

ライセンス: Link先を確認
Antonio Cassa(参考訳) 複素函数は各有界線型作用素に関連付けられる

A complex function is associated to each bounded linear operator
翻訳日:2023-04-01 05:37:09 公開日:2021-05-07
# スペケンスの玩具理論の総合的考察

A consolidating review of Spekkens' toy theory ( http://arxiv.org/abs/2105.03277v1 )

ライセンス: Link先を確認
Ladina Hausmann, Nuriya Nurgalieva, L\'idia del Rio(参考訳) 量子力学のような複雑な理論をよりよく理解するために、一歩後退して、より直感的な基礎を持つ代替理論を創り出し、量子力学のどの特徴をそのようなホイル理論で再現できるかを調べることが有用である。 有名な例として、spekensのトイ理論があり、これは単純な前提に基づいている:「我々が共通の古典理論を取り、仮定として不確実性原理を加えたらどうだろうか? 言い換えれば、この理論は物理系に関する我々の知識に認識論的制限を課す: 変数の半分だけが観測者に知られることはない。 優れたSFのように、この単純な原理から、豊かな行動が生まれ、最も悪名高いのは、複数のシステムを構成するときである。 トイ理論は、量子非局所性のいくつかの側面をエミュレートするが、重要なことは、まだ非コンテキストモデルである。 この教育学的レビューでは、安定な形式主義や任意の次元への一般化など、スペケンスのおもちゃ理論に対する異なるアプローチを統合し、必要に応じて新しい結果を得る。 特に,おもちゃ理論における計測,重ね合わせ,絡み合いの一般的な特徴について紹介する。

In order to better understand a complex theory like quantum mechanics, it is sometimes useful to take a step back and create alternative theories, with more intuitive foundations, and examine which features of quantum mechanics can be reproduced by such a foil theory. A prominent example is Spekkens' toy theory, which is based off a simple premise: "What if we took a common classical theory and added the uncertainty principle as a postulate?" In other words, the theory imposes an epistemic restriction on our knowledge about a physical system: only half of the variables can ever be known to an observer. Like good science fiction, from this simple principle a rich behaviour emerges, most notoriously when we compose several systems. The toy theory emulates some aspects of quantum non-locality, although crucially it is still a non-contextual model. In this pedagogical review we consolidate different approaches to Spekkens' toy theory, including the stabilizer formalism and the generalization to arbitrary dimensions, completing them with new results where necessary. In particular, we introduce a general characterization of measurements, superpositions and entanglement in the toy theory.
翻訳日:2023-04-01 05:36:54 公開日:2021-05-07
# 光ナノファイバー近傍に閉じ込められた原子の1次元鎖を用いた結合振動子の汎用量子シミュレータ

A versatile quantum simulator for coupled oscillators using a 1D chain of atoms trapped near an optical nanofiber ( http://arxiv.org/abs/2105.03262v1 )

ライセンス: Link先を確認
Daniela Holzmann, Matthias Sonnleitner, Helmut Ritsch(参考訳) ナノフォトニック光導波路やナノファイバーの透過光モードは、効果的に無限範囲の力を媒介することができる。 導波路のエバネッセント場内に閉じ込められた粒子の線形鎖に対して、適切なレーザー周波数のセットを持つ横方向照明は、時間依存で広く制御可能な全対全相互作用を持つ結合オシレータ量子シミュレータの実装を可能にする。 クーロン相互作用をシミュレーションした発振器のエネルギースペクトルの例では、レーザー照明条件の適切な選択により、異なる有効結合ジオメトリを高精度にエミュレートできることを示した。 同様に、基本量子ゲートはエネルギーベースとコヒーレント状態ベースで任意に選択された振動子間で選択的に実装することができる。 系力学と状態の鍵となる性質は、外結合ファイバー場の解析によって連続的に監視することができる。

The transversely confined propagating light modes of a nano-photonic optical waveguide or nanofiber can mediate effectively infinite-range forces. We show that for a linear chain of particles trapped within the waveguide's evanescent field, transverse illumination with a suitable set of laser frequencies should allow the implementation of a coupled-oscillator quantum simulator with time-dependent and widely controllable all-to-all interactions. At the example of the energy spectrum of oscillators with simulated Coulomb interactions we show that different effective coupling geometries can be emulated with high precision by proper choice of laser illumination conditions. Similarly, basic quantum gates can be selectively implemented between arbitrarily chosen pairs of oscillators in the energy basis as well as in a coherent-state basis. Key properties of the system dynamics and states can be monitored continuously by analysis of the out-coupled fiber fields.
翻訳日:2023-04-01 05:36:20 公開日:2021-05-07
# クライン・ゴルドン振動子の超対称性について

On the supersymmetry of the Klein-Gordon oscillator ( http://arxiv.org/abs/2105.03240v1 )

ライセンス: Link先を確認
Georg Junker(参考訳) 三次元クライン・ゴルドン発振器は超対称量子力学から知られている代数構造を示す。 超対称性はウィッテン指数の消失とともに崩壊し、非相対論的調和振動子と3次元の密接な関係にあるクライン・ゴルドン振動子のスペクトル特性を導出するために用いられる。 超対称性はまた、エネルギー依存グリーン函数に対する閉形式式を導出することができる。

The three-dimensional Klein-Gordon oscillator is shown to exhibit an algebraic structure known from supersymmetric quantum mechanics. The supersymmetry is found to be unbroken with a vanishing Witten index, and it is utilized to derive the spectral properties of the Klein-Gordon oscillator, which is closely related to that of the non-relativistic harmonic oscillator in three dimensions. Supersymmetry also enables us to derive a closed-form expression for the energy-dependent Green's function.
翻訳日:2023-04-01 05:36:05 公開日:2021-05-07
# 測定誘起ゼーマン場によるスピン鎖のポラロン生成

Polaron formation in a spin chain by measurement-induced imaginary Zeeman field ( http://arxiv.org/abs/2105.03200v1 )

ライセンス: Link先を確認
P. V. Pyshkin, E. Ya. Sherman and Lian-Ao Wu(参考訳) 相互作用するスピンの量子連鎖の非単位進化を制御するための高速な射影的計測に基づくアプローチを提案する。 この方法では、鎖に結合した1つの外部スピンの局所的な測定がスピンポラロンを生成できることを実証する。 この安定性は、鎖のヒルベルト空間が非ユニタリ進化の間安定な非退化状態の部分空間を含むという事実から生じる。 これらの状態は、連鎖の最終状態とポラロンの長期形状を決定する。 スピンポーラロンの形成に加えて、提案された測定プロトコルは、初期重ね合わせまたは混合物から非脱離状態の蒸留に使用できる。

We present a high-rate projective measurement-based approach for controlling non-unitary evolution of a quantum chain of interacting spins. In this approach, we demonstrate that local measurement of a single external spin coupled to the chain can produce a spin polaron, which remains stable after the end of the measurement. This stability results from the fact that the Hilbert space of the chain contains a subspace of non-decaying states, stable during the nonunitary evolution. These states determine the resulting final state of the chain and long-term shape of the polaron. In addition to formation of the spin polarons, the presented measurement protocol can be used for distillation of non-decaying states from an initial superposition or mixture.
翻訳日:2023-04-01 05:35:23 公開日:2021-05-07
# プロト・クイッパー-Mの抽象機械意味論について

On Abstract Machine Semantics for Proto-Quipper-M ( http://arxiv.org/abs/2105.03522v1 )

ライセンス: Link先を確認
Andrea Colledan(参考訳) quipperは量子回路を記述するためのドメイン固有プログラミング言語である。 Haskellの組み込み言語として実装されているので、Quipperは非常に実用的な関数型言語です。 しかし、同じ理由で形式的な意味論が欠けており、Haskellの型システムによって制限されている。 特に、Haskellには線形型がないため、量子状態の非閉性に反するQuipperプログラムを書くのは容易である。 タイプセーフな方法でQuipperの関連するフラグメントを形式化する目的で、Proto-Quipperファミリーの研究言語がここ数年にわたって導入されてきた。 本稿では, 量子回路のカテゴリモデルに基づくProto-Quipper-Mのインスタンスとして, 非閉鎖特性がコンパイル時に保持されることを保証する線形型システムを提案する。 次に、Proto-Quipper-Mのビッグステップ意味論から仮の小さな操作意味論を導き、両者が等価であることを証明する。 仮意味論の主題の縮小と進歩の結果を証明した後、抽象機械のスタイルで真に小さな意味論を得るように構築し、最終的に元の意味論と同値であることが証明される。

Quipper is a domain-specific programming language for the description of quantum circuits. Because it is implemented as an embedded language in Haskell, Quipper is a very practical functional language. However, for the same reason, it lacks a formal semantics and it is limited by Haskell's type system. In particular, because Haskell lacks linear types, it is easy to write Quipper programs that violate the non-cloning property of quantum states. In order to formalize relevant fragments of Quipper in a type-safe way, the Proto-Quipper family of research languages has been introduced over the last years. In this paper we first review Proto-Quipper-M, an instance of the Proto-Quipper family based on a categorical model for quantum circuits, which features a linear type system that guarantees that the non-cloning property holds at compile time. We then derive a tentative small-step operational semantics from the big-step semantics of Proto-Quipper-M and we prove that the two are equivalent. After proving subject reduction and progress results for the tentative semantics, we build upon it to obtain a truly small-step semantics in the style of an abstract machine, which we eventually prove to be equivalent to the original semantics.
翻訳日:2023-04-01 05:28:39 公開日:2021-05-07
# 円錐型真空の応力エネルギーとトポロジー変化の意義

Stress-Energy in the Conical Vacuum and its Implications for Topology Change ( http://arxiv.org/abs/2105.03477v1 )

ライセンス: Link先を確認
Eric B. Jones(参考訳) この論文は1+1$時空次元における円錐位相変化の半古典的解析を示し、そこでは周囲の時空は古典的かつ固定的であり、それに結合したスカラー場は量子化される。 スカラー場応力エネルギーテンソルの真空期待値を2つの異なるアプローチで算出する。 第一に、コーン上のいわゆるソーキン=ジョンソン状態と元の正規化スキームを明確に決定することと、後者は共形真空とより伝統的な点分割再正規化を用いる。 円錐型トポロジーの変化は、ズボン型トポロジーの変化と同じような病態を伴わないと考えられる。 これはソルキンとボルドによる予想と暫定的に一致し、モース臨界点に関して時空を変化させるトポロジーを分類し、特に1+1ドルの次元のコーンとヤルムルケは単位モース指数の臨界点を欠いている。

This dissertation presents a semiclassical analysis of conical topology change in $1+1$ spacetime dimensions wherein, to lowest order, the ambient spacetime is classical and fixed while the scalar field coupled to it is quantized. The vacuum expectation value of the scalar field stress-energy tensor is calculated via two different approaches. The first of these involves the explicit determination of the so called Sorkin-Johnston state on the cone and an original regularization scheme, while the latter employs the conformal vacuum and the more conventional point-splitting renormalization. It is found that conical topology change seems not to suffer from the same pathologies that trousers-type topology change does. This provides tentative agreement with conjectures due to Sorkin and Borde, which attempt to classify topology changing spacetimes with respect to their Morse critical points and in particular, that the cone and yarmulke in $1+1$ dimensions lack critical points of unit Morse index.
翻訳日:2023-04-01 05:28:18 公開日:2021-05-07
# マクロな振る舞いの微視的起源

Microscopic Origins of Macroscopic Behavior ( http://arxiv.org/abs/2105.03470v1 )

ライセンス: Link先を確認
Joel L. Lebowitz(参考訳) この記事は、主に、アメリカ物理学会の2021年3月の会合(バーチャル)で、アメリカ物理学研究所とアメリカ物理学会からダニー・ハイネマン数理物理学賞を受賞したときに私が行った講演に基づいている。 私はこの賞に繋がる結果に対して多くの同僚に非常に不信感を抱いている。 それらすべてを名付けるには、この記事に割り当てられたすべてのスペースを占有する。 なので、Michael Aizenman氏、Bernard Derrida氏、Shelly Goldstein氏、Elliott Lieb氏、Oliver Penrose氏、Errico Presutti氏、Gene Speer氏、Herbert Spohn氏などです。 リストと未登録の協力者全員に感謝します。 ここでも afosr と nsf による長期間のサポートを認めたいと思います。

This article is mostly based on a talk I gave at the March 2021 meeting (virtual) of the American Physical Society on the occasion of receiving the Dannie Heineman prize for Mathematical Physics from the American Institute of Physics and the American Physical Society. I am greatly indebted to many colleagues for the results leading to this award. To name them all would take up all the space allotted to this article. (I have had more than 200 collaborators so far), I will therefore mention just a few: Michael Aizenman, Bernard Derrida, Shelly Goldstein, Elliott Lieb, Oliver Penrose, Errico Presutti, Gene Speer and Herbert Spohn. I am grateful to all of my collaborators, listed and unlisted. I would also like to acknowledge here long time support form the AFOSR and the NSF.
翻訳日:2023-04-01 05:27:28 公開日:2021-05-07
# CASTing a Net: Search Technology による教師支援

CASTing a Net: Supporting Teachers with Search Technology ( http://arxiv.org/abs/2105.03456v1 )

ライセンス: Link先を確認
Garrett Allen, Katherine Landau Wright, Jerry Alan Fails, Casey Kennington, Maria Soledad Pera(参考訳) 過去および現在の研究では、教室の検索技術が子供たちに役立っていることを保証することに重点を置いている。 本稿では,教師を包含する研究の焦点を広げる必要性と,検索技術が彼らをいかに支援できるかを論じる。 特に,学生の綴り,書き,概念接続スキルの窓口を提供することで,教師に裏側ポータルを提供することによって,学生に力を与える方法を共有している。

Past and current research has typically focused on ensuring that search technology for the classroom serves children. In this paper, we argue for the need to broaden the research focus to include teachers and how search technology can aid them. In particular, we share how furnishing a behind-the-scenes portal for teachers can empower them by providing a window into the spelling, writing, and concept connection skills of their students.
翻訳日:2023-04-01 05:27:10 公開日:2021-05-07
# 放散オージェ遷移を光学的に駆動する

Optically driving the radiative Auger transition ( http://arxiv.org/abs/2105.03447v1 )

ライセンス: Link先を確認
Clemens Spinnler, Liang Zhai, Giang N. Nguyen, Julian Ritzmann, Andreas D. Wieck, Arne Ludwig, Alisa Javadi, Doris E. Reiter, Pawe{\l} Machnikowski, Richard J. Warburton, and Matthias C. L\"obl(参考訳) 放射型オージェ法では、光学減衰は他のキャリアの同時励起を伴う。 放散オージェ過程は、光放射スペクトルにおいて弱い赤方偏移衛星ピークをもたらす。 これらの衛星ピークは、原子のX線放射、半導体や量子エミッターのドナーの可視光周波数、二次元系におけるシェイクアップ線としての赤外線周波数など、広いスペクトル範囲で観測されている。 これまでのところ、ラジエーションオージェ過程のすべての作業は、自発的な放出を検出することに集中している。 しかし、放散オージェ過程が光子放出につながるという事実は、遷移も光学的に励起できることを示唆している。 このような逆放射オージェ過程では、励起は同時光子吸収と電子脱励起に対応する。 ここでは、半導体量子ドット中の三重項上の放射オージェ遷移の光駆動を示す。 放射オージェと基本遷移はともに$\lambda$-system を形成する。 この$\Lambda$-systemの両遷移を同時に駆動すると、蛍光信号の最大70\%$の低減が観測される。 以上の結果から, 極小クーロン相互作用と量子光学を結合する光学的に対応可能な遷移が示される。 この結果は、コヒーレントレーザー源、効率的かつ高速な単一光子検出器など、光学の利点をすべて備えた単一量子エミッタ上でTHz分光を行う可能性を開く。 電子スピンの光制御と類似して、放射オージェと基本遷移との間の$\lambda$-system はエミッターの軌道の自由度を光学的に制御できる。

In a radiative Auger process, optical decay is accompanied by simultaneous excitation of other carriers. The radiative Auger process gives rise to weak red-shifted satellite peaks in the optical emission spectrum. These satellite peaks have been observed over a large spectral range: in the X-ray emission of atoms; close to visible frequencies on donors in semiconductors and quantum emitters; and at infrared frequencies as shake-up lines in two-dimensional systems. So far, all the work on the radiative Auger process has focussed on detecting the spontaneous emission. However, the fact that the radiative Auger process leads to photon emission suggests that the transition can also be optically excited. In such an inverted radiative Auger process, excitation would correspond to simultaneous photon absorption and electronic de-excitation. Here, we demonstrate optical driving of the radiative Auger transition on a trion in a semiconductor quantum dot. The radiative Auger and the fundamental transition together form a $\Lambda$-system. On driving both transitions of this $\Lambda$-system simultaneously, we observe a reduction of the fluorescence signal by up to $70\%$. Our results demonstrate a type of optically addressable transition connecting few-body Coulomb interactions to quantum optics. The results open up the possibility of carrying out THz spectroscopy on single quantum emitters with all the benefits of optics: coherent laser sources, efficient and fast single-photon detectors. In analogy to optical control of an electron spin, the $\Lambda$-system between the radiative Auger and the fundamental transitions allows optical control of the emitters' orbital degree of freedom.
翻訳日:2023-04-01 05:27:02 公開日:2021-05-07
# 科学技術とサイバーセキュリティにおける量子コンピューティングの役割

On the Role of Quantum Computing in Science and Cybersecurity ( http://arxiv.org/abs/2105.09942v1 )

ライセンス: Link先を確認
Giovanny Espitia(参考訳) 本稿では,量子コンピューティングの現状と,その潜在的影響を科学的コンピューティングとサイバーセキュリティで分析する。 さらに、提示された計算形式の力学の非技術的記述は、提供された議論をよりよく理解するために読者を教育するために提供される。 本研究の目的は、この最先端技術に対する認識を高めることだけでなく、金融、化学、データサイエンスを含む分野における量子コンピューティングの他の応用を研究したいと考える個人に対する一般的な参照ガイドとしても機能する。 最後に、この形態のコンピューティングが主に検討される領域において持つ意味に対処する議論セクションで、教育的な議論が提供される。

In this paper, we examine the state art of quantum computing and analyze its potential effects in scientific computing and cybersecurity. Additionally, a non-technical description of the mechanics of the listed form of computing is provided to educate the reader for better understanding of the arguments provided. The purpose of this study is not only to increase awareness in this nescient technology, but also serve as a general reference guide for any individual wishing to study other applications of quantum computing in areas that include finance, chemistry, and data science. Lastly, an educated argument is provided in the discussion section that addresses the implications this form of computing will have in the main areas examined.
翻訳日:2023-04-01 05:19:06 公開日:2021-05-07
# Visoes da Industria 4.0

Visoes da Industria 4.0 ( http://arxiv.org/abs/2105.08544v1 )

ライセンス: Link先を確認
Wallace Camacho, Cristina Dias(参考訳) 産業は高度に機械化された自動化された材料を生産する経済の一部である。 産業化の開始以来、今日のいわゆる産業革命は、機械化(第1次産業革命と呼ばれる)、電気エネルギーの集中的利用(第2次産業革命と呼ばれる)、広範なデジタル化(第3次産業革命と呼ばれる)など、いくつかの段階とパラダイムシフトがあった。 この意味で、この将来的な期待のために、第4次産業革命のために「工業4.0」という用語が確立された。 特にヨーロッパでは、特に産業用インターネットとして造られたアメリカ合衆国でも、蒸気、電気などの産業生産における破壊的な増加の継続と比較されることが多い。 継続的労働トレーニングの側面、産業、経済、一般ITガバナンス政策における持続可能性資源の利用は広くは行われておらず、産業4.0におけるパラダイムの主な問題と課題である。 この記事では,今後のテーマ研究の方向性について述べる。

Industry is part of an economy that produces highly mechanized and automated material goods. Since the beginning of industrialization, there have been several stages and paradigm shifts that today are ex-post-so-called industrial revolutions: in the field of mechanization (called the 1st industrial revolution), the intensive use of electrical energy (called the 2nd industrial revolution) and widespread digitization (called the 3rd industrial revolution). In this sense, for this future expectation, the term (Industry 4.0) was established for a 4th industrial revolution. Developments especially in Europe, but also in the United States, coined as the Industrial Internet, are often compared with the continuation of disruptive increases in industrial production, such as revolutions initiated by steam, electricity, etc. Aspects of continuous workforce training, and the use of sustainability resources in industrial, economic and general IT governance policies are not widespread and are the main problems and challenges in paradigms in Industry 4.0. Directions for future thematic research that will be covered in this article.
翻訳日:2023-04-01 05:18:54 公開日:2021-05-07
# 機械学習を用いた最適群定式化

Optimal Group Formulation Using Machine Learning ( http://arxiv.org/abs/2105.07858v1 )

ライセンス: Link先を確認
Mahbub Hasan and Al-Emran(参考訳) グループ形成自体が複雑なプロセスです。 過去10年間にわたり、教育や他の弟子はすぐに改善してきたが、教育システムにおける最適なグループ形成はいまだに苦闘している。 我々の研究は、あらゆる機関のクラスに最適なグループを作ることに重点を置いている。 本研究では, 前回の学術記録に基づくグループ形成にSimulated Annealing (SA) を用いた。 一般に任意のクラスタを作成し、次にSAを使って最適化します。 私たちのモデルは、多数のデータセットに対して大きな成功率を持っています。 この研究は、学術および関連研究におけるグループ形成の先駆的な役割を担う。

Group formation itself a perplexing process. Over the decade of time education and others disciple has improved imminently but optimal group formation in educational system is still struggling. Our research focus on to create optimal group in a class of any institute. In this research we use Simulated Annealing (SA) for best group formation based on the previous academic record. We generally create an arbitrary cluster first then optimise using SA. Our model has significant success rate over a large number of datasets. This research will play a pioneer role in group formations in the academic and related researches.
翻訳日:2023-04-01 05:18:36 公開日:2021-05-07
# Eラーニングのためのエンタープライズアーキテクチャフレームワーク

An Enterprise Architecture Framework for E-learning ( http://arxiv.org/abs/2105.07857v1 )

ライセンス: Link先を確認
Abbas Najafizadeh, Maryam Saadati, S. Mahdi Jamei, S. Shervin Ostadzadeh(参考訳) 情報とコミュニケーションベースがより多くなる傾向の中で、学習サービスとプロセスも進化した。 eラーニングは電子的に支援された学習と教育のあらゆる形態からなる。 情報とコミュニケーションシステムは、これらの学習プロセスを実装するための基本的な役割を果たす。 典型的な情報駆動型組織では、Eラーニングはインターネットとイントラネットにまたがるアプリケーションとデータのための、はるかに大きなプラットフォームの一部である。 この点において、E-ラーニングは、情報に基づく活動を包括的に組織化しようとする必然的な傾向をもたらしている。 エンタープライズアーキテクチャ(EA)を構築することは、間違いなくこの目標を達成するための基本的な概念である。 本稿では,eラーニング情報システムのためのEAを提案する。 このフレームワークは、完全に統合された学習と教育プロセスと情報システムの設計と正当化を支援し、教育的成功率の向上をもたらす。

With a trend toward becoming more and more information and communication based, learning services and processes were also evolved. E-learning comprises all forms of electronically supported learning and teaching. The information and communication systems serve as a fundamental role to implement these learning processes. In the typical information-driven organizations, the E-learning is part of a much larger platform for applications and data that extends across the Internet and intranet/extranet. In this respect, E-learning has brought about an inevitable tendency to lunge towards organizing their information based activities in a comprehensive way. Building an Enterprise Architecture (EA) undoubtedly serves as a fundamental concept to accomplish this goal. In this paper, we propose an EA for E-learning information systems. The presented framework helps developers to design and justify completely integrated learning and teaching processes and information systems which results in improved pedagogical success rate.
翻訳日:2023-04-01 05:18:29 公開日:2021-05-07
# 学習環境とドロップアウト意図の相関

Correlations Between Learning Environments and Dropout Intention ( http://arxiv.org/abs/2105.07856v1 )

ライセンス: Link先を確認
Edward Simmons(参考訳) 本研究は,学習環境と学生のドロップアウト意図を比較している。 統計を使いながら、データと2つの記事間の相関を調査して、この2つの研究がどのように並んでいるかを確認しました。 学習環境とドロップアウトの意図は、学生に異なる影響を与える可能性がある。 生徒が成績が良いか、特に数学の成績が悪いかを判断できる。

This research is comparing learning environments to students dropout intentions. While using statistics I looked at data and the correlations between two articles to see how the two studies looked side to side. Learning environments and dropout intentions can both have vary effects on students. They can both determine if a student does well, or bad in school especially math.
翻訳日:2023-04-01 05:18:18 公開日:2021-05-07
# ハイゼンベルク型ハミルトニアンの量子シミュレーションに適用した位相推定アルゴリズムの最適化

Optimizing the Phase Estimation Algorithm Applied to the Quantum Simulation of Heisenberg-Type Hamiltonians ( http://arxiv.org/abs/2105.05018v1 )

ライセンス: Link先を確認
Scott Johnstun and Jean-Fran\c{c}ois Van Huele(参考訳) 位相推定アルゴリズムは、暗号、数論、量子システムのシミュレーションに応用された強力な量子アルゴリズムである。 このアルゴリズムを用いて、ハイゼンベルク・ハミルトニアンの下で2つのスピン1/2粒子の系の時間発展をシミュレートする。 この進化は、IBMのQiskitプラットフォームを介して量子コンピュータと実際の量子コンピュータの古典的なシミュレーションによって行われる。 アルゴリズムには3つの最適化も導入している: 循環型、反復型、ベイズ型。 これらの最適化をシミュレーションに適用し,性能改善について検討する。 また、量子アルゴリズムを一般的に改善できる最適化の属性である反復型および更新型アルゴリズムのパラダイムについても論じる。

The phase estimation algorithm is a powerful quantum algorithm with applications in cryptography, number theory, and simulation of quantum systems. We use this algorithm to simulate the time evolution of a system of two spin-1/2 particles under a Heisenberg Hamiltonian. The evolution is performed through both classical simulations of quantum computers and real quantum computers via IBM's Qiskit platform. We also introduce three optimizations to the algorithm: circular, iterative, and Bayesian. We apply these optimizations to our simulations and investigate how the performance improves. We also discuss the paradigms of iterative and update-based algorithms, which are attributes of these optimizations that can improve quantum algorithms generally.
翻訳日:2023-04-01 05:18:11 公開日:2021-05-07
# 量子エネルギーテレポーテーションはいつ観測できるのか?

When the Quantum Energy Teleportation is Observable? ( http://arxiv.org/abs/2105.04407v1 )

ライセンス: Link先を確認
H. Razmi, A. MohammadKazemi(参考訳) 量子エネルギーテレポーテーションがいつ観測可能かを調査したい。 観測可能性の条件は、基本エネルギー時間不確実性関係によって決定される最小時間値に基づいている。

We want to investigate when the quantum energy teleportation is observable. The condition for observability is based on the minimum time value determined by the fundamental energy-time uncertainty relation.
翻訳日:2023-04-01 05:18:01 公開日:2021-05-07
# ビュー、多様体および量子力学

Views, variety and quantum mechanics ( http://arxiv.org/abs/2105.03539v1 )

ライセンス: Link先を確認
Lee Smolin(参考訳) 非相対論的量子論のための非局所隠れ変数理論が提示され、個々の事象の完全な記述という意味で、量子力学の現実主義的な完成を与える。 提案された基本理論は、時間、事象、因果構造、運動量、エネルギーが基本であるとするエネルギー的因果集合論の拡張である。 しかし、空間と波動関数は創発的である。 理論の可能なものは、それらの因果的過去の部分集合である事象の見解である。 したがって、この理論は、宇宙は事象の因果的ネットワークであり、それぞれの事象から後ろ向きに見ることによって自身の部分的な見方から成り立っていると主張する。 基本動力学は、ポテンシャルエネルギーが多様体に比例する作用に基づいており、これは事象の視点の多様性の尺度であり、運動エネルギーはその変化の速度に比例する。 シュレーディンガー方程式は、基本史の事象の密度の増大において、先行順序に導かれる。 より高次に、波動関数の非線形な計算可能な補正があり、そこから新しい物理効果が予測される。

A non-local hidden variables theory for non-relativisitic quantum theory is presented, which gives a realist completion of quantum mechanics, in the sense of a complete description of individual events. The proposed fundamental theory is an extension of an energetic causal set theory, which assumes that time, events, causal structure, momentum and energy are fundamental. But space and the wave function are emergent. The beables of the theory are the views of the events, which are a subset of their causal pasts. Thus, this theory asserts that the universe is a causal network of events, which consists of partial views of itself as seen by looking backwards from each event. The fundamental dynamics is based on an action whose potential energy is proportional to the variety, which is a measure of the diversity of the views of the events, while the kinetic energy is proportional to its rate of change. The Schroedinger equation is derived to leading order in an expansion in density of the events of the fundamental histories. To higher order, there are computable corrections, non-linear in the wave function, from which new physical effects may be predicted.
翻訳日:2023-04-01 05:17:58 公開日:2021-05-07
# 組合せ最適化のための量子アルゴリズムのベンチマーク研究:ユニタリ対散逸

Benchmark Study of Quantum Algorithms for Combinatorial Optimization: Unitary versus Dissipative ( http://arxiv.org/abs/2105.03528v1 )

ライセンス: Link先を確認
Krishanu Sankar, Artur Scherer, Satoshi Kako, Sam Reifenstein, Navid Ghadermarzy, Willem B. Krayenhoff, Yoshitaka Inui, Edwin Ng, Tatsuhiro Onodera, Pooya Ronagh, and Yoshihisa Yamamoto(参考訳) 本稿では,測度フィードバックコヒーレントIsing Machine(MFB-CIM),離散断熱量子計算(DAQC),およびGroverの探索に基づく量子最小探索(DH-QMF)のためのD\"urr-Hoyerアルゴリズムの3種類の量子アルゴリズムの性能スケーリングについて検討する。 比較対象としてmaxcut問題、最適化アルゴリズムの性能評価にtime-to-solution(tts)を用いた。 MFB-CIM の中央値 TTS に対する $\Theta(2^{\sqrt{n}})$ のスケーリングを、DAQC の指数 $n$ と provable $\widetilde{\mathcal O}\left(\sqrt{2^n}\right)$ DH-QMF の指数スケーリングと比較して実証的に観察する。 これらのスケーリングの複雑さは、MFB-CIMの他の2つのアルゴリズムと比較して劇的な性能上の優位性をもたらすと結論付けている。

We study the performance scaling of three quantum algorithms for combinatorial optimization: measurement-feedback coherent Ising machines (MFB-CIM), discrete adiabatic quantum computation (DAQC), and the D\"urr-Hoyer algorithm for quantum minimum finding (DH-QMF) that is based on Grover's search. We use MaxCut problems as our reference for comparison, and time-to-solution (TTS) as a practical measure of performance for these optimization algorithms. We empirically observe a $\Theta(2^{\sqrt{n}})$ scaling for the median TTS for MFB-CIM, in comparison to the exponential scaling with the exponent $n$ for DAQC and the provable $\widetilde{\mathcal O}\left(\sqrt{2^n}\right)$ scaling for DH-QMF. We conclude that these scaling complexities result in a dramatic performance advantage for MFB-CIM in comparison to the other two algorithms for solving MaxCut problems.
翻訳日:2023-04-01 05:17:40 公開日:2021-05-07
# 超オーミック環境におけるランダウ・ゼナー量子力学の交差時間

Crossing time in the Landau-Zener quantum dynamics in a super Ohmic environment ( http://arxiv.org/abs/2105.03526v1 )

ライセンス: Link先を確認
Peter Nalbach(参考訳) 超オーミック環境、すなわち縦方向および横方向の環境の影響下で、回避された交差を駆動する量子2状態系のダイナミクスについて検討する。 緩和がダイナミクスに影響を与える交差時間窓は、回避された交差を中心に配置されている。 数値的完全準断熱経路積分を用いた動力学とランダウ・ゼナー確率を決定する。 弱結合では、数値的に要求の少ない非平衡ブロッホ方程式が正確な説明を与える。 交差時間は, システムバス結合強度だけでなく, オーミック浴の状況とは対照的に, 浴槽スペクトル遮断周波数にも強く依存する。 その結果,量子系を緩和範囲から駆逐する定量的プロトコルの設計が可能となった。

We study the dynamics of a quantum two state system driven through an avoided crossing under the influence of a super Ohmic environment, i.e. a longitudinal as well as a transversal one. The crossing time window, in which relaxation influences the dynamics, is centered around the avoided crossing. We determine the dynamics and the Landau-Zener probability employing the numerical exact quasi-adiabatic path integral. At weak coupling we show that the numerically less demanding nonequilibrium Bloch equations provide an accurate description. The crossing time depends strongly not only on the system-bath coupling strength but also on the bath spectral cut-off frequency in contrast to the situation in an Ohmic bath. Our results enable to design quantitative protocols which drive quantum systems out of the influence range of relaxation.
翻訳日:2023-04-01 05:17:17 公開日:2021-05-07
# 金融時系列予測のための条件付き相互情報に基づくコントラスト損失

Conditional Mutual information-based Contrastive Loss for Financial Time Series Forecasting ( http://arxiv.org/abs/2002.07638v3 )

ライセンス: Link先を確認
Hanwei Wu, Ather Gattami, Markus Flierl(参考訳) 金融時系列予測のための表現学習フレームワークを提案する。 金融予測にディープラーニングモデルを使用する場合の課題のひとつは、小さなデータセットを使用する場合のトレーニングデータの不足である。 小さなデータセットでトレーニングされたディープニューラルネットワークによる直接トレンド分類は、オーバーフィッティング問題の影響を受けやすい。 本稿では,まず時系列データからコンパクト表現を学習し,学習した表現を用いてより単純なモデルを用いて時系列運動の予測を行う。 クラス条件付き潜在変数モデルを考える。 我々は,エンコーダネットワークをトレーニングし,潜在変数と符号化された観測変数に条件付きトレンド情報との相互情報を最大化する。 条件付き相互情報最大化はコントラスト損失によって近似できることを示す。 そして、同じクラスから2つの符号化された表現がサンプリングされるか否かを判定する分類タスクに変換する。 これはトレーニングデータポイントをペアで比較することと同値であり、エンコーダネットワークの一般化能力が向上する。 エンコーダとして深層自己回帰モデルを用いて,シーケンスデータの長期的依存関係をキャプチャする。 実験により,提案手法は最先端性能を向上する可能性が示唆された。

We present a representation learning framework for financial time series forecasting. One challenge of using deep learning models for finance forecasting is the shortage of available training data when using small datasets. Direct trend classification using deep neural networks trained on small datasets is susceptible to the overfitting problem. In this paper, we propose to first learn compact representations from time series data, then use the learned representations to train a simpler model for predicting time series movements. We consider a class-conditioned latent variable model. We train an encoder network to maximize the mutual information between the latent variables and the trend information conditioned on the encoded observed variables. We show that conditional mutual information maximization can be approximated by a contrastive loss. Then, the problem is transformed into a classification task of determining whether two encoded representations are sampled from the same class or not. This is equivalent to performing pairwise comparisons of the training datapoints, and thus, improves the generalization ability of the encoder network. We use deep autoregressive models as our encoder to capture long-term dependencies of the sequence data. Empirical experiments indicate that our proposed method has the potential to advance state-of-the-art performance.
翻訳日:2022-12-30 19:23:49 公開日:2021-05-07
# FACMAC: マルチエージェント型集中型政策グラディエント

FACMAC: Factored Multi-Agent Centralised Policy Gradients ( http://arxiv.org/abs/2003.06709v5 )

ライセンス: Link先を確認
Bei Peng, Tabish Rashid, Christian A. Schroeder de Witt, Pierre-Alexandre Kamienny, Philip H. S. Torr, Wendelin B\"ohmer, Shimon Whiteson(参考訳) 本稿では,離散的および連続的行動空間における協調的マルチエージェント強化学習のための新しい手法であるファクタード・マルチエージェント集中化政策勾配(facmac)を提案する。 マルチエージェントのアクタ-批判手法であるmaddpgと同様、このアプローチは決定論的ポリシー勾配を用いてポリシーを学習する。 しかし、FACMACは、一般的なマルチエージェントQ-ラーニングアルゴリズムであるQMIXのように、アジェント毎のユーティリティを非線形単調関数を介してジョイントアクション値関数に結合する集中型だがファクタードされた批判を学習する。 しかし、QMIXとは異なり、批判を分解する固有の制約はない。 私たちはまた、非単調な因子分解を採用し、その表現能力の増大によって、モノリシックで、あるいは単調に因子づけされた批評家では解決できないいくつかのタスクが解決できることを実証的に証明する。 さらに、FACMACは、MADDPGのように各エージェントのアクション空間を個別に最適化するのではなく、ジョイントアクション空間全体を最適化する集中型ポリシー勾配推定器を使用する。 これにより、より協調的な政策変更が可能になり、中央集権的な批評家の利益を完全に享受することができる。 我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットを評価する。 実験の結果、FACMACはMADDPGや他の3つのドメインのベースラインよりも優れた性能を示した。

We propose FACtored Multi-Agent Centralised policy gradients (FACMAC), a new method for cooperative multi-agent reinforcement learning in both discrete and continuous action spaces. Like MADDPG, a popular multi-agent actor-critic method, our approach uses deep deterministic policy gradients to learn policies. However, FACMAC learns a centralised but factored critic, which combines per-agent utilities into the joint action-value function via a non-linear monotonic function, as in QMIX, a popular multi-agent Q-learning algorithm. However, unlike QMIX, there are no inherent constraints on factoring the critic. We thus also employ a nonmonotonic factorisation and empirically demonstrate that its increased representational capacity allows it to solve some tasks that cannot be solved with monolithic, or monotonically factored critics. In addition, FACMAC uses a centralised policy gradient estimator that optimises over the entire joint action space, rather than optimising over each agent's action space separately as in MADDPG. This allows for more coordinated policy changes and fully reaps the benefits of a centralised critic. We evaluate FACMAC on variants of the multi-agent particle environments, a novel multi-agent MuJoCo benchmark, and a challenging set of StarCraft II micromanagement tasks. Empirical results demonstrate FACMAC's superior performance over MADDPG and other baselines on all three domains.
翻訳日:2022-12-23 19:54:29 公開日:2021-05-07
# ロバストな部分認識者再識別のためのマルチタスク学習

Multi-task Learning with Coarse Priors for Robust Part-aware Person Re-identification ( http://arxiv.org/abs/2003.08069v3 )

ライセンス: Link先を確認
Changxing Ding, Kan Wang, Pengfei Wang, and Dacheng Tao(参考訳) パートレベルの表現は、堅牢な人物再識別(ReID)にとって重要であるが、実際には身体部分の誤認識の問題によって特徴的品質が損なわれる。 本稿では,歩行者画像から意味的に整合した部分レベルの特徴を抽出するために,MPN(Multi-task Part-aware Network)と呼ばれる頑健でコンパクトで使いやすい手法を提案する。 mpnは、訓練段階におけるマルチタスク学習(mtl)により、身体部分の誤用問題を解決する。 具体的には、1つのメインタスク(MT)と1つの補助タスク(AT)を同じバックボーンモデルの上部に構築する。 ATは、トレーニング用のボディ部分の位置の前に粗さを備えている。 ATはMTパラメータを最適化し、背骨モデルから部分関連チャネルを識別することで、身体部分の概念をMTに転送する。 概念伝達は2つの新しいアライメント戦略によって達成される:すなわち、ハードパラメータ共有によるパラメータ空間アライメントと、クラスごとに特徴空間アライメントである。 学習した高品質パラメータの助けを借りて、MTはテスト段階で関連するチャネルから意味的に整合した部分レベルの特徴を独立に抽出することができる。 MPNには3つの大きな利点がある。 1) 推論段階において体部検出を行う必要はない。 2)モデルは、トレーニングとテストの両方に非常にコンパクトで効率的です。 3) トレーニング段階では, 身体部位の位置の粗い先だけが必要であり, 入手が容易である。 4つの大規模ReIDデータベースのシステム実験により、MPNは一定のマージンで最先端のアプローチを一貫して上回ることを示した。 コードはhttps://github.com/WangKan0128/MPNで入手できる。

Part-level representations are important for robust person re-identification (ReID), but in practice feature quality suffers due to the body part misalignment problem. In this paper, we present a robust, compact, and easy-to-use method called the Multi-task Part-aware Network (MPN), which is designed to extract semantically aligned part-level features from pedestrian images. MPN solves the body part misalignment problem via multi-task learning (MTL) in the training stage. More specifically, it builds one main task (MT) and one auxiliary task (AT) for each body part on the top of the same backbone model. The ATs are equipped with a coarse prior of the body part locations for training images. ATs then transfer the concept of the body parts to the MTs via optimizing the MT parameters to identify part-relevant channels from the backbone model. Concept transfer is accomplished by means of two novel alignment strategies: namely, parameter space alignment via hard parameter sharing and feature space alignment in a class-wise manner. With the aid of the learned high-quality parameters, MTs can independently extract semantically aligned part-level features from relevant channels in the testing stage. MPN has three key advantages: 1) it does not need to conduct body part detection in the inference stage; 2) its model is very compact and efficient for both training and testing; 3) in the training stage, it requires only coarse priors of body part locations, which are easy to obtain. Systematic experiments on four large-scale ReID databases demonstrate that MPN consistently outperforms state-of-the-art approaches by significant margins. Code is available at https://github.com/WangKan0128/MPN.
翻訳日:2022-12-22 10:15:46 公開日:2021-05-07
# 小データセットを対象とした二相畳み込みニューラルネットワークを用いた稲粒病の同定

Rice grain disease identification using dual phase convolutional neural network based system aimed at small dataset ( http://arxiv.org/abs/2004.09870v2 )

ライセンス: Link先を確認
Tashin Ahmed, Chowdhury Rafeed Rahman, Md. Faysal Mahmud Abid(参考訳) 畳み込みニューラルネットワーク(CNN)は、植物病の検出に広く用いられているが、多種多様な異種背景を扱うには、多数のトレーニングサンプルが必要である。 本研究では,不均質な小米病データセットに対して効果的に機能するcnnベースの二重相法を提案する。 第1フェーズでは、画像からかなりの部分(米粒)を切り取るためにより高速なrcnn法が適用される。 この初期段階は、不均一な背景を持たない米粒の二次的なデータセットをもたらす。 CNNアーキテクチャを用いて,病原体の分類を行った。 小粒度データセットへのCNNの直接適用による二重位相アプローチの比較は, 88.07%の5倍のクロス検証精度を提供する提案手法の有効性を示した。

Although Convolutional neural networks (CNNs) are widely used for plant disease detection, they require a large number of training samples when dealing with wide variety of heterogeneous background. In this work, a CNN based dual phase method has been proposed which can work effectively on small rice grain disease dataset with heterogeneity. At the first phase, Faster RCNN method is applied for cropping out the significant portion (rice grain) from the image. This initial phase results in a secondary dataset of rice grains devoid of heterogeneous background. Disease classification is performed on such derived and simplified samples using CNN architecture. Comparison of the dual phase approach with straight forward application of CNN on the small grain dataset shows the effectiveness of the proposed method which provides a 5 fold cross validation accuracy of 88.07%.
翻訳日:2022-12-11 07:04:22 公開日:2021-05-07
# 細部補足ネットワークを用いた細粒度人間のポーズ伝達

Towards Fine-grained Human Pose Transfer with Detail Replenishing Network ( http://arxiv.org/abs/2005.12494v2 )

ライセンス: Link先を確認
Lingbo Yang, Pan Wang, Chang Liu, Zhanning Gao, Peiran Ren, Xinfeng Zhang, Shanshe Wang, Siwei Ma, Xiansheng Hua, Wen Gao(参考訳) ヒューマン・ポーズ・トランスファー(HPT)は、ファッションデザイン、メディア制作、オンライン広告、バーチャルリアリティーにおいて大きな可能性を秘めている研究分野である。 これらのアプリケーションにとって、きめ細かい外観の詳細の視覚的リアリズムは、生産品質とユーザエンゲージメントに不可欠である。 しかし、既存のHPT法は、細部不足、内容の曖昧さ、スタイルの不整合という3つの根本的な問題に悩まされ、生成した画像の視覚的品質とリアリズムを著しく低下させる。 現実の応用を目指して,より難易度の高い実用的なHPTセッティングを開発し,よりセマンティックな忠実さと細部補充を重視したFHPT(Fin-fine Human Pose Transfer)を開発した。 具体的には,既存の手法の潜在的な設計上の欠陥を例示的に分析し,コンテンツ合成と特徴伝達を相互に誘導した方法で融合することにより,コアfhpt手法を確立する。 その後,提案手法をDretail Replenishing Network (DRN) とそれに対応する粗大なモデルトレーニングスキームで検証した。 さらに, 意味分析, 構造検出, 知覚的品質評価など, fhptの課題を包括的に解決するために, 細粒度評価プロトコルの完全スイートを構築した。 deepfashionベンチマークデータセットに関する広範囲な実験により、top-10検索リコールにおける12\%-14\%、関節局所化精度5\%、顔識別保存における40\%近く向上したベンチマークのパワーが検証された。 さらに, 評価結果から, 課題に対するさらなる洞察が得られれば, 今後の課題の方向性に多くの期待が持たれる。

Human pose transfer (HPT) is an emerging research topic with huge potential in fashion design, media production, online advertising and virtual reality. For these applications, the visual realism of fine-grained appearance details is crucial for production quality and user engagement. However, existing HPT methods often suffer from three fundamental issues: detail deficiency, content ambiguity and style inconsistency, which severely degrade the visual quality and realism of generated images. Aiming towards real-world applications, we develop a more challenging yet practical HPT setting, termed as Fine-grained Human Pose Transfer (FHPT), with a higher focus on semantic fidelity and detail replenishment. Concretely, we analyze the potential design flaws of existing methods via an illustrative example, and establish the core FHPT methodology by combing the idea of content synthesis and feature transfer together in a mutually-guided fashion. Thereafter, we substantiate the proposed methodology with a Detail Replenishing Network (DRN) and a corresponding coarse-to-fine model training scheme. Moreover, we build up a complete suite of fine-grained evaluation protocols to address the challenges of FHPT in a comprehensive manner, including semantic analysis, structural detection and perceptual quality assessment. Extensive experiments on the DeepFashion benchmark dataset have verified the power of proposed benchmark against start-of-the-art works, with 12\%-14\% gain on top-10 retrieval recall, 5\% higher joint localization accuracy, and near 40\% gain on face identity preservation. Moreover, the evaluation results offer further insights to the subject matter, which could inspire many promising future works along this direction.
翻訳日:2022-11-29 00:14:17 公開日:2021-05-07
# 測地能動輪郭に対する特徴関数に基づくアルゴリズム

A Characteristic Function-based Algorithm for Geodesic Active Contours ( http://arxiv.org/abs/2007.00525v2 )

ライセンス: Link先を確認
Jun Ma, Dong Wang, Xiao-Ping Wang, Xiaoping Yang(参考訳) 画像セグメンテーションではアクティブな輪郭モデルが広く用いられており、レベルセット法(LSM)は、レベルセット関数によって輪郭を暗黙的に表現することで、モデルを解くための最も一般的な手法である。 しかし、LSMは高い計算負担と数値不安定に悩まされ、さらなる正規化条件や再初期化技術が必要になる。 本稿では,特徴関数を用いて輪郭を暗黙的に表現し,測地活動輪郭に対する新しい表現を提案し,反復的畳み込み保持法(ICTM)と呼ばれる効率的なアルゴリズムを導出する。 LSMと比較すると、ICTMはよりシンプルで効率的である。 さらに、ICTMはレベルセットベースの手法の最も望ましい特徴を享受している。 2D 合成, 2D 超音波, 3D CT, 3D MR 画像による結節, 臓器, 病変のセグメンテーションに関する大規模な実験により, 提案手法は, 同等あるいはそれ以上のセグメンテーション結果(LSMとの比較)を得るだけでなく, 大幅な加速も達成できることを示した。

Active contour models have been widely used in image segmentation, and the level set method (LSM) is the most popular approach for solving the models, via implicitly representing the contour by a level set function. However, the LSM suffers from high computational burden and numerical instability, requiring additional regularization terms or re-initialization techniques. In this paper, we use characteristic functions to implicitly represent the contours, propose a new representation to the geodesic active contours and derive an efficient algorithm termed as the iterative convolution-thresholding method (ICTM). Compared to the LSM, the ICTM is simpler and much more efficient. In addition, the ICTM enjoys most desired features of the level set-based methods. Extensive experiments, on 2D synthetic, 2D ultrasound, 3D CT, and 3D MR images for nodule, organ and lesion segmentation, demonstrate that the proposed method not only obtains comparable or even better segmentation results (compared to the LSM) but also achieves significant acceleration.
翻訳日:2022-11-14 23:56:25 公開日:2021-05-07
# デノイザにおける先行命令を用いた線形逆問題の解法

Solving Linear Inverse Problems Using the Prior Implicit in a Denoiser ( http://arxiv.org/abs/2007.13640v3 )

ライセンス: Link先を確認
Zahra Kadkhodaie and Eero P. Simoncelli(参考訳) 事前確率モデルは多くの画像処理問題の基本的な要素であるが、写真などの高次元信号では密度推定が難しいことで悪名高い。 ディープニューラルネットワークは、自然画像の事前確率モデルに暗黙的に依存する、ノイズ化のような問題に対する最先端のソリューションを提供する。 ここでは,この暗黙の先行手法を利用するためのロバストで汎用的な手法を考案する。 加法ガウス雑音を除去するための最小二乗解は雑音信号密度のログの勾配によって直接書けることを示した宮沢(1961)による統計的結果に依拠する。 我々はこの事実を利用して、視覚障害者(ノイズレベルが不明な)最小二乗雑音を学習したCNNに埋め込まれた暗黙の事前埋め込みから高確率サンプルを描画する確率的粗度勾配法を開発した。 このアルゴリズムを制約付きサンプリングに一般化することは、任意の線形逆問題を解くために暗黙的前置法を用いる方法を提供し、追加のトレーニングは行わない。 複数のアプリケーションにおいて、この一般的な転送学習の形式を実証し、同じアルゴリズムを用いて、非教師なし性能の最先端レベルをデブロアリング、超解像、塗装、圧縮センシングのために生成する。

Prior probability models are a fundamental component of many image processing problems, but density estimation is notoriously difficult for high-dimensional signals such as photographic images. Deep neural networks have provided state-of-the-art solutions for problems such as denoising, which implicitly rely on a prior probability model of natural images. Here, we develop a robust and general methodology for making use of this implicit prior. We rely on a statistical result due to Miyasawa (1961), who showed that the least-squares solution for removing additive Gaussian noise can be written directly in terms of the gradient of the log of the noisy signal density. We use this fact to develop a stochastic coarse-to-fine gradient ascent procedure for drawing high-probability samples from the implicit prior embedded within a CNN trained to perform blind (i.e., with unknown noise level) least-squares denoising. A generalization of this algorithm to constrained sampling provides a method for using the implicit prior to solve any linear inverse problem, with no additional training. We demonstrate this general form of transfer learning in multiple applications, using the same algorithm to produce state-of-the-art levels of unsupervised performance for deblurring, super-resolution, inpainting, and compressive sensing.
翻訳日:2022-11-06 08:01:11 公開日:2021-05-07
# 形状バイアスCNNからの階層的畳み込み特徴によるロバストテンプレートマッチング

Robust Template Matching via Hierarchical Convolutional Features from a Shape Biased CNN ( http://arxiv.org/abs/2007.15817v3 )

ライセンス: Link先を確認
Bo Gao and M. W. Spratling(参考訳) 検索画像中のテンプレートを見つけることは、多くのコンピュータビジョンアプリケーションを支える重要なタスクである。 最近のアプローチでは、畳み込みニューラルネットワーク(CNN)によって生成された深い特徴空間でテンプレートマッチングが行われ、外観の変化に対してより寛容であることが判明している。 本稿では,CNNの形状情報エンコーディングの強化が,テンプレートマッチングの性能向上に寄与する,より識別可能な特徴を生み出すかどうかを検討する。 本研究は,標準ベンチマークで最先端結果を生成するテンプレートマッチング手法を提案する。 これらの結果を確認するために、新しいベンチマークを作成し、提案手法がこの新しいデータセットで既存の技術よりも優れていることを示す。 私たちのコードとデータセットは以下の通りです。

Finding a template in a search image is an important task underlying many computer vision applications. Recent approaches perform template matching in a deep feature-space, produced by a convolutional neural network (CNN), which is found to provide more tolerance to changes in appearance. In this article we investigate if enhancing the CNN's encoding of shape information can produce more distinguishable features that improve the performance of template matching. This investigation results in a new template matching method that produces state-of-the-art results on a standard benchmark. To confirm these results we also create a new benchmark and show that the proposed method also outperforms existing techniques on this new dataset. Our code and dataset is available at: https://github.com/iminfine/Deep-DIM.
翻訳日:2022-11-04 06:39:02 公開日:2021-05-07
# 部分認識者再識別のためのバッチコヒーレンス駆動ネットワーク

Batch Coherence-Driven Network for Part-aware Person Re-Identification ( http://arxiv.org/abs/2009.09692v2 )

ライセンス: Link先を確認
Kan Wang, Pengfei Wang, Changxing Ding, and Dacheng Tao(参考訳) 既存の人物再同定法は、通常、身体部位検出と部分レベル特徴抽出という2つの異なるステップを用いる。 しかし、部分検出では計算コストが増大し、画質の低い画像では本質的に困難である。 そこで本研究では,学習段階とテスト段階の両方において身体部位検出をバイパスするバッチコヒーレンス駆動ネットワーク(bcd-net)というシンプルなフレームワークを提案する。 私たちの重要な観察は、画像のバッチ内の統計は安定しており、したがってバッチレベルの制約は堅牢であるということです。 まず、深部バックボーンモデルの出力から各部分の関連チャネルをハイライトするバッチコヒーレンス誘導チャネルアテンション(BCCA)モジュールを導入する。 我々は,一連の訓練画像を用いてチャネル部分対応を調査し,BCCAが関連するチャネルを識別するのに役立つ新しいバッチレベルの監視信号を与える。 第二に、体部の平均位置は堅牢であり、訓練過程全体を通してバッチ間でコヒーレントである。 そこで本研究では,バッチ間のセマンティック一貫性に基づく正規化用語のペアを導入する。 第1の項は、予め定義された領域内で制限するために、バッチの各部分に対するbcd-netの高応答を規則化し、第2の項は、人体全体を覆う全部分に対するbcd-nets応答の集約を奨励する。 上記の制約により、BCD-Netは多様な補完的、意味的に整合した部分レベルの機能を学ぶことができる。 BCDNetは4つの大規模ReIDベンチマークで常に最先端の性能を達成している。

Existing part-aware person re-identification methods typically employ two separate steps: namely, body part detection and part-level feature extraction. However, part detection introduces an additional computational cost and is inherently challenging for low-quality images. Accordingly, in this work, we propose a simple framework named Batch Coherence-Driven Network (BCD-Net) that bypasses body part detection during both the training and testing phases while still learning semantically aligned part features. Our key observation is that the statistics in a batch of images are stable, and therefore that batch-level constraints are robust. First, we introduce a batch coherence-guided channel attention (BCCA) module that highlights the relevant channels for each respective part from the output of a deep backbone model. We investigate channelpart correspondence using a batch of training images, then impose a novel batch-level supervision signal that helps BCCA to identify part-relevant channels. Second, the mean position of a body part is robust and consequently coherent between batches throughout the training process. Accordingly, we introduce a pair of regularization terms based on the semantic consistency between batches. The first term regularizes the high responses of BCD-Net for each part on one batch in order to constrain it within a predefined area, while the second encourages the aggregate of BCD-Nets responses for all parts covering the entire human body. The above constraints guide BCD-Net to learn diverse, complementary, and semantically aligned part-level features. Extensive experimental results demonstrate that BCDNet consistently achieves state-of-the-art performance on four large-scale ReID benchmarks.
翻訳日:2022-10-16 05:09:28 公開日:2021-05-07
# 急性虚血性脳卒中患者の2次元DSA画像を用いた自動脳組織再灌流検査

autoTICI: Automatic Brain Tissue Reperfusion Scoring on 2D DSA Images of Acute Ischemic Stroke Patients ( http://arxiv.org/abs/2010.01432v3 )

ライセンス: Link先を確認
Ruisheng Su, Sandra A.P. Cornelissen, Matthijs van der Sluijs, Adriaan C.G.M. van Es, Wim H. van Zwam, Diederik W.J. Dippel, Geert Lycklama, Pieter Jan van Doormaal, Wiro J. Niessen, Aad van der Lugt, and Theo van Walsum(参考訳) 脳梗塞(tici)スコアの血栓溶解は急性期脳梗塞における再灌流療法評価の重要な指標である。 血管内治療(EVT)後の技術的成果指標として一般的に用いられる。 既存のTICIスコアは、視覚検査に基づいて粗い順序付けで定義され、サーバ間およびサーバ内変動を引き起こす。 本稿では,自動的かつ定量的なTICIスコアリング手法であるAutoTICIを提案する。 まず,時空間的特徴を利用した多経路畳み込みニューラルネットワーク(CNN)を用いて,各デジタルサブトラクション血管造影(DSA)を4段階(非コントラスト,動脈,発作,静脈相)に分離する。 ネットワークはまた、状態遷移行列の形式でシーケンスレベルのラベル依存性も組み込んでいる。 次に、動補正動脈フレームと発作フレームを用いて最小強度マップ(MINIP)を算出する。 MINIP画像では、血管、灌流、背景画素が分割される。 最後に,オートティシスコアをEVT後の再拡散画素の比率として定量化する。 日常的に取得されたマルチセンターデータセットにおいて,提案したAutoTICIは,曲線(AUC)スコア0.81の平均領域に対する拡張TICI(eTICI)基準と良好な相関を示した。 AUCスコアは、ダイコトマイズされたeTICIに対して0.90である。 臨床結果の予測では,AutoTICI は eTICI と総じて同等であることを示す。

The Thrombolysis in Cerebral Infarction (TICI) score is an important metric for reperfusion therapy assessment in acute ischemic stroke. It is commonly used as a technical outcome measure after endovascular treatment (EVT). Existing TICI scores are defined in coarse ordinal grades based on visual inspection, leading to inter- and intra-observer variation. In this work, we present autoTICI, an automatic and quantitative TICI scoring method. First, each digital subtraction angiography (DSA) acquisition is separated into four phases (non-contrast, arterial, parenchymal and venous phase) using a multi-path convolutional neural network (CNN), which exploits spatio-temporal features. The network also incorporates sequence level label dependencies in the form of a state-transition matrix. Next, a minimum intensity map (MINIP) is computed using the motion corrected arterial and parenchymal frames. On the MINIP image, vessel, perfusion and background pixels are segmented. Finally, we quantify the autoTICI score as the ratio of reperfused pixels after EVT. On a routinely acquired multi-center dataset, the proposed autoTICI shows good correlation with the extended TICI (eTICI) reference with an average area under the curve (AUC) score of 0.81. The AUC score is 0.90 with respect to the dichotomized eTICI. In terms of clinical outcome prediction, we demonstrate that autoTICI is overall comparable to eTICI.
翻訳日:2022-10-11 11:37:14 公開日:2021-05-07
# 自然言語処理貢献のナレッジグラフを構築するための文、句、三重アノテーション -- 試用データセット

Sentence, Phrase, and Triple Annotations to Build a Knowledge Graph of Natural Language Processing Contributions -- A Trial Dataset ( http://arxiv.org/abs/2010.04388v3 )

ライセンス: Link先を確認
Jennifer D'Souza, S\"oren Auer(参考訳) 目的:本研究の目的は,NLPCONTRIBUTIONSスキーム(以下,NLPCONTRIBUTIONGRAPH)を標準化して,論文文から直接,自然言語処理(NLP)の学術論文への貢献情報を2段階の方法論で構造化することである。 1) パイロット段階 - 計画(先行作業に記載されている)を定義するための 2) 判断段階(adjudication stage) - グラフ化モデルを正規化する(本稿の焦点)。 設計/方法論/アプローチ: 第二に、コントリビューション中心の文、フレーズ、三重文からなるデータパイプラインという、50の事前アノテーション付きNLPの学術論文にまたがるコントリビューション関連情報を再注釈します。 この目的のために,提案したNLPコントリビューションの構造化とグラフ化手法のガイドラインを定式化しながら,アノテーションノイズを低減するために,適応アノテーション段階の注意を要した。 結論: nlpcontributiongraphを50記事に適用した結果,最終的に900文,4,702文の投稿情報中心文,2,980の表層構造三重項のデータセットが得られた。 第1段と第2段の間の注記契約は、文の67.92%、句の41.82%、情報の粒度が増すにつれて、アノテーション決定のばらつきが大きくなることを示す3つの文の22.31%であった。 実践的意味: NLPCONTRIBUTIONGRAPH データを Open Research Knowledge Graph (ORKG) に統合した次世代のKGベースのデジタルライブラリで、構造化された学術的知識を通じてインテリジェントな計算を可能にする。

Purpose: The aim of this work is to normalize the NLPCONTRIBUTIONS scheme (henceforward, NLPCONTRIBUTIONGRAPH) to structure, directly from article sentences, the contributions information in Natural Language Processing (NLP) scholarly articles via a two-stage annotation methodology: 1) pilot stage - to define the scheme (described in prior work); and 2) adjudication stage - to normalize the graphing model (the focus of this paper). Design/methodology/approach: We re-annotate, a second time, the contributions-pertinent information across 50 prior-annotated NLP scholarly articles in terms of a data pipeline comprising: contribution-centered sentences, phrases, and triple statements. To this end, specifically, care was taken in the adjudication annotation stage to reduce annotation noise while formulating the guidelines for our proposed novel NLP contributions structuring and graphing scheme. Findings: The application of NLPCONTRIBUTIONGRAPH on the 50 articles resulted finally in a dataset of 900 contribution-focused sentences, 4,702 contribution-information-centered phrases, and 2,980 surface-structured triples. The intra-annotation agreement between the first and second stages, in terms of F1, was 67.92% for sentences, 41.82% for phrases, and 22.31% for triple statements indicating that with increased granularity of the information, the annotation decision variance is greater. Practical Implications: We demonstrate NLPCONTRIBUTIONGRAPH data integrated into the Open Research Knowledge Graph (ORKG), a next-generation KG-based digital library with intelligent computations enabled over structured scholarly knowledge, as a viable aid to assist researchers in their day-to-day tasks.
翻訳日:2022-10-09 06:18:56 公開日:2021-05-07
# 逆モデル摂動によるニューラルネットワークの規則化

Regularizing Neural Networks via Adversarial Model Perturbation ( http://arxiv.org/abs/2010.04925v4 )

ライセンス: Link先を確認
Yaowei Zheng, Richong Zhang, Yongyi Mao(参考訳) 効果的な正則化手法は、オーバーフィッティングを緩和し一般化を改善するためにディープラーニングにおいて非常に望ましい。 本研究は、実験的リスクの平坦な局所最小値がモデルをより一般化させるという理解に基づいて、新たな正規化スキームを提案する。 このスキームは逆モデル摂動(AMP)と呼ばれ、経験的リスクを直接最小化する代わりに、SGDを介して代替の「AMP損失」を最小化する。 具体的には、パラメータ空間の各点に"worst"ノルムバウンド摂動を適用することにより、経験的リスクからamp損失を得る。 多くの既存の正則化スキームと比較すると、AMPの損失を最小化することは理論上、経験的リスクの平坦な局所最小化を好むことができる。 様々な近代的な深層建築に関する大規模な実験は、正規化スキームにおける新しい最先端技術としてAMPを確立する。 私たちのコードはhttps://github.com/hiyouga/AMP-Regularizer.comで利用可能です。

Effective regularization techniques are highly desired in deep learning for alleviating overfitting and improving generalization. This work proposes a new regularization scheme, based on the understanding that the flat local minima of the empirical risk cause the model to generalize better. This scheme is referred to as adversarial model perturbation (AMP), where instead of directly minimizing the empirical risk, an alternative "AMP loss" is minimized via SGD. Specifically, the AMP loss is obtained from the empirical risk by applying the "worst" norm-bounded perturbation on each point in the parameter space. Comparing with most existing regularization schemes, AMP has strong theoretical justifications, in that minimizing the AMP loss can be shown theoretically to favour flat local minima of the empirical risk. Extensive experiments on various modern deep architectures establish AMP as a new state of the art among regularization schemes. Our code is available at https://github.com/hiyouga/AMP-Regularizer.
翻訳日:2022-10-08 22:18:36 公開日:2021-05-07
# メタラーニングによる低リソース領域の教師なしニューラルネットワーク翻訳

Unsupervised Neural Machine Translation for Low-Resource Domains via Meta-Learning ( http://arxiv.org/abs/2010.09046v2 )

ライセンス: Link先を確認
Cheonbok Park, Yunwon Tae, Taehee Kim, Soyoung Yang, Mohammad Azam Khan, Eunjeong Park and Jaegul Choo(参考訳) 単言語コーパスをトレーニングデータとして使用した教師なし機械翻訳は,教師付き機械翻訳と同等のパフォーマンスを達成した。 しかし、依然としてデータスカースドメインに悩まされている。 そこで本研究では,少数のトレーニングデータのみを利用して,モデルが他の領域に適応するように訓練する,unsupervised neural machine translation (UNMT) のための新しいメタラーニングアルゴリズムを提案する。 データスカースドメインを扱う上で、ドメイン一般知識が重要な要素であると仮定する。 そこで我々は,低リソースUNMTの性能を高めるために,高リソース領域から学んだ知識を活用するメタ学習アルゴリズムを拡張した。 我々のモデルは、最大2-4 BLEUスコアの転送学習に基づくアプローチを上回る。 実験結果から,提案アルゴリズムは高速適応に有効であり,他のベースラインモデルより一貫した性能を示した。

Unsupervised machine translation, which utilizes unpaired monolingual corpora as training data, has achieved comparable performance against supervised machine translation. However, it still suffers from data-scarce domains. To address this issue, this paper presents a novel meta-learning algorithm for unsupervised neural machine translation (UNMT) that trains the model to adapt to another domain by utilizing only a small amount of training data. We assume that domain-general knowledge is a significant factor in handling data-scarce domains. Hence, we extend the meta-learning algorithm, which utilizes knowledge learned from high-resource domains, to boost the performance of low-resource UNMT. Our model surpasses a transfer learning-based approach by up to 2-4 BLEU scores. Extensive experimental results show that our proposed algorithm is pertinent for fast adaptation and consistently outperforms other baseline models.
翻訳日:2022-10-06 03:49:52 公開日:2021-05-07
# ダイアリゼーションのための深部話者埋め込みの組合せ

Combination of Deep Speaker Embeddings for Diarisation ( http://arxiv.org/abs/2010.12025v3 )

ライセンス: Link先を確認
Guangzhi Sun and Chao Zhang and Phil Woodland(参考訳) ニューラルネットワーク(nn)話者分類器から抽出した話者埋め込みとしてd-vectorsを導入した後、話者ダイアリゼーションにおいて、近年大きく進歩した。 本稿では,より高性能でロバストな話者埋め込みを抽出するために,nn成分の異なるシステムから派生した相補的d-ベクトルの集合を複数組み合わせ,c-ベクトル法を提案する。 3つの構造は、それぞれ注意機構、ゲーティング機構、低ランク双線型プーリング機構に依存する2次元自己注意性、ゲート添加物、およびバイリニアプーリング構造を実装するために使用される。 さらに, ニューラルベース単一パス話者ダイアリゼーションパイプラインも提案し, NNを用いて音声活動検出, 話者変化点検出, 話者埋め込み抽出を実現している。 4~10人の話者による実際の会議と幅広い音響条件からなる挑戦的AMIおよびNIST RT05データセットについて実験と詳細な分析を行った。 AMIトレーニングセットでトレーニングしたシステムでは,AMIのdベクターの代わりにcベクターを用いて,相対話者誤り率(SER)を13%,29%削減し,RT05では相対SERの15%削減を観測し,提案手法のロバスト性を示した。 VoxCelebデータをトレーニングセットに組み込むことで、最高のCベクターシステムは、AMI デベクター、eval、RT05セットのdベクターに比べて7%、17%、および16%のSER削減を達成した。

Significant progress has recently been made in speaker diarisation after the introduction of d-vectors as speaker embeddings extracted from neural network (NN) speaker classifiers for clustering speech segments. To extract better-performing and more robust speaker embeddings, this paper proposes a c-vector method by combining multiple sets of complementary d-vectors derived from systems with different NN components. Three structures are used to implement the c-vectors, namely 2D self-attentive, gated additive, and bilinear pooling structures, relying on attention mechanisms, a gating mechanism, and a low-rank bilinear pooling mechanism respectively. Furthermore, a neural-based single-pass speaker diarisation pipeline is also proposed in this paper, which uses NNs to achieve voice activity detection, speaker change point detection, and speaker embedding extraction. Experiments and detailed analyses are conducted on the challenging AMI and NIST RT05 datasets which consist of real meetings with 4--10 speakers and a wide range of acoustic conditions. For systems trained on the AMI training set, relative speaker error rate (SER) reductions of 13% and 29% are obtained by using c-vectors instead of d-vectors on the AMI dev and eval sets respectively, and a relative reduction of 15% in SER is observed on RT05, which shows the robustness of the proposed methods. By incorporating VoxCeleb data into the training set, the best c-vector system achieved 7%, 17% and16% relative SER reduction compared to the d-vector on the AMI dev, eval, and RT05 sets respectively
翻訳日:2022-10-04 08:43:36 公開日:2021-05-07
# クロスイベント依存の効率的なエンドツーエンド学習によるドキュメントレベルのイベント抽出

Document-level Event Extraction with Efficient End-to-end Learning of Cross-event Dependencies ( http://arxiv.org/abs/2010.12787v3 )

ライセンス: Link先を確認
Kung-Hsiang Huang, Nanyun Peng(参考訳) 物語を完全に理解するには、文書全体の文脈でイベントを識別し、イベント関係をモデル化する必要がある。 しかし、ドキュメントレベルのイベント抽出は、イベントとエンティティのコリファレンスの抽出と、異なる文にまたがる引数のキャプチャを必要とするため、難しいタスクである。 イベント抽出に関する既存の研究は、通常、単一の文からイベントを抽出することに重点を置いており、文書のスケールで言及されるイベントと、イベントトリガーとは異なる文で現れるイベント引数の関係を捉えていない。 本稿では,構造化予測アルゴリズムであるdeep value networks(dvn)を活用して,ドキュメントレベルのイベント抽出のためのクロスイベント依存関係を効率的にキャプチャするエンド・ツー・エンドモデルを提案する。 実験の結果,提案手法はACE05上でのCRFモデルに匹敵する性能を示し,計算効率は大幅に向上した。

Fully understanding narratives often requires identifying events in the context of whole documents and modeling the event relations. However, document-level event extraction is a challenging task as it requires the extraction of event and entity coreference, and capturing arguments that span across different sentences. Existing works on event extraction usually confine on extracting events from single sentences, which fail to capture the relationships between the event mentions at the scale of a document, as well as the event arguments that appear in a different sentence than the event trigger. In this paper, we propose an end-to-end model leveraging Deep Value Networks (DVN), a structured prediction algorithm, to efficiently capture cross-event dependencies for document-level event extraction. Experimental results show that our approach achieves comparable performance to CRF-based models on ACE05, while enjoys significantly higher computational efficiency.
翻訳日:2022-10-03 12:52:37 公開日:2021-05-07
# 遠方の監視による暗黙の事象の時間的推論

Temporal Reasoning on Implicit Events from Distant Supervision ( http://arxiv.org/abs/2010.12753v2 )

ライセンス: Link先を確認
Ben Zhou and Kyle Richardson and Qiang Ning and Tushar Khot and Ashish Sabharwal and Dan Roth(参考訳) 自然言語テキストでは明示的に言及されていないが推論可能な暗黙の事象をシステムが理解する程度を評価する,新たな時間的推論データセットであるtracieを提案する。 これは、時間的推論研究において、前回の作業が明確に述べられたイベントに焦点を当てた新しい課題を導入する。 人間の読者は、コモンセンス推論を通じて暗黙の出来事を推測することができ、その結果、状況をより包括的に理解し、その結果、時間についてのより良い推論をもたらす。 しかし、現状のモデルは暗黙の出来事と明示的な出来事の間の時間的関係を予測する際に苦労している。 そこで本研究では,大規模テキストからの遠隔監視信号を活用し,時間規則を用いて開始時間と継続時間を組み合わせて終了時間を推定する,ニューロシンボリック時間推論モデルであるsymtimeを提案する。 symtimeは、tracieの強力なベースラインシステムを5%上回り、事前知識トレーニング設定では11%上回る。 MATRES(明示的なイベントベンチマーク)で1%-9%の上昇が証明されたように、我々のアプローチは他の時間的推論タスクにも一般化する。

We propose TRACIE, a novel temporal reasoning dataset that evaluates the degree to which systems understand implicit events -- events that are not mentioned explicitly in natural language text but can be inferred from it. This introduces a new challenge in temporal reasoning research, where prior work has focused on explicitly mentioned events. Human readers can infer implicit events via commonsense reasoning, resulting in a more comprehensive understanding of the situation and, consequently, better reasoning about time. We find, however, that state-of-the-art models struggle when predicting temporal relationships between implicit and explicit events. To address this, we propose a neuro-symbolic temporal reasoning model, SYMTIME, which exploits distant supervision signals from large-scale text and uses temporal rules to combine start times and durations to infer end times. SYMTIME outperforms strong baseline systems on TRACIE by 5%, and by 11% in a zero prior knowledge training setting. Our approach also generalizes to other temporal reasoning tasks, as evidenced by a gain of 1%-9% on MATRES, an explicit event benchmark.
翻訳日:2022-10-03 12:43:53 公開日:2021-05-07
# 深層ニューラルネットワークを用いたリアルタイムプラズマ解析のための診断データ統合

Diagnostic data integration using deep neural networks for real-time plasma analysis ( http://arxiv.org/abs/2010.15156v2 )

ライセンス: Link先を確認
A. Rigoni Garola, R. Cavazzana, M. Gobbin, R.S. Delogu, G. Manduchi, C. Taliercio, A. Luchetta(参考訳) 買収機器の最近の進歩は、正確で手頃な価格のセンサーを大量に搭載する実験を提供している。 同時に、新しいハードウェアリソース(GPU、FPGA、ACAP)による計算能力の向上が比較的低コストで実現されている。 これにより、異なる診断結果から得られた多くの高速データソースを、幅広いアルゴリズムのフレームワークで組み合わせることのできる、核融合実験のための買収の連鎖を完全に更新する可能性を探ることができた。 一方、異なる診断を持つ新しいデータソースを追加することで、物理的な側面に関する知識が強化される場合、モデル全体の寸法が増大し、変数間の関係がますます不透明になる。 このような異種診断を統合するための新しいアプローチは、深い変分オートエンコーダの合成に基づいて、構造スパース正規化器として機能してこの問題を緩和する。 これはRFX-mod実験データに適用され、プラズマ温度の軟X線線画像と磁気状態を統合する。 しかし、リアルタイム信号解析を確実にするためには、それらのアルゴリズム技術が適切なハードウェアで動作するように適応する必要がある。 特に、ニューロン伝達関数の量子化を試みると、そのようなモデルが組み込まれたファームウェアを作成するように変更できることが示されている。 このファームウェアは、深部推論モデルを一連の単純な演算に近似し、FPGAで多用される単純な論理ユニットとよく適合する。 これは、複雑なディープニューラルネットワークトポロジーを持つ安価なハードウェアの使用を許可し、それらをリアルタイムに運用するための重要な要素である。

Recent advances in acquisition equipment is providing experiments with growing amounts of precise yet affordable sensors. At the same time an improved computational power, coming from new hardware resources (GPU, FPGA, ACAP), has been made available at relatively low costs. This led us to explore the possibility of completely renewing the chain of acquisition for a fusion experiment, where many high-rate sources of data, coming from different diagnostics, can be combined in a wide framework of algorithms. If on one hand adding new data sources with different diagnostics enriches our knowledge about physical aspects, on the other hand the dimensions of the overall model grow, making relations among variables more and more opaque. A new approach for the integration of such heterogeneous diagnostics, based on composition of deep variational autoencoders, could ease this problem, acting as a structural sparse regularizer. This has been applied to RFX-mod experiment data, integrating the soft X-ray linear images of plasma temperature with the magnetic state. However to ensure a real-time signal analysis, those algorithmic techniques must be adapted to run in well suited hardware. In particular it is shown that, attempting a quantization of neurons transfer functions, such models can be modified to create an embedded firmware. This firmware, approximating the deep inference model to a set of simple operations, fits well with the simple logic units that are largely abundant in FPGAs. This is the key factor that permits the use of affordable hardware with complex deep neural topology and operates them in real-time.
翻訳日:2022-10-02 06:31:20 公開日:2021-05-07
# RespireNet: 限られたデータ設定で異常肺音を正確に検出するディープニューラルネットワーク

RespireNet: A Deep Neural Network for Accurately Detecting Abnormal Lung Sounds in Limited Data Setting ( http://arxiv.org/abs/2011.00196v2 )

ライセンス: Link先を確認
Siddhartha Gairola, Francis Tom, Nipun Kwatra, Mohit Jain(参考訳) 呼吸音の聴取は肺疾患のスクリーニングと診断の第一の手段である。 自動分析とデジタル聴診器は、致命的な肺疾患の遠隔スクリーニングを可能にする重要な役割を担っている。 ディープニューラルネットワーク(DNN)はそのような問題に対して多くの可能性を示しており、明らかな選択である。 しかし、DNNは極めてデータ不足であり、最大の呼吸データセットICBHIは6898回の呼吸サイクルしか持たない。 In this work, RespireNet, we propose a simple CNN-based model, with a suite of novel techniques -device specific fine-tuning, concatenation-based augmentation, blank region clipping, and smart padding -- これにより、小さなデータセットを効率的に使用できる。 ICBHIデータセットを広範囲に評価し、4クラス分類における最先端の成果を2.2%改善する。

Auscultation of respiratory sounds is the primary tool for screening and diagnosing lung diseases. Automated analysis, coupled with digital stethoscopes, can play a crucial role in enabling tele-screening of fatal lung diseases. Deep neural networks (DNNs) have shown a lot of promise for such problems, and are an obvious choice. However, DNNs are extremely data hungry, and the largest respiratory dataset ICBHI has only 6898 breathing cycles, which is still small for training a satisfactory DNN model. In this work, RespireNet, we propose a simple CNN-based model, along with a suite of novel techniques -- device specific fine-tuning, concatenation-based augmentation, blank region clipping, and smart padding -- enabling us to efficiently use the small-sized dataset. We perform extensive evaluation on the ICBHI dataset, and improve upon the state-of-the-art results for 4-class classification by 2.2%
翻訳日:2022-10-01 05:20:44 公開日:2021-05-07
# シミュレーションから学ぶこと、現実を競うこと

Learning from Simulation, Racing in Reality ( http://arxiv.org/abs/2011.13332v2 )

ライセンス: Link先を確認
Eugenio Chisari, Alexander Liniger, Alisa Rupenyan, Luc Van Gool, John Lygeros(参考訳) 本稿では,ミニチュアレースカープラットフォーム上での自律レースに対する強化学習に基づくソリューションを提案する。 モデルランダム化を含む比較的単純な車両モデルを用いて、純粋にシミュレーションで訓練されたポリシーが、実際のロボット設定にうまく移行できることを示す。 我々は,新しいポリシー出力正規化アプローチと,円滑な動作を可能にするが積極的なレースカーの運転が可能なリフトアクションスペースを用いることにより,これを実現する。 この規則化されたポリシーはシミュレーションと実車の両方においてSoft Actor Critic(SAC)ベースライン法より優れているが,それでもなお,技術手法のモデル予測制御器(MPC)状態より優れていることを示す。 実世界の3時間のインタラクションデータによるポリシーの洗練により、強化学習ポリシーはMPCコントローラと同様のラップタイムを達成でき、トラック制約違反を50%削減できる。

We present a reinforcement learning-based solution to autonomously race on a miniature race car platform. We show that a policy that is trained purely in simulation using a relatively simple vehicle model, including model randomization, can be successfully transferred to the real robotic setup. We achieve this by using novel policy output regularization approach and a lifted action space which enables smooth actions but still aggressive race car driving. We show that this regularized policy does outperform the Soft Actor Critic (SAC) baseline method, both in simulation and on the real car, but it is still outperformed by a Model Predictive Controller (MPC) state of the art method. The refinement of the policy with three hours of real-world interaction data allows the reinforcement learning policy to achieve lap times similar to the MPC controller while reducing track constraint violations by 50%.
翻訳日:2022-09-20 12:24:39 公開日:2021-05-07
# 個人再同定のためのメモリベースマルチソースメタラーニングによる未認識領域の一般化

Learning to Generalize Unseen Domains via Memory-based Multi-Source Meta-Learning for Person Re-Identification ( http://arxiv.org/abs/2012.00417v3 )

ライセンス: Link先を確認
Yuyang Zhao, Zhun Zhong, Fengxiang Yang, Zhiming Luo, Yaojin Lin, Shaozi Li, Nicu Sebe(参考訳) 近年の人物再識別(ReID)の進歩は、教師なしおよび教師なしの学習環境において、印象的な精度が得られる。 しかし、既存のメソッドのほとんどは、データアクセスによって新しいドメインの新しいモデルをトレーニングする必要があります。 パブリックプライバシのため、新しいドメインデータは必ずしもアクセスできないため、これらのメソッドの適用性が制限される。 本稿では,複数のラベル付きソースドメインしか持たない未認識ドメインでうまく機能するモデルを学ぶことを目的とした,reidにおけるマルチソースドメイン一般化の問題について述べる。 この問題に対処するため,我々はメモリベースのマルチソースメタラーニング(m$^3$l)フレームワークを提案する。 具体的には、より一般化可能なモデルを学ぶために、ドメイン一般化のトレインテストプロセスをシミュレートするメタラーニング戦略を導入する。 パラメトリック分類器による不安定なメタ最適化を克服するために,非パラメトリックでメタラーニングと調和するメモリベースの識別損失を提案する。 また,メタテストの特徴を多様化するメタバッチ正規化層(MetaBN)を提案する。 実験により、我々のm$^3$lは、未発見領域のモデルの一般化能力を効果的に向上し、4つの大規模reidデータセットで最先端のメソッドを上回ることができることを示した。

Recent advances in person re-identification (ReID) obtain impressive accuracy in the supervised and unsupervised learning settings. However, most of the existing methods need to train a new model for a new domain by accessing data. Due to public privacy, the new domain data are not always accessible, leading to a limited applicability of these methods. In this paper, we study the problem of multi-source domain generalization in ReID, which aims to learn a model that can perform well on unseen domains with only several labeled source domains. To address this problem, we propose the Memory-based Multi-Source Meta-Learning (M$^3$L) framework to train a generalizable model for unseen domains. Specifically, a meta-learning strategy is introduced to simulate the train-test process of domain generalization for learning more generalizable models. To overcome the unstable meta-optimization caused by the parametric classifier, we propose a memory-based identification loss that is non-parametric and harmonizes with meta-learning. We also present a meta batch normalization layer (MetaBN) to diversify meta-test features, further establishing the advantage of meta-learning. Experiments demonstrate that our M$^3$L can effectively enhance the generalization ability of the model for unseen domains and can outperform the state-of-the-art methods on four large-scale ReID datasets.
翻訳日:2021-05-30 19:49:13 公開日:2021-05-07
# (参考訳) evening the score: target sars-cov-2 protease inhibitor in graph generative models for therapeutic candidate

Evening the Score: Targeting SARS-CoV-2 Protease Inhibition in Graph Generative Models for Therapeutic Candidates ( http://arxiv.org/abs/2105.10489v1 )

ライセンス: CC BY 4.0
Jenna Bilbrey, Logan Ward, Sutanay Choudhury, Neeraj Kumar, Ganesh Sivaraman(参考訳) 我々はSARS-CoV-2ウイルスタンパク質を標的とした新規薬物候補の治療設計のためのグラフ生成モデルについて検討した。 緊急性の感覚から、抗SARS活性を持つ薬物のデータセットに類似した構造を持つ分子を生成するオートエンコーダと、非常に新しい分子を生成する強化学習アルゴリズムを選択した。 生成過程において, 薬物類似性, 合成アクセシビリティ, および, \icfiftyに基づく抗SARS活性のバランスをとるために, いくつかの設計目標に対する最適化を検討する。 この生成フレームワークは、将来のパンデミックにおける薬物発見を、標的とする治療候補の高速な生成を通じて加速させる。

We examine a pair of graph generative models for the therapeutic design of novel drug candidates targeting SARS-CoV-2 viral proteins. Due to a sense of urgency, we chose well-validated models with unique strengths: an autoencoder that generates molecules with similar structures to a dataset of drugs with anti-SARS activity and a reinforcement learning algorithm that generates highly novel molecules. During generation, we explore optimization toward several design targets to balance druglikeness, synthetic accessability, and anti-SARS activity based on \icfifty. This generative framework\footnote{https://github.com/exalearn/covid-drug-design} will accelerate drug discovery in future pandemics through the high-throughput generation of targeted therapeutic candidates.
翻訳日:2021-05-29 20:47:07 公開日:2021-05-07
# 公共政策のための機械学習における無視可能な公正-正確トレードオフの実証観察

Empirical observation of negligible fairness-accuracy trade-offs in machine learning for public policy ( http://arxiv.org/abs/2012.02972v2 )

ライセンス: Link先を確認
Kit T. Rodolfa, Hemank Lamba, Rayid Ghani(参考訳) 政策や社会的影響設定における機械学習の応用の高まりは、公平性、特に人種的マイノリティに対する関心を高めている。 これらの懸念は、機械学習と人工知能研究者の間で大きな関心を集めており、新しい手法を開発し、公正性を改善するための理論的境界を確立し、ソースデータ、正規化とモデルトレーニング、あるいはモデルスコアに対するポストホックな調整に集中している。 しかし、この境界と方法がいかにして政策選択と社会への影響をもたらすかを理解するために、現実の状況において公平性と正確性の間の実践的なトレードオフをほとんど研究していない。 本研究は,教育,精神保健,刑事司法,住宅安全にまたがる資源訓練プログラムにおける利益配分を機械学習を用いて知らせる共通文脈に着目し,いくつかの政策設定における格差緩和の正確性への影響を検討することで,このギャップを埋めている。 多くのアプリケーションにおける公平さと正確さのトレードオフは、実際には無視可能であることを示す。 いずれの設定においても, 自己資本の達成と, 提案したポストホック格差緩和手法を用いて, 精度を犠牲にすることなく, 公平性を大幅に改善した。 この観察は、調査対象の政策状況、介入可能な資源の規模、時間、保護されたグループの相対的なサイズにまたがって堅牢であった。 これらの経験的結果は、不一致を減らすには正確さの低下を受け入れるか、新しく複雑な方法を開発する必要があるという一般的な仮定に挑戦する。

Growing applications of machine learning in policy and social impact settings have raised concern for fairness implications, especially for racial minorities. These concerns have generated considerable interest among machine learning and artificial intelligence researchers, who have developed new methods and established theoretical bounds for improving fairness, focusing on the source data, regularization and model training, or post-hoc adjustments to model scores. However, little work has studied the practical trade-offs between fairness and accuracy in real-world settings to understand how these bounds and methods translate into policy choices and impact on society. Our empirical study fills this gap by investigating the impact on accuracy of mitigating disparities across several policy settings, focusing on the common context of using machine learning to inform benefit allocation in resource-constrained programs across education, mental health, criminal justice, and housing safety. We show that fairness-accuracy trade-offs in many applications are negligible in practice. In every setting, we find that explicitly focusing on achieving equity and using our proposed post-hoc disparity mitigation methods, fairness was substantially improved without sacrificing accuracy. This observation was robust across policy contexts studied, scale of resources available for intervention, time, and relative size of the protected groups. These empirical results challenge a commonly held assumption that reducing disparities either requires accepting an appreciable drop in accuracy or the development of novel, complex methods, making reducing disparities in these applications more practical.
翻訳日:2021-05-22 12:00:12 公開日:2021-05-07
# 深層学習による都市形態の分類:都市活力への応用

Classification of Urban Morphology with Deep Learning: Application on Urban Vitality ( http://arxiv.org/abs/2105.09908v1 )

ライセンス: Link先を確認
Wangyang Chen, Abraham Noah Wu, Filip Biljecki(参考訳) 空間的ビッグデータの様々な形態へのアクセシビリティの増大、計算能力の向上、こうした情報から恩恵を受けるユースケースなどにより、都市形態を定量的に研究する傾向が一般的である。 この手法は、密度、比率、混合物を数値で表した都市形態を計測するために開発されたが、人間の視覚的、直感的な視点から形態的特徴を直接表現するものではない。 道路網を視覚的に4クラスに自動分類する深層学習に基づく手法を提案することで,このギャップを埋める第一歩を踏み出した。 本稿では,本論文で紹介する道路網(カラー道路階層図)の画像を生成し,深層畳み込みニューラルネットワーク(resnet-34)を用いて分類する。 モデル全体の分類精度は0.875である。 世界中の9つの都市が研究エリアとして選ばれ、その道路網はopenstreetmapから取得される。 都市内の潜在サブグループは、各道路ネットワークカテゴリの比率のクラスタリングを通して発見される。 本稿の次節では,このような分類のユーザビリティに着目し,都市活力予測を事例として,人間の知覚増強の効果について検討する。 高度な木に基づく回帰モデルは、形態指標と活力指標の関係を確立するために初めて指定された。 ベースラインモデルと拡張モデルの比較実験において,人間の知覚増強の効果が検出された。 本研究は, 定量的都市形態研究のツールキットを新しい手法で拡張し, 今後の研究を支援する。

There is a prevailing trend to study urban morphology quantitatively thanks to the growing accessibility to various forms of spatial big data, increasing computing power, and use cases benefiting from such information. The methods developed up to now measure urban morphology with numerical indices describing density, proportion, and mixture, but they do not directly represent morphological features from human's visual and intuitive perspective. We take the first step to bridge the gap by proposing a deep learning-based technique to automatically classify road networks into four classes on a visual basis. The method is implemented by generating an image of the street network (Colored Road Hierarchy Diagram), which we introduce in this paper, and classifying it using a deep convolutional neural network (ResNet-34). The model achieves an overall classification accuracy of 0.875. Nine cities around the world are selected as the study areas and their road networks are acquired from OpenStreetMap. Latent subgroups among the cities are uncovered through a clustering on the percentage of each road network category. In the subsequent part of the paper, we focus on the usability of such classification: the effectiveness of our human perception augmentation is examined by a case study of urban vitality prediction. An advanced tree-based regression model is for the first time designated to establish the relationship between morphological indices and vitality indicators. A positive effect of human perception augmentation is detected in the comparative experiment of baseline model and augmented model. This work expands the toolkit of quantitative urban morphology study with new techniques, supporting further studies in the future.
翻訳日:2021-05-21 19:17:27 公開日:2021-05-07
# (参考訳) ランダムフォレストアルゴリズムを用いた人的資源の大規模分析手法

An Extensive Analytical Approach on Human Resources using Random Forest Algorithm ( http://arxiv.org/abs/2105.07855v1 )

ライセンス: CC BY 4.0
Swarajya lakshmi v papineni, A.Mallikarjuna Reddy, Sudeepti yarlagadda, Snigdha Yarlagadda, Haritha Akkinen(参考訳) 現在の求人調査によると、ほとんどのソフトウェア従業員は、データサイエンティスト、ビジネスアナリスト、人工知能分野などの最近の仕事に対する高い給与のために、仕事の仕方を変えようとしている。 また、ワークライフの不均衡、低賃金、不均一なシフト、その他多くの要因により、従業員はワークライフを変えることを考えさせます。 本稿では,人的資源の観点から企業の効率的な組織化を図るため,異なる従業員パラメータを考慮し,ランダムな森林アルゴリズムを用いてモデルを設計した。 これにより、人事部はギャップを特定し、優れた従業員の維持率で組織を円滑に運営することを支援する。 このHRとデータサイエンスの組み合わせは、組織の従業員の生産性、コラボレーション、幸福化に役立つ。 また、外部要因や社会的要因の観点から、従業員のパフォーマンスに影響を及ぼす戦略の開発にも役立ちます。

The current job survey shows that most software employees are planning to change their job role due to high pay for recent jobs such as data scientists, business analysts and artificial intelligence fields. The survey also indicated that work life imbalances, low pay, uneven shifts and many other factors also make employees think about changing their work life. In this paper, for an efficient organisation of the company in terms of human resources, the proposed system designed a model with the help of a random forest algorithm by considering different employee parameters. This helps the HR department retain the employee by identifying gaps and helping the organisation to run smoothly with a good employee retention ratio. This combination of HR and data science can help the productivity, collaboration and well-being of employees of the organisation. It also helps to develop strategies that have an impact on the performance of employees in terms of external and social factors.
翻訳日:2021-05-20 07:33:53 公開日:2021-05-07
# (参考訳) 情報ボトルネック理論の批判的考察とその深層学習への応用

A Critical Review of Information Bottleneck Theory and its Applications to Deep Learning ( http://arxiv.org/abs/2105.04405v1 )

ライセンス: CC BY 4.0
Mohammad Ali Alomrani(参考訳) 過去10年間で、ディープニューラルネットワークは、今日の社会のあらゆる側面に影響を与え続ける、例外なく改善されている。 高性能GPUの開発と大量のデータの提供により、MLシステムの学習能力は飛躍的に向上し、画像中の桁の分類から、超人的なパフォーマンスを持つゲームの世界チャンピオンを圧倒した。 しかし、MLモデルは新たなフロンティアを達成し続けているが、その実践的な成功は、内部の動作に関する深い理論的理解の欠如によって妨げられている。 幸いなことに、情報ボトルネック理論と呼ばれる既知の情報理論的手法が、ニューラルネットワークの学習ダイナミクスをよりよく理解するための有望なアプローチとして登場した。 原則として、IB理論はデータの圧縮と情報の保持の間のトレードオフとして学習をモデル化する。 本研究の目的は、情報理論のルーツと最近提案された深層学習モデル理解への応用をカバーするib理論の包括的レビューを提供することである。

In the past decade, deep neural networks have seen unparalleled improvements that continue to impact every aspect of today's society. With the development of high performance GPUs and the availability of vast amounts of data, learning capabilities of ML systems have skyrocketed, going from classifying digits in a picture to beating world-champions in games with super-human performance. However, even as ML models continue to achieve new frontiers, their practical success has been hindered by the lack of a deep theoretical understanding of their inner workings. Fortunately, a known information-theoretic method called the information bottleneck theory has emerged as a promising approach to better understand the learning dynamics of neural networks. In principle, IB theory models learning as a trade-off between the compression of the data and the retainment of information. The goal of this survey is to provide a comprehensive review of IB theory covering it's information theoretic roots and the recently proposed applications to understand deep learning models.
翻訳日:2021-05-14 05:57:54 公開日:2021-05-07
# (参考訳) データ駆動構成則に対する局所近似ガウス過程回帰:ニューラルネットワークの開発と比較

Local approximate Gaussian process regression for data-driven constitutive laws: Development and comparison with neural networks ( http://arxiv.org/abs/2105.04554v1 )

ライセンス: CC BY-SA 4.0
Jan Niklas Fuhg, Michele Marino, Nikolaos Bouklas(参考訳) FE$^2$ や FE-FFT といったマルチスケール力学の階層計算手法は一般に高い計算コストを伴う。 データ駆動アプローチは、各ガウスポイントで明示的に追加計算を行う必要なしに、マクロシミュレーションに効果的なマイクロメカニカル応答を組み込むことにより、プロセスを大幅にスピードアップすることができる。 伝統的に、ニューラルネットワーク(anns)はソリッド・メカニクス・コミュニティにおいて選択されるサロゲート・モデリング技術である。 しかし,そのパラメトリックな性質と準最適トレーニングと3次元的なデータセットの推論特性により,深刻な欠点に悩まされている。 これらの問題は局所近似ガウス過程回帰(laGPR)を用いて回避できる。 この方法は、ガウス過程に基づく局所回帰モデルをトレーニングし、各局所モデルに対するデータのサブセットのみを使用することで、特定のひずみ空間におけるストレスアウトプットの予測を可能にし、annよりも優れた信頼性を提供する。 FE環境における大域構造問題の解法において,ラグPR近似の局所的性質に適合する修正ニュートン・ラフソン法を提案する。 そこで,本論文では,LaGPRを用いたデータ駆動構成予測と,有限ひずみ3次元超弾性問題に対して検証したFEスキームを用いたマクロ計算を組み合わせたマルチスケール計算を実現する。

Hierarchical computational methods for multiscale mechanics such as the FE$^2$ and FE-FFT methods are generally accompanied by high computational costs. Data-driven approaches are able to speed the process up significantly by enabling to incorporate the effective micromechanical response in macroscale simulations without the need of performing additional computations at each Gauss point explicitly. Traditionally artificial neural networks (ANNs) have been the surrogate modeling technique of choice in the solid mechanics community. However they suffer from severe drawbacks due to their parametric nature and suboptimal training and inference properties for the investigated datasets in a three dimensional setting. These problems can be avoided using local approximate Gaussian process regression (laGPR). This method can allow the prediction of stress outputs at particular strain space locations by training local regression models based on Gaussian processes, using only a subset of the data for each local model, offering better and more reliable accuracy than ANNs. A modified Newton-Raphson approach is proposed to accommodate for the local nature of the laGPR approximation when solving the global structural problem in a FE setting. Hence, the presented work offers a complete and general framework enabling multiscale calculations combining a data-driven constitutive prediction using laGPR, and macroscopic calculations using an FE scheme that we test for finite-strain three-dimensional hyperelastic problems.
翻訳日:2021-05-14 05:56:58 公開日:2021-05-07
# (参考訳) 可逆機械翻訳のための二重系列列列学習

Duplex Sequence-to-Sequence Learning for Reversible Machine Translation ( http://arxiv.org/abs/2105.03458v1 )

ライセンス: CC BY-SA 4.0
Zaixiang Zheng, Hao Zhou, Shujian Huang, Jiajun Chen, Jingjing Xu and Lei Li(参考訳) 機械翻訳などのシーケンシャル・ツー・シークエンス(seq2seq)問題は双方向であり、方向性のタスクと2つの方向の学習信号のペアを自然に導出する。 しかし、典型的なseq2seqニューラルネットワークは、1つの一方向タスクのみをモデル化し、並列データから双方向学習信号の可能性を十分に活用できない。 この問題に対処するために,本論文では,sep2seqニューラルネットワーク,rereder(reversible duplex transformer)を提案し,機械翻訳に適用する。 REDERのアーキテクチャには2つの端があり、それぞれがその言語のシーケンスを読み、取得するために言語を専門にしている。 その結果、rederは双方向信号から同時に学習することができ、入力と出力を単純に反転させることで「em reversible machine translation」を可能にする。

Sequence-to-sequence (seq2seq) problems such as machine translation are bidirectional, which naturally derive a pair of directional tasks and two directional learning signals. However, typical seq2seq neural networks are {\em simplex} that only model one unidirectional task, which cannot fully exploit the potential of bidirectional learning signals from parallel data. To address this issue, we propose a {\em duplex} seq2seq neural network, REDER (Reversible Duplex Transformer), and apply it to machine translation. The architecture of REDER has two ends, each of which specializes in a language so as to read and yield sequences in that language. As a result, REDER can simultaneously learn from the bidirectional signals, and enables {\em reversible machine translation} by simply flipping the input and output ends, Experiments on widely-used machine translation benchmarks verify that REDER achieves the first success of reversible machine translation, which helps obtain considerable gains over several strong baselines.
翻訳日:2021-05-14 05:34:03 公開日:2021-05-07
# (参考訳) 認知症高齢者の自然歩行ビデオにおけるパーキンソン病重症度の推定

Estimating Parkinsonism Severity in Natural Gait Videos of Older Adults with Dementia ( http://arxiv.org/abs/2105.03464v1 )

ライセンス: CC BY 4.0
Andrea Sabo, Sina Mehdizadeh, Andrea Iaboni, Babak Taati(参考訳) 薬物性パーキンソン症は認知症の高齢者の多くに影響を与え、歩行障害を引き起こす。 視覚に基づく人間のポーズ推定の新しい進歩は、住宅環境における歩行の頻繁で控えめな分析の可能性を開く。 本研究は認知症患者のビデオからパーキンソン病の臨床スコアを予測するための新しい空間-時間グラフ畳み込みネットワーク(st-gcn)アーキテクチャとトレーニング手順を提案する。 そこで本研究では,ST-GCNモデルによる歩行パターンの学習を促す,自己指導型事前訓練段階からなる2段階トレーニング手法を提案する。 提案したST-GCNモデルは,ビデオから抽出したジョイントトラジェクトリに基づいて評価し,従来の(通常,線形,ランダム)回帰モデルと時間畳み込みネットワークベースラインと比較した。 認知症53歳以上の高齢者の3つの2D人間のポーズ推定ライブラリ(OpenPose, Detectron, AlphaPose)とMicrosoft Kinect(2D, 3D)を用いて,4787個の自然歩行行動の関節軌跡を抽出する。 14人の参加者から得られた399人の歩行のサブセットは、統一パーキンソン病格付け尺度(updrs)とシンプソン・アンガス尺度(sas)の歩行基準でパーキンソン病重症度スコアで注釈付けされる。 Kinectから抽出した3次元ジョイントトラジェクトリで動作するST-GCNモデルは,他のモデルや機能セットよりも一貫して優れていた。 自然歩行におけるパーキンソニズムスコアの予測は、SPDRS-gait と SAS-gait のそれぞれ 0.53 +/- 0.03 と 0.40 +/- 0.02 のマクロ平均F1スコアを達成できる最良のモデルで、依然として難しい課題である。 この作業のための事前トレーニングされたモデルとデモコードは、https://github.com/taatiteam/stgcn_parkinsonism_prediction.comで入手できる。

Drug-induced parkinsonism affects many older adults with dementia, often causing gait disturbances. New advances in vision-based human pose-estimation have opened possibilities for frequent and unobtrusive analysis of gait in residential settings. This work proposes novel spatial-temporal graph convolutional network (ST-GCN) architectures and training procedures to predict clinical scores of parkinsonism in gait from video of individuals with dementia. We propose a two-stage training approach consisting of a self-supervised pretraining stage that encourages the ST-GCN model to learn about gait patterns before predicting clinical scores in the finetuning stage. The proposed ST-GCN models are evaluated on joint trajectories extracted from video and are compared against traditional (ordinal, linear, random forest) regression models and temporal convolutional network baselines. Three 2D human pose-estimation libraries (OpenPose, Detectron, AlphaPose) and the Microsoft Kinect (2D and 3D) are used to extract joint trajectories of 4787 natural walking bouts from 53 older adults with dementia. A subset of 399 walks from 14 participants is annotated with scores of parkinsonism severity on the gait criteria of the Unified Parkinson's Disease Rating Scale (UPDRS) and the Simpson-Angus Scale (SAS). Our results demonstrate that ST-GCN models operating on 3D joint trajectories extracted from the Kinect consistently outperform all other models and feature sets. Prediction of parkinsonism scores in natural walking bouts of unseen participants remains a challenging task, with the best models achieving macro-averaged F1-scores of 0.53 +/- 0.03 and 0.40 +/- 0.02 for UPDRS-gait and SAS-gait, respectively. Pre-trained model and demo code for this work is available: https://github.com/TaatiTeam/stgcn_parkinsonism_prediction.
翻訳日:2021-05-14 05:09:21 公開日:2021-05-07
# (参考訳) Incoherenceは驚きか? 言語モデルからのコヒーレンス予測の目標評価

Is Incoherence Surprising? Targeted Evaluation of Coherence Prediction from Language Models ( http://arxiv.org/abs/2105.03495v1 )

ライセンス: CC BY 4.0
Anne Beyer and Sharid Lo\'aiciga and David Schlangen(参考訳) コヒーレントな談話は、表現の選択、表現されたイベント間の論理的関係、世界知識との暗黙の互換性など、様々な制約のセットの満足度によって、単に発話の集まりと区別される。 ニューラルネットワークモデルはそのような制約をエンコードするのか? 談話と対話の一貫性の異なる側面に対処する拡張可能なテストスイートを設計する。 従来のコヒーレンス評価研究とは異なり、文順の摂動を超えた特定の言語デバイスに対処し、コヒーレンスを構成するものや、言語モデリングの目的に基づいて訓練されたニューラルモデルがエンコードするものをよりきめ細かな分析を可能にする。 ニューラルネットワークモデルに対する目標評価パラダイム(Marvin and Linzen, 2018)を構文以外の現象に拡張することにより、このパラダイムがコヒーレンスの概念に寄与する言語的品質の評価に等しく適していることを示す。

Coherent discourse is distinguished from a mere collection of utterances by the satisfaction of a diverse set of constraints, for example choice of expression, logical relation between denoted events, and implicit compatibility with world-knowledge. Do neural language models encode such constraints? We design an extendable set of test suites addressing different aspects of discourse and dialogue coherence. Unlike most previous coherence evaluation studies, we address specific linguistic devices beyond sentence order perturbations, allowing for a more fine-grained analysis of what constitutes coherence and what neural models trained on a language modelling objective do encode. Extending the targeted evaluation paradigm for neural language models (Marvin and Linzen, 2018) to phenomena beyond syntax, we show that this paradigm is equally suited to evaluate linguistic qualities that contribute to the notion of coherence.
翻訳日:2021-05-14 04:52:06 公開日:2021-05-07
# (参考訳) SimJEB: Simulated Jet Engine Bracket Dataset

SimJEB: Simulated Jet Engine Bracket Dataset ( http://arxiv.org/abs/2105.03534v1 )

ライセンス: CC BY 4.0
Eamon Whalen, Azariah Beyene, Caitlin Mueller(参考訳) 近年の幾何学的ディープラーニングの進歩により、新しい種類のエンジニアリングサーロゲートモデルが可能になったが、既存の形状データセットは評価に適していない。 本稿では,クラウドソーシングされた新しい機械括弧の集合であるシミュレートジェットエンジンブラケットデータセット(simjeb)と,サロゲートモデリング用に設計された高忠実度構造シミュレーションについて紹介する。 SimJEBモデルは、パラメトリックサロゲートモデル評価で一般的に使用される合成データセットよりも複雑で多様でリアルである。 既存のエンジニアリング形状のコレクションとは対照的に、SimJEBのモデルはどれも同じエンジニアリング機能のために設計されており、一貫した構造的な負荷とサポート条件を持つ。 SimJEBのモデルは、GrabCAD Jet Engine Bracket Challenge: 56か国を代表する320人のデザイナーによる700以上の手作りCADエントリーとのオープンエンジニアリングデザインコンペティションから集められた。 各モデルはクリーニング、分類、メッシュ化され、元の競合仕様に従って有限要素分析によってシミュレートされている。 その結果は、幾何学的深層学習と工学的サロゲートモデルを進めるための多様で高品質でアプリケーション中心の設計のコレクションである。

Recent advancements in geometric deep learning have enabled a new class of engineering surrogate models; however, few existing shape datasets are well-suited to evaluate them. This paper introduces the Simulated Jet Engine Bracket Dataset (SimJEB): a new, public collection of crowdsourced mechanical brackets and high-fidelity structural simulations designed specifically for surrogate modeling. SimJEB models are more complex, diverse, and realistic than the synthetically generated datasets commonly used in parametric surrogate model evaluation. In contrast to existing engineering shape collections, SimJEB's models are all designed for the same engineering function and thus have consistent structural loads and support conditions. The models in SimJEB were collected from the original submissions to the GrabCAD Jet Engine Bracket Challenge: an open engineering design competition with over 700 hand-designed CAD entries from 320 designers representing 56 countries. Each model has been cleaned, categorized, meshed, and simulated with finite element analysis according to the original competition specifications. The result is a collection of diverse, high-quality and application-focused designs for advancing geometric deep learning and engineering surrogate models.
翻訳日:2021-05-14 04:39:10 公開日:2021-05-07
# (参考訳) マンパワースケジューリング問題の解法に関するインテリジェントモデル

An Intelligent Model for Solving Manpower Scheduling Problems ( http://arxiv.org/abs/2105.03540v1 )

ライセンス: CC BY 4.0
Lingyu Zhang and Tianyu Liu and Yunhai Wang(参考訳) 人力スケジューリング問題は、資源管理分野における重要な研究分野である。 本稿では,スケジューリング問題に関する既存の研究に基づいて,マンパワースケジューリング問題を新しい視点から,複数制約条件下での組合せ最適化問題に変換する。 また、論理的パラダイムを用いて問題解の数学的モデルを構築し、モデルを解くための改良された多次元進化アルゴリズムも構築する。 さらに,本稿で論じる制約は,現代社会における人的資源調整の要件をすべて網羅するものであり,実験結果に支えられている。 議論部では,本モデルと他のヒューリスティックアルゴリズムや線形プログラミング手法を比較し,本論文で提案するモデルが25.7%の効率向上と17%の精度向上を実現していることを示す。 さらに,マンパワースケジューリング問題の数値解法として,タスクリスト生成のスケジューリングアルゴリズムとスケジューリング結果の表示法について検討する。 その結果, 基本アルゴリズムの様々な改良によって異なる条件問題が解決されるだけでなく, 異なるベースラインモデルとの比較により少なくとも28.91%の時間効率が向上する新しいアルゴリズムを提案する。

The manpower scheduling problem is a critical research field in the resource management area. Based on the existing studies on scheduling problem solutions, this paper transforms the manpower scheduling problem into a combinational optimization problem under multi-constraint conditions from a new perspective. It also uses logical paradigms to build a mathematical model for problem solution and an improved multi-dimensional evolution algorithm for solving the model. Moreover, the constraints discussed in this paper basically cover all the requirements of human resource coordination in modern society and are supported by our experiment results. In the discussion part, we compare our model with other heuristic algorithms or linear programming methods and prove that the model proposed in this paper makes a 25.7% increase in efficiency and a 17% increase in accuracy at most. In addition, to the numerical solution of the manpower scheduling problem, this paper also studies the algorithm for scheduling task list generation and the method of displaying scheduling results. As a result, we not only provide various modifications for the basic algorithm to solve different condition problems but also propose a new algorithm that increases at least 28.91% in time efficiency by comparing with different baseline models.
翻訳日:2021-05-14 04:25:58 公開日:2021-05-07
# (参考訳) 人工ニューラルネットワークによる人力スケジューリング問題の解法

Apply Artificial Neural Network to Solving Manpower Scheduling Problem ( http://arxiv.org/abs/2105.03541v1 )

ライセンス: CC BY 4.0
Tianyu Liu and Lingyu Zhang(参考訳) マンパワースケジューリング問題は、ある種の重要な組合せ最適化問題である。 スケジューリング問題に対するソリューションの研究は、企業、病院、その他の作業ユニットの効率を改善することができる。 本稿では,既存研究に基づくマルチシフトマンパワースケジューリング問題を解決するために,ディープラーニングと組み合わせた新しいモデルを提案する。 このモデルは、まず現在の制約に従って目的関数の最適化値を解決し、最初に従業員配置の計画を見つける。 その後、スケジューリングテーブル生成アルゴリズムを使用して、短時間でスケジューリング結果を取得する。 さらに,我々の提案する最も顕著な特徴は,時系列に基づくニューラルネットワークトレーニング手法を用いて,長期・長期のスケジューリングタスクを解決し,マンパワーアレンジメントを得ることである。 本稿では,ニューラルネットワークの選択基準とトレーニングプロセスについても述べる。 本モデルでは,ニューラルネットワークの改良により正確な予測を行うことができることを示す。 本稿では,ニューラルネットワークトレーニングプロセスの課題についても論じ,アレンジメント計画の達成後に啓蒙結果を得る。 我々の研究は、ニューラルネットワークとディープラーニング戦略が、同様の問題を効果的に解決する可能性を示唆している。

The manpower scheduling problem is a kind of critical combinational optimization problem. Researching solutions to scheduling problems can improve the efficiency of companies, hospitals, and other work units. This paper proposes a new model combined with deep learning to solve the multi-shift manpower scheduling problem based on the existing research. This model first solves the objective function's optimized value according to the current constraints to find the plan of employee arrangement initially. It will then use the scheduling table generation algorithm to obtain the scheduling result in a short time. Moreover, the most prominent feature we propose is that we will use the neural network training method based on the time series to solve long-term and long-period scheduling tasks and obtain manpower arrangement. The selection criteria of the neural network and the training process are also described in this paper. We demonstrate that our model can make a precise forecast based on the improvement of neural networks. This paper also discusses the challenges in the neural network training process and obtains enlightening results after getting the arrangement plan. Our research shows that neural networks and deep learning strategies have the potential to solve similar problems effectively.
翻訳日:2021-05-14 04:12:27 公開日:2021-05-07
# 一様収束, 対角球および簡単な治療

Uniform Convergence, Adversarial Spheres and a Simple Remedy ( http://arxiv.org/abs/2105.03491v1 )

ライセンス: Link先を確認
Gregor Bachmann, Seyed-Mohsen Moosavi-Dezfooli, Thomas Hofmann(参考訳) これまでの研究は、一様収束の一般的な枠組みと、ニューラルネットワークの一般化を説明する能力に疑問を投げかけてきた。 特定のデータセットを考慮することで、ニューラルネットワークはトレーニングデータの投影(逆数集合)を完全に誤って分類し、一様収束空白に基づいて既存の一般化を束縛する。 我々は、無限大モデルのレンズを通して、以前に研究されたデータセットの広範な理論的検討を行う。 我々は、ニューラル・タンジェント・カーネル(NTK)も同じ現象に悩まされており、その起源を明らかにする。 我々は,アウトプットバイアスの重要な役割を強調し,理論的に,賢明な選択が問題をいかに完全に緩和するかを実証的に示す。 敵セットにおける鋭い位相遷移の精度を同定し,その学習サンプルサイズ依存性について検討した。 結果として、我々は効果が消える向こうの臨界サンプルサイズを特徴づけることができる。 さらに, ニューラルネットワークの正準分解を異なる固有関数に考慮し, クリーンでノイズの多い部分への分解について検討し, バイアスが小すぎる場合でも相反する現象が持続することを示す。

Previous work has cast doubt on the general framework of uniform convergence and its ability to explain generalization in neural networks. By considering a specific dataset, it was observed that a neural network completely misclassifies a projection of the training data (adversarial set), rendering any existing generalization bound based on uniform convergence vacuous. We provide an extensive theoretical investigation of the previously studied data setting through the lens of infinitely-wide models. We prove that the Neural Tangent Kernel (NTK) also suffers from the same phenomenon and we uncover its origin. We highlight the important role of the output bias and show theoretically as well as empirically how a sensible choice completely mitigates the problem. We identify sharp phase transitions in the accuracy on the adversarial set and study its dependency on the training sample size. As a result, we are able to characterize critical sample sizes beyond which the effect disappears. Moreover, we study decompositions of a neural network into a clean and noisy part by considering its canonical decomposition into its different eigenfunctions and show empirically that for too small bias the adversarial phenomenon still persists.
翻訳日:2021-05-11 15:24:44 公開日:2021-05-07
# トポロジ的不確実性:アクティベーショングラフの永続化によるトレーニングニューラルネットワークの監視

Topological Uncertainty: Monitoring trained neural networks through persistence of activation graphs ( http://arxiv.org/abs/2105.04404v1 )

ライセンス: Link先を確認
Th\'eo Lacombe (DATASHAPE), Yuichi Ike, Mathieu Carriere, Fr\'ed\'eric Chazal, Marc Glisse, Yuhei Umeda(参考訳) ニューラルネットワークは様々な状況で驚くべきパフォーマンスを達成することができるが、複雑なタスクでネットワークを適切に訓練するには専門知識が必要であり、計算の観点からは高価である。 産業アプリケーションでは、オープンワールド設定から得られるデータは、ネットワークがトレーニングされたベンチマークデータセットと大きく異なる可能性がある。 ネットワークを再トレーニングすることなく、そのようなバリエーションの存在を監視できることは、非常に重要です。 本稿では,そのアクティベーショングラフの位相的性質に基づいて,訓練されたニューラルネットワークを監視する手法を提案する。 そこで,本研究では,最終層に限らずネットワーク全体を調査することで,予測の信頼性を評価するためのスコアであるトポロジカル不確実性(Topological Uncertainty)を,実践者が通常行うように割り当てる。 我々のアプローチは、トレーニング後のレベルで完全に機能し、ネットワークアーキテクチャ、最適化スキーム、データ拡張や補助データセットの使用など、いかなる仮定も必要とせず、広範囲のネットワークアーキテクチャやデータタイプに忠実に適用できます。 画像とグラフの合成データと実データの両方において,ネットワーク選択訓練,分散検出,シフト検出の文脈における位相的不確かさの可能性について実験的に示す。

Although neural networks are capable of reaching astonishing performances on a wide variety of contexts, properly training networks on complicated tasks requires expertise and can be expensive from a computational perspective. In industrial applications, data coming from an open-world setting might widely differ from the benchmark datasets on which a network was trained. Being able to monitor the presence of such variations without retraining the network is of crucial importance. In this article, we develop a method to monitor trained neural networks based on the topological properties of their activation graphs. To each new observation, we assign a Topological Uncertainty, a score that aims to assess the reliability of the predictions by investigating the whole network instead of its final layer only, as typically done by practitioners. Our approach entirely works at a post-training level and does not require any assumption on the network architecture, optimization scheme, nor the use of data augmentation or auxiliary datasets; and can be faithfully applied on a large range of network architectures and data types. We showcase experimentally the potential of Topological Uncertainty in the context of trained network selection, Out-Of-Distribution detection, and shift-detection, both on synthetic and real datasets of images and graphs.
翻訳日:2021-05-11 15:24:26 公開日:2021-05-07
# 言語非依存のdeexicalizationを用いた多言語概念テキストNLGの一般化

Generalising Multilingual Concept-to-Text NLG with Language Agnostic Delexicalisation ( http://arxiv.org/abs/2105.03432v1 )

ライセンス: Link先を確認
Giulio Zhou and Gerasimos Lampouras(参考訳) 概念からテキストへの自然言語生成は、自然言語で入力の意味を表現するタスクである。 このタスクの以前のアプローチでは、入力の語彙化に依存することで、希少なインスタンスや見当たらないインスタンスに一般化することができた。 しかし、これはしばしば、入力が出力テキストに冗長に現れることを要求する。 これは、タスクが同じ入力を受けた複数の言語で出力テキストを生成するように拡張される、多言語設定における課題を引き起こす。 本稿では,多言語モデルのコンセプト・ツー・テキストへの応用について検討し,多言語事前学習埋め込みを用いた新しい語彙化手法である言語非依存語彙化を提案し,文字レベルのポスト編集モデルを用いて語彙化時に単語を正しい形に反映する。 5つのデータセットと5つの言語で実験した結果、多言語モデルは概念からテキストへの一言語モデルよりも優れており、我々のフレームワークは以前のアプローチ、特に低リソース言語よりも優れています。

Concept-to-text Natural Language Generation is the task of expressing an input meaning representation in natural language. Previous approaches in this task have been able to generalise to rare or unseen instances by relying on a delexicalisation of the input. However, this often requires that the input appears verbatim in the output text. This poses challenges in multilingual settings, where the task expands to generate the output text in multiple languages given the same input. In this paper, we explore the application of multilingual models in concept-to-text and propose Language Agnostic Delexicalisation, a novel delexicalisation method that uses multilingual pretrained embeddings, and employs a character-level post-editing model to inflect words in their correct form during relexicalisation. Our experiments across five datasets and five languages show that multilingual models outperform monolingual models in concept-to-text and that our framework outperforms previous approaches, especially for low resource languages.
翻訳日:2021-05-11 15:20:00 公開日:2021-05-07
# Pareto-OptimalのResNetは、ほぼ4ビット

Pareto-Optimal Quantized ResNet Is Mostly 4-bit ( http://arxiv.org/abs/2105.03536v1 )

ライセンス: Link先を確認
AmirAli Abdolrashidi, Lisa Wang, Shivani Agrawal, Jonathan Malmaud, Oleg Rybakov, Chas Leichner, Lukasz Lew(参考訳) 量子化はニューラルネットワークを圧縮し計算コストを下げるための一般的な技術となっているが、以前の研究はネットワークサイズを変えることなく量子化を研究することに集中していた。 ニューラルネットワークの現実世界のアプリケーションの多くは、計算コストとメモリ予算を持ち、パラメータの数を変更することでモデル品質と引き換えることができる。 本研究ではResNetをケーススタディとして,計算コスト品質のトレードオフ曲線に対する量子化の効果を体系的に検討する。 すなわち、bfloat16計算コスト品質のトレードオフ曲線は4ビットと8ビットの曲線によってパレートされ、モデルは主に4ビットに量子化され、最も良いパレート曲線が得られる。 さらに,4ビットResNet-50のImageNet上で,量子化学習を行い,トップ1のeval精度77.09%を得る。 一般化ギャップの測定により量子化の正則化効果を示す。 私たちが使った量子化方法は実用性のために最適化されています。 我々の研究は、量子化のための最適な数値形式の研究と、これらのフォーマットをサポートする機械学習アクセラレータの開発を動機付けている。 そのライブラリはhttps://github.com/google-research/google-research/tree/master/aqtでオープンソース化されています。

Quantization has become a popular technique to compress neural networks and reduce compute cost, but most prior work focuses on studying quantization without changing the network size. Many real-world applications of neural networks have compute cost and memory budgets, which can be traded off with model quality by changing the number of parameters. In this work, we use ResNet as a case study to systematically investigate the effects of quantization on inference compute cost-quality tradeoff curves. Our results suggest that for each bfloat16 ResNet model, there are quantized models with lower cost and higher accuracy; in other words, the bfloat16 compute cost-quality tradeoff curve is Pareto-dominated by the 4-bit and 8-bit curves, with models primarily quantized to 4-bit yielding the best Pareto curve. Furthermore, we achieve state-of-the-art results on ImageNet for 4-bit ResNet-50 with quantization-aware training, obtaining a top-1 eval accuracy of 77.09%. We demonstrate the regularizing effect of quantization by measuring the generalization gap. The quantization method we used is optimized for practicality: It requires little tuning and is designed with hardware capabilities in mind. Our work motivates further research into optimal numeric formats for quantization, as well as the development of machine learning accelerators supporting these formats. As part of this work, we contribute a quantization library written in JAX, which is open-sourced at https://github.com/google-research/google-research/tree/master/aqt.
翻訳日:2021-05-11 15:14:09 公開日:2021-05-07
# 条件付きデフォルマブルテンプレートのための生成逆レジストレーション

Generative Adversarial Registration for Improved Conditional Deformable Templates ( http://arxiv.org/abs/2105.04349v1 )

ライセンス: Link先を確認
Neel Dey, Mengwei Ren, Adrian V. Dalca, Guido Gerig(参考訳) 変形可能なテンプレートは、大規模医療画像登録、セグメンテーション、人口分析に不可欠である。 現在の従来型および深層ネットワークベースのテンプレート構築手法では、正規化登録対象のみを使用し、しばしばぼやけた、または解剖学的に意味のない外観でテンプレートを生成し、下流の生物医学的解釈を基礎としている。 我々は,フレキシブル画像共変量に基づく生成的逆登録フレームワークを用いて,移動テンプレートのリアリズムを奨励する敵ゲームとして,変形可能な登録と条件付きテンプレート推定を再構成する。 得られたテンプレートは、年齢や病気などの属性に特異的に顕著な増加を示し、グループワイドの時空間傾向に適合し、シャープネスと集中性が向上した。 これらの改良により、様々な共変量を持つより正確な集団モデリングが可能となり、下流解析が標準化され、興味のある構造に対する解剖学的記述が容易になった。

Deformable templates are essential to large-scale medical image registration, segmentation, and population analysis. Current conventional and deep network-based methods for template construction use only regularized registration objectives and often yield templates with blurry and/or anatomically implausible appearance, confounding downstream biomedical interpretation. We reformulate deformable registration and conditional template estimation as an adversarial game wherein we encourage realism in the moved templates with a generative adversarial registration framework conditioned on flexible image covariates. The resulting templates exhibit significant gain in specificity to attributes such as age and disease, better fit underlying group-wise spatiotemporal trends, and achieve improved sharpness and centrality. These improvements enable more accurate population modeling with diverse covariates for standardized downstream analyses and easier anatomical delineation for structures of interest.
翻訳日:2021-05-11 15:06:24 公開日:2021-05-07
# 文脈認識機械翻訳における文脈使用量の測定と増加

Measuring and Increasing Context Usage in Context-Aware Machine Translation ( http://arxiv.org/abs/2105.03482v1 )

ライセンス: Link先を確認
Patrick Fernandes, Kayo Yin, Graham Neubig, Andr\'e F. T. Martins(参考訳) ニューラルマシン翻訳における最近の研究は、現在翻訳されているもの以外の文から、文間コンテキストを使うことの必要性と実現可能性の両方を示している。 しかし、理論的にはこの余分な文脈を利用できるモデルアーキテクチャを提示する現在の手法は多く存在するが、翻訳時に実際にどの程度利用するのかはよく分かっていない。 本稿では,これらのモデルによる文脈の利用を定量化する新しい指標である条件付きクロスミュータント情報を提案する。 このメトリクスを用いて、文書レベルの機械翻訳システムが特定の種類のコンテキストを使用するかを測定する。 我々は、ターゲットコンテキストはソースコンテキストよりも多く参照され、より長いコンテキストでの条件付けは結果に減少することを示した。 次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。 実験により,提案手法は文脈使用量を増やし,bleuやcometなどの指標による翻訳品質を反映し,照応代名詞分解能や語彙コヒーションコントラストデータセットの性能向上に寄与することが示された。

Recent work in neural machine translation has demonstrated both the necessity and feasibility of using inter-sentential context -- context from sentences other than those currently being translated. However, while many current methods present model architectures that theoretically can use this extra context, it is often not clear how much they do actually utilize it at translation time. In this paper, we introduce a new metric, conditional cross-mutual information, to quantify the usage of context by these models. Using this metric, we measure how much document-level machine translation systems use particular varieties of context. We find that target context is referenced more than source context, and that conditioning on a longer context has a diminishing effect on results. We then introduce a new, simple training method, context-aware word dropout, to increase the usage of context by context-aware models. Experiments show that our method increases context usage and that this reflects on the translation quality according to metrics such as BLEU and COMET, as well as performance on anaphoric pronoun resolution and lexical cohesion contrastive datasets.
翻訳日:2021-05-11 15:05:16 公開日:2021-05-07
# 人間レベルNLPのための事前学習型トランスフォーマーの実証評価:サンプルサイズと寸法の役割

Empirical Evaluation of Pre-trained Transformers for Human-Level NLP: The Role of Sample Size and Dimensionality ( http://arxiv.org/abs/2105.03484v1 )

ライセンス: Link先を確認
Adithya V Ganesan, Matthew Matero, Aravind Reddy Ravula, Huy Vu and H. Andrew Schwartz(参考訳) メンタルヘルス、パーソナリティ、人口統計などの人間レベルのNLPタスクでは、現代のトランスフォーマーベースの言語モデルにおいて、各レイヤの標準的な768以上の隠れ状態サイズよりも観測回数が小さくなり、トランスフォーマーを効果的に活用する能力が制限される。 本稿では,次元削減手法(主成分分析,分解技術,多層自動エンコーダ)の役割と,予測性能の関数としての埋め込みベクトルと標本サイズの次元性について,系統的研究を行った。 まず,データ量に制限のある微調整型大規模モデルでは,事前学習した次元削減体制で克服できるような大きな困難が生じる。 RoBERTaは、人間レベルのタスクにおいて一貫して最高のパフォーマンスを達成し、PCAは、長いテキストを書くユーザーの扱いを改善するために、他の削減方法よりも有利である。 最後に、ほとんどのタスクが、埋め込み次元の$\frac{1}{12}$で最高のパフォーマンスに匹敵する結果が得られることを観察する。

In human-level NLP tasks, such as predicting mental health, personality, or demographics, the number of observations is often smaller than the standard 768+ hidden state sizes of each layer within modern transformer-based language models, limiting the ability to effectively leverage transformers. Here, we provide a systematic study on the role of dimension reduction methods (principal components analysis, factorization techniques, or multi-layer auto-encoders) as well as the dimensionality of embedding vectors and sample sizes as a function of predictive performance. We first find that fine-tuning large models with a limited amount of data pose a significant difficulty which can be overcome with a pre-trained dimension reduction regime. RoBERTa consistently achieves top performance in human-level tasks, with PCA giving benefit over other reduction methods in better handling users that write longer texts. Finally, we observe that a majority of the tasks achieve results comparable to the best performance with just $\frac{1}{12}$ of the embedding dimensions.
翻訳日:2021-05-11 15:04:56 公開日:2021-05-07
# 変分グラフオートエンコーダを用いた教師なしクロスドメイン必須連鎖学習

Unsupervised Cross-Domain Prerequisite Chain Learning using Variational Graph Autoencoders ( http://arxiv.org/abs/2105.03505v1 )

ライセンス: Link先を確認
Irene Li, Vanessa Yan, Tianxiao Li, Rihao Qu and Dragomir Radev(参考訳) 前提条件チェーンの学習は、既知の領域と未知領域の両方で知識を効率的に獲得するための重要なタスクである。 例えば、自然言語処理(nlp)ドメインの専門家であるかもしれないが、未知のコンピュータビジョンドメイン(cv)で新しい概念を学ぶための最善の順序を判断したいと考えている。 どちらのドメインも、機械学習の基礎やディープラーニングモデルなど、一般的な概念を共有している。 本稿では,最適化された変分グラフオートエンコーダを用いた教師なしクロスドメイン概念の前提条件学習を提案する。 本モデルは,情報豊富なドメイン(ソースドメイン)から情報対象ドメイン(ターゲットドメイン)への概念的前提関係の伝達を学習し,他のベースラインモデルを大幅に上回る。 また、CVとバイオインフォマティクス(BIO)という2つの新しいドメインを導入することで、既存のデータセットを拡張する。 注釈付きデータとリソース、およびコードも公開される予定だ。

Learning prerequisite chains is an essential task for efficiently acquiring knowledge in both known and unknown domains. For example, one may be an expert in the natural language processing (NLP) domain but want to determine the best order to learn new concepts in an unfamiliar Computer Vision domain (CV). Both domains share some common concepts, such as machine learning basics and deep learning models. In this paper, we propose unsupervised cross-domain concept prerequisite chain learning using an optimized variational graph autoencoder. Our model learns to transfer concept prerequisite relations from an information-rich domain (source domain) to an information-poor domain (target domain), substantially surpassing other baseline models. Also, we expand an existing dataset by introducing two new domains: CV and Bioinformatics (BIO). The annotated data and resources, as well as the code, will be made publicly available.
翻訳日:2021-05-11 15:04:37 公開日:2021-05-07
# notの理解による理解:言語モデルにおける否定のモデリング

Understanding by Understanding Not: Modeling Negation in Language Models ( http://arxiv.org/abs/2105.03519v1 )

ライセンス: Link先を確認
Arian Hosseini, Siva Reddy, Dzmitry Bahdanau, R Devon Hjelm, Alessandro Sordoni and Aaron Courville(参考訳) 否定は自然言語の中核構造である。 多くのタスクで非常に成功したにもかかわらず、最先端の事前学習された言語モデルは、しばしば否定を正しく処理する。 この点において、言語モデルを改善するために、原文コーパスから否定的な汎用文をベースとした、異種目的の言語モデリングの目的を強化することを提案する。 BERTと組み合わせた目標をトレーニングすることにより、否定されたLAMAデータセット上で平均1エラー率を4%に削減する。 また、否定的なNLIベンチマークも改善されている。

Negation is a core construction in natural language. Despite being very successful on many tasks, state-of-the-art pre-trained language models often handle negation incorrectly. To improve language models in this regard, we propose to augment the language modeling objective with an unlikelihood objective that is based on negated generic sentences from a raw text corpus. By training BERT with the resulting combined objective we reduce the mean top~1 error rate to 4% on the negated LAMA dataset. We also see some improvements on the negated NLI benchmarks.
翻訳日:2021-05-11 15:04:19 公開日:2021-05-07
# 深層学習の一般化を向上する人間支援サリエンシマップ

Human-Aided Saliency Maps Improve Generalization of Deep Learning ( http://arxiv.org/abs/2105.03492v1 )

ライセンス: Link先を確認
Aidan Boyd, Kevin Bowyer, Adam Czajka(参考訳) ディープラーニングは多くのコンピュータビジョン問題において顕著な精度の向上をもたらした。 進行中の課題のひとつは、トレーニングデータが制限された場合の最大の精度を達成する方法だ。 第2の課題は、トレーニングセットと主観的に類似した新しいデータでさえも、達成された精度がうまく一般化しないという意味で、トレーニングされたモデルが脆弱な場合があることだ。 画像の正常な領域に関する人間の判断をトレーニングデータにエンコードする、初めての(私たちの知る限り)調査によって、これらの課題に新しい方法で対処する。 本稿では,(a)オリジナル画像に典型的データ拡張を加えた場合の生体情報提示アタック検出における難しい問題に対して,最先端のディープラーニングアルゴリズムの精度と一般化を比較し,(b)サルエント画像領域に関する人間の判断をエンコードするように変換した同じオリジナル画像と比較する。 後者のアプローチは、より高い精度とより良い一般化を実現し、LivDet-Iris 2020の勝者の誤差を29.78%から16.37%に減らし、離脱攻撃型評価シナリオにおいて印象的な一般化を実現した。 この研究は、人間の知性を深層学習の訓練戦略に組み込んで、限られた訓練データの場合の高精度化と一般化を実現するための新しい研究分野を開く。

Deep learning has driven remarkable accuracy increases in many computer vision problems. One ongoing challenge is how to achieve the greatest accuracy in cases where training data is limited. A second ongoing challenge is that trained models are sometimes fragile in the sense that the accuracy achieved does not generalize well, even to new data that is subjectively similar to the training set. We address these challenges in a novel way, with the first-ever (to our knowledge) exploration of encoding human judgement about salient regions of images into the training data. We compare the accuracy and generalization of a state-of-the-art deep learning algorithm for a difficult problem in biometric presentation attack detection when trained on (a) original images with typical data augmentations, and (b) the same original images transformed to encode human judgement about salient image regions. The latter approach results in models that achieve higher accuracy and better generalization, decreasing the error of the LivDet-Iris 2020 winner from 29.78% to 16.37%, and achieving impressive generalization in a leave-one-attack-type-out evaluation scenario. This work opens a new area of study for how to embed human intelligence into training strategies for deep learning to achieve high accuracy and generalization in cases of limited training data.
翻訳日:2021-05-11 14:59:30 公開日:2021-05-07
# iWildCam 2021コンペティションデータセット

The iWildCam 2021 Competition Dataset ( http://arxiv.org/abs/2105.03494v1 )

ライセンス: Link先を確認
Sara Beery, Arushi Agarwal, Elijah Cole, Vighnesh Birodkar(参考訳) カメラトラップは大量の画像データの自動収集を可能にする。 生態学者は、世界中の動物集団を監視するためにカメラトラップを使用します。 カメラトラップデータから種の存在を推定するためには、生態学者はどの種が見られたかだけでなく、各種の個体数も知る必要がある。 オブジェクト検出技術は、各画像内の個人数を見つけるのに使うことができる。 しかし、カメラトラップは、モーショントリガーバーストで画像を収集するので、単にフレーム全体の検出回数を増やせば、誤った推定につながる可能性が高い。 これらの障害を克服するには、伝統的な種の検出と分類に加えて、時空間的推論や個別の再同定を組み込む必要がある。 トレーニングデータとテストデータが、さまざまなカメラから世界中に分散している課題を準備しました。 各カメラで見られる種群は重複しているが、同一ではない。 課題は、種を分類し、個々の動物をテストカメラのシーケンスで数えることだ。

Camera traps enable the automatic collection of large quantities of image data. Ecologists use camera traps to monitor animal populations all over the world. In order to estimate the abundance of a species from camera trap data, ecologists need to know not just which species were seen, but also how many individuals of each species were seen. Object detection techniques can be used to find the number of individuals in each image. However, since camera traps collect images in motion-triggered bursts, simply adding up the number of detections over all frames is likely to lead to an incorrect estimate. Overcoming these obstacles may require incorporating spatio-temporal reasoning or individual re-identification in addition to traditional species detection and classification. We have prepared a challenge where the training data and test data are from different cameras spread across the globe. The set of species seen in each camera overlap, but are not identical. The challenge is to classify species and count individual animals across sequences in the test cameras.
翻訳日:2021-05-11 14:59:04 公開日:2021-05-07
# 自動運転のためのコントラスト学習によるビデオクラス非依存セグメンテーション

Video Class Agnostic Segmentation with Contrastive Learningfor Autonomous Driving ( http://arxiv.org/abs/2105.03533v1 )

ライセンス: Link先を確認
Mennatullah Siam, Alex Kendall, Martin Jagersand(参考訳) 自律運転におけるセマンティックセグメンテーションは主に、未知のオブジェクトを考慮せずに、既知のクラスを閉じた大規模データから学ぶことに焦点を当てている。 安全上の理由から、トレーニングデータ内の既知のクラスを閉じた集合の外で未知のオブジェクトを考察するビデオクラス非依存セグメンテーションタスクに対処する。 既知のクラスと未知のオブジェクトのセグメンテーションを学ぶために,新しい補助的なコントラスト損失を提案する。 画像レベルでアンカー,ポジティブ,負の例をサンプリングするコントラスト学習の以前の研究とは異なり,コントラスト学習法はピクセル単位の意味的および時間的指導を活用している。 本研究では,Cityscapes-VPS実験において,4つのクラスを訓練から引き離し,補助的なコントラスト損失を伴う未知のオブジェクトセグメンテーションの改善効果を示す。 私たちはさらに、異なる未知のオブジェクトを含む異なる自動運転シナリオのための大規模な合成データセットをリリースします。 完全合成データセットと縮小された小型バージョンで実験を行い、小規模データセットにおいてコントラスト学習がいかに効果的かを示した。 提案するモデル、データセット、コードはhttps://github.com/msiam/video_class_agnostic_segmentationでリリースされる。

Semantic segmentation in autonomous driving predominantly focuses on learning from large-scale data with a closed set of known classes without considering unknown objects. Motivated by safety reasons, we address the video class agnostic segmentation task, which considers unknown objects outside the closed set of known classes in our training data. We propose a novel auxiliary contrastive loss to learn the segmentation of known classes and unknown objects. Unlike previous work in contrastive learning that samples the anchor, positive and negative examples on an image level, our contrastive learning method leverages pixel-wise semantic and temporal guidance. We conduct experiments on Cityscapes-VPS by withholding four classes from training and show an improvement gain for both known and unknown objects segmentation with the auxiliary contrastive loss. We further release a large-scale synthetic dataset for different autonomous driving scenarios that includes distinct and rare unknown objects. We conduct experiments on the full synthetic dataset and a reduced small-scale version, and show how contrastive learning is more effective in small scale datasets. Our proposed models, dataset, and code will be released at https://github.com/MSiam/video_class_agnostic_segmentation.
翻訳日:2021-05-11 14:58:49 公開日:2021-05-07
# 信頼できるロボットと自律システムのための人間中心型aiの挑戦と機会

The Challenges and Opportunities of Human-Centered AI for Trustworthy Robots and Autonomous Systems ( http://arxiv.org/abs/2105.04408v1 )

ライセンス: Link先を確認
Hongmei He, John Gray, Angelo Cangelosi, Qinggang Meng, T.Martin McGinnity, J\"orn Mehnen(参考訳) ロボットと自律システム(ras)の信頼性は、完全な自律システムに対する多くの研究課題において顕著な位置を占めてきた。 この研究は、信頼できるRASのための人間中心AI(HAI)の重要な側面を、初めて体系的に探求する。 本稿では、信頼に値するRASの5つの重要な特性を最初に同定する。 i)RASは(i)安全で、(ii)安全で、(ii)サイバー脅威から身を守ること、(iii)フォールトトレランスで健康であること、(iv)効果的なヒューマン・マシン・インタラクション(HMI)を可能にするための信頼性と使いやすさ、(v)法と倫理的期待に準拠すること。 次に、信頼性の高い自律システムを実装する際の課題を、5つの重要な特性に関して分析的にレビューし、安全、セキュリティ、健康、HMIに関するRASの信頼性を確保するため、RASの設計における倫理の要件を反映しながらAI技術の役割を探求した。 RASの応用は主にパフォーマンスと生産性に重点を置いているが、RASにおける高度なAIによって引き起こされるリスクは十分な科学的関心を受けていない。 したがって、人間中心のAIに対する要求と、設計による信頼できるRASの実装のためのフレームワークとして、RASの新しい受け入れモデルが提供される。 このアプローチは人間の能力を高めるために人間レベルの知性を促進する。 人類への貢献に焦点を合わせました

The trustworthiness of Robots and Autonomous Systems (RAS) has gained a prominent position on many research agendas towards fully autonomous systems. This research systematically explores, for the first time, the key facets of human-centered AI (HAI) for trustworthy RAS. In this article, five key properties of a trustworthy RAS initially have been identified. RAS must be (i) safe in any uncertain and dynamic surrounding environments; (ii) secure, thus protecting itself from any cyber-threats; (iii) healthy with fault tolerance; (iv) trusted and easy to use to allow effective human-machine interaction (HMI), and (v) compliant with the law and ethical expectations. Then, the challenges in implementing trustworthy autonomous system are analytically reviewed, in respects of the five key properties, and the roles of AI technologies have been explored to ensure the trustiness of RAS with respects to safety, security, health and HMI, while reflecting the requirements of ethics in the design of RAS. While applications of RAS have mainly focused on performance and productivity, the risks posed by advanced AI in RAS have not received sufficient scientific attention. Hence, a new acceptance model of RAS is provided, as a framework for requirements to human-centered AI and for implementing trustworthy RAS by design. This approach promotes human-level intelligence to augment human's capacity. while focusing on contributions to humanity.
翻訳日:2021-05-11 14:41:20 公開日:2021-05-07
# スケーラブルプロジェクションフリー最適化

Scalable Projection-Free Optimization ( http://arxiv.org/abs/2105.03527v1 )

ライセンス: Link先を確認
Mingrui Zhang(参考訳) プロジェクションフリーなアルゴリズムとして、frank-wolfe(fw)法は条件勾配としても知られ、機械学習コミュニティで最近注目されている。 本稿では,スケーラブルなプロジェクションフリー最適化のためのfw変種について,いくつかのトピックについて検討する。 最初に提案する1-SFWは,1回に1回のサンプルしか必要とせず,コンベックス,非凸,モノトンDR-サブモジュラー設定において最もよく知られた複雑性境界を実現する。 次に、分散設定に向けて前進し、凸関数と非凸関数の両方を対象とした一般的な通信効率の分散FWフレームワークであるQuantized Frank-Wolfe (QFW) を開発した。 1)確率的最適化と2)有限サム最適化の2つの広く認識されている環境でのQFWの性能について検討する。 最後に, ユークリッド空間上の有界凸体上の単調連続DR-部分モジュラ関数を最大化する, 微分自由かつ投影自由なアルゴリズムであるBlack-Box Continuous Greedyを提案する。

As a projection-free algorithm, Frank-Wolfe (FW) method, also known as conditional gradient, has recently received considerable attention in the machine learning community. In this dissertation, we study several topics on the FW variants for scalable projection-free optimization. We first propose 1-SFW, the first projection-free method that requires only one sample per iteration to update the optimization variable and yet achieves the best known complexity bounds for convex, non-convex, and monotone DR-submodular settings. Then we move forward to the distributed setting, and develop Quantized Frank-Wolfe (QFW), a general communication-efficient distributed FW framework for both convex and non-convex objective functions. We study the performance of QFW in two widely recognized settings: 1) stochastic optimization and 2) finite-sum optimization. Finally, we propose Black-Box Continuous Greedy, a derivative-free and projection-free algorithm, that maximizes a monotone continuous DR-submodular function over a bounded convex body in Euclidean space.
翻訳日:2021-05-11 14:40:07 公開日:2021-05-07
# 静的解析アラート分類器のトレーニングデータとしてのテストスイート

Test Suites as a Source of Training Data for Static Analysis Alert Classifiers ( http://arxiv.org/abs/2105.03523v1 )

ライセンス: Link先を確認
Lori Flynn and William Snavely and Zachary Kurtz(参考訳) 欠陥発見 静的解析ツールは通常、多くの偽陽性を含む大量のコード欠陥アラートを生成する。 これらのアラートをトリアージするための人間の努力を省くために、多くの作業が機械学習を使ってアラートの分類と優先順位付けを試みている。 しかし、有用なトレーニングデータのセットを特定することは、多くのコンテキストでそのような分類器を開発する上での基本的な課題である。 静的解析テストスイート(すなわち、テストカバレッジと静的解析ツールの精度をテストする目的で構築された"ベンチマーク"プログラムのリポジトリ)を、新しいトレーニングデータソースとして使用することを提案する。 ケーススタディでは、Juliet C/C++テストスイート上で様々な静的アナライザを実行することで、大量のアラートを生成し、Julietテストスイートメタデータを参照して、これらのアラートの基底真理ラベルを自動的に抽出した。 最後に、このデータを使って分類器を訓練し、警告が偽陽性かどうかを予測する。 我々の分類器はホールドアウトテストセットで多数のコード欠陥タイプに対して高精度 (90.2%) とリコール (88.2%) を得た。 この予備的な結果は、テストスイートデータに対する事前トレーニングの分類器が、データ制限コンテキストにおける静的解析アラートの分類を飛躍的に開始するのに役立つことを示唆している。

Flaw-finding static analysis tools typically generate large volumes of code flaw alerts including many false positives. To save on human effort to triage these alerts, a significant body of work attempts to use machine learning to classify and prioritize alerts. Identifying a useful set of training data, however, remains a fundamental challenge in developing such classifiers in many contexts. We propose using static analysis test suites (i.e., repositories of "benchmark" programs that are purpose-built to test coverage and precision of static analysis tools) as a novel source of training data. In a case study, we generated a large quantity of alerts by executing various static analyzers on the Juliet C/C++ test suite, and we automatically derived ground truth labels for these alerts by referencing the Juliet test suite metadata. Finally, we used this data to train classifiers to predict whether an alert is a false positive. Our classifiers obtained high precision (90.2%) and recall (88.2%) for a large number of code flaw types on a hold-out test set. This preliminary result suggests that pre-training classifiers on test suite data could help to jumpstart static analysis alert classification in data-limited contexts.
翻訳日:2021-05-11 14:35:06 公開日:2021-05-07
# ニューラルネットワークを用いた高次元楕円型pdesの半群法と固有値問題

A semigroup method for high dimensional elliptic PDEs and eigenvalue problems based on neural networks ( http://arxiv.org/abs/2105.03480v1 )

ライセンス: Link先を確認
Haoya Li, Lexing Ying(参考訳) 本稿では,ニューラルネットワークに基づく高次元楕円偏微分方程式(pdes)と関連する固有値問題を解くための半群法を提案する。 PDE問題に対しては、半群演算子の助けを借りて元の方程式を変分問題として再構成し、ニューラルネットワーク(NN)パラメータ化による変分問題を解く。 主な利点は、確率勾配降下訓練において混合二階微分計算は不要であり、境界条件は半群演算子によって自動的に考慮されることである。 固有値問題に対して、スカラー双対変数による制約を解消する原始双対法を提案する。 提案手法の性能を示す数値的な結果を得た。

In this paper, we propose a semigroup method for solving high-dimensional elliptic partial differential equations (PDEs) and the associated eigenvalue problems based on neural networks. For the PDE problems, we reformulate the original equations as variational problems with the help of semigroup operators and then solve the variational problems with neural network (NN) parameterization. The main advantages are that no mixed second-order derivative computation is needed during the stochastic gradient descent training and that the boundary conditions are taken into account automatically by the semigroup operator. For eigenvalue problems, a primal-dual method is proposed, resolving the constraint with a scalar dual variable. Numerical results are provided to demonstrate the performance of the proposed methods.
翻訳日:2021-05-11 14:28:16 公開日:2021-05-07
# (参考訳) テキスト分類のためのタスク固有情報を用いた注意に基づく説明の忠実度向上

Improving the Faithfulness of Attention-based Explanations with Task-specific Information for Text Classification ( http://arxiv.org/abs/2105.02657v2 )

ライセンス: CC BY 4.0
George Chrysostomou and Nikolaos Aletras(参考訳) 自然言語処理におけるニューラルネットワークアーキテクチャは、しばしば注意機構を用いて入力トークン表現上の確率分布を生成する。 様々なタスクのパフォーマンスを改善するために実験的に注意が払われているが、モデル予測の説明として重みが広く使われている。 最近の研究(Jain and Wallace, 2019; Serrano and Smith, 2019; Wiegreffe and Pinter, 2019)では、エンコーダとタスク間の忠実な説明(Jacovi and Goldberg, 2020)は一般的には考えられないことが示されている。 本稿では,テキスト分類における注意に基づく説明の忠実性の向上を目指す。 本研究では,タスク固有の非コンテクスト化情報を学習し,本来の注意重みを拡大するタスクスケーリング(TaSc)機構を提案する。 説明忠実度評価テストの結果,提案した3種類のTaScは,2つの注意機構,5つのエンコーダ,5つのテキスト分類データセット間で,予測性能を犠牲にすることなく,注意に基づく説明を改善することがわかった。 最後に,tascは,広く使われている3つの解釈手法と比較して,より忠実な注意に基づく説明を一貫して提供できることを実証する。

Neural network architectures in natural language processing often use attention mechanisms to produce probability distributions over input token representations. Attention has empirically been demonstrated to improve performance in various tasks, while its weights have been extensively used as explanations for model predictions. Recent studies (Jain and Wallace, 2019; Serrano and Smith, 2019; Wiegreffe and Pinter, 2019) have showed that it cannot generally be considered as a faithful explanation (Jacovi and Goldberg, 2020) across encoders and tasks. In this paper, we seek to improve the faithfulness of attention-based explanations for text classification. We achieve this by proposing a new family of Task-Scaling (TaSc) mechanisms that learn task-specific non-contextualised information to scale the original attention weights. Evaluation tests for explanation faithfulness, show that the three proposed variants of TaSc improve attention-based explanations across two attention mechanisms, five encoders and five text classification datasets without sacrificing predictive performance. Finally, we demonstrate that TaSc consistently provides more faithful attention-based explanations compared to three widely-used interpretability techniques.
翻訳日:2021-05-11 00:29:33 公開日:2021-05-07
# (参考訳) Digital Voodoo Dolls

Digital Voodoo Dolls ( http://arxiv.org/abs/2105.02738v2 )

ライセンス: CC BY 4.0
Marija Slavkovik, Clemens Stachl, Caroline Pitman, Jonathan Askonas(参考訳) 政府、商業企業、サービスの組織である機関は、個人と直接やりとりすることができない。 代わりに、私たちを表現するモデルが作成されます。 我々は、デジタルブードゥー人形と呼ばれる新しい忠実度の高い人物モデルの存在を議論する。 我々はそれを概念化し、その特徴を既存の人のモデルと比較する。 デジタルブードゥー人形は、彼らが代表する人の影響力や支配をはるかに超える存在によって区別される。 このような説明責任の欠如による倫理的問題について議論し、これらの懸念を緩和する方法について論じる。

An institution, be it a body of government, commercial enterprise, or a service, cannot interact directly with a person. Instead, a model is created to represent us. We argue the existence of a new high-fidelity type of person model which we call a digital voodoo doll. We conceptualize it and compare its features with existing models of persons. Digital voodoo dolls are distinguished by existing completely beyond the influence and control of the person they represent. We discuss the ethical issues that such a lack of accountability creates and argue how these concerns can be mitigated.
翻訳日:2021-05-11 00:05:24 公開日:2021-05-07
# (参考訳) 多言語音声認識における重み分解

Efficient Weight factorization for Multilingual Speech Recognition ( http://arxiv.org/abs/2105.03010v1 )

ライセンス: CC BY 4.0
Ngoc-Quan Pham, Tuan-Nam Nguyen, Sebastian Stueker, Alexander Waibel(参考訳) エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用することで、結果として、異なる言語を翻訳する処理を単一のニューラルネットワークで行う。 トレーニングデータの各言語には異なる特徴があるため、共有ネットワークはすべての言語を同時に最適化するのに苦労する可能性がある。 本稿では,ニューラルネットワークのコア操作,線形変換関数を対象とする,新しい多言語アーキテクチャを提案する。 この手法の主な考え方は、各重み行列を共有コンポーネントと言語依存コンポーネントに分解することで、各言語に高速な重み行列を割り当てることである。 後者はランク1の仮定を用いてベクトルに分解され、言語ごとのパラメータの数を減らす。 この効率的な因数分解方式は、7ドルと27ドルの言語を持つ2つの多言語設定で有効であることが証明され、単語誤り率を26\%と27\%のrelに下げる。 LSTMとTransformerの2つの人気アーキテクチャについて。

End-to-end multilingual speech recognition involves using a single model training on a compositional speech corpus including many languages, resulting in a single neural network to handle transcribing different languages. Due to the fact that each language in the training data has different characteristics, the shared network may struggle to optimize for all various languages simultaneously. In this paper we propose a novel multilingual architecture that targets the core operation in neural networks: linear transformation functions. The key idea of the method is to assign fast weight matrices for each language by decomposing each weight matrix into a shared component and a language dependent component. The latter is then factorized into vectors using rank-1 assumptions to reduce the number of parameters per language. This efficient factorization scheme is proved to be effective in two multilingual settings with $7$ and $27$ languages, reducing the word error rates by $26\%$ and $27\%$ rel. for two popular architectures LSTM and Transformer, respectively.
翻訳日:2021-05-10 23:03:29 公開日:2021-05-07
# (参考訳) 研究論文における情報探索質問と回答のデータセット

A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers ( http://arxiv.org/abs/2105.03011v1 )

ライセンス: CC BY 4.0
Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A. Smith, Matt Gardner(参考訳) 学術論文の読者はしばしば特定の質問に答えることを目的として読む。 これらの質問に答えることのできる質問回答システムは、コンテンツの消費をより効率的にする。 しかし、そのようなツールを構築するには、論文の複数の部分におけるクレームに関する複雑な推論から生じるタスクの難しさを反映したデータが必要である。 対照的に、既存の情報探索型質問応答データセットは通常、一般的なファクトイド型情報に関する質問を含む。 そこで我々は,1,585件の自然言語処理論文に対する5,049件の質問データセットであるQASPERを提示する。 各質問は、対応する論文のタイトルと要約のみを読み取るNLP実践者によって書かれ、質問は全文に存在する情報を求める。 質問は別個のNLP実践者によって回答され、回答を支持する証拠も提供される。 他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答するときに少なくとも27のF1ポイントを人間に過小評価し、私たちのデータセットが容易に行えるように設計されている文書ベース情報検索QAのさらなる研究を動機付けている。

Readers of academic research papers often read with the goal of answering specific questions. Question Answering systems that can answer those questions can make consumption of the content much more efficient. However, building such tools requires data that reflect the difficulty of the task arising from complex reasoning about claims made in multiple parts of a paper. In contrast, existing information-seeking question answering datasets usually contain questions about generic factoid-type information. We therefore present QASPER, a dataset of 5,049 questions over 1,585 Natural Language Processing papers. Each question is written by an NLP practitioner who read only the title and abstract of the corresponding paper, and the question seeks information present in the full text. The questions are then answered by a separate set of NLP practitioners who also provide supporting evidence to answers. We find that existing models that do well on other QA tasks do not perform well on answering these questions, underperforming humans by at least 27 F1 points when answering them from entire papers, motivating further research in document-grounded, information-seeking QA, which our dataset is designed to facilitate.
翻訳日:2021-05-10 22:50:26 公開日:2021-05-07
# (参考訳) エキスパートとアンチエキスパートによるオンザフライ制御テキスト生成

On-the-Fly Controlled Text Generation with Experts and Anti-Experts ( http://arxiv.org/abs/2105.03023v1 )

ライセンス: CC BY 4.0
Alisa Liu, Maarten Sap, Ximing Lu, Swabha Swayamdipta, Chandra Bhagavatula, Noah A. Smith, Yejin Choi(参考訳) 近年の自然言語生成の進歩にもかかわらず、生成したテキストの属性を制御することは依然として困難である。 本稿では,事前学習された言語モデルと専門家および/またはアンチ専門家を結合した,制御されたテキスト生成のための復号時間手法であるdexperts: decoding-time expertsを提案する。 直感的には、我々のアンサンブルの下では、出力トークンは専門家によってもたらされる可能性があり、反専門家によっても、高い確率しか得られない。 DExpertsを言語デトキシフィケーションと感情制御生成に適用し、自動評価と人的評価の両方において既存の制御可能な生成方法より優れています。 本研究は,テキスト上で訓練されたLMを(望ましくない属性で)効率的な復号時間制御言語生成に使用するという約束を強調した。

Despite recent advances in natural language generation, it remains challenging to control attributes of generated text. We propose DExperts: Decoding-time Experts, a decoding-time method for controlled text generation which combines a pretrained language model with experts and/or anti-experts in an ensemble of language models. Intuitively, under our ensemble, output tokens only get high probability if they are considered likely by the experts, and unlikely by the anti-experts. We apply DExperts to language detoxification and sentiment-controlled generation, where we outperform existing controllable generation methods on both automatic and human evaluations. Our work highlights the promise of using LMs trained on text with (un)desired attributes for efficient decoding-time controlled language generation.
翻訳日:2021-05-10 22:33:26 公開日:2021-05-07
# (参考訳) 新型コロナウイルスパンデミック時の効率的なマスク付き顔認識法

Efficient Masked Face Recognition Method during the COVID-19 Pandemic ( http://arxiv.org/abs/2105.03026v1 )

ライセンス: CC BY 4.0
Walid Hariri(参考訳) 新型コロナウイルス(COVID-19)は異例の危機であり、多くの死傷者やセキュリティ問題を引き起こしている。 新型コロナウイルスの感染拡大を減らすため、マスクを着用して身を守ることが多い。 これにより、顔の一部が隠れているため、顔認識は非常に難しい作業になる。 新型コロナウイルスの感染拡大が続く中、研究者の焦点は、迅速かつ効率的な解決策によってこの問題に対処することを提案することにある。 本稿では,マスク付き顔認識の課題を解決するために,咬合除去と深層学習に基づく特徴に基づく信頼性の高い手法を提案する。 最初のステップは、マスクされた顔領域を削除することです。 次に、vgg-16、alexnet、resnet-50の3つの事前学習された深層畳み込みニューラルネットワーク(cnn)を適用し、得られた領域(主に目と額の領域)から深い特徴を抽出する。 その後、Bag-of-Featuresパラダイムが最後の畳み込み層の特徴写像に適用され、それらを定量化し、古典的CNNの完全連結層と比較して少し表現される。 最後に、分類プロセスに多層パーセプトロン(MLP)を適用する。 実世界マッシュフェイスデータセットの実験結果は,他の最先端手法と比較して高い認識性能を示す。

The coronavirus disease (COVID-19) is an unparalleled crisis leading to a huge number of casualties and security problems. In order to reduce the spread of coronavirus, people often wear masks to protect themselves. This makes face recognition a very difficult task since certain parts of the face are hidden. A primary focus of researchers during the ongoing coronavirus pandemic is to come up with suggestions to handle this problem through rapid and efficient solutions. In this paper, we propose a reliable method based on occlusion removal and deep learning-based features in order to address the problem of the masked face recognition process. The first step is to remove the masked face region. Next, we apply three pre-trained deep Convolutional Neural Networks (CNN) namely, VGG-16, AlexNet, and ResNet-50, and use them to extract deep features from the obtained regions (mostly eyes and forehead regions). The Bag-of-features paradigm is then applied to the feature maps of the last convolutional layer in order to quantize them and to get a slight representation comparing to the fully connected layer of classical CNN. Finally, Multilayer Perceptron (MLP) is applied for the classification process. Experimental results on Real-World-Masked-Face-Dataset show high recognition performance compared to other state-of-the-art methods.
翻訳日:2021-05-10 22:15:17 公開日:2021-05-07
# (参考訳) speechmoe: エキスパートのダイナミックルーティング混合による大規模音響モデルへのスケーリング

SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture of Experts ( http://arxiv.org/abs/2105.03036v1 )

ライセンス: CC0 1.0
Zhao You, Shulin Feng, Dan Su and Dong Yu(参考訳) 最近、Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。 第一に、moeベースのトランスフォーマーは、トレーニングと推論の両方で計算コストを増加させることなく、モデルの容量を増加させることができる。 さらに、MoEベースのTransformerは、現実世界のアプリケーションにおける入力インスタンスの複雑さの変化に適応できる動的ネットワークである。 本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。 ルータの活性化のスパース性をさらに制御し、ゲート値の多様性を向上させるため、スパース性l1損失と平均重要損失をそれぞれ提案する。 さらに、新たなルータアーキテクチャが speechmoe で使用されており、共有組み込みネットワークからの情報と異なるmoe層の階層表現を同時に利用できる。 実験の結果,従来の静的ネットワークに比べて低いキャラクタエラー率 (cer) を達成でき,4つの評価データセットにおいて7.0%-23.0%の相対的なcer改善が得られた。

Recently, Mixture of Experts (MoE) based Transformer has shown promising results in many domains. This is largely due to the following advantages of this architecture: firstly, MoE based Transformer can increase model capacity without computational cost increasing both at training and inference time. Besides, MoE based Transformer is a dynamic network which can adapt to the varying complexity of input instances in realworld applications. In this work, we explore the MoE based model for speech recognition, named SpeechMoE. To further control the sparsity of router activation and improve the diversity of gate values, we propose a sparsity L1 loss and a mean importance loss respectively. In addition, a new router architecture is used in SpeechMoE which can simultaneously utilize the information from a shared embedding network and the hierarchical representation of different MoE layers. Experimental results show that SpeechMoE can achieve lower character error rate (CER) with comparable computation cost than traditional static networks, providing 7.0%-23.0% relative CER improvements on four evaluation datasets.
翻訳日:2021-05-10 22:06:15 公開日:2021-05-07
# (参考訳) 単一物体追跡のための高速で簡易なシームズネットワーク

Faster and Simpler Siamese Network for Single Object Tracking ( http://arxiv.org/abs/2105.03049v1 )

ライセンス: CC0 1.0
Shaokui Jiang, Baile Xu, Jian Zhao, Furao Shen(参考訳) シングルオブジェクトトラッキング(SOT)は現在、コンピュータビジョンにおいて最も重要なタスクの1つである。 ディープ・ネットワークの開発と単一オブジェクト追跡のための大規模データセットのリリースにより、サイムズ・ネットワークは従来のほとんどの手法よりも優れた性能を発揮することが提案されている。 しかし、近年のシアムネットワークはより深く遅くなり、性能が向上した。 これらの手法のほとんどは、理想的な環境下でのリアルタイムオブジェクト追跡の必要性にのみ対応できる。 効率と精度のバランスを良くするために,ハードウェア構成が貧弱な場合に高速に動作し,精度を保ちながら,単一物体追跡のための簡易なシムネットワークを提案する。 より効率的な回帰法を用いて、精度を損なうことなく、より短い時間で追跡対象の位置を計算する。 トレーニングの精度の向上と高速化を目的として,特徴抽出器にSqueeze-and-Excitation(SE)ネットワークを導入する。 本稿では,提案手法を最先端トラッカーと比較し,その性能分析を行う。 提案手法を用いることで,シアムネットワークを短時間でより少ないデータで訓練することができる。 高速処理速度により、オブジェクトトラッキングとオブジェクト検出や他のタスクをリアルタイムで組み合わせることができる。

Single object tracking (SOT) is currently one of the most important tasks in computer vision. With the development of the deep network and the release for a series of large scale datasets for single object tracking, siamese networks have been proposed and perform better than most of the traditional methods. However, recent siamese networks get deeper and slower to obtain better performance. Most of these methods could only meet the needs of real-time object tracking in ideal environments. In order to achieve a better balance between efficiency and accuracy, we propose a simpler siamese network for single object tracking, which runs fast in poor hardware configurations while remaining an excellent accuracy. We use a more efficient regression method to compute the location of the tracked object in a shorter time without losing much precision. For improving the accuracy and speeding up the training progress, we introduce the Squeeze-and-excitation (SE) network into the feature extractor. In this paper, we compare the proposed method with some state-of-the-art trackers and analysis their performances. Using our method, a siamese network could be trained with shorter time and less data. The fast processing speed enables combining object tracking with object detection or other tasks in real time.
翻訳日:2021-05-10 21:55:14 公開日:2021-05-07
# (参考訳) クラッタ内の健全なオブジェクト

Salient Objects in Clutter ( http://arxiv.org/abs/2105.03053v1 )

ライセンス: CC BY 4.0
Deng-Ping Fan, Jing Zhang, Gang Xu, Ming-Ming Cheng, Ling Shao(参考訳) 本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処し,各画像が少なくとも1つの正当性オブジェクトを含むことを非現実的に仮定する。 この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。 しかし、これらのモデルは現実世界のシーンに適用しても満足できない。 分析結果に基づき,新しい高品質データセットを提案し,従来のsaliencyベンチマークを更新した。 特に、salient objects in clutter(soc)と呼ばれるデータセットには、いくつかの共通オブジェクトカテゴリからのsalient objectsとnon-salient objectsの両方のイメージが含まれています。 オブジェクトカテゴリアノテーションに加えて、それぞれの健全なイメージには、現実世界のシーンにおける共通の課題を反映した属性が伴い、SOD問題に関する深い洞察を提供するのに役立つ。 さらに、所定のサリエンシーエンコーダ、例えばバックボーンネットワークを用いて、トレーニング画像セットからトレーニンググランドルースセットへのマッピングを実現するために、既存のサリエンシーモデルが設計されている。 したがって、データセットの改善はデコーダ設計にのみフォーカスするよりも高いパフォーマンス向上をもたらすと我々は主張する。 このことを念頭に置いて,ラベルの平滑化と暗黙的な境界強調,さまざまなシナリオにサリエンシーモデルを適用するためのランダム画像拡張,小さなデータセットから学習するための正規化戦略としての自己教師あり学習など,いくつかのデータセット強化戦略を検討する。 我々はこれらのトリックの有効性を実証した。 また、当社のリポジトリにあるsodの包括的なベンチマークも提供しています。

This paper identifies and addresses a serious design bias of existing salient object detection (SOD) datasets, which unrealistically assume that each image should contain at least one clear and uncluttered salient object. This design bias has led to a saturation in performance for state-of-the-art SOD models when evaluated on existing datasets. However, these models are still far from satisfactory when applied to real-world scenes. Based on our analyses, we propose a new high-quality dataset and update the previous saliency benchmark. Specifically, our dataset, called Salient Objects in Clutter (SOC), includes images with both salient and non-salient objects from several common object categories. In addition to object category annotations, each salient image is accompanied by attributes that reflect common challenges in real-world scenes, which can help provide deeper insight into the SOD problem. Further, with a given saliency encoder, e.g., the backbone network, existing saliency models are designed to achieve mapping from the training image set to the training ground-truth set. We, therefore, argue that improving the dataset can yield higher performance gains than focusing only on the decoder design. With this in mind, we investigate several dataset-enhancement strategies, including label smoothing to implicitly emphasize salient boundaries, random image augmentation to adapt saliency models to various scenarios, and self-supervised learning as a regularization strategy to learn from small datasets. Our extensive results demonstrate the effectiveness of these tricks. We also provide a comprehensive benchmark for SOD, which can be found in our repository: http://dpfan.net/SOCBenchmark.
翻訳日:2021-05-10 21:45:44 公開日:2021-05-07
# (参考訳) コモンフローラ画像分類のためのFew-Shot Learning

Few-Shot Learning for Image Classification of Common Flora ( http://arxiv.org/abs/2105.03056v1 )

ライセンス: CC BY 4.0
Joshua Ball(参考訳) 画像分類におけるメタラーニングとトランスファーラーニングの利用は、データが豊富で計算資源に大きな制限がない場合にメタラーニングよりもトランスファーラーニングの利点を示す論文が多数ある、よく研究されている分野である。 本稿では,モデル非依存型メタラーニング(MAML)を用いた画像分類のためのメタラーニング分野における,様々な最先端のトランスファー学習重みとアーキテクチャの試験結果を紹介する。 以上の結果から,データセットが十分に大きい場合には両プラクティスが十分なパフォーマンスを提供するが,十分なパフォーマンスを維持するためにデータの疎結合が導入された場合には両プラクティスとも苦労することがわかった。 この問題は、画像強化とハイパーパラメータの微調整により、適度に減少する。 本稿では,(1)少数の画像分類を行うための頑健なマルチクラス畳み込みニューラルネットワーク(CNN)を開発するプロセス,(2)データセットが大きい場合に画像分類モデルを作成する上で,転送学習が優れた方法であることを実証すること,(3)データに制限がある場合に転送学習より優れていること,などを述べる。 github.com/JBall1/Few-Shot-Limited-Data

The use of meta-learning and transfer learning in the task of few-shot image classification is a well researched area with many papers showcasing the advantages of transfer learning over meta-learning in cases where data is plentiful and there is no major limitations to computational resources. In this paper we will showcase our experimental results from testing various state-of-the-art transfer learning weights and architectures versus similar state-of-the-art works in the meta-learning field for image classification utilizing Model-Agnostic Meta Learning (MAML). Our results show that both practices provide adequate performance when the dataset is sufficiently large, but that they both also struggle when data sparsity is introduced to maintain sufficient performance. This problem is moderately reduced with the use of image augmentation and the fine-tuning of hyperparameters. In this paper we will discuss: (1) our process of developing a robust multi-class convolutional neural network (CNN) for the task of few-shot image classification, (2) demonstrate that transfer learning is the superior method of helping create an image classification model when the dataset is large and (3) that MAML outperforms transfer learning in the case where data is very limited. The code is available here: github.com/JBall1/Few-Shot-Limited-Data
翻訳日:2021-05-10 19:53:55 公開日:2021-05-07
# (参考訳) speechnet: 音声処理タスクのための普遍的モジュール化モデル

SpeechNet: A Universal Modularized Model for Speech Processing Tasks ( http://arxiv.org/abs/2105.03070v1 )

ライセンス: CC BY 4.0
Yi-Chen Chen, Po-Han Chi, Shu-wen Yang, Kai-Wei Chang, Jheng-hao Lin, Sung-Feng Huang, Da-Rong Liu, Chi-Liang Liu, Cheng-Kuang Lee, Hung-yi Lee(参考訳) 音声処理のタスクは多種多様である。 異なるタスクに対して、モデルネットワークは通常、個別に設計、調整される。 本稿では,5つの基本モジュールを含む共通モジュール化モデルであるSpeechNetを提案する。 モジュールの連結は、様々な音声処理タスクを解決する。 これら5つのモジュールをすべて使用した実験では,5つの重要な共通タスクを選択します。 具体的には、各試行において、すべてのモジュールが共有されるマルチタスク設定の下で、全ての音声タスクのサブセットを共同で訓練する。 そして、トレーニング中にひとつのタスクが他のタスクに利益をもたらすかどうかを観察できます。 speechnetはモジュール化され、将来より多くのモジュール、タスク、トレーニングアプローチを組み込むために柔軟である。 モジュラー化された普遍モデルの研究や、音声処理タスクのマルチタスク学習を容易にするために、コードと実験的な設定をリリースする。

There is a wide variety of speech processing tasks. For different tasks, model networks are usually designed and tuned separately. This paper proposes a universal modularized model, SpeechNet, which contains the five basic modules for speech processing. The concatenation of modules solves a variety of speech processing tasks. We select five important and common tasks in the experiments that use all of these five modules altogether. Specifically, in each trial, we jointly train a subset of all speech tasks under multi-task setting, with all modules shared. Then we can observe whether one task can benefit another during training. SpeechNet is modularized and flexible for incorporating more modules, tasks, or training approaches in the future. We will release the code and experimental settings to facilitate the research of modularized universal models or multi-task learning of speech processing tasks.
翻訳日:2021-05-10 19:44:01 公開日:2021-05-07
# (参考訳) ntire 2021 画像の知覚的品質評価に関する挑戦

NTIRE 2021 Challenge on Perceptual Image Quality Assessment ( http://arxiv.org/abs/2105.03072v1 )

ライセンス: CC BY 4.0
Jinjin Gu and Haoming Cai and Chao Dong and Jimmy S. Ren and Yu Qiao and Shuhang Gu and Radu Timofte and Manri Cheon and Sungjun Yoon and Byungyeon Kangg Kang and Junwoo Lee and Qing Zhang and Haiyang Guo and Yi Bin and Yuqing Hou and Hengliang Luo and Jingyu Guo and Zirui Wang and Hai Wang and Wenming Yang and Qingyan Bai and Shuwei Shi and Weihao Xia and Mingdeng Cao and Jiahao Wang and Yifan Chen and Yujiu Yang and Yang Li and Tao Zhang and Longtao Feng and Yiting Liao and Junlin Li and William Thong and Jose Costa Pereira and Ales Leonardis and Steven McDonagh and Kele Xu and Lehan Yang and Hengxing Cai and Pengfei Sun and Seyed Mehdi Ayyoubzadeh and Ali Royat and Sid Ahmed Fezza and Dounia Hammou and Wassim Hamidouche and Sewoong Ahn and Gwangjin Yoon and Koki Tsubota and Hiroaki Akutsu and Kiyoharu Aizawa(参考訳) 本稿では, cvpr 2021における画像復元・強調ワークショップ(ntire)ワークショップにおいて, 画像の知覚的品質評価(iqa)に関するntire 2021チャレンジについて報告する。 新しいタイプの画像処理技術として、GAN(Generative Adversarial Networks)に基づく知覚画像処理アルゴリズムが、より現実的なテクスチャを持つ画像を生成する。 これらの出力画像は従来の歪みとは全く異なる特徴を持つため、その視覚的品質を評価するためにIQA法が新たな課題となる。 従来のIQA課題と比較して、この課題におけるトレーニングとテストデータセットには、知覚画像処理アルゴリズムと対応する主観的スコアの出力が含まれている。 したがって、GANに基づく歪みに対するIQA法の開発と評価に使用できる。 参加登録者は合計270名。 最終テスト段階では、13の参加チームがモデルとファクトシートを提出した。 ほぼ全員が既存のIQA法よりもはるかに優れた結果を得ており、勝敗法は最先端の性能を示すことができる。

This paper reports on the NTIRE 2021 challenge on perceptual image quality assessment (IQA), held in conjunction with the New Trends in Image Restoration and Enhancement workshop (NTIRE) workshop at CVPR 2021. As a new type of image processing technology, perceptual image processing algorithms based on Generative Adversarial Networks (GAN) have produced images with more realistic textures. These output images have completely different characteristics from traditional distortions, thus pose a new challenge for IQA methods to evaluate their visual quality. In comparison with previous IQA challenges, the training and testing datasets in this challenge include the outputs of perceptual image processing algorithms and the corresponding subjective scores. Thus they can be used to develop and evaluate IQA methods on GAN-based distortions. The challenge has 270 registered participants in total. In the final testing stage, 13 participating teams submitted their models and fact sheets. Almost all of them have achieved much better results than existing IQA methods, while the winning method can demonstrate state-of-the-art performance.
翻訳日:2021-05-10 19:24:44 公開日:2021-05-07
# (参考訳) フォトリアリスティック画像復元のためのインタラクティブ変調法

Toward Interactive Modulation for Photo-Realistic Image Restoration ( http://arxiv.org/abs/2105.03085v1 )

ライセンス: CC BY 4.0
Haoming Cai and Jingwen He and Qiao Yu and Chao Dong(参考訳) 変調画像復元レベルは、復元強度を表す因子を変化させて復元画像を生成することを目的としている。 従来は平均2乗復元誤差の最適化に主眼を置いていたが, 再現精度は高く, テクスチャの細部が細かでない。 本稿では,制御可能なUnet生成支援ネットワーク(CUGAN)を提案し,変調タスクにおいて高頻度なテクスチャを生成する。 CUGANはベースネットワークと条件ネットワークという2つのモジュールで構成されている。 ベースネットワークは、ジェネレータと判別器とからなる。 ジェネレータでは, unetアーキテクチャにおける異なるスケールの異なる特徴の重み付けをチューニングすることにより, 修復レベルのインタラクティブな制御を実現する。 さらに, 劣化の重大度に応じて, 判別器の中間特性を適応的に調整する。 条件ネットワークは、条件ベクトル(符号化劣化情報)を入力として受け入れ、生成器と判別器の両方の変調パラメータを生成する。 テスト中、ユーザは条件ベクトルを微調整することで出力効果を制御できる。 また, 簡単な遷移法により, GAN と MSE 効果のスムーズな遷移も提供する。 広汎な実験により,提案したCUGANは画像復元調整タスクにおいて優れた性能を発揮することが示された。

Modulating image restoration level aims to generate a restored image by altering a factor that represents the restoration strength. Previous works mainly focused on optimizing the mean squared reconstruction error, which brings high reconstruction accuracy but lacks finer texture details. This paper presents a Controllable Unet Generative Adversarial Network (CUGAN) to generate high-frequency textures in the modulation tasks. CUGAN consists of two modules -- base networks and condition networks. The base networks comprise a generator and a discriminator. In the generator, we realize the interactive control of restoration levels by tuning the weights of different features from different scales in the Unet architecture. Moreover, we adaptively modulate the intermediate features in the discriminator according to the severity of degradations. The condition networks accept the condition vector (encoded degradation information) as input, then generate modulation parameters for both the generator and the discriminator. During testing, users can control the output effects by tweaking the condition vector. We also provide a smooth transition between GAN and MSE effects by a simple transition method. Extensive experiments demonstrate that the proposed CUGAN achieves excellent performance on image restoration modulation tasks.
翻訳日:2021-05-10 19:06:48 公開日:2021-05-07
# (参考訳) 階層的局所化のための確率的視覚位置認識

Probabilistic Visual Place Recognition for Hierarchical Localization ( http://arxiv.org/abs/2105.03091v1 )

ライセンス: CC BY 4.0
Ming Xu, Niko S\"underhauf, Michael Milford(参考訳) 視覚的ローカライゼーション技術は、しばしば階層的なローカライゼーションパイプラインを構成し、粗いローカライザとして視覚的位置認識モジュールを使用してポーズリファインメントステージを初期化する。 ポーズ改善ステップの改善は、最近の研究の焦点となっているが、粗いローカライズ段階におけるほとんどの作業は、外観変化へのばらつきの増加など、ゆるいエラー許容性を改善することなく改善に焦点を当てている。 本稿では,視覚位置認識に使用する画像検索手法を,局所化のためのベイズ状態推定定式化に適用する2つの手法を提案する。 本手法は, 外観変化が激しい場合, 品質を保ちつつ, 粗定位ステージの定位精度が著しく向上することを示す。 また,oxford robotcarデータセットを用いた広範囲な実験により,画像シーケンスのローカライズにおける精度・リコール性能の点で,同等の最先端手法よりも優れることを示した。 さらに,提案手法は,これらの改善を実現するために,局所化遅延を文脈的に拡張する柔軟性を提供する。 初期位置推定の改善は、全体的な位置決め性能の向上と、この改良された空間的プリエントを利用した修正されたポーズ修正技術の両方の可能性を開く。

Visual localization techniques often comprise a hierarchical localization pipeline, with a visual place recognition module used as a coarse localizer to initialize a pose refinement stage. While improving the pose refinement step has been the focus of much recent research, most work on the coarse localization stage has focused on improvements like increased invariance to appearance change, without improving what can be loose error tolerances. In this letter, we propose two methods which adapt image retrieval techniques used for visual place recognition to the Bayesian state estimation formulation for localization. We demonstrate significant improvements to the localization accuracy of the coarse localization stage using our methods, whilst retaining state-of-the-art performance under severe appearance change. Using extensive experimentation on the Oxford RobotCar dataset, results show that our approach outperforms comparable state-of-the-art methods in terms of precision-recall performance for localizing image sequences. In addition, our proposed methods provides the flexibility to contextually scale localization latency in order to achieve these improvements. The improved initial localization estimate opens up the possibility of both improved overall localization performance and modified pose refinement techniques that leverage this improved spatial prior.
翻訳日:2021-05-10 18:49:59 公開日:2021-05-07
# (参考訳) 一般化線形モデルにおける高速近似推論のためのラプラスマッチング

Laplace Matching for fast Approximate Inference in Generalized Linear Models ( http://arxiv.org/abs/2105.03109v1 )

ライセンス: CC BY 4.0
Marius Hobbhahn, Philipp Hennig(参考訳) 一般化線形モデル(GLMs)におけるベイズ推論(英語版)、すなわち、非ガウス的確率を持つガウス回帰は一般に非解析的であり、サンプリングや変分推論のような計算コストのかかる近似を必要とする。 提案手法は,高い近似品質を保ちながら,計算量的に安価であるように設計された近似推論フレームワークを提案する。 この概念は \emph{laplace matching} と呼ばれ、指数関数族のパラメータ空間の間の閉形式、近似、双方向変換を含む。 これらはカスタム設計の基底変換の下でラプラス近似から構築される。 それらの写像は、可観測変数のリッチクラスの前に潜在ガウス分布を共役に効果的に変換するために利用できる。 これにより、GLMにおける推論は(近似誤差が小さい)共役推論へと効果的に変換される。 提案手法を2つの異なるGLMで実験的に評価し,計算コストの大幅な削減にあたり,最先端の近似推論手法に匹敵する近似品質を示す。 より具体的には、我々の手法は標準GLM推論で通常用いられる反復最適化のemph{very first}ステップに匹敵するコストを持つ。

Bayesian inference in generalized linear models (GLMs), i.e.~Gaussian regression with non-Gaussian likelihoods, is generally non-analytic and requires computationally expensive approximations, such as sampling or variational inference. We propose an approximate inference framework primarily designed to be computationally cheap while still achieving high approximation quality. The concept, which we call \emph{Laplace Matching}, involves closed-form, approximate, bi-directional transformations between the parameter spaces of exponential families. These are constructed from Laplace approximations under custom-designed basis transformations. The mappings can then be leveraged to effectively turn a latent Gaussian distribution into a conjugate prior for a rich class of observable variables. This effectively turns inference in GLMs into conjugate inference (with small approximation errors). We empirically evaluate the method in two different GLMs, showing approximation quality comparable to state-of-the-art approximate inference techniques at a drastic reduction in computational cost. More specifically, our method has a cost comparable to the \emph{very first} step of the iterative optimization usually employed in standard GLM inference.
翻訳日:2021-05-10 18:31:26 公開日:2021-05-07
# (参考訳) ゲームにおける(そして)AI

AI in (and for) Games ( http://arxiv.org/abs/2105.03123v1 )

ライセンス: CC BY 4.0
Kostas Karpouzis and George Tsatiris(参考訳) この章では、人工知能(AI)/機械学習(ML)アルゴリズムとデジタルゲームとの関係について概説する。 この関係は2つある:一方、AI/ML研究者は、人間の感情活動、プレイヤーの行動(つまりプレイヤーの行動)の巨大な、その内部のデータセットを生成することができる。 ゲーム内のアクション)、商業的な振る舞い、グラフィカルなユーザーインターフェース要素とのインタラクション、または他のプレイヤーとのメッセージング、ゲームはインテリジェントなアルゴリズムを利用してゲームレベルのテスト、コンテンツの生成、インテリジェントでレスポンシブなノンプレイヤーキャラクタ(npcs)の開発、プレイヤーのさまざまな文化におけるプレイヤーの振る舞いの予測と対応を自動化できる。 本稿では、ゲームにおけるAI/MLの最も一般的で広く受け入れられている使用方法と、表現性とパフォーマンスに基づくプレイヤー体験の推定と、言語学習ゲームにおける適切な、興味深いコンテンツの生成について論じる。

This chapter outlines the relation between artificial intelligence (AI) / machine learning (ML) algorithms and digital games. This relation is two-fold: on one hand, AI/ML researchers can generate large, in-the-wild datasets of human affective activity, player behaviour (i.e. actions within the game world), commercial behaviour, interaction with graphical user interface elements or messaging with other players, while games can utilise intelligent algorithms to automate testing of game levels, generate content, develop intelligent and responsive non-player characters (NPCs) or predict and respond player behaviour across a wide variety of player cultures. In this work, we discuss some of the most common and widely accepted uses of AI/ML in games and how intelligent systems can benefit from those, elaborating on estimating player experience based on expressivity and performance, and on generating proper and interesting content for a language learning game.
翻訳日:2021-05-10 18:30:15 公開日:2021-05-07
# (参考訳) コード2画像:コンピュータビジョンによるインテリジェントコード解析と脆弱性予測への応用

Code2Image: Intelligent Code Analysis by Computer Vision Techniques and Application to Vulnerability Prediction ( http://arxiv.org/abs/2105.03131v1 )

ライセンス: CC BY-SA 4.0
Zeki Bilgin(参考訳) 近年の機械学習(ML)分野における顕著な進歩と並行して、インテリジェントコード解析が注目されている。 この目的のためにMLを活用する上での大きな課題は、MLアルゴリズムが入力として受け入れられる有用な形式でソースコードを表現することである。 本研究では,意味的および構文的特性を維持しつつ,ソースコードを画像として表現する新しい手法を提案する。 実際、この方法では、さらなるデータ前処理や特徴抽出ステップを必要とせず、ソースコードのイメージ表現を直接ディープラーニング(DL)アルゴリズムに入力することができる。 本手法の有効性と有効性は,多数の実世界のソースコードサンプルを含む公開データセット上での脆弱性予測ユースケースを実現し,現状のソリューションと比較して性能評価を行う。 私たちの実装は公開されています。

Intelligent code analysis has received increasing attention in parallel with the remarkable advances in the field of machine learning (ML) in recent years. A major challenge in leveraging ML for this purpose is to represent source code in a useful form that ML algorithms can accept as input. In this study, we present a novel method to represent source code as image while preserving semantic and syntactic properties, which paves the way for leveraging computer vision techniques to use for code analysis. Indeed the method makes it possible to directly enter the resulting image representation of source codes into deep learning (DL) algorithms as input without requiring any further data pre-processing or feature extraction step. We demonstrate feasibility and effectiveness of our method by realizing a vulnerability prediction use case over a public dataset containing a large number of real-world source code samples with performance evaluation in comparison to the state-of-art solutions. Our implementation is publicly available.
翻訳日:2021-05-10 18:16:14 公開日:2021-05-07
# (参考訳) 微生物画像解析における物体検出技術の現状:従来の画像処理と古典的機械学習から現在の深部畳み込みニューラルネットワークと潜在的な視覚変換器まで

A State-of-the-art Survey of Object Detection Techniques in Microorganism Image Analysis: from Traditional Image Processing and Classical Machine Learning to Current Deep Convolutional Neural Networks and Potential Visual Transformers ( http://arxiv.org/abs/2105.03148v1 )

ライセンス: CC BY 4.0
Chen Li, Pingli Ma, Md Mamunur Rahaman, Yudong Yao, Jiawei Zhang, Shuojia Zou, Xin Zhao, Marcin Grzegorzek(参考訳) 微生物は人間の生活において重要な役割を果たす。 そのため、微生物検出は人間にとって非常に重要である。 しかし, 従来の手作業による顕微鏡的検出法では, 長い検出サイクル, 低い検出精度, 稀な微生物の検出が困難である。 したがって、微生物検出の分野にコンピュータ画像解析技術を適用することは有意義である。 コンピュータ画像解析は微生物の高精度・高効率検出を実現することができる。 本稿では,まず,従来の画像処理や機械学習から深層学習まで,既存の微生物検出手法を時系列で分析する。 次に,これらの既存手法を解析・要約し,視覚トランスフォーマーを含む潜在的な手法を紹介する。 最後に,微生物検出の今後の発展方向と課題について論じる。 概して、1985年から現在までの137件の関連技術論文を要約している。 このレビューは、研究者が微生物検出の分野における開発プロセス、研究状況、今後のトレンドをより包括的に理解し、他の分野の研究者への参照を提供するのに役立つだろう。

Microorganisms play a vital role in human life. Therefore, microorganism detection is of great significance to human beings. However, the traditional manual microscopic detection methods have the disadvantages of long detection cycle, low detection accuracy in large orders, and great difficulty in detecting uncommon microorganisms. Therefore, it is meaningful to apply computer image analysis technology to the field of microorganism detection. Computer image analysis can realize high-precision and high-efficiency detection of microorganisms. In this review, first,we analyse the existing microorganism detection methods in chronological order, from traditional image processing and traditional machine learning to deep learning methods. Then, we analyze and summarize these existing methods and introduce some potential methods, including visual transformers. In the end, the future development direction and challenges of microorganism detection are discussed. In general, we have summarized 137 related technical papers from 1985 to the present. This review will help researchers have a more comprehensive understanding of the development process, research status, and future trends in the field of microorganism detection and provide a reference for researchers in other fields.
翻訳日:2021-05-10 18:02:56 公開日:2021-05-07
# (参考訳) Few-shot LearningのためのDiff-ResNets - ODEパースペクティブ

Diff-ResNets for Few-shot Learning -- an ODE Perspective ( http://arxiv.org/abs/2105.03155v1 )

ライセンス: CC BY-SA 4.0
Tangjun Wang, Zehao Dou, Chenglong Bao, Zuoqiang Shi(参考訳) 通常の微分方程式(odes)の観点からのディープニューラルネットワークの解釈は多くの効率的でロバストなネットワークアーキテクチャに影響を与えている。 しかし、既存のODEベースのアプローチは、少数ショット学習や半教師付き学習を含む多くの問題において重要な要素であるデータポイント間の関係を無視している。 本稿では,データポイント間の相互作用を強化するための拡散残差ネットワーク(Diff-ResNet)を提案する。 構造的データ仮定により, 拡散機構は, クラス間点の分離性を高め, クラス間点間の距離を減少させる距離径比を低減できることが証明された。 この性質は、分離可能な超平面を構成するための残留ネットワークによって容易に適用できる。 合成二元分類実験は,提案する拡散機構の有効性を示す。 さらに、様々なデータセットにおける複数ショット画像分類と半教師付きグラフノード分類の広範な実験は、既存の複数ショット学習法よりも提案したDiff-ResNetの利点を検証する。

Interpreting deep neural networks from the ordinary differential equations (ODEs) perspective has inspired many efficient and robust network architectures. However, existing ODE based approaches ignore the relationship among data points, which is a critical component in many problems including few-shot learning and semi-supervised learning. In this paper, inspired by the diffusive ODEs, we propose a novel diffusion residual network (Diff-ResNet) to strengthen the interactions among data points. Under the structured data assumption, it is proved that the diffusion mechanism can decrease the distance-diameter ratio that improves the separability of inter-class points and reduces the distance among local intra-class points. This property can be easily adopted by the residual networks for constructing the separable hyperplanes. The synthetic binary classification experiments demonstrate the effectiveness of the proposed diffusion mechanism. Moreover, extensive experiments of few-shot image classification and semi-supervised graph node classification in various datasets validate the advantages of the proposed Diff-ResNet over existing few-shot learning methods.
翻訳日:2021-05-10 18:01:19 公開日:2021-05-07
# (参考訳) CO-NNECT:テキストにおける暗黙的知識の明示としての常識的知識パスを探求するためのフレームワーク

CO-NNECT: A Framework for Revealing Commonsense Knowledge Paths as Explicitations of Implicit Knowledge in Texts ( http://arxiv.org/abs/2105.03157v1 )

ライセンス: CC BY 4.0
Maria Becker, Katharina Korfhage, Debjit Paul, Anette Frank(参考訳) 本研究では,暗黙的知識の明確化の形式として,文間の接続を確立するために,知識パスの形で常識知識を活用する。 このような接続は直接(シングルホップパス)あるいは中間概念(マルチホップパス)を必要とする。 このような経路を構築するために、私たちはCo-nnectと呼ばれる2つのモデルタイプを組み合わせて、概念間の直接接続を予測する関係分類器と、ソース概念とマルチホップパスを構築するために使用する関係を与えられたターゲットまたは中間概念を生成するターゲット予測モデルを構築します。 静的な知識ソースにのみ依存する以前の作業とは異なり、ConceptNetに格納された知識に基づいて微調整された言語モデルを利用して、テキスト中の文を接続する暗黙的な知識の説明として、知識パスを動的に生成する。 中心となる貢献として,生成経路の品質評価のためのマニュアルおよび自動評価設定をデザインする。 2つの議論的データセット上で評価を行い、2つのモデルタイプを組み合わせて、テキストで伝達される暗黙的な知識を明らかにする文間の有意義で高品質な知識パスを生成することを示す。

In this work we leverage commonsense knowledge in form of knowledge paths to establish connections between sentences, as a form of explicitation of implicit knowledge. Such connections can be direct (singlehop paths) or require intermediate concepts (multihop paths). To construct such paths we combine two model types in a joint framework we call Co-nnect: a relation classifier that predicts direct connections between concepts; and a target prediction model that generates target or intermediate concepts given a source concept and a relation, which we use to construct multihop paths. Unlike prior work that relies exclusively on static knowledge sources, we leverage language models finetuned on knowledge stored in ConceptNet, to dynamically generate knowledge paths, as explanations of implicit knowledge that connects sentences in texts. As a central contribution we design manual and automatic evaluation settings for assessing the quality of the generated paths. We conduct evaluations on two argumentative datasets and show that a combination of the two model types generates meaningful, high-quality knowledge paths between sentences that reveal implicit knowledge conveyed in text.
翻訳日:2021-05-10 17:32:02 公開日:2021-05-07
# (参考訳) 絵文字のアイデンティティ信号はTwitter上での事実認識に影響を与えない

Identity Signals in Emoji Do not Influence Perception of Factual Truth on Twitter ( http://arxiv.org/abs/2105.03160v1 )

ライセンス: CC BY 4.0
Alexander Robertson, Walid Magdy, Sharon Goldwater(参考訳) 以前の研究によると、Twitterユーザーは人種や民族のアイデンティティを表現するために、自己表現の行為としてスキントーン絵文字を使っている。 この信号が、その信号を含む投稿の内容に対する読者の認識に影響を及ぼすかどうかを検証する。 大規模な(n=944)事前登録制御実験において、読者が不明瞭なトリヴィア事実(つぶやきとして表現される)を真偽と評価するタスクにおいて、スキントーン絵文字とプロフィール写真の存在を操作した。 ベイズ統計分析の結果、絵文字もプロフィール写真も、読者がこれらの事実を評価する方法に影響を与えていないことがわかった。 この結果は、偽のプロフィールを作成することで、オンラインユーザーの操作を心配する人なら誰でも安心できるだろう。

Prior work has shown that Twitter users use skin-toned emoji as an act of self-representation to express their racial/ethnic identity. We test whether this signal of identity can influence readers' perceptions about the content of a post containing that signal. In a large scale (n=944) pre-registered controlled experiment, we manipulate the presence of skin-toned emoji and profile photos in a task where readers rate obscure trivia facts (presented as tweets) as true or false. Using a Bayesian statistical analysis, we find that neither emoji nor profile photo has an effect on how readers rate these facts. This result will be of some comfort to anyone concerned about the manipulation of online users through the crafting of fake profiles.
翻訳日:2021-05-10 17:14:17 公開日:2021-05-07
# (参考訳) 絵文字の影の生き方:Hacktivist CollectiveによるTwitter上の絵文字利用の分析

The Shadowy Lives of Emojis: An Analysis of a Hacktivist Collective's Use of Emojis on Twitter ( http://arxiv.org/abs/2105.03168v1 )

ライセンス: CC BY 4.0
Keenan Jones, Jason R. C. Nurse, Shujun Li(参考訳) 絵文字は、オンラインメッセージングにおける一般的なコミュニケーション手段としての地位を確立した。 しかし、これらの画像ベースのトークンが広く使われているにもかかわらず、解釈とあいまいさは絵文字のユニークな使用を可能にする可能性がある。 本稿では,Hacktivistグループによる最初の絵文字使用状況について,Twitter上での匿名集団の研究を通して紹介する。 この研究は、匿名のアフィリエイトたちが絵文字を使う独自のアプローチを進化させたかどうかを特定することを目的としている。 これを実現するために、匿名ツイートの大規模なデータセットと、ランダムにサンプリングされたTwitterユーザーのベースラインツイートデータセットを比較し、その絵文字使用率を比較した。 我々は、word2vec言語モデルを用いて、絵文字間の意味的関係を調べ、匿名ユーザの絵文字-絵文字間関係を明確に区別する。 絵文字と絵文字のセマンティックな結びつきがほとんどないにもかかわらず、匿名絵文字の使い方は、ベースラインのTwitterユーザーの絵文字と同じような感情的目的のパターンを示す。 最後に、これらの絵文字が出現するテキストの文脈を調査し、AnonymousとベースラインのTwitterデータセットの絵文字使用に類似性はあるが、Anonymousユーザは特定の絵文字のより具体的な解釈を採用したようだ。 これには、著名なアノニマス・アフィリエートへの敬意を表す手段として絵文字の使用が含まれる。 これらの結果は、絵文字がAnonymousアカウント内で、一般的なTwitterユーザーと比べてかなり類似していることを示している。 しかし、アノニマスのアカウントにおける絵文字の使用が幾らか進化した兆候であり、この異常な集団の行動に対する新たな洞察を示すグループ固有の関連性を得る。

Emojis have established themselves as a popular means of communication in online messaging. Despite the apparent ubiquity in these image-based tokens, however, interpretation and ambiguity may allow for unique uses of emojis to appear. In this paper, we present the first examination of emoji usage by hacktivist groups via a study of the Anonymous collective on Twitter. This research aims to identify whether Anonymous affiliates have evolved their own approach to using emojis. To do this, we compare a large dataset of Anonymous tweets to a baseline tweet dataset from randomly sampled Twitter users using computational and qualitative analysis to compare their emoji usage. We utilise Word2Vec language models to examine the semantic relationships between emojis, identifying clear distinctions in the emoji-emoji relationships of Anonymous users. We then explore how emojis are used as a means of conveying emotions, finding that despite little commonality in emoji-emoji semantic ties, Anonymous emoji usage displays similar patterns of emotional purpose to the emojis of baseline Twitter users. Finally, we explore the textual context in which these emojis occur, finding that although similarities exist between the emoji usage of our Anonymous and baseline Twitter datasets, Anonymous users appear to have adopted more specific interpretations of certain emojis. This includes the use of emojis as a means of expressing adoration and infatuation towards notable Anonymous affiliates. These findings indicate that emojis appear to retain a considerable degree of similarity within Anonymous accounts as compared to more typical Twitter users. However, their are signs that emoji usage in Anonymous accounts has evolved somewhat, gaining additional group-specific associations that reveal new insights into the behaviours of this unusual collective.
翻訳日:2021-05-10 17:04:39 公開日:2021-05-07
# (参考訳) 表象学習と報酬形成のための報酬予測

Reward prediction for representation learning and reward shaping ( http://arxiv.org/abs/2105.03172v1 )

ライセンス: CC BY 4.0
Hlynur Dav\'i{\dh} Hlynsson, Laurenz Wiskott(参考訳) 強化学習(RL)の基本的な課題の1つは、データ効率の1つである: 現代のアルゴリズムは、高次元の観測を行う環境を解決するために、特に人間と比較して、非常に多くのトレーニングサンプルを必要とする。 報酬信号がスパースである場合には、この問題の重大度が増大する。 本研究では,報酬予測のための自己指導型状態表現学習を提案する。 報酬予測器は、単一の終了目標状態の環境において、真の報酬信号の生または滑らかなバージョンを推定する。 政策学習中に報酬予測器を用いて報酬を形作ることにより、アウトオブボックスのRLエージェントのトレーニングを強化する。 視覚的入力のある単一ゴール環境におけるKronecker-factored Trust Region と Proximal Policy Optimization を用いて,高次元観測の事前処理,および報酬形成の予測器を用いて,アクター批判を著しく向上させることを示す。

One of the fundamental challenges in reinforcement learning (RL) is the one of data efficiency: modern algorithms require a very large number of training samples, especially compared to humans, for solving environments with high-dimensional observations. The severity of this problem is increased when the reward signal is sparse. In this work, we propose learning a state representation in a self-supervised manner for reward prediction. The reward predictor learns to estimate either a raw or a smoothed version of the true reward signal in environment with a single, terminating, goal state. We augment the training of out-of-the-box RL agents by shaping the reward using our reward predictor during policy learning. Using our representation for preprocessing high-dimensional observations, as well as using the predictor for reward shaping, is shown to significantly enhance Actor Critic using Kronecker-factored Trust Region and Proximal Policy Optimization in single-goal environments with visual inputs.
翻訳日:2021-05-10 16:47:36 公開日:2021-05-07
# (参考訳) ジェネリック知識獲得のモデル化のための基礎的アプローチ

A Grounded Approach to Modeling Generic Knowledge Acquisition ( http://arxiv.org/abs/2105.03207v1 )

ライセンス: CC BY 4.0
Deniz Beser, Joe Cecil, Marjorie Freedman, Jacob Lichtefeld, Mitch Marcus, Sarah Payne, and Charles Yang(参考訳) 汎用言語から学習するための認知的に妥当なモデル、あるカテゴリーのメンバーについての一般化を表現し、言語獲得における概念開発の重要な側面であるステートメントを紹介し、実装する(carlson & pelletier, 1995; gelman, 2009)。 概念ネットワークを導入することにより,基礎言語獲得をモデル化する計算フレームワークを拡張した。 この新しい抽象化レイヤにより、システムはジェネリックステートメントから学んだ知識をエンコードし、システムによって学習された概念間の関連を表現することができる。 概念ネットワークを利用する3つのタスクを通じて、ADAMへの拡張が汎用情報を取得することを実証し、ADAMが言語習得のモデル化にどのように使えるかを例示する。

We introduce and implement a cognitively plausible model for learning from generic language, statements that express generalizations about members of a category and are an important aspect of concept development in language acquisition (Carlson & Pelletier, 1995; Gelman, 2009). We extend a computational framework designed to model grounded language acquisition by introducing the concept network. This new layer of abstraction enables the system to encode knowledge learned from generic statements and represent the associations between concepts learned by the system. Through three tasks that utilize the concept network, we demonstrate that our extensions to ADAM can acquire generic information and provide an example of how ADAM can be used to model language acquisition.
翻訳日:2021-05-10 16:32:11 公開日:2021-05-07
# (参考訳) LatentSLAM:ローカライゼーションとマッピングのための教師なしマルチセンサ表現学習

LatentSLAM: unsupervised multi-sensor representation learning for localization and mapping ( http://arxiv.org/abs/2105.03265v1 )

ライセンス: CC BY 4.0
Ozan \c{C}atal, Wouter Jansen, Tim Verbelen, Bart Dhoedt and Jan Steckel(参考訳) RatSLAMのような生物学的にインスパイアされた、同時位置決めとマッピング(SLAM)のためのアルゴリズムは、屋内と屋外の両方で効果的で堅牢なロボットナビゲーションをもたらすことが示されている。 しかし1つの欠点は、低次元感覚テンプレートのテンプレートマッチングによる知覚エイリアスに対する感受性である。 本稿では,ラットラムに使用可能な低次元潜在状態記述子を生成する教師なし表現学習手法を提案する。 本手法はセンサ非依存であり,カメラ画像,レーダーレンジドップラーマップ,ライダースキャンなど,あらゆるセンサモダリティに適用可能である。 また,複数のセンサを組み合わせることで,一致回数を減らし,ロバスト性を高めることを示す。 倉庫のような環境で移動する移動ロボットで収集したデータセットを評価し,類似した外観の異なる通路を移動させることで,slamアルゴリズムでは位置の曖昧さを解消することが困難となる。

Biologically inspired algorithms for simultaneous localization and mapping (SLAM) such as RatSLAM have been shown to yield effective and robust robot navigation in both indoor and outdoor environments. One drawback however is the sensitivity to perceptual aliasing due to the template matching of low-dimensional sensory templates. In this paper, we propose an unsupervised representation learning method that yields low-dimensional latent state descriptors that can be used for RatSLAM. Our method is sensor agnostic and can be applied to any sensor modality, as we illustrate for camera images, radar range-doppler maps and lidar scans. We also show how combining multiple sensors can increase the robustness, by reducing the number of false matches. We evaluate on a dataset captured with a mobile robot navigating in a warehouse-like environment, moving through different aisles with similar appearance, making it hard for the SLAM algorithms to disambiguate locations.
翻訳日:2021-05-10 16:22:56 公開日:2021-05-07
# (参考訳) 光ofdmベースネットワークのための応用機械学習技術に関する調査

A Survey of Applied Machine Learning Techniques for Optical OFDM based Networks ( http://arxiv.org/abs/2105.03289v1 )

ライセンス: CC BY 4.0
Hichem Mrabet, Elias Giaccoumidis and Iyad Dayoub(参考訳) 本稿では,光学直交周波数分割多重化(O-OFDM)に基づく光通信における最新の機械学習技術について分析する。 MLはチャネルとトランシーバーの不完全性を緩和するために提案されている。 例えば、mlは低変調消滅率下で信号品質を向上させることができ、また長距離伝送におけるパラメトリックノイズ増幅のような決定論的および確率的非線形性にも対処できる。 O-OFDMのためのMLアルゴリズムは、特に4波混合や相間変調のようなサブキャリア間非線形効果に取り組むことができる。 本質的に、これらのML技術は、任意のマルチキャリアアプローチ(例)に有用である。 フィルタバンクの変調)。 O-OFDM伝送性能と潜在的リアルタイム実装における計算複雑性の両面から,教師なしML手法を解析した。 本稿では,MLアルゴリズムが分類,回帰,クラスタリングを行うための厳密な条件を示す。 また、オープンな研究課題とML実装に向けた今後の方向性についても論じている。

In this survey, we analyze the newest machine learning (ML) techniques for optical orthogonal frequency division multiplexing (O-OFDM)-based optical communications. ML has been proposed to mitigate channel and transceiver imperfections. For instance, ML can improve the signal quality under low modulation extinction ratio or can tackle both determinist and stochastic-induced nonlinearities such as parametric noise amplification in long-haul transmission. The proposed ML algorithms for O-OFDM can in particularly tackle inter-subcarrier nonlinear effects such as four-wave mixing and cross-phase modulation. In essence, these ML techniques could be beneficial for any multi-carrier approach (e.g. filter bank modulation). Supervised and unsupervised ML techniques are analyzed in terms of both O-OFDM transmission performance and computational complexity for potential real-time implementation. We indicate the strict conditions under which a ML algorithm should perform classification, regression or clustering. The survey also discusses open research issues and future directions towards the ML implementation.
翻訳日:2021-05-10 16:10:46 公開日:2021-05-07
# (参考訳) 非定常力学環境に対する文脈ベースソフトアクター批判

Context-Based Soft Actor Critic for Environments with Non-stationary Dynamics ( http://arxiv.org/abs/2105.03310v1 )

ライセンス: CC BY 4.0
Yuan Pu, Shaochen Wang, Xin Yao, Bin Li(参考訳) 非定常動的環境に適用すると,深層強化学習法の性能は低下する傾向にあった。 本稿では,近年のMeta-RL材料に動機づけられた潜在コンテキスト再帰エンコーダを用いて,上記の問題に対処するための潜在コンテキストベースのソフトアクター批判(LC-SAC)手法を提案する。 コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。 そして、ソフトポリシー反復パラダイムと組み合わさって、lc-sac法は、ソフトポリシー評価とソフトポリシー改善を、最適なポリシーに収束するまで交互に行う。 実験の結果, LC-SACは, 異なるエピソード間で動的に変化するメタワールドML1タスクにおいて, SACアルゴリズムよりも有意に優れており, 動的変化が遅い, 異なるエピソード間で変化しない, 連続制御ベンチマークタスクMuJoCo上でのSACと同等であることがわかった。 さらに,様々なハイパーパラメータ設定がlc-sacアルゴリズムの性能に与える影響を判定するための関連する実験を行い,ハイパーパラメータ設定の合理的な提案を行う。

The performance of deep reinforcement learning methods prone to degenerate when applied to environments with non-stationary dynamics. In this paper, we utilize the latent context recurrent encoders motivated by recent Meta-RL materials, and propose the Latent Context-based Soft Actor Critic (LC-SAC) method to address aforementioned issues. By minimizing the contrastive prediction loss function, the learned context variables capture the information of the environment dynamics and the recent behavior of the agent. Then combined with the soft policy iteration paradigm, the LC-SAC method alternates between soft policy evaluation and soft policy improvement until it converges to the optimal policy. Experimental results show that the performance of LC-SAC is significantly better than the SAC algorithm on the MetaWorld ML1 tasks whose dynamics changes drasticly among different episodes, and is comparable to SAC on the continuous control benchmark task MuJoCo whose dynamics changes slowly or doesn't change between different episodes. In addition, we also conduct relevant experiments to determine the impact of different hyperparameter settings on the performance of the Lc-SAC algorithm and give the reasonable suggestions of hyperparameter setting.
翻訳日:2021-05-10 15:45:47 公開日:2021-05-07
# (参考訳) 高次元最適制御問題とハミルトン・ヤコビPDEを解くためにminプラス代数を用いたニューラルネットワークアーキテクチャ

Neural network architectures using min plus algebra for solving certain high dimensional optimal control problems and Hamilton-Jacobi PDEs ( http://arxiv.org/abs/2105.03336v1 )

ライセンス: CC BY 4.0
J\'er\^ome Darbon and Peter M. Dower and Tingwei Meng(参考訳) 高次元最適制御問題と対応するハミルトン・ヤコビPDEを解くことは、制御工学において重要であるが難しい。 本稿では,高次元最適制御問題のクラスにおける最適制御の値関数と状態フィードバック特性をそれぞれ表現する2つの抽象ニューラルネットワークアーキテクチャを提案する。 2つの抽象アーキテクチャの数学的解析を提供する。 また、これらの抽象アーキテクチャのディープニューラルネットワーク実装を用いて計算した数値結果についても示す。 この研究は、ニューラルネットワーク用に設計された効率的な専用ハードウェアを活用して、高次元最適制御問題とハミルトン・ヤコビPDEを解く方法である。

Solving high dimensional optimal control problems and corresponding Hamilton-Jacobi PDEs are important but challenging problems in control engineering. In this paper, we propose two abstract neural network architectures which respectively represent the value function and the state feedback characterisation of the optimal control for certain class of high dimensional optimal control problems. We provide the mathematical analysis for the two abstract architectures. We also show several numerical results computed using the deep neural network implementations of these abstract architectures. This work paves the way to leverage efficient dedicated hardware designed for neural networks to solve high dimensional optimal control problems and Hamilton-Jacobi PDEs.
翻訳日:2021-05-10 15:28:24 公開日:2021-05-07
# (参考訳) プルーニングによる適応:BERTを事例として

Adapting by Pruning: A Case Study on BERT ( http://arxiv.org/abs/2105.03343v1 )

ライセンス: CC BY 4.0
Yang Gao and Nicolo Colombo and Wei Wang(参考訳) 学習済みのニューラルモデルを下流タスクに適応させることが、高品質なモデルを得るための標準的なプラクティスとなっている。 そこで本研究では,プレトレーニングモデルにおけるニューラルコネクションを具現化して目標タスクの性能を最適化する,プルーニングによる新しいモデル適応パラダイムを提案する。 本稿では, 最適化問題として適応分割法を定式化し, モデル作成のための効率的なアルゴリズムを提案する。 提案アルゴリズムは,標準的な前提条件下でほぼ最適であることを証明し,BERTをいくつかのGLUEタスクに適用するアルゴリズムを適用した。 以上の結果から,提案手法は細調整フルモデルと同等の性能を示しながら,BERTの最大50%の重み付けが可能であることが示唆された。 また,本手法を他の最先端プルーニング法と比較し,得られたサブネットワークのトポロジ的差異について検討した。

Adapting pre-trained neural models to downstream tasks has become the standard practice for obtaining high-quality models. In this work, we propose a novel model adaptation paradigm, adapting by pruning, which prunes neural connections in the pre-trained model to optimise the performance on the target task; all remaining connections have their weights intact. We formulate adapting-by-pruning as an optimisation problem with a differentiable loss and propose an efficient algorithm to prune the model. We prove that the algorithm is near-optimal under standard assumptions and apply the algorithm to adapt BERT to some GLUE tasks. Results suggest that our method can prune up to 50% weights in BERT while yielding similar performance compared to the fine-tuned full model. We also compare our method with other state-of-the-art pruning methods and study the topological differences of their obtained sub-networks.
翻訳日:2021-05-10 15:27:30 公開日:2021-05-07
# (参考訳) 人間とAIのコラボレーションの未来--ハイブリッドインテリジェンスシステムの設計知識の分類学

The future of human-AI collaboration: a taxonomy of design knowledge for hybrid intelligence systems ( http://arxiv.org/abs/2105.03354v1 )

ライセンス: CC BY 4.0
Dominik Dellermann, Adrian Calma, Nikolaus Lipusch, Thorsten Weber, Sascha Weigel, and Philipp Ebel(参考訳) 最近の技術進歩、特に機械学習の分野は、人工知能への道のりにおいて驚くべき進歩をもたらしている。 しかし、現在の実世界のビジネスアプリケーションのタスクは、マシンだけでは解決できない。 そこで我々は,人間と機械の社会技術的アンサンブルを開発する必要性を認識した。 このようなシステムには、人間と人工知能を組み合わせることで複雑な目標を達成する能力があり、優れた結果を総合的に達成し、互いに学習することで継続的に改善する。 したがって、これらのシステムに対する構造化設計知識の必要性が生じる。 まず、機械学習パイプラインにおける人間の役割に関する学際的な研究の構造化の概要を述べる。 第2に、ハイブリッド・インテリジェンス・システムを想定し、システム設計の関連次元を初めて概念化する。 最後に,このようなアプリケーションの実装において,システム開発者に有用なガイダンスを提供する。

Recent technological advances, especially in the field of machine learning, provide astonishing progress on the road towards artificial general intelligence. However, tasks in current real-world business applications cannot yet be solved by machines alone. We, therefore, identify the need for developing socio-technological ensembles of humans and machines. Such systems possess the ability to accomplish complex goals by combining human and artificial intelligence to collectively achieve superior results and continuously improve by learning from each other. Thus, the need for structured design knowledge for those systems arises. Following a taxonomy development method, this article provides three main contributions: First, we present a structured overview of interdisciplinary research on the role of humans in the machine learning pipeline. Second, we envision hybrid intelligence systems and conceptualize the relevant dimensions for system design for the first time. Finally, we offer useful guidance for system developers during the implementation of such applications.
翻訳日:2021-05-10 15:14:12 公開日:2021-05-07
# (参考訳) ビジネスモデル検証のためのハイブリッドインテリジェンス意思決定支援システムの設計原理

Design principles for a hybrid intelligence decision support system for business model validation ( http://arxiv.org/abs/2105.03356v1 )

ライセンス: CC BY 4.0
Dominik Dellermann, Nikolaus Lipusch, Philipp Ebel, and Jan Marco Leimeister(参考訳) スタートアップにとって最も重要なタスクの1つは、ビジネスモデルを検証することだ。 そのため、起業家は他の俳優からのフィードバックなどの情報を収集し、仮定の妥当性を評価し、判断しようとする。 しかし、ビジネスモデル検証のための意思決定ガイダンスに関する以前の作業は、初期段階のスタートアップの高度に不確実で複雑なコンテキストに対する解決策を提供していない。 そこで本論文は,人間と機械の補完機能を組み合わせたハイブリッドインテリジェンス意思決定支援システム(HI-DSS)の設計原理を開発することを目的とする。 我々はプロトタイプのアーティファクトと一連の設計原則を設計するための設計科学研究アプローチに従う。 本研究は,hi-dssの規範的知識を提供し,ビジネスモデルに対する意思決定支援,意思決定のための人間と機械の補完的強みの応用,極めて不確定な意思決定問題に対する支援システムの先行研究に寄与する。

One of the most critical tasks for startups is to validate their business model. Therefore, entrepreneurs try to collect information such as feedback from other actors to assess the validity of their assumptions and make decisions. However, previous work on decisional guidance for business model validation provides no solution for the highly uncertain and complex context of earlystage startups. The purpose of this paper is, thus, to develop design principles for a Hybrid Intelligence decision support system (HI-DSS) that combines the complementary capabilities of human and machine intelligence. We follow a design science research approach to design a prototype artifact and a set of design principles. Our study provides prescriptive knowledge for HI-DSS and contributes to previous work on decision support for business models, the applications of complementary strengths of humans and machines for making decisions, and support systems for extremely uncertain decision-making problems.
翻訳日:2021-05-10 14:56:02 公開日:2021-05-07
# (参考訳) ユニコーンの発見:ハイブリッドインテリジェンス手法によるアーリーステージスタートアップの成功予測

Finding the unicorn: Predicting early stage startup success through a hybrid intelligence method ( http://arxiv.org/abs/2105.03360v1 )

ライセンス: CC BY 4.0
Dominik Dellermann, Nikolaus Lipusch, Philipp Ebel, Karl Michael Popp, and Jan Marco Leimeister(参考訳) 人工知能は新たな話題であり、すぐに人間よりも優れた意思決定ができるようになるだろう。 しかし、イノベーションのようなより複雑で創造的な文脈では、機械が人間より優れているかどうかが疑問である。 機械は、ソフト情報(定量化できない情報)の処理と解釈の2つの状況で失敗し、極端な不確実性の無知なリスク状況における予測を行う。 このような状況では、マシンは特定の結果を表す情報を持っていない。 そのため、人間は依然として柔らかい信号を評価し、直感を利用するための金の標準である。 スタートアップの成功を予測するために、私たちは人間と機械の補完的な能力をハイブリッドインテリジェンスの方法で組み合わせます。 目的を達成するために,機械と集団の知能の強さを組み合わせたハイブリッドインテリジェンス手法を開発し,極めて不確実な予測におけるその有用性を実証する設計科学研究手法に従う。

Artificial intelligence is an emerging topic and will soon be able to perform decisions better than humans. In more complex and creative contexts such as innovation, however, the question remains whether machines are superior to humans. Machines fail in two kinds of situations: processing and interpreting soft information (information that cannot be quantified) and making predictions in unknowable risk situations of extreme uncertainty. In such situations, the machine does not have representative information for a certain outcome. Thereby, humans are still the gold standard for assessing soft signals and make use of intuition. To predict the success of startups, we, thus, combine the complementary capabilities of humans and machines in a Hybrid Intelligence method. To reach our aim, we follow a design science research approach to develop a Hybrid Intelligence method that combines the strength of both machine and collective intelligence to demonstrate its utility for predictions under extreme uncertainty.
翻訳日:2021-05-10 14:30:59 公開日:2021-05-07
# (参考訳) 適応型対数ロールアウトを用いたモデルベースマルチエージェントポリシー最適化

Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise Rollouts ( http://arxiv.org/abs/2105.03363v1 )

ライセンス: CC BY 4.0
Weinan Zhang, Xihuai Wang, Jian Shen, Ming Zhou(参考訳) 本稿では,マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。 我々は, MARLにおける動的サンプル複雑性と反対サンプル複雑性を規定し, 回帰差分上限の理論的解析を行う。 そこで本研究では,学習過程全体におけるサンプル複雑性の低減を目的として,適応的対向的ロールアウト政策最適化(aorpo)と呼ばれる分散モデルに基づくmarl法を提案する。 AORPOでは、各エージェントは動的モデルと複数の対戦モデルからなるマルチエージェント環境モデルを構築し、適応的対向的ロールアウトでポリシーを訓練する。 さらに、AORPOの理論的収束を合理的な仮定で証明する。 競合的および協調的なタスクに関する実証実験により、AORPOは比較したMARL法よりも漸近的な性能でサンプル効率を向上できることを示した。

This paper investigates the model-based methods in multi-agent reinforcement learning (MARL). We specify the dynamics sample complexity and the opponent sample complexity in MARL, and conduct a theoretic analysis of return discrepancy upper bound. To reduce the upper bound with the intention of low sample complexity during the whole learning process, we propose a novel decentralized model-based MARL method, named Adaptive Opponent-wise Rollout Policy Optimization (AORPO). In AORPO, each agent builds its multi-agent environment model, consisting of a dynamics model and multiple opponent models, and trains its policy with the adaptive opponent-wise rollout. We further prove the theoretic convergence of AORPO under reasonable assumptions. Empirical experiments on competitive and cooperative tasks demonstrate that AORPO can achieve improved sample efficiency with comparable asymptotic performance over the compared MARL methods.
翻訳日:2021-05-10 14:16:23 公開日:2021-05-07
# (参考訳) ハイブリッドインテリジェンスによる脳内決定の高速化

Accelerating Entrepreneurial Decision-Making Through Hybrid Intelligence ( http://arxiv.org/abs/2105.03365v1 )

ライセンス: CC BY 4.0
Dominik Dellermann(参考訳) ハイブリッドインテリジェンスデザインパラダイムと原則による起業意思決定の促進

Accelerating Entrepreneurial Decision-Making Through Hybrid Intelligence DESIGN PARADIGMS AND PRINCIPLES FOR DECISIONAL GUIDANCE IN ENTREPRENEURSHIP
翻訳日:2021-05-10 13:13:35 公開日:2021-05-07
# (参考訳) 多視点データに対する二重整合行列分解

Double-matched matrix decomposition for multi-view data ( http://arxiv.org/abs/2105.03396v1 )

ライセンス: CC BY 4.0
Dongbang Yuan and Irina Gaynanova(参考訳) 一致したサンプルから異なるソースから収集されたデータである多視点データから,関節信号と個別信号の抽出の問題を考える。 既存のマルチビューデータ分解手法では,サンプルによるデータの単一マッチングを探索するが,サンプルとソースの特徴が一致した二重マッチング型マルチビューデータに注目する。 我々のモチベーションの例は、同じ被験者の原発性腫瘍と正常組織の両方から採取されたmiRNAデータであり、2つの組織からの測定は被検体とmiRNAの両方で一致している。 提案する二重整合行列分解により,被検者間のジョイント信号と個別信号と,mirna間のジョイント信号と個別信号を同時に抽出することができる。 提案手法は,明示的な行空間と列空間制約を持つ新しいタイプの最適化問題を定式化し,効率的な反復アルゴリズムを構築することにより,ダブルマッチングの利点を生かした。 数値解析により, 単一マッチングに基づく既存のマルチビューデータ分解よりも, 信号推定性能が優れていることが示された。 本手法は,イギリス・プレミアリーグのサッカーの試合データだけでなく,miRNAデータにも適用し,ドメイン固有の知識と一致した共同および個別のマルチビュー信号を求める。

We consider the problem of extracting joint and individual signals from multi-view data, that is data collected from different sources on matched samples. While existing methods for multi-view data decomposition explore single matching of data by samples, we focus on double-matched multi-view data (matched by both samples and source features). Our motivating example is the miRNA data collected from both primary tumor and normal tissues of the same subjects; the measurements from two tissues are thus matched both by subjects and by miRNAs. Our proposed double-matched matrix decomposition allows to simultaneously extract joint and individual signals across subjects, as well as joint and individual signals across miRNAs. Our estimation approach takes advantage of double-matching by formulating a new type of optimization problem with explicit row space and column space constraints, for which we develop an efficient iterative algorithm. Numerical studies indicate that taking advantage of double-matching leads to superior signal estimation performance compared to existing multi-view data decomposition based on single-matching. We apply our method to miRNA data as well as data from the English Premier League soccer matches, and find joint and individual multi-view signals that align with domain specific knowledge.
翻訳日:2021-05-10 13:12:34 公開日:2021-05-07
# (参考訳) フランス語音声のクラウドベース音声テキストサービスと背景雑音効果のベンチマーク

A Benchmarking on Cloud based Speech-To-Text Services for French Speech and Background Noise Effect ( http://arxiv.org/abs/2105.03409v1 )

ライセンス: CC BY 4.0
Binbin Xu and Chongyang Tao and Zidu Feng and Youssef Raqui and Sylvie Ranwez(参考訳) 本研究では,クラウドベースの音声テキストシステム上で大規模なベンチマークを行う: {Google Cloud Speech-To-Text}, {Microsoft Azure Cognitive Services}, {Amazon Transcribe}, {IBM Watson Speech to Text}。 各システムでは、40158個のクリーンでノイズの多い音声ファイルが約101時間テストされている。 また,STT品質に対する背景雑音の影響を,40dBから0dBまでの5種類の信号対雑音比で評価した。 結果、Microsoft Azure} はクリーンスピーチにおいて最低転写エラー率 9.09 % を提供し、ノイズの多い環境に対して高い堅牢性を示した。 Google Cloud} と {Amazon Transcribe} も同様のパフォーマンスを示したが、後者は時間制約の使用に限られている。 IBM Watson} は静かな環境では正しく機能する可能性があるが、現実の状況においてその適用を強く制限するうるノイズの多いスピーチには極めて適している。

This study presents a large scale benchmarking on cloud based Speech-To-Text systems: {Google Cloud Speech-To-Text}, {Microsoft Azure Cognitive Services}, {Amazon Transcribe}, {IBM Watson Speech to Text}. For each systems, 40158 clean and noisy speech files about 101 hours are tested. Effect of background noise on STT quality is also evaluated with 5 different Signal-to-noise ratios from 40dB to 0dB. Results showed that {Microsoft Azure} provided lowest transcription error rate $9.09\%$ on clean speech, with high robustness to noisy environment. {Google Cloud} and {Amazon Transcribe} gave similar performance, but the latter is very limited for time-constraint usage. Though {IBM Watson} could work correctly in quiet conditions, it is highly sensible to noisy speech which could strongly limit its application in real life situations.
翻訳日:2021-05-10 13:10:59 公開日:2021-05-07
# (参考訳) 深層学習ハミルトニアンモンテカルロ

Deep Learning Hamiltonian Monte Carlo ( http://arxiv.org/abs/2105.03418v1 )

ライセンス: CC BY 4.0
Sam Foreman, Xiao-Yong Jin, and James C. Osborn(参考訳) 本研究では,2次元格子ゲージ理論において,ハミルトニアンモンテカルロアルゴリズムをニューラルネットワーク層で一般化し,異なる位相からサンプリングする能力を評価する。 我々は,モデルが異なる位相モードの混合に成功し,独立ゲージ場構成の計算コストを大幅に削減できることを実証した。 実装はhttps://github.com/saforem2/l2hmc-qcdで利用可能です。

We generalize the Hamiltonian Monte Carlo algorithm with a stack of neural network layers and evaluate its ability to sample from different topologies in a two dimensional lattice gauge theory. We demonstrate that our model is able to successfully mix between modes of different topologies, significantly reducing the computational cost required to generated independent gauge field configurations. Our implementation is available at https://github.com/saforem2/l2hmc-qcd .
翻訳日:2021-05-10 13:00:34 公開日:2021-05-07
# Granger Causality: レビューと最近の進歩

Granger Causality: A Review and Recent Advances ( http://arxiv.org/abs/2105.02675v2 )

ライセンス: Link先を確認
Ali Shojaie and Emily B. Fox(参考訳) 半世紀以上前に導入されたGranger causalityは、経済学や金融学、ゲノム学、神経科学など、多くのアプリケーション領域で時系列データを分析するための一般的なツールとなっている。 この人気にもかかわらず、時系列間の因果関係を推測するこの概念の有効性は継続的な議論の対象となっている。 さらに、元の定義は一般的なものであったが、計算ツールの制限は主にグランガー因果関係の応用を単純二変量ベクトル自己回帰過程や変数の集合間の対関係に限定している。 本稿では,初期の発展と議論のレビューから,高次元時系列モデルから非線形・非ガウシアン観測を考慮し,サブサンプリング・混合周波数時系列を可能にする最近の発展まで,初期のアプローチの様々な欠点を扱った最近の進歩について述べる。

Introduced more than a half century ago, Granger causality has become a popular tool for analyzing time series data in many application domains, from economics and finance to genomics and neuroscience. Despite this popularity, the validity of this notion for inferring causal relationships among time series has remained the topic of continuous debate. Moreover, while the original definition was general, limitations in computational tools have primarily limited the applications of Granger causality to simple bivariate vector auto-regressive processes or pairwise relationships among a set of variables. Starting with a review of early developments and debates, this paper discusses recent advances that address various shortcomings of the earlier approaches, from models for high-dimensional time series to more recent developments that account for nonlinear and non-Gaussian observations and allow for sub-sampled and mixed frequency time series.
翻訳日:2021-05-10 12:31:53 公開日:2021-05-07
# mimii due: 運転状況および環境条件の変化による産業機械の故障調査およびドメインシフトによる検査のための音声データセット

MIMII DUE: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection with Domain Shifts due to Changes in Operational and Environmental Conditions ( http://arxiv.org/abs/2105.02702v2 )

ライセンス: Link先を確認
Ryo Tanabe, Harsh Purohit, Kota Dohi, Takashi Endo, Yuki Nikaido, Toshiki Nakamura, and Yohei Kawaguchi(参考訳) 本稿では,産業機械の運転・環境条件の変化(mimii due)にともなう,業務機械の故障やドメインシフトによる検査のための新しいデータセットを提案する。 実世界の要因によって特徴の分布が訓練段階と運用段階(ドメインシフトと呼ばれる)に変化するため、従来の異常音検出手法では課題に直面している。 ドメインシフトに対する堅牢性をチェックするには、ドメインシフトを持つデータセットが必要ですが、そのようなデータセットは今のところ存在しません。 新しいデータセットは、通常/異常に依存しない2つの異なる運用/環境条件(ソースドメインとターゲットドメイン)下での5種類の産業機械の正常および異常な動作音と、2つのドメイン間でドメインシフトが発生する。 実験の結果、ソースドメインとターゲットドメインで有意な性能差があり、データセットにはドメインシフトが含まれている。 これらの結果は、データセットがドメインシフトに対する堅牢性をチェックするのに役立つことを示している。 このデータセットはDCASE 2021 Challenge Task 2のデータセットのサブセットであり、https://zenodo.org/record/4740355で無料でダウンロードできる。

In this paper, we introduce a new dataset for malfunctioning industrial machine investigation and inspection with domain shifts due to changes in operational and environmental conditions (MIMII DUE). Conventional methods for anomalous sound detection face challenges in practice because the distribution of features changes between the training and operational phases (called domain shift) due to some real-world factors. To check the robustness against domain shifts, we need a dataset with domain shifts, but such a dataset does not exist so far. The new dataset consists of normal and abnormal operating sounds of industrial machines of five different types under two different operational/environmental conditions (source domain and target domain) independent of normal/abnormal, with domain shifts occurring between the two domains. Experimental results show significant performance differences between the source and target domains, and the dataset contains the domain shifts. These results indicate that the dataset will be helpful to check the robustness against domain shifts. The dataset is a subset of the dataset for DCASE 2021 Challenge Task 2 and freely available for download at https://zenodo.org/record/4740355
翻訳日:2021-05-10 12:31:39 公開日:2021-05-07
# 分布距離を用いた対話システムの評価

Assessing Dialogue Systems with Distribution Distances ( http://arxiv.org/abs/2105.02573v2 )

ライセンス: Link先を確認
Jiannan Xiang, Yahui Liu, Deng Cai, Huayang Li, Defu Lian and Lemao Liu(参考訳) 対話システムを開発する上で重要な側面は、異なるシステムの性能を評価し比較する方法である。 既存の自動評価指標はターンレベルの品質評価に基づいており、システムレベルの比較に平均スコアを使用する。 本稿では,対話システムの性能を,生成した会話と実世界の会話との距離を計算して測定することを提案する。 具体的には,FBD と PRD の2つの分布指標を開発し,評価した。 複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。

An important aspect of developing dialogue systems is how to evaluate and compare the performance of different systems. Existing automatic evaluation metrics are based on turn-level quality evaluation and use average scores for system-level comparison. In this paper, we propose to measure the performance of a dialogue system by computing the distribution-wise distance between its generated conversations and real-world conversations. Specifically, two distribution-wise metrics, FBD and PRD, are developed and evaluated. Experiments on several dialogue corpora show that our proposed metrics correlate better with human judgments than existing metrics.
翻訳日:2021-05-10 12:31:17 公開日:2021-05-07
# 箱に何が入ってるの? コモンクロールコーパスにおける望ましくない内容の分析

What's in the Box? An Analysis of Undesirable Content in the Common Crawl Corpus ( http://arxiv.org/abs/2105.02732v2 )

ライセンス: Link先を確認
Alexandra Sasha Luccioni, Joseph D. Viviano(参考訳) 現在のニューラル言語モデルの成功の多くは、ますます大規模なトレーニングコーパスによって推進されているが、これらの膨大なテキストデータを分析するための研究は、比較的少ない。 この探索的分析では、言語モデルのトレーニングに広く使われている巨大なWebコーパスであるCommon Crawlを深く掘り下げる。 ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。 最後に、このコンテンツが言語モデルに与える影響について議論し、コーパスの収集と分析に対してより念入りなアプローチを求める。

Whereas much of the success of the current generation of neural language models has been driven by increasingly large training corpora, relatively little research has been dedicated to analyzing these massive sources of textual data. In this exploratory analysis, we delve deeper into the Common Crawl, a colossal web corpus that is extensively used for training language models. We find that it contains a significant amount of undesirable content, including hate speech and sexually explicit content, even after filtering procedures. We conclude with a discussion of the potential impacts of this content on language models and call for more mindful approach to corpus collection and analysis.
翻訳日:2021-05-10 12:31:08 公開日:2021-05-07
# 非構造的再帰を伴う多項式グラフ解析

Polynomial Graph Parsing with Non-Structural Reentrancies ( http://arxiv.org/abs/2105.02033v3 )

ライセンス: Link先を確認
Johanna Bj\"orklund, Frank Drewes, and Anna Jonsson(参考訳) グラフに基づく意味表現は自然言語処理において有用であり、言語概念をノードとして表現することは単純で効果的であることが多い。 セマンティックグラフの言語を表現できるほど強力で効率的な解析が可能な生成デバイスを見つけるために、いくつかの試みがなされている。 グラフ拡張文法(graph extension grammar)は、グラフ上の代数と、その代数の演算上で式を生成する正規木文法からなる。 操作の設計により、これらの文法は非構造的な相互関係を持つグラフを生成することができ、抽象的意味表現のような形式的手法では過剰に一般的であるが、既存の装置がほとんどサポートしていないノード共有の一種である。 グラフ拡張文法の構文解析アルゴリズムを提案し、多項式時間で正しいことが証明された。

Graph-based semantic representations are valuable in natural language processing, where it is often simple and effective to represent linguistic concepts as nodes, and relations as edges between them. Several attempts has been made to find a generative device that is sufficiently powerful to represent languages of semantic graphs, while at the same allowing efficient parsing. We add to this line of work by introducing graph extension grammar, which consists of an algebra over graphs together with a regular tree grammar that generates expressions over the operations of the algebra. Due to the design of the operations, these grammars can generate graphs with non-structural reentrancies; a type of node-sharing that is excessively common in formalisms such as abstract meaning representation, but for which existing devices offer little support. We provide a parsing algorithm for graph extension grammars, which is proved to be correct and run in polynomial time.
翻訳日:2021-05-10 12:30:56 公開日:2021-05-07
# NLPにおけるデータ拡張手法の検討

A Survey of Data Augmentation Approaches for NLP ( http://arxiv.org/abs/2105.03075v1 )

ライセンス: Link先を確認
Steven Y. Feng, Varun Gangal, Jason Wei, Sarath Chandar, Soroush Vosoughi, Teruko Mitamura, Eduard Hovy(参考訳) データ拡張は最近、低リソースドメインでの作業の増加、新しいタスク、大量のトレーニングデータを必要とする大規模ニューラルネットワークの人気により、NLPへの関心が高まっている。 この最近の上昇にもかかわらず、この領域はまだ比較的過小評価されており、おそらく言語データの離散的な性質によって引き起こされる課題のためだろう。 本稿では,NLPの文献を構造化された方法で要約することにより,NLPのデータ拡張に関する包括的かつ統一的な調査を行う。 まず,nlpのためのデータ拡張の導入と動機付けを行い,次に主要な方法論的手法について論じる。 次に、一般的なNLPアプリケーションやタスクに使用されるテクニックを強調します。 今後の研究の課題と方向性を概説して締めくくる。 全体として,本論文は,nlpのデータ拡張における既存文献の展望を明らかにし,この分野における追加作業の動機づけを目的としている。

Data augmentation has recently seen increased interest in NLP due to more work in low-resource domains, new tasks, and the popularity of large-scale neural networks that require large amounts of training data. Despite this recent upsurge, this area is still relatively underexplored, perhaps due to the challenges posed by the discrete nature of language data. In this paper, we present a comprehensive and unifying survey of data augmentation for NLP by summarizing the literature in a structured manner. We first introduce and motivate data augmentation for NLP, and then discuss major methodologically representative approaches. Next, we highlight techniques that are used for popular NLP applications and tasks. We conclude by outlining current challenges and directions for future research. Overall, our paper aims to clarify the landscape of existing literature in data augmentation for NLP and motivate additional work in this area.
翻訳日:2021-05-10 12:30:40 公開日:2021-05-07
# AraCOVID19-MFH: アラビア語のマルチラベルフェイクニュースとヘイトスピーチ検出データセット

AraCOVID19-MFH: Arabic COVID-19 Multi-label Fake News and Hate Speech Detection Dataset ( http://arxiv.org/abs/2105.03143v1 )

ライセンス: Link先を確認
Mohamed Seghir Hadj Ameur, Hassina Aliane(参考訳) 新型コロナウイルス(COVID-19)のパンデミックに加え、偽情報や誤解を招く情報の「偽造」が出現し、対応の取り組みが複雑化している。 FacebookやTwitterのようなソーシャルネットワークサイトは、噂や陰謀説、憎悪、異端者、人種差別、偏見の拡散に大きく貢献している。 偽ニュースの拡散に対抗すべく、世界中の研究者は、新型コロナウイルス関連の研究論文、モデル、データセットの構築と共有にかなりの努力を続けている。 本稿は、手動で注釈付きマルチラベルのアラビアウイルス偽ニュースとヘイトスピーチ検出データセット「AraCOVID19-MFH」をリリースする。 当社のデータセットには10のラベルで注釈付けされた10,828のアラビア語ツイートが含まれています。 ラベルは、ツイートのチェック価値、肯定性と否定性、事実性など、ファクトチェックタスクに関連するいくつかの側面を考慮するように設計されている。 注釈付きデータセットの実用性を確認するために,いくつかの分類モデルの訓練と評価を行い,得られた結果を報告する。 データセットは主に偽ニュースの検出用に設計されているが、ヘイトスピーチの検出、意見/ニュース分類、方言識別、その他多くのタスクにも使用できる。

Along with the COVID-19 pandemic, an "infodemic" of false and misleading information has emerged and has complicated the COVID-19 response efforts. Social networking sites such as Facebook and Twitter have contributed largely to the spread of rumors, conspiracy theories, hate, xenophobia, racism, and prejudice. To combat the spread of fake news, researchers around the world have and are still making considerable efforts to build and share COVID-19 related research articles, models, and datasets. This paper releases "AraCOVID19-MFH" a manually annotated multi-label Arabic COVID-19 fake news and hate speech detection dataset. Our dataset contains 10,828 Arabic tweets annotated with 10 different labels. The labels have been designed to consider some aspects relevant to the fact-checking task, such as the tweet's check worthiness, positivity/negativity, and factuality. To confirm our annotated dataset's practical utility, we used it to train and evaluate several classification models and reported the obtained results. Though the dataset is mainly designed for fake news detection, it can also be used for hate speech detection, opinion/news classification, dialect identification, and many other tasks.
翻訳日:2021-05-10 12:30:07 公開日:2021-05-07
# $\partial$-Explainer:微分凸最適化による帰納的自然言語推論

$\partial$-Explainer: Abductive Natural Language Inference via Differentiable Convex Optimization ( http://arxiv.org/abs/2105.03417v1 )

ライセンス: Link先を確認
Mokanarangan Thayaparan, Marco Valentino, Deborah Ferreira, Julia Rozanova, Andr\'e Freitas(参考訳) Integer Linear Programming (ILP)による制約付き最適化解法は、その開始時から説明可能な自然言語推論の基盤となっている。 ILPベースのアプローチは、自然言語推論を推論する明示的で制御可能な仮定を帰納的推論問題としてエンコードする方法を提供する。 制約ベースのソルバは説明を提供するが、しばしば明示的な制約の使用によって制限され、より広いディープニューラルネットワークアーキテクチャの一部として統合することはできない。 対照的に、最先端のトランスフォーマーベースのモデルはデータから学び、複雑な制約を暗黙的にエンコードすることができる。 しかし、これらのモデルは本質的にブラックボックスである。 本稿では,異なる凸最適化と,下流で説明可能なNLPタスクのための微調整済み変換器を通じて,深いニューラルネットワークの一部として制約付き最適化をキャストすることにより,両世界の長所を結合する,$\partial$-Explainer(Diff-Explainer)という新しいフレームワークを提案する。 本フレームワークの有効性を示すために,TupleILPが提示する制約を変換し,説明可能な科学QAのための文埋め込み変換器と統合する。 我々の実験は、その推論をサポートするための説明を提供しながら、非微分型解法よりも約10対%改善しました。

Constrained optimization solvers with Integer Linear programming (ILP) have been the cornerstone for explainable natural language inference during its inception. ILP based approaches provide a way to encode explicit and controllable assumptions casting natural language inference as an abductive reasoning problem, where the solver constructs a plausible explanation for a given hypothesis. While constrained based solvers provide explanations, they are often limited by the use of explicit constraints and cannot be integrated as part of broader deep neural architectures. In contrast, state-of-the-art transformer-based models can learn from data and implicitly encode complex constraints. However, these models are intrinsically black boxes. This paper presents a novel framework named $\partial$-Explainer (Diff-Explainer) that combines the best of both worlds by casting the constrained optimization as part of a deep neural network via differentiable convex optimization and fine-tuning pre-trained transformers for downstream explainable NLP tasks. To demonstrate the efficacy of the framework, we transform the constraints presented by TupleILP and integrate them with sentence embedding transformers for the task of explainable science QA. Our experiments show up to $\approx 10\%$ improvement over non-differentiable solver while still providing explanations for supporting its inference.
翻訳日:2021-05-10 12:29:47 公開日:2021-05-07
# エゴセントリックカメラを用いた知的受動食品摂取評価システム

An Intelligent Passive Food Intake Assessment System with Egocentric Cameras ( http://arxiv.org/abs/2105.03142v1 )

ライセンス: Link先を確認
Frank Po Wen Lo, Modou L Jobarteh, Yingnan Sun, Jianing Qiu, Shuo Jiang, Gary Frost, Benny Lo(参考訳) 栄養失調は低所得国(LMIC)の主要な公衆衛生問題である。 地域・世帯・個人間の食物・栄養摂取の理解は、健康政策や介入の発展に不可欠である。 大規模食事アセスメントの手順を容易にするために,ガーナやウガンダの家庭に特有なエゴセントリックカメラを用いて,知的受動的摂食評価システムを実現することを提案する。 アルゴリズムは、ストレージメモリを最小化するために冗長なイメージを削除するように設計されている。 実行時に, 深層学習に基づくセマンティックセマンティックセグメンテーションを多種食品の認識に適用し, 新たに設計された手作り特徴を抽出して, さらに消費される食品量モニタリングを行う。 ガーナ料理とケニア料理を食するケニア料理の参加者と、独自のLMIC条件をシミュレートした設定下において、我々の方法を検証するための総合的な実験を行った。 本研究の有効性を示すために, 経験者栄養士による視覚的部分サイズ推定を行い, その予測を提案手法と比較した。 有望な結果から,本手法は食事摂取状況を確実に監視し,食事アセスメントにおける栄養士の指導を提供するユーザの食事行動に対するフィードバックを与えることができることが示された。

Malnutrition is a major public health concern in low-and-middle-income countries (LMICs). Understanding food and nutrient intake across communities, households and individuals is critical to the development of health policies and interventions. To ease the procedure in conducting large-scale dietary assessments, we propose to implement an intelligent passive food intake assessment system via egocentric cameras particular for households in Ghana and Uganda. Algorithms are first designed to remove redundant images for minimising the storage memory. At run time, deep learning-based semantic segmentation is applied to recognise multi-food types and newly-designed handcrafted features are extracted for further consumed food weight monitoring. Comprehensive experiments are conducted to validate our methods on an in-the-wild dataset captured under the settings which simulate the unique LMIC conditions with participants of Ghanaian and Kenyan origin eating common Ghanaian/Kenyan dishes. To demonstrate the efficacy, experienced dietitians are involved in this research to perform the visual portion size estimation, and their predictions are compared to our proposed method. The promising results have shown that our method is able to reliably monitor food intake and give feedback on users' eating behaviour which provides guidance for dietitians in regular dietary assessment.
翻訳日:2021-05-10 12:29:24 公開日:2021-05-07
# 裁判所命令:説明可能なAIメソッドは診断しにくい

Order in the Court: Explainable AI Methods Prone to Disagreement ( http://arxiv.org/abs/2105.03287v1 )

ライセンス: Link先を確認
Michael Neely, Stefan F. Schouten, Maurits J. R. Bleeker, and Ana Lucic(参考訳) 自然言語処理では、各入力トークンの独立的な寄与をモデルの決定に向けて定量化する。 これらの手法の少数のサンプルから得られたスコアと注意重みのランク相関を計算することにより、従来の分析は注意に基づく説明の役割を無効化または支持しようと試みてきた。 ランク相関の尺度を確実に結論付けるために,注意に基づく説明を含む特徴付加的手法を,複数のニューラルアーキテクチャやタスクで総合的に比較した。 ほとんどの場合、選択したメソッドが一致しないことに気付きます。 したがって,ランク相関は非形式的であり,特徴付加法の品質を測るものではない。 さらに、一つの説明可能性アルゴリズムから得られる結論の範囲は限られている。

In Natural Language Processing, feature-additive explanation methods quantify the independent contribution of each input token towards a model's decision. By computing the rank correlation between attention weights and the scores produced by a small sample of these methods, previous analyses have sought to either invalidate or support the role of attention-based explanations as a faithful and plausible measure of salience. To investigate what measures of rank correlation can reliably conclude, we comprehensively compare feature-additive methods, including attention-based explanations, across several neural architectures and tasks. In most cases, we find that none of our chosen methods agree. Therefore, we argue that rank correlation is largely uninformative and does not measure the quality of feature-additive methods. Additionally, the range of conclusions a practitioner may draw from a single explainability algorithm are limited.
翻訳日:2021-05-10 12:28:49 公開日:2021-05-07
# 事前学習型コンボリューションは事前学習型トランスより優れているか?

Are Pre-trained Convolutions Better than Pre-trained Transformers? ( http://arxiv.org/abs/2105.03322v1 )

ライセンス: Link先を確認
Yi Tay, Mostafa Dehghani, Jai Gupta, Dara Bahri, Vamsi Aribandi, Zhen Qin, Donald Metzler(参考訳) 事前訓練された言語モデルの時代において、トランスフォーマーはモデルアーキテクチャの事実上の選択である。 近年の研究では、完全に畳み込み型アーキテクチャ(cnn)が期待されているものの、事前トレイン・フィナンシャル・チューンパラダイムを使用しては検討されていない。 言語モデルの文脈では、畳み込みモデルは事前訓練されたときにトランスフォーマーと競合するのか? 本稿では,本研究を考察し,いくつかの興味深い知見を示す。 8つのデータセット/タスクに関する広範囲な実験を通じて、cnnベースの事前学習されたモデルは、特定のシナリオではトランスフォーマーのモデルよりも競争力があり、優れていることが分かりました。 総じて,本論文で概説された知見は,事前学習とアーキテクチャ上の進歩を混同し,両方の進歩を独立して考えるべきであることを示唆している。 私たちの研究は、代替アーキテクチャにおける健全な楽観主義への道を開くものだと考えています。

In the era of pre-trained language models, Transformers are the de facto choice of model architectures. While recent research has shown promise in entirely convolutional, or CNN, architectures, they have not been explored using the pre-train-fine-tune paradigm. In the context of language models, are convolutional models competitive to Transformers when pre-trained? This paper investigates this research question and presents several interesting findings. Across an extensive set of experiments on 8 datasets/tasks, we find that CNN-based pre-trained models are competitive and outperform their Transformer counterpart in certain scenarios, albeit with caveats. Overall, the findings outlined in this paper suggest that conflating pre-training and architectural advances is misguided and that both advances should be considered independently. We believe our research paves the way for a healthy amount of optimism in alternative architectures.
翻訳日:2021-05-10 12:28:36 公開日:2021-05-07
# 擬似動作によるアクション繰り返しにおけるスキップフレームの利用

Utilizing Skipped Frames in Action Repeats via Pseudo-Actions ( http://arxiv.org/abs/2105.03041v1 )

ライセンス: Link先を確認
Taisei Hashimoto and Yoshimasa Tsuruoka(参考訳) 多くの深層強化学習では、エージェントがアクションを取ると、次のアクション決定点まで状態を観察しずに、事前定義された回数で同じアクションを繰り返します。 このアクション反復のテクニックはエージェントのトレーニングにいくつかのメリットがあるが、アクション分解点(つまり中間フレーム)間のデータは事実上破棄される。 訓練データの量は、反復する行動の間隔に逆比例するので、トレーニングのサンプル効率に悪影響を及ぼす可能性がある。 本稿では,疑似行動の概念を導入してこの問題を緩和する,シンプルで効果的なアプローチを提案する。 本手法の主な考え方は,擬似行動を考慮したトレーニングデータとして,行動決定点間の遷移を可能にすることである。 連続制御タスクに対する擬似アクションは、アクション決定ポイントを成すアクションシーケンスの平均として得られる。 離散制御タスクでは、擬似アクションは学習されたアクション埋め込みから計算される。 この手法はQ関数の学習を含む任意のモデルなし強化学習アルゴリズムと組み合わせることができる。 我々は,OpenAI Gymにおける連続的および離散的な制御タスクに対するアプローチの有効性を示す。

In many deep reinforcement learning settings, when an agent takes an action, it repeats the same action a predefined number of times without observing the states until the next action-decision point. This technique of action repetition has several merits in training the agent, but the data between action-decision points (i.e., intermediate frames) are, in effect, discarded. Since the amount of training data is inversely proportional to the interval of action repeats, they can have a negative impact on the sample efficiency of training. In this paper, we propose a simple but effective approach to alleviate to this problem by introducing the concept of pseudo-actions. The key idea of our method is making the transition between action-decision points usable as training data by considering pseudo-actions. Pseudo-actions for continuous control tasks are obtained as the average of the action sequence straddling an action-decision point. For discrete control tasks, pseudo-actions are computed from learned action embeddings. This method can be combined with any model-free reinforcement learning algorithm that involves the learning of Q-functions. We demonstrate the effectiveness of our approach on both continuous and discrete control tasks in OpenAI Gym.
翻訳日:2021-05-10 12:28:03 公開日:2021-05-07
# GANTL: 条件付きGANによる実時間トポロジ最適化と伝達学習を目指して

GANTL: Towards Practical and Real-Time Topology Optimization with Conditional GANs and Transfer Learning ( http://arxiv.org/abs/2105.03045v1 )

ライセンス: Link先を確認
Mohammad Mahdi Behzadi, Horea T. Ilies(参考訳) 勾配に基づくトポロジ最適化の計算コストを回避すべく,近年,多くの機械学習手法が開発されている。 これらの方法は、通常、トレーニングのために広範囲で費用のかかるデータセットを必要とし、境界や積み込み条件や新しいドメインに一般化するのは難しい時間を持ち、矛盾したトポロジーを持つ予測を生成する予測のトポロジー的な制約を考慮しない。 生成的設計探索のための生成的敵ネットワークに基づく深層学習手法を提案する。 提案手法は,条件付きGANの生成能力と伝達学習手法の知識伝達能力を組み合わせて,未知境界条件に対する最適位相を推定する。 また,提案アルゴリズムの設計に組み込まれた知識伝達能力は,従来のディープラーニングニューラルネットワークや逆ネットワークと比較して,トレーニングデータセットのサイズを大幅に削減することを示した。 さらに, この構造図から得られたボトルネック距離に基づいてトポロジ的損失関数を定式化し, 予測された構造物のトポロジ的接続性を大幅に向上させることを示す。 提案手法の効率と精度を,2次元における境界条件と境界条件の両方について検討するために,多くの例を用いて検討した。

Many machine learning methods have been recently developed to circumvent the high computational cost of the gradient-based topology optimization. These methods typically require extensive and costly datasets for training, have a difficult time generalizing to unseen boundary and loading conditions and to new domains, and do not take into consideration topological constraints of the predictions, which produces predictions with inconsistent topologies. We present a deep learning method based on generative adversarial networks for generative design exploration. The proposed method combines the generative power of conditional GANs with the knowledge transfer capabilities of transfer learning methods to predict optimal topologies for unseen boundary conditions. We also show that the knowledge transfer capabilities embedded in the design of the proposed algorithm significantly reduces the size of the training dataset compared to the traditional deep learning neural or adversarial networks. Moreover, we formulate a topological loss function based on the bottleneck distance obtained from the persistent diagram of the structures and demonstrate a significant improvement in the topological connectivity of the predicted structures. We use numerous examples to explore the efficiency and accuracy of the proposed approach for both seen and unseen boundary conditions in 2D.
翻訳日:2021-05-10 12:27:49 公開日:2021-05-07
# FedGL: グローバルな自己スーパービジョンを備えたフェデレーショングラフ学習フレームワーク

FedGL: Federated Graph Learning Framework with Global Self-Supervision ( http://arxiv.org/abs/2105.03170v1 )

ライセンス: Link先を確認
Chuan Chen, Weibo Hu, Ziyue Xu, Zibin Zheng(参考訳) グラフデータは現実世界ではどこにでもある。 グラフ学習(gl)は、貴重な情報を発見できるようにグラフデータのマイニングと分析を試みます。 既存のGLメソッドは集中型シナリオ用に設計されている。 しかし、実際のシナリオでは、グラフデータは、通常、異なる組織、すなわち分離されたデータアイランドの呪いに分散される。 この問題を解決するために,glにフェデレート学習を取り入れ,フェデレーショントレーニング中にグローバル自己スーパービジョン情報を発見し,データプライバシを保護しつつ,高品質なグローバルグラフモデルを得ることができる汎用フェデレーショングラフ学習フレームワークfeedglを提案する。 具体的には,予測結果とノード埋め込み結果をサーバにアップロードして,各クライアントに分散してトレーニングラベルを充実させ,グラフ構造を補完するグローバル擬似ラベルとグローバル擬似グラフを発見し,各ローカルモデルの品質を向上させることを提案する。 さらに、グローバルなセルフスーパービジョンにより、各クライアントの情報がプライバシ保護方式で流れ共有され、不均一性を緩和し、異なるクライアント間のグラフデータの相補性を利用することができる。 最後に、実験結果から、FedGLは4つの広く使用されているグラフデータセットのベースラインを大幅に上回ることが示された。

Graph data are ubiquitous in the real world. Graph learning (GL) tries to mine and analyze graph data so that valuable information can be discovered. Existing GL methods are designed for centralized scenarios. However, in practical scenarios, graph data are usually distributed in different organizations, i.e., the curse of isolated data islands. To address this problem, we incorporate federated learning into GL and propose a general Federated Graph Learning framework FedGL, which is capable of obtaining a high-quality global graph model while protecting data privacy by discovering the global self-supervision information during the federated training. Concretely, we propose to upload the prediction results and node embeddings to the server for discovering the global pseudo label and global pseudo graph, which are distributed to each client to enrich the training labels and complement the graph structure respectively, thereby improving the quality of each local model. Moreover, the global self-supervision enables the information of each client to flow and share in a privacy-preserving manner, thus alleviating the heterogeneity and utilizing the complementarity of graph data among different clients. Finally, experimental results show that FedGL significantly outperforms baselines on four widely used graph datasets.
翻訳日:2021-05-10 12:27:30 公開日:2021-05-07
# グラフニューラルネットワークのためのグラフエントロピー誘導ノード埋め込み次元選択

Graph Entropy Guided Node Embedding Dimension Selection for Graph Neural Networks ( http://arxiv.org/abs/2105.03178v1 )

ライセンス: Link先を確認
Gongxu Luo, Jianxin Li, Hao Peng, Carl Yang, Lichao Sun, Philip S. Yu, Lifang He(参考訳) グラフ表現学習は、電子商取引、化学、生物学など、多くの分野で大きな成功を収めています。 しかし、与えられたグラフに対するノード埋め込みの適切な次元を選択するという根本的な問題は未解決のままである。 グリッド探索や経験的知識に基づくノード埋め込み次元選択(NEDS)の一般的な戦略は、重い計算と粗悪なモデル性能に悩まされている。 本稿では,最小エントロピー原理の観点からnedsを再検討する。 次に,グラフデータを用いたNEDSのための最小グラフエントロピー(MinGE)アルゴリズムを提案する。 具体的には、mingeはグラフ上の特徴エントロピーと構造エントロピーの両方を考えており、それらはそれらのリッチな情報の特徴に従って慎重に設計されている。 隣接するノードの埋め込みがより似ていると仮定した機能エントロピーは、ノードの特徴とグラフ上のリンクトポロジーを接続する。 構造エントロピーは正規化度を基本単位とし、グラフの高次構造をさらに測定する。 これらに基づいてMinGEを設計し,任意のグラフに対して理想的なノード埋め込み次元を直接計算する。 最後に、ベンチマークデータセット上で人気のあるグラフニューラルネットワーク(GNN)を用いた総合実験により、提案したMinGEの有効性と一般化性を示す。

Graph representation learning has achieved great success in many areas, including e-commerce, chemistry, biology, etc. However, the fundamental problem of choosing the appropriate dimension of node embedding for a given graph still remains unsolved. The commonly used strategies for Node Embedding Dimension Selection (NEDS) based on grid search or empirical knowledge suffer from heavy computation and poor model performance. In this paper, we revisit NEDS from the perspective of minimum entropy principle. Subsequently, we propose a novel Minimum Graph Entropy (MinGE) algorithm for NEDS with graph data. To be specific, MinGE considers both feature entropy and structure entropy on graphs, which are carefully designed according to the characteristics of the rich information in them. The feature entropy, which assumes the embeddings of adjacent nodes to be more similar, connects node features and link topology on graphs. The structure entropy takes the normalized degree as basic unit to further measure the higher-order structure of graphs. Based on them, we design MinGE to directly calculate the ideal node embedding dimension for any graph. Finally, comprehensive experiments with popular Graph Neural Networks (GNNs) on benchmark datasets demonstrate the effectiveness and generalizability of our proposed MinGE.
翻訳日:2021-05-10 12:27:07 公開日:2021-05-07
# ネットワーク・プルーニングの現状と課題 : リトレーニング・バリアントを事例として

Network Pruning That Matters: A Case Study on Retraining Variants ( http://arxiv.org/abs/2105.03193v1 )

ライセンス: Link先を確認
Duong H. Le, Binh-Son Hua(参考訳) ネットワークプルーニングは、低リソースシステムへのデプロイのための過パラメータニューラルネットワークの計算コストを削減する効果的な方法である。 近年では、重みの巻き戻しや学習率の巻き戻しといった最先端のネットワークを訓練する技術が、失われた精度を回復する従来の微調整技術よりも優れていることが示されている(renda et al., 2020)。 本研究では,学習率の巻き戻し効果を検証・分析するために,広範囲にわたる実験を行った。 学習率の巻き戻しの成功の背景にあるのは,大きな学習率の利用であることがわかった。 同様の現象は、例えば1サイクルの学習率スケジュール(Smith et al., 2019)のような大きな学習率を含む他の学習率スケジュールでも見られる。 再学習において適切な学習率スケジュールを活用することで、ランダムに切断されたネットワークは、(従来のアプローチで微調整された)体系的に切断されたネットワークよりも優れた性能を達成できるという反直感現象を実証する。 本研究は,ネットワーク再トレーニングにおける学習率スケジュールの重要さを強調するものである。 one-sentence summary: 刈り取りをしながら異なるリトレーニング機構の有効性について検討する。

Network pruning is an effective method to reduce the computational expense of over-parameterized neural networks for deployment on low-resource systems. Recent state-of-the-art techniques for retraining pruned networks such as weight rewinding and learning rate rewinding have been shown to outperform the traditional fine-tuning technique in recovering the lost accuracy (Renda et al., 2020), but so far it is unclear what accounts for such performance. In this work, we conduct extensive experiments to verify and analyze the uncanny effectiveness of learning rate rewinding. We find that the reason behind the success of learning rate rewinding is the usage of a large learning rate. Similar phenomenon can be observed in other learning rate schedules that involve large learning rates, e.g., the 1-cycle learning rate schedule (Smith et al., 2019). By leveraging the right learning rate schedule in retraining, we demonstrate a counter-intuitive phenomenon in that randomly pruned networks could even achieve better performance than methodically pruned networks (fine-tuned with the conventional approach). Our results emphasize the cruciality of the learning rate schedule in pruned network retraining - a detail often overlooked by practitioners during the implementation of network pruning. One-sentence Summary: We study the effective of different retraining mechanisms while doing pruning
翻訳日:2021-05-10 12:26:49 公開日:2021-05-07
# Error-Robust Multi-View Clustering: 進展、課題、機会

Error-Robust Multi-View Clustering: Progress, Challenges and Opportunities ( http://arxiv.org/abs/2105.03058v1 )

ライセンス: Link先を確認
Mehrnaz Najafi and Lifang He and Philip S. Yu(参考訳) 近年、複数のソースからのデータ収集が進歩し、マルチビューデータが注目されている。 マルチビューデータでは、各ビューはデータの異なる視点を表している。 ラベル情報を取得するのにはしばしばコストがかかるため、マルチビュークラスタリングは、個々のビューだけでなく、すべてのビューに相補的で一貫した情報を活用することにより、より優れたクラスタリングソリューションを得ることを目的としている。 センサーの故障が避けられないため、各ビューのデータはエラーを含む可能性がある。 エラーは、しばしばノイズ、特徴特異的な汚職または外れ値として現れる。 マルチビューデータはこれらのエラータイプのいずれかまたは組み合わせを含むことができる。 盲目的にクラスタリングするマルチビューデータ、すなわちビューのエラーを考慮せずに、パフォーマンスを著しく低下させることができる。 マルチビュークラスタリングの目標は、マルチビューデータが破損しても有用な結果を得ることである。 既存のエラーロストなマルチビュークラスタリング手法と明示的なエラー除去の定式化は,5つの広い研究カテゴリ – 空間ノルムベースのアプローチ,グラフベースの手法,サブスペースベースの学習アプローチ,ディープラーニングベースの手法,ハイブリッドアプローチ – に構成することができる。 最後に,課題を強調し,今後の研究機会を提供する。

With recent advances in data collection from multiple sources, multi-view data has received significant attention. In multi-view data, each view represents a different perspective of data. Since label information is often expensive to acquire, multi-view clustering has gained growing interest, which aims to obtain better clustering solution by exploiting complementary and consistent information across all views rather than only using an individual view. Due to inevitable sensor failures, data in each view may contain error. Error often exhibits as noise or feature-specific corruptions or outliers. Multi-view data may contain any or combination of these error types. Blindly clustering multi-view data i.e., without considering possible error in view(s) could significantly degrade the performance. The goal of error-robust multi-view clustering is to obtain useful outcome even if the multi-view data is corrupted. Existing error-robust multi-view clustering approaches with explicit error removal formulation can be structured into five broad research categories - sparsity norm based approaches, graph based methods, subspace based learning approaches, deep learning based methods and hybrid approaches, this survey summarizes and reviews recent advances in error-robust clustering for multi-view data. Finally, we highlight the challenges and provide future research opportunities.
翻訳日:2021-05-10 12:26:27 公開日:2021-05-07
# 順序回帰に対するペアワイズフェアネス

Pairwise Fairness for Ordinal Regression ( http://arxiv.org/abs/2105.03153v1 )

ライセンス: Link先を確認
Matth\"aus Kleindessner, Samira Samadi, Muhammad Bilal Zafar, Krishnaram Kenthapadi, Chris Russell(参考訳) 順序回帰、または順序分類の公正性の研究を開始する。 我々は,以前フェアランキングで考慮されていた2つのフェアネス概念を適応させ,どちらの概念にもとづいてほぼフェアな予測者を訓練するための戦略を提案する。 提案手法は,スコア関数としきい値の集合からなるしきい値モデルと,スコア関数を学習するための公平な二分分類と,しきい値を選択する局所探索とからなる。 パラメータによって、予測器の精度と公正性に気を配る程度を制御できる。 大規模な実験では、我々の戦略により精度-vs-fairnessトレードオフを効果的に探求することができ、また、わずかに精度が低いがより公平な予測器が得られるという、通常回帰の「不公平」な方法と好適に比較できることが示されている。

We initiate the study of fairness for ordinal regression, or ordinal classification. We adapt two fairness notions previously considered in fair ranking and propose a strategy for training a predictor that is approximately fair according to either notion. Our predictor consists of a threshold model, composed of a scoring function and a set of thresholds, and our strategy is based on a reduction to fair binary classification for learning the scoring function and local search for choosing the thresholds. We can control the extent to which we care about the accuracy vs the fairness of the predictor via a parameter. In extensive experiments we show that our strategy allows us to effectively explore the accuracy-vs-fairness trade-off and that it often compares favorably to "unfair" state-of-the-art methods for ordinal regression in that it yields predictors that are only slightly less accurate, but significantly more fair.
翻訳日:2021-05-10 12:26:06 公開日:2021-05-07
# 自動変数選択のための高次元モデリングの利用:最良の経路アルゴリズム

Use of High Dimensional Modeling for automatic variables selection: the best path algorithm ( http://arxiv.org/abs/2105.03173v1 )

ライセンス: Link先を確認
Luigi Riso(参考訳) 本稿では,自動変数選択のための新しいアルゴリズムを提案する。 特に、グラフィカルモデルプロパティを使用すると、大規模なデータセットのコンペで使用できるメソッドを開発することができる。 このアルゴリズムの利点は、異なる予測モデルと組み合わせることができることである。 本研究では, OLS法を用いて, LASSO法との比較を行った。

This paper presents a new algorithm for automatic variables selection. In particular, using the Graphical Models properties it is possible to develop a method that can be used in the contest of large dataset. The advantage of this algorithm is that can be combined with different forecasting models. In this research we have used the OLS method and we have compared the result with the LASSO method.
翻訳日:2021-05-10 12:25:48 公開日:2021-05-07
# ディープニューラルネットワークはどのような機能を学ぶのか? 変分スプライン理論からの洞察

What Kinds of Functions do Deep Neural Networks Learn? Insights from Variational Spline Theory ( http://arxiv.org/abs/2105.03361v1 )

ライセンス: Link先を確認
Rahul Parhi, Robert D. Nowak(参考訳) 本研究では,ReLUアクティベーション関数がデータに適合する深層ニューラルネットワークによって学習される関数の性質を理解するための変分フレームワークを開発する。 本稿では,ディープニューラルネットワークに関連する構成構造を捉えた,古典的有界変分空間を想起させる新しい関数空間を提案する。 我々は、深層 relu ネットワークが、この関数空間における正規化データ適合問題の解であることを示す表現子定理を導出する。 函数空間は、ラドン領域における二階有界変動の(非反射的)バナッハ空間からの函数の構成からなる。 これらは空間空間であり、深層ニューラルネットワークにおける空間性の役割についての洞察を与える。 ニューラルネットワークソリューションは、接続をスキップし、階数境界の重み行列を持ち、これらの共通のアーキテクチャ選択に対する新しい理論的サポートを提供する。 本研究の変分問題は、重み付けとパスノルム正規化の概念に関連する正規化スキームを用いて、有限次元ニューラルネットワークトレーニング問題として再キャストすることができる。 最後に,本解析は変動スプライン理論に基づく手法を基盤とし,ディープニューラルネットワークとスプラインとの新たな接続を提供する。

We develop a variational framework to understand the properties of functions learned by deep neural networks with ReLU activation functions fit to data. We propose a new function space, which is reminiscent of classical bounded variation spaces, that captures the compositional structure associated with deep neural networks. We derive a representer theorem showing that deep ReLU networks are solutions to regularized data fitting problems in this function space. The function space consists of compositions of functions from the (non-reflexive) Banach spaces of second-order bounded variation in the Radon domain. These are Banach spaces with sparsity-promoting norms, giving insight into the role of sparsity in deep neural networks. The neural network solutions have skip connections and rank bounded weight matrices, providing new theoretical support for these common architectural choices. The variational problem we study can be recast as a finite-dimensional neural network training problem with regularization schemes related to the notions of weight decay and path-norm regularization. Finally, our analysis builds on techniques from variational spline theory, providing new connections between deep neural networks and splines.
翻訳日:2021-05-10 12:25:43 公開日:2021-05-07
# モデル圧縮によるニューラル3次元シーン圧縮

Neural 3D Scene Compression via Model Compression ( http://arxiv.org/abs/2105.03120v1 )

ライセンス: Link先を確認
Berivan Isik(参考訳) 3Dシーンをレンダリングするには、シーンから任意の視点にアクセスする必要がある。 このような3Dシーンの保存は、(1)補間によりシーンを再構築可能な3Dシーンから撮影した2D画像の保存、(2)既に全方向からのビューを符号化した3Dシーン自体の表現の保存の2つの方法で行うことができる。 これまで、従来の3D圧縮手法は、最初のタイプのストレージに焦点を合わせ、元の2Dイメージを画像圧縮技術で圧縮してきた。 このアプローチでは、ユーザはまず格納された2D画像をデコードし、3Dシーンをレンダリングする。 しかし、大量の2d画像を保存する必要があるため、この分離処理は非効率である。 本研究では,異なるアプローチを採り,3dシーンの機能表現を圧縮する。 特に,シーンを神経放射場として表現するニューラルネットワークを圧縮することにより,3dシーンを圧縮する手法を提案する。 ニューラルファンクショナル表現からシーンを描画する場合、冗長な2dイメージを格納しないため、この手法は3dシーンのより効率的なストレージを提供する。

Rendering 3D scenes requires access to arbitrary viewpoints from the scene. Storage of such a 3D scene can be done in two ways; (1) storing 2D images taken from the 3D scene that can reconstruct the scene back through interpolations, or (2) storing a representation of the 3D scene itself that already encodes views from all directions. So far, traditional 3D compression methods have focused on the first type of storage and compressed the original 2D images with image compression techniques. With this approach, the user first decodes the stored 2D images and then renders the 3D scene. However, this separated procedure is inefficient since a large amount of 2D images have to be stored. In this work, we take a different approach and compress a functional representation of 3D scenes. In particular, we introduce a method to compress 3D scenes by compressing the neural networks that represent the scenes as neural radiance fields. Our method provides more efficient storage of 3D scenes since it does not store 2D images -- which are redundant when we render the scene from the neural functional representation.
翻訳日:2021-05-10 12:24:31 公開日:2021-05-07
# エネルギーに基づく異常検出と局在化

Energy-Based Anomaly Detection and Localization ( http://arxiv.org/abs/2105.03270v1 )

ライセンス: Link先を確認
Ergin Utku Genc, Nilesh Ahuja, Ibrahima J Ndiour, Omesh Tickoo(参考訳) 半教師付き視覚異常検出と局所化問題に対するエネルギーベース解への最初の進歩を概観する。 この設定では、異常のないトレーニングデータのみにアクセスでき、テストデータ上で任意の性質の異常を検出し、識別したいと考えています。 我々は、エネルギーベースモデル(ebm)からの密度推定を正規画像と異常画像の判別に使用できる正規性スコアとして採用する。 さらに,画像内の異常点の画素レベルの空間的局在を提供する勾配マップを生成するために,画像に対するエネルギースコアの勾配を逆伝搬する。 また, 空間的局所化に加えて, 勾配マップの簡易な処理により, エネルギー値で得られた検出性能に匹敵する, 代替正規性スコアが得られることを示した。 提案手法の性能を定量的に検証するため,MVTec産業データセットを用いて実験を行った。 画像中の予期せぬ異常を同時に検出し,局所化するebmの可能性を明らかにする。

This brief sketches initial progress towards a unified energy-based solution for the semi-supervised visual anomaly detection and localization problem. In this setup, we have access to only anomaly-free training data and want to detect and identify anomalies of an arbitrary nature on test data. We employ the density estimates from the energy-based model (EBM) as normalcy scores that can be used to discriminate normal images from anomalous ones. Further, we back-propagate the gradients of the energy score with respect to the image in order to generate a gradient map that provides pixel-level spatial localization of the anomalies in the image. In addition to the spatial localization, we show that simple processing of the gradient map can also provide alternative normalcy scores that either match or surpass the detection performance obtained with the energy value. To quantitatively validate the performance of the proposed method, we conduct experiments on the MVTec industrial dataset. Though still preliminary, our results are very promising and reveal the potential of EBMs for simultaneously detecting and localizing unforeseen anomalies in images.
翻訳日:2021-05-10 12:24:13 公開日:2021-05-07
# DeepRF:MRIで高周波波形を設計したディープ強化学習

DeepRF: Deep Reinforcement Learning Designed RadioFrequency Waveform in MRI ( http://arxiv.org/abs/2105.03061v1 )

ライセンス: Link先を確認
Dongmyung Shin, Younghoon Kim, Chungseok Oh, Hongjun An, Juhyung Park, Jiye Kim, and Jongho Lee(参考訳) 念入りに設計された高周波パルスは、携帯電話、レーダー、磁気共鳴イメージング(mri)など多くのシステムにおいて重要な役割を果たす。 しかし、rf波形の設計は、一般的な解を持たない逆問題と見なされることが多い。 その結果、人的専門家の直感に基づいて、特定の目的を持った様々な設計手法が開発されている。 本研究では,深部強化学習(DRL)の自己学習特性を利用して人間の直感を超えた新しいRFを生成する,人工知能を利用したRFパルス設計フレームワークであるDeepRFを提案する。 さらに、カスタマイズされた報酬関数を用いて様々な種類のRFパルスを設計できる。 DeepRFのアルゴリズムは、DRLを用いて新しいRFパルスを探索するRF生成モジュールと、勾配上昇により生成モジュールからシードRFパルスを最適化するRF精製モジュールの2つのモジュールで構成されている。 DeepRFの有効性は、MRIで一般的に用いられる4つの例のRFパルス、スライス選択励起パルス、スライス選択反転パルス、B1非感受性ボリューム反転パルス、B1非感受性選択反転パルスを用いて示される。 その結果, 従来のrfパルスと比較して, 特定の吸収率を改善しつつ, 設計基準を満足させることができた。 さらに、DeepRFが設計したパルスは、従来の理論では説明が難しい磁化操作の新たなメカニズムを利用しており、人間の直観を超えて見えない設計次元を発見する際のDeepRFの可能性が示唆されている。 この研究は、AI駆動のRF波形設計の新たな分野の基礎となるかもしれない。

A carefully engineered radiofrequency (RF) pulse plays a key role in a number of systems such as mobile phone, radar, and magnetic resonance imaging (MRI). The design of an RF waveform, however, is often posed as an inverse problem that has no general solution. As a result, various design methods each with a specific purpose have been developed based on the intuition of human experts. In this work, we propose an artificial intelligence-powered RF pulse design framework, DeepRF, which utilizes the self-learning characteristics of deep reinforcement learning (DRL) to generate a novel RF beyond human intuition. Additionally, the method can design various types of RF pulses via customized reward functions. The algorithm of DeepRF consists of two modules: the RF generation module, which utilizes DRL to explore new RF pulses, and the RF refinement module, which optimizes the seed RF pulses from the generation module via gradient ascent. The effectiveness of DeepRF is demonstrated using four exemplary RF pulses, slice-selective excitation pulse, slice-selective inversion pulse, B1-insensitive volume inversion pulse, and B1-insensitive selective inversion pulse, that are commonly used in MRI. The results show that the DeepRF-designed pulses successfully satisfy the design criteria while improving specific absorption rates when compared to those of the conventional RF pulses. Further analyses suggest that the DeepRF-designed pulses utilize new mechanisms of magnetization manipulation that are difficult to be explained by conventional theory, suggesting the potentials of DeepRF in discovering unseen design dimensions beyond human intuition. This work may lay the foundation for an emerging field of AI-driven RF waveform design.
翻訳日:2021-05-10 12:23:46 公開日:2021-05-07
# テレコムネットワークにおけるルート原因アラーム発見に対する影響に基づくアプローチ

An Influence-based Approach for Root Cause Alarm Discovery in Telecom Networks ( http://arxiv.org/abs/2105.03092v1 )

ライセンス: Link先を確認
Keli Zhang, Marcus Kalander, Min Zhou, Xi Zhang and Junjian Ye(参考訳) アラーム根本原因分析は, 日々の遠隔通信ネットワーク維持において重要な要素であり, 効率的かつ正確な故障局所化と故障復旧に重要である。 実際、正確で自己調整可能なアラーム根本原因分析は、ネットワークの複雑さと大量のアラームのために大きな課題である。 障害根本原因同定の一般的なアプローチは,イベント共起テストあるいは条件独立テストのいずれかに基づいて,近似エッジを持つグラフを構築することだ。 しかし、エッジの刈り取りには熟練した知識が必要となる。 本稿では,根本原因アラームの局所化に因果推論とネットワーク埋め込みを併用した新しいデータ駆動型フレームワークを提案する。 本研究では,Hawkesプロセスと条件付き独立性テストを組み合わせたハイブリッド因果グラフ学習法 (HPCI) を設計し,エッジ重みを推定するための新しい因果伝搬型埋め込みアルゴリズム (CPBE) を提案する。 次に,重み付きグラフに影響最大化アルゴリズムを適用し,リアルタイムデータストリーム内の根本原因アラームを検出する。 提案手法を人工データと実世界のテレコムデータで評価し,最高のベースラインよりも大幅に改善したことを示す。

Alarm root cause analysis is a significant component in the day-to-day telecommunication network maintenance, and it is critical for efficient and accurate fault localization and failure recovery. In practice, accurate and self-adjustable alarm root cause analysis is a great challenge due to network complexity and vast amounts of alarms. A popular approach for failure root cause identification is to construct a graph with approximate edges, commonly based on either event co-occurrences or conditional independence tests. However, considerable expert knowledge is typically required for edge pruning. We propose a novel data-driven framework for root cause alarm localization, combining both causal inference and network embedding techniques. In this framework, we design a hybrid causal graph learning method (HPCI), which combines Hawkes Process with Conditional Independence tests, as well as propose a novel Causal Propagation-Based Embedding algorithm (CPBE) to infer edge weights. We subsequently discover root cause alarms in a real-time data stream by applying an influence maximization algorithm on the weighted graph. We evaluate our method on artificial data and real-world telecom data, showing a significant improvement over the best baselines.
翻訳日:2021-05-10 12:23:21 公開日:2021-05-07
# 階層型グラフニューラルネットワーク

Hierarchical Graph Neural Networks ( http://arxiv.org/abs/2105.03388v1 )

ライセンス: Link先を確認
Stanislav Sobolevsky(参考訳) 近年、グラフニューラルネットワークは、ネットワーク分析や他の分野で人気が高まっている。 これにより、彼らのアーキテクチャは、従来のニューラルネットワークの古典的な多層階層構造から明らかに逸脱する。 同時に,ネットワーク科学における従来の手法の多くは階層的手法を効率的に活用し,ネットワークの階層的構造を考慮し,その重要性を強調している。 本稿では,従来のニューラルネットワークとグラフニューラルネットワークアーキテクチャのドットを,階層的ネットワーク組織の力を生かしてネットワーク科学的なアプローチと結びつけることを目的とする。 従来の入力ネットワーク層を補助ネットワーク層の階層構造で補完し、各レイヤ内の水平ネットワーク接続と層間の垂直接続の両方を通じてノード機能を更新する計算スキームを編成する階層型グラフニューラルネットワークアーキテクチャを提案する。 これにより、個々のノードの特徴と集約されたネットワークの特徴を可変解像度で同時学習し、個々のノードの特徴学習の収束と安定性を改善することができる。 提案した階層型グラフニューラルネットワークアーキテクチャは、ネットワークの分類、ノードラベル付け、コミュニティタスクと同様に、ネットワークの埋め込みとモデリングで評価され、それらの効率性の向上を示す。

Over the recent years, Graph Neural Networks have become increasingly popular in network analytic and beyond. With that, their architecture noticeable diverges from the classical multi-layered hierarchical organization of the traditional neural networks. At the same time, many conventional approaches in network science efficiently utilize the hierarchical approaches to account for the hierarchical organization of the networks, and recent works emphasize their critical importance. This paper aims to connect the dots between the traditional Neural Network and the Graph Neural Network architectures as well as the network science approaches, harnessing the power of the hierarchical network organization. A Hierarchical Graph Neural Network architecture is proposed, supplementing the original input network layer with the hierarchy of auxiliary network layers and organizing the computational scheme updating the node features through both - horizontal network connections within each layer as well as the vertical connection between the layers. It enables simultaneous learning of the individual node features along with the aggregated network features at variable resolution and uses them to improve the convergence and stability of the individual node feature learning. The proposed Hierarchical Graph Neural network architecture is successfully evaluated on the network embedding and modeling as well as network classification, node labeling, and community tasks and demonstrates increased efficiency in those.
翻訳日:2021-05-10 12:23:02 公開日:2021-05-07
# 楕円スライスサンプリングの幾何学的収束

Geometric convergence of elliptical slice sampling ( http://arxiv.org/abs/2105.03308v1 )

ライセンス: Link先を確認
Viacheslav Natarovskii, Daniel Rudolf, Bj\"orn Sprungk(参考訳) マレー、アダムズ、マッケイによって2010年に導入された楕円スライスサンプリングは、確率関数とガウス先行を与えられたベイズ学習に対して、基礎となる後方分布を近似的にサンプリングするマルコフ連鎖を構築するためのツールを提供する。 適用性とシンプルさに加えて、主な特徴はチューニングが不要であることだ。 後方密度の弱い正則性仮定の下では、対応するマルコフ連鎖は幾何学的にエルゴード的であり、従って定性収束保証を与える。 ガウス過程の回帰やマルチモーダル分布の設定に現れるガウス後部について,本研究の結果を説明する。 エルゴディディティ結果が適用されない状況においても,楕円スライスサンプリングの寸法に依存しない性能を示す数値実験を行った。

For Bayesian learning, given likelihood function and Gaussian prior, the elliptical slice sampler, introduced by Murray, Adams and MacKay 2010, provides a tool for the construction of a Markov chain for approximate sampling of the underlying posterior distribution. Besides of its wide applicability and simplicity its main feature is that no tuning is necessary. Under weak regularity assumptions on the posterior density we show that the corresponding Markov chain is geometrically ergodic and therefore yield qualitative convergence guarantees. We illustrate our result for Gaussian posteriors as they appear in Gaussian process regression, as well as in a setting of a multi-modal distribution. Remarkably, our numerical experiments indicate a dimension-independent performance of elliptical slice sampling even in situations where our ergodicity result does not apply.
翻訳日:2021-05-10 12:22:42 公開日:2021-05-07
# 厳密な統計的および制御論的保証を用いた学習強化型ロバストコントローラ合成

Learning-enhanced robust controller synthesis with rigorous statistical and control-theoretic guarantees ( http://arxiv.org/abs/2105.03397v1 )

ライセンス: Link先を確認
Christian Fiedler, Carsten W. Scherer, Sebastian Trimpe(参考訳) 機械学習と制御の組み合わせは多くの機会、特に堅牢な制御を提供する。 しかし、多くの現実世界のアプリケーションにおいて、安全性と信頼性の要求が強く、厳密な統計的および制御理論的な保証を提供することが最重要であり、学習ベースの制御スキームでは達成が困難である。 本稿では,事前の工学知識を体系的に統合し,近代的ロバスト制御と完全互換性を持ち,かつ,厳密かつ実質上有意義な保証をも備えた学習型ロバスト制御の汎用フレームワークを提案する。 確立された線形分数表現と積分二次制約フレームワークに基づいて,ガウス過程回帰を学習成分として統合し,最先端のロバスト制御合成を行う。 具体的ロバスト制御の例では、我々の手法はさらなるデータによる性能向上を実証し、保証は全期間にわたって維持される。

The combination of machine learning with control offers many opportunities, in particular for robust control. However, due to strong safety and reliability requirements in many real-world applications, providing rigorous statistical and control-theoretic guarantees is of utmost importance, yet difficult to achieve for learning-based control schemes. We present a general framework for learning-enhanced robust control that allows for systematic integration of prior engineering knowledge, is fully compatible with modern robust control and still comes with rigorous and practically meaningful guarantees. Building on the established Linear Fractional Representation and Integral Quadratic Constraints framework, we integrate Gaussian Process Regression as a learning component and state-of-the-art robust controller synthesis. In a concrete robust control example, our approach is demonstrated to yield improved performance with more data, while guarantees are maintained throughout.
翻訳日:2021-05-10 12:22:28 公開日:2021-05-07
# 多様体データのカーネルmmd2サンプルテスト

Kernel MMD Two-Sample Tests for Manifold Data ( http://arxiv.org/abs/2105.03425v1 )

ライセンス: Link先を確認
Xiuyuan Cheng, Yao Xie(参考訳) 本稿では,高次元の観測値が低次元の多様体に近いことを前提として,カーネルMDDの2サンプル試験統計値について述べる。 テストの特性(レベルとパワー)は、カーネルの帯域幅、サンプルの数、および多様体の内在的な次元性に関連して特徴づける。 具体的には、$d$-dimensional sub-manifold $\mathcal{M}$ が $m$-dimensional 空間に埋め込まれたとき、カーネル MMD の2サンプルテストは、一対の分布からサンプリングされたデータに対して$(p, q)$ であり、その値が$\beta$ であるとき、$n$ が $\delta_2(p, q)^{-2-d/\beta}$ より大きい場合、$\delta_2$ は、多様体上の2つの分布の間の正方形 $\ell_2$-divergence である。 さらに、このスケールでテスト一貫性を達成するために、カーネル帯域幅$\gamma$ scales with $n^{-1/(d+2\beta)}$が提案される。 これらの結果から, カーネルMD2サンプル試験は, 低次元多様体上にデータを置くと, 擬似次元性を持たないことが示唆された。 本理論の妥当性と多様体データに対するmmdテストの特性をいくつかの数値実験を用いて実証する。

We present a study of kernel MMD two-sample test statistics in the manifold setting, assuming the high-dimensional observations are close to a low-dimensional manifold. We characterize the property of the test (level and power) in relation to the kernel bandwidth, the number of samples, and the intrinsic dimensionality of the manifold. Specifically, we show that when data densities are supported on a $d$-dimensional sub-manifold $\mathcal{M}$ embedded in an $m$-dimensional space, the kernel MMD two-sample test for data sampled from a pair of distributions $(p, q)$ that are H\"older with order $\beta$ is consistent and powerful when the number of samples $n$ is greater than $\delta_2(p,q)^{-2-d/\beta}$ up to certain constant, where $\delta_2$ is the squared $\ell_2$-divergence between two distributions on manifold. Moreover, to achieve testing consistency under this scaling of $n$, our theory suggests that the kernel bandwidth $\gamma$ scales with $n^{-1/(d+2\beta)}$. These results indicate that the kernel MMD two-sample test does not have a curse-of-dimensionality when the data lie on the low-dimensional manifold. We demonstrate the validity of our theory and the property of the MMD test for manifold data using several numerical experiments.
翻訳日:2021-05-10 12:22:11 公開日:2021-05-07
# 構造化データセットドキュメント:CheXpert用のデータシート

Structured dataset documentation: a datasheet for CheXpert ( http://arxiv.org/abs/2105.03020v1 )

ライセンス: Link先を確認
Christian Garbin, Pranav Rajpurkar, Jeremy Irvin, Matthew P. Lungren, Oge Marques(参考訳) 毎年数十億枚のX線写真が世界中で撮影されている。 機械学習とディープラーニングは、放射線学者が画像のトリアージと診断を助ける可能性がある。 しかし、ディープラーニングは信頼できるラベルを持つ大規模なデータセットを必要とする。 CheXpertデータセットは、ボード認証された放射線学者の参加によって作成された。 本論文は,データセット用データシートの構造化形式に倣って,従来のCheXpert論文や他の資料を拡張し,信頼性ラベルの作成において放射線学者が果たす重要な役割を明らかにし,データセット構成の異なる側面を詳細に記述する。 このような構造化ドキュメンテーションは、CheXpertの強み、応用、進化に対する機械学習と医療コミュニティの認識を高め、医療画像分析の分野を前進させることを目的としている。 本論文のもう一つの目的は、データセットの詳細な構造記述を作成するためのコミュニティの例として、このデータセットデータシートを提出することである。 データセットの作成プロセス、内容、アプリケーションを明確に文書化することで、有用で信頼性の高いモデルの作成が促進されると考えている。

Billions of X-ray images are taken worldwide each year. Machine learning, and deep learning in particular, has shown potential to help radiologists triage and diagnose images. However, deep learning requires large datasets with reliable labels. The CheXpert dataset was created with the participation of board-certified radiologists, resulting in the strong ground truth needed to train deep learning networks. Following the structured format of Datasheets for Datasets, this paper expands on the original CheXpert paper and other sources to show the critical role played by radiologists in the creation of reliable labels and to describe the different aspects of the dataset composition in detail. Such structured documentation intends to increase the awareness in the machine learning and medical communities of the strengths, applications, and evolution of CheXpert, thereby advancing the field of medical image analysis. Another objective of this paper is to put forward this dataset datasheet as an example to the community of how to create detailed and structured descriptions of datasets. We believe that clearly documenting the creation process, the contents, and applications of datasets accelerates the creation of useful and reliable models.
翻訳日:2021-05-10 12:21:33 公開日:2021-05-07
# 効率的な映像認識のための適応焦点

Adaptive Focus for Efficient Video Recognition ( http://arxiv.org/abs/2105.03245v1 )

ライセンス: Link先を確認
Yulin Wang, Zhaoxi Chen, Haojun Jiang, Shiji Song, Yizeng Han, Gao Huang(参考訳) 本稿では,計算効率の向上を目的として,映像認識における空間冗長性について検討する。 ビデオの各フレームにおいて最も情報性の高い領域は、通常、小さな画像パッチであり、フレーム間でスムーズにシフトする。 そこで我々は,パッチローカライゼーション問題を逐次決定課題としてモデル化し,空間適応型画像認識(AdaFocus)のための強化学習に基づくアプローチを提案する。 具体的には、タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。 そして、選択したパッチを最終予測のために高容量ネットワークで推測する。 オフライン推論では、インフォメーションパッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスでは効率がよい。 また,提案手法は,時間的冗長性,例えば,より価値の低いフレームを動的にスキップすることで,容易に拡張できることを実証する。 5つのベンチマークデータセット、すなわちActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2の大規模な実験により、我々の手法は競合するベースラインよりもはるかに効率的であることが示された。 コードはhttps://github.com/blackfeather-wang/adafocusで入手できる。

In this paper, we explore the spatial redundancy in video recognition with the aim to improve the computational efficiency. It is observed that the most informative region in each frame of a video is usually a small image patch, which shifts smoothly across frames. Therefore, we model the patch localization problem as a sequential decision task, and propose a reinforcement learning based approach for efficient spatially adaptive video recognition (AdaFocus). In specific, a light-weighted ConvNet is first adopted to quickly process the full video sequence, whose features are used by a recurrent policy network to localize the most task-relevant regions. Then the selected patches are inferred by a high-capacity network for the final prediction. During offline inference, once the informative patch sequence has been generated, the bulk of computation can be done in parallel, and is efficient on modern GPU devices. In addition, we demonstrate that the proposed method can be easily extended by further considering the temporal redundancy, e.g., dynamically skipping less valuable frames. Extensive experiments on five benchmark datasets, i.e., ActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2, demonstrate that our method is significantly more efficient than the competitive baselines. Code will be available at https://github.com/blackfeather-wang/AdaFocus.
翻訳日:2021-05-10 12:21:14 公開日:2021-05-07
# 回帰バグはあなたのモデルです! NLPモデル更新における回帰の測定・削減・解析

Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing Regressions In NLP Model Updates ( http://arxiv.org/abs/2105.03048v1 )

ライセンス: Link先を確認
Yuqing Xie, Yi-an Lai, Yuanjun Xiong, Yi Zhang, Stefano Soatto(参考訳) ディープニューラルネットワークの挙動は、異なるバージョン間で矛盾することがある。 モデル更新中のレグレッションは、しばしば精度や効率の向上の利点を過大評価する懸念の一般的な原因である。 この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に焦点を当てている。 回帰指標として負のフリップ率を用いると、GLUEベンチマークにおいて、回帰がタスク全体に存在することが示される。 我々は,回帰自由モデル更新を制約付き最適化問題に定式化し,さらに,知識蒸留訓練法を用いて概ね最適化可能な緩和形式に還元する。 モデルアンサンブルの回帰効果を実証的に解析する。 最後に,言語現象にまたがる回帰分布と,アンサンブル法と蒸留法の有効性を理解するために,チェックリスト行動テストを実施した。

Behavior of deep neural networks can be inconsistent between different versions. Regressions during model update are a common cause of concern that often over-weigh the benefits in accuracy or efficiency gain. This work focuses on quantifying, reducing and analyzing regression errors in the NLP model updates. Using negative flip rate as regression measure, we show that regression has a prevalent presence across tasks in the GLUE benchmark. We formulate the regression-free model updates into a constrained optimization problem, and further reduce it into a relaxed form which can be approximately optimized through knowledge distillation training method. We empirically analyze how model ensemble reduces regression. Finally, we conduct CheckList behavioral testing to understand the distribution of regressions across linguistic phenomena, and the efficacy of ensemble and distillation methods.
翻訳日:2021-05-10 12:20:52 公開日:2021-05-07
# 音声-テキスト翻訳のための共有意味空間の学習

Learning Shared Semantic Space for Speech-to-Text Translation ( http://arxiv.org/abs/2105.03095v1 )

ライセンス: Link先を確認
Chi Han, Mingxuan Wang, Heng Ji, Lei Li(参考訳) 多くの潜在的な応用と大きな影響があり、エンドツーエンド音声翻訳(st)は長い間独立したタスクとして扱われてきたが、兄弟姉妹であるテキスト機械翻訳(mt)の急速な進歩から強みを引き出すことに失敗した。 テキストと音声の入力が異なる方法では、モダリティギャップはMTデータとそのエンドツーエンドモデルとSTモデルとの互換性を損なう。 この障害を観測するために,この表現ギャップをキメラに橋渡しすることを提案する。 音声とテキストの機能を共通の意味表現に投影することで、ChimeraはMTとSTタスクを統一し、STベンチマークの MuST-C のパフォーマンスを新たな最先端に向上させる。 具体的には、キメラは en-de に 26.3 bleu を取得し、sota を +2.7 bleu マージンで改善する。 さらに実験的に、共有意味空間は、これらの2つのタスク間の共通知識を実際に伝達し、モダリティを越えてトレーニングリソースを増強する新しい方法を示す。

Having numerous potential applications and great impact, end-to-end speech translation (ST) has long been treated as an independent task, failing to fully draw strength from the rapid advances of its sibling - text machine translation (MT). With text and audio inputs represented differently, the modality gap has rendered MT data and its end-to-end models incompatible with their ST counterparts. In observation of this obstacle, we propose to bridge this representation gap with Chimera. By projecting audio and text features to a common semantic representation, Chimera unifies MT and ST tasks and boosts the performance on ST benchmark, MuST-C, to a new state-of-the-art. Specifically, Chimera obtains 26.3 BLEU on EN-DE, improving the SOTA by a +2.7 BLEU margin. Further experimental analyses demonstrate that the shared semantic space indeed conveys common knowledge between these two tasks and thus paves a new way for augmenting training resources across modalities.
翻訳日:2021-05-10 12:20:38 公開日:2021-05-07
# VAULT: 機械読解のための可変統一長文表現

VAULT: VAriable Unified Long Text Representation for Machine Reading Comprehension ( http://arxiv.org/abs/2105.03229v1 )

ライセンス: Link先を確認
Haoyang Wen, Anthony Ferritto, Heng Ji, Radu Florian, Avirup Sil(参考訳) 既存のMRC(Machine Reading Comprehension)のモデルは、段落表現と分類を効果的にモデル化するために複雑なモデルアーキテクチャを必要とするため、推論を計算的に非効率にする。 本稿では,長い文書入力からの文脈化表現に基づくmrcの軽量かつ並列効率な段落表現であるvaultを提案する。 我々は、長いコンテキストモデリングを必要とする2つのベンチマークMCCデータセット、Wikipedia(Natural Questions (NQ))とTechNotes(TechQA)で実験結果を示すVAULTアーキテクチャを検証する。 VAULTは16倍の効率で、最先端(SOTA)複雑なドキュメントモデリングアプローチで、NQ上で同等のパフォーマンスを実現することができる。 また、我々のモデルは、以前に公開された大きなPLMで微調整されたモデルよりも大幅に改善され、完全に異なるドメイン(TechQA)に効果的に適用できることを示す。

Existing models on Machine Reading Comprehension (MRC) require complex model architecture for effectively modeling long texts with paragraph representation and classification thereby, making inference computationally inefficient for production use. In this work, we propose VAULT: a light-weight and parallel-efficient paragraph representation for MRC based on contextualized representation from long document input, trained using a new Gaussian distribution-based objective that pays close attention to the partially correct instances that are close to the ground-truth. We validate our VAULT architecture showing experimental results on two benchmark MRC datasets that require long context modeling; one Wikipedia-based (Natural Questions (NQ)) and the other on TechNotes (TechQA). VAULT can achieve comparable performance on NQ with a state-of-the-art (SOTA) complex document modeling approach while being 16 times more efficient. We also demonstrate that our model can also be effectively adapted to a completely different domain -- TechQA -- with large improvement over a model fine-tuned on a previously published large PLM.
翻訳日:2021-05-10 12:20:20 公開日:2021-05-07
# 利害リスク評価実践を支援するための人工知能(AI)の学際的概念研究--AIプログラムと機器の総合的資格行列を目指して(プレプリント2020)

An interdisciplinary conceptual study of Artificial Intelligence (AI) for helping benefit-risk assessment practices: Towards a comprehensive qualification matrix of AI programs and devices (pre-print 2020) ( http://arxiv.org/abs/2105.03192v1 )

ライセンス: Link先を確認
Gauthier Chassang (INSERM,PFGS), Mogens Thomsen (INSERM), Pierre Rumeau, Florence S\`edes (IRIT), Alejandra Delfin (INSERM)(参考訳) 本稿では,知性の概念を扱う異なる分野,すなわち心理学と工学,AIの倫理と法を規制する分野から,既存の概念を包括的に分析する。 目的は、AIシステムを評価するための共有概念や相違点を特定することである。 関連する概念は、AI開発における課題に関する特定の技術的、倫理的、法的評価を提供するための重要な特徴を強調しながら、コンピュータツール(プログラムやデバイス)がAIとして適格であるかを、より正確に定義するためのマトリックスに統合される。 既存のAI特性の概念への適応が提案されている。 matrixは、ai技術の経験的、柔軟、スケーラブルな資格を、利益リスク評価プラクティス、技術監視、規制コンプライアンスの観点から許容する、リスクベースの概念モデルである。ai開発におけるステークホルダーのための構造化リフレクションツールを提供し、責任ある研究とイノベーションに従事している。プレプリント版(2020年5月リリース)。

This paper proposes a comprehensive analysis of existing concepts coming from different disciplines tackling the notion of intelligence, namely psychology and engineering, and from disciplines aiming to regulate AI innovations, namely AI ethics and law. The aim is to identify shared notions or discrepancies to consider for qualifying AI systems. Relevant concepts are integrated into a matrix intended to help defining more precisely when and how computing tools (programs or devices) may be qualified as AI while highlighting critical features to serve a specific technical, ethical and legal assessment of challenges in AI development. Some adaptations of existing notions of AI characteristics are proposed. The matrix is a risk-based conceptual model designed to allow an empirical, flexible and scalable qualification of AI technologies in the perspective of benefit-risk assessment practices, technological monitoring and regulatory compliance: it offers a structured reflection tool for stakeholders in AI development that are engaged in responsible research and innovation.Pre-print version (achieved on May 2020)
翻訳日:2021-05-10 12:19:46 公開日:2021-05-07
# 強化学習を使ってAIアシスタントを設計し、満足なコオプ体験を実現する

Using reinforcement learning to design an AI assistantfor a satisfying co-op experience ( http://arxiv.org/abs/2105.03414v1 )

ライセンス: Link先を確認
Ajay Krishnan, Niranj Jyothish, Xun Jia(参考訳) 本プロジェクトでは,単一プレイヤーゲームであるSpace Invadersの知的アシスタントプレイヤーを設計し,良好なコオプ体験を実現することを目的とした。 エージェントの動作は強化学習技術を用いて設計され、いくつかの基準に基づいて評価された。 我々は、AI駆動のコンピュータプレイヤーが満足なコオプ体験を提供できるという仮説を検証する。

In this project, we designed an intelligent assistant player for the single-player game Space Invaders with the aim to provide a satisfying co-op experience. The agent behaviour was designed using reinforcement learning techniques and evaluated based on several criteria. We validate the hypothesis that an AI-driven computer player can provide a satisfying co-op experience.
翻訳日:2021-05-10 12:19:27 公開日:2021-05-07
# BasisNet:効率的な推論のための2段階モデル合成

BasisNet: Two-stage Model Synthesis for Efficient Inference ( http://arxiv.org/abs/2105.03014v1 )

ライセンス: Link先を確認
Mingda Zhang, Chun-Te Chu, Andrey Zhmoginov, Andrew Howard, Brendan Jou, Yukun Zhu, Li Zhang, Rebecca Hwa, Adriana Kovashka(参考訳) 本研究では,効率的なニューラルネットワークアーキテクチャ,条件計算,早期終了といった最近の進歩を,簡単な新しい形式で組み合わせたBasisNetを提案する。 提案手法では,入力に依存した組合せ係数のプレビューと生成を行う軽量モデルを導入し,その後,より正確なスペシャリストモデルの合成を制御し,最終的な予測を行う。 2段階のモデル合成戦略は任意のネットワークアーキテクチャに適用でき、どちらの段階も共同で訓練される。 また,このような高容量ニューラルネットワークの一般化性向上には,適切なトレーニングレシピが不可欠であることを示す。 imagenet分類ベンチマークでは、backboneとしてmobilenetsを使ったベースラインネットは、いくつかの強力なベースラインに対する精度と効率のトレードオフにおいて明確な優位性を示しました。 具体的には、BasisNet-MobileNetV3は80.3%のTop-1精度を獲得し、290万のMultiply-Add演算しか行わなかった。 早期終了により、平均コストは、ImageNetで80.0%の精度を維持しながら、さらに198万のMaddに削減できる。

In this work, we present BasisNet which combines recent advancements in efficient neural network architectures, conditional computation, and early termination in a simple new form. Our approach incorporates a lightweight model to preview the input and generate input-dependent combination coefficients, which later controls the synthesis of a more accurate specialist model to make final prediction. The two-stage model synthesis strategy can be applied to any network architectures and both stages are jointly trained. We also show that proper training recipes are critical for increasing generalizability for such high capacity neural networks. On ImageNet classification benchmark, our BasisNet with MobileNets as backbone demonstrated clear advantage on accuracy-efficiency trade-off over several strong baselines. Specifically, BasisNet-MobileNetV3 obtained 80.3% top-1 accuracy with only 290M Multiply-Add operations, halving the computational cost of previous state-of-the-art without sacrificing accuracy. With early termination, the average cost can be further reduced to 198M MAdds while maintaining accuracy of 80.0% on ImageNet.
翻訳日:2021-05-10 12:19:11 公開日:2021-05-07
# 一般化可能な人物再同定のための適応的ドメイン特化正規化

Adaptive Domain-Specific Normalization for Generalizable Person Re-Identification ( http://arxiv.org/abs/2105.03042v1 )

ライセンス: Link先を確認
Jiawei Liu, Zhipeng Huang, Kecheng Zheng, Dong Liu, Xiaoyan Sun, Zheng-Jun Zha(参考訳) 既存の人物再同定法 (re-id) は印象的な精度を示したが, ほとんどは対象領域の認識が不十分な場合が多い。 このように、一般化可能なRe-IDは、最近注目を集めており、モデル更新なしで、見えないターゲットドメインによく一般化するソースドメインのモデルを訓練している。 本研究では,一般化可能なRe-IDのための適応型ドメイン固有正規化手法(AdsNorm)を提案する。 未知のターゲットドメインを既知のソースドメインの組み合わせとして記述し、メタ学習パイプラインによるモデルの一般化を改善するために、ターゲットディストリビューションとドメイン固有の表現を明示的に学習する。 具体的には、adsnormはバッチ正規化層を使用して個々のソースドメインの特性を収集し、これらの特徴を用いてソースドメインを共有潜在空間にマップする。 テスト段階では、adsnormは対象領域の未認識画像を同じ潜在空間に投影し、対象領域のより一般化された集約表現を学ぶために、ドメインの関連性によってソース分布を運ぶドメイン固有の機能を適応的に統合する。 学習中に対象ドメインが利用できないことを考慮し,効率的なアンサンブルモデルの最適化を目的としたメタ学習アルゴリズムを提案する。 大規模な実験により、AdsNormは最先端の手法よりも優れていることが示された。 コードは、https://github.com/hzphzp/AdsNorm.comで入手できる。

Although existing person re-identification (Re-ID) methods have shown impressive accuracy, most of them usually suffer from poor generalization on unseen target domain. Thus, generalizable person Re-ID has recently drawn increasing attention, which trains a model on source domains that generalizes well on unseen target domain without model updating. In this work, we propose a novel adaptive domain-specific normalization approach (AdsNorm) for generalizable person Re-ID. It describes unseen target domain as a combination of the known source ones, and explicitly learns domain-specific representation with target distribution to improve the model's generalization by a meta-learning pipeline. Specifically, AdsNorm utilizes batch normalization layers to collect individual source domains' characteristics, and maps source domains into a shared latent space by using these characteristics, where the domain relevance is measured by a distance function of different domain-specific normalization statistics and features. At the testing stage, AdsNorm projects images from unseen target domain into the same latent space, and adaptively integrates the domain-specific features carrying the source distributions by domain relevance for learning more generalizable aggregated representation on unseen target domain. Considering that target domain is unavailable during training, a meta-learning algorithm combined with a customized relation loss is proposed to optimize an effective and efficient ensemble model. Extensive experiments demonstrate that AdsNorm outperforms the state-of-the-art methods. The code is available at: https://github.com/hzphzp/AdsNorm.
翻訳日:2021-05-10 12:18:52 公開日:2021-05-07
# 雑音ラベルのオーバーフィッティングに対する自己ペースト抵抗学習

Self-paced Resistance Learning against Overfitting on Noisy Labels ( http://arxiv.org/abs/2105.03059v1 )

ライセンス: Link先を確認
Xiaoshuang Shi, Zhenhua Guo, Fuyong Xing, Yun Liang, Xiaofeng Zhu(参考訳) 正しくて破損したラベルからなるノイズラベルは、実際には広く普及している。 畳み込みニューラルネットワーク(CNN)の性能が著しく低下する可能性がある。 この問題に対処するために,深層ニューラルネットワークはまず,おそらく正しいラベルデータを記憶し,次に腐敗したラベルサンプルを記憶するかもしれないという観測結果に触発され,クリーンな検証データを用いずに,破損したラベルに抵抗する、新しくてシンプルな自己ペースト抵抗フレームワークを提案する。 提案フレームワークは、まずCNNの記憶効果を利用して、信頼性のあるサンプルを含むカリキュラムを学習し、他のトレーニングサンプルに対して有意義な監督を提供する。 抵抗損失はモデルパラメータの更新を円滑にしたり、各クラスに対して等価な予測を得られる傾向があり、結果として、破損したラベルに過剰に適合するモデルに抵抗する。 最後に,これら2つのモジュールを単一損失関数に統合し,代替学習で最適化する。 広汎な実験により,近年の雑音ラベルデータに対する最先端手法よりも,提案手法の優れた性能が示された。 提案手法のソースコードはhttps://github.com/xsshi2015/self-paced-resistance-learningで入手できる。

Noisy labels composed of correct and corrupted ones are pervasive in practice. They might significantly deteriorate the performance of convolutional neural networks (CNNs), because CNNs are easily overfitted on corrupted labels. To address this issue, inspired by an observation, deep neural networks might first memorize the probably correct-label data and then corrupt-label samples, we propose a novel yet simple self-paced resistance framework to resist corrupted labels, without using any clean validation data. The proposed framework first utilizes the memorization effect of CNNs to learn a curriculum, which contains confident samples and provides meaningful supervision for other training samples. Then it adopts selected confident samples and a proposed resistance loss to update model parameters; the resistance loss tends to smooth model parameters' update or attain equivalent prediction over each class, thereby resisting model overfitting on corrupted labels. Finally, we unify these two modules into a single loss function and optimize it in an alternative learning. Extensive experiments demonstrate the significantly superior performance of the proposed framework over recent state-of-the-art methods on noisy-label data. Source codes of the proposed method are available on https://github.com/xsshi2015/Self-paced-Resistance-Learning.
翻訳日:2021-05-10 12:18:29 公開日:2021-05-07
# 2方向空間強調と排他的対象事前を用いた人体インタラクション検出

Human Object Interaction Detection using Two-Direction Spatial Enhancement and Exclusive Object Prior ( http://arxiv.org/abs/2105.03089v1 )

ライセンス: Link先を確認
Lu Liu, Robby T. Tan(参考訳) human-object interaction(hoi)検出は、画像中の人間とオブジェクトの視覚関係を検出することを目的としている。 HOI検出の大きな問題の1つは、非対話的な人間と物体のペアは、アクションとして容易にグループ化され、分類されていないことである。 誤グループ化問題に対処するために,身体部位から物体中心,対象部位から人体中心までの2方向において空間的制約を微調整する空間拡張手法を提案する。 推論では、対象オブジェクトを複数の人間が共有すべきでないアクションのオブジェクト排他性を考慮して、ヒューマン・オブジェクトの再グループ化手法を提案する。 非相互作用対を抑えることで、我々のアプローチは偽陽性を減少させることができる。 V-COCOとHICO-DETデータセットの実験では、現場に複数の人間や物体が存在する既存の手法に比べて、我々のアプローチはより堅牢であることが示された。

Human-Object Interaction (HOI) detection aims to detect visual relations between human and objects in images. One significant problem of HOI detection is that non-interactive human-object pair can be easily mis-grouped and misclassified as an action, especially when humans are close and performing similar actions in the scene. To address the mis-grouping problem, we propose a spatial enhancement approach to enforce fine-level spatial constraints in two directions from human body parts to the object center, and from object parts to the human center. At inference, we propose a human-object regrouping approach by considering the object-exclusive property of an action, where the target object should not be shared by more than one human. By suppressing non-interactive pairs, our approach can decrease the false positives. Experiments on V-COCO and HICO-DET datasets demonstrate our approach is more robust compared to the existing methods under the presence of multiple humans and objects in the scene.
翻訳日:2021-05-10 12:18:09 公開日:2021-05-07
# 教師なし画像間翻訳におけるコントラスト学習

Contrastive Learning for Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2105.03117v1 )

ライセンス: Link先を確認
Hanbit Lee, Jinseok Seol, Sang-goo Lee(参考訳) 画像から画像への翻訳は、視覚的に識別可能な画像の異なるグループ間のマッピングを学ぶことを目的としている。 最近の手法では、画像の複雑な外観をさらに変えることができるが、異なる視覚特徴を区別するためにモデルを訓練する際にも、ドメインラベルに依存している。 このようなラベルへの依存は、一貫性と高品質のラベルが高価であるため、アプリケーションのスコープを大幅に制限することが多い。 代わりに、画像自体の視覚的特徴をキャプチャして、人間生成ラベルなしで現実的な翻訳を可能にしたいと考えています。 そこで本研究では,コントラスト学習に基づく教師なし画像から画像への翻訳手法を提案する。 キーとなるアイデアは、識別器を学習し、識別器がジェネレータを監督してそれらのスタイルを画像間で転送することだ。 トレーニング中、一対の画像をランダムにサンプリングし、ジェネレータに元の構造を維持しながら、その外観を別の方向に変更するように訓練する。 実験結果から,本手法は視覚的品質と翻訳精度において,教師なしベースラインよりも優れていた。

Image-to-image translation aims to learn a mapping between different groups of visually distinguishable images. While recent methods have shown impressive ability to change even intricate appearance of images, they still rely on domain labels in training a model to distinguish between distinct visual features. Such dependency on labels often significantly limits the scope of applications since consistent and high-quality labels are expensive. Instead, we wish to capture visual features from images themselves and apply them to enable realistic translation without human-generated labels. To this end, we propose an unsupervised image-to-image translation method based on contrastive learning. The key idea is to learn a discriminator that differentiates between distinctive styles and let the discriminator supervise a generator to transfer those styles across images. During training, we randomly sample a pair of images and train the generator to change the appearance of one towards another while keeping the original structure. Experimental results show that our method outperforms the leading unsupervised baselines in terms of visual quality and translation accuracy.
翻訳日:2021-05-10 12:17:52 公開日:2021-05-07
# 群衆の軌道予測のための解釈可能なソーシャルアンカー

Interpretable Social Anchors for Human Trajectory Forecasting in Crowds ( http://arxiv.org/abs/2105.03136v1 )

ライセンス: Link先を確認
Parth Kothari, Brian Sifringer and Alexandre Alahi(参考訳) 群集における人間の軌道予測は、その核心であるシーケンス予測問題であり、シーケンス間の依存性(社会的相互作用)を捉え、その結果、社会的に適合するマルチモーダル分布を予測する。 近年、ニューラルネットワークに基づく手法は、距離ベースのメトリクスで手作りの手法より優れていることが示されている。 しかし、これらのデータ駆動型メソッドは、解釈可能性の欠如という、依然として重要な制限に苦しめられている。 この制限を克服するために、我々は離散選択モデルの力を利用して解釈可能なルールベースの意図を学習し、その後、ニューラルネットワークの表現可能性を利用してシーン固有の残差をモデル化する。 インタラクション中心のベンチマークであるtrajnet++の広範な実験は、提案するアーキテクチャが精度を損なうことなく予測を説明するために有効であることを示している。

Human trajectory forecasting in crowds, at its core, is a sequence prediction problem with specific challenges of capturing inter-sequence dependencies (social interactions) and consequently predicting socially-compliant multimodal distributions. In recent years, neural network-based methods have been shown to outperform hand-crafted methods on distance-based metrics. However, these data-driven methods still suffer from one crucial limitation: lack of interpretability. To overcome this limitation, we leverage the power of discrete choice models to learn interpretable rule-based intents, and subsequently utilise the expressibility of neural networks to model scene-specific residual. Extensive experimentation on the interaction-centric benchmark TrajNet++ demonstrates the effectiveness of our proposed architecture to explain its predictions without compromising the accuracy.
翻訳日:2021-05-10 12:17:33 公開日:2021-05-07
# 拡張物体検出のための確率的ランキングアウェアアンサンブル

Probabilistic Ranking-Aware Ensembles for Enhanced Object Detections ( http://arxiv.org/abs/2105.03139v1 )

ライセンス: Link先を確認
Mingyuan Mao, Baochang Zhang, David Doermann, Jie Guo, Shumin Han, Yuan Feng, Xiaodi Wang, Errui Ding(参考訳) モデルアンサンブルは、既に1つの検出器に最適化されたオブジェクト検出性能を改善するための最も効果的なアプローチの1つになっている。 従来の方法では直接境界ボックスを融合するが、検出器を組み合わせる際に提案品質を考慮できないのが普通である。 これは検出器のアンサンブルに対する信頼の相違という新たな問題に繋がる。 信頼性は単一検出器にはほとんど影響しないが、検出器アンサンブルに大きな影響を及ぼす。 この問題に対処するため,我々は,検出器からのバウンディングボックスの信頼性を向上させる確率的ランキング認識アンサンブル(prae)と呼ばれる新しいアンサンブルを提案する。 同じ検証セット上のカテゴリと位置を同時に考慮し、統計的確率に基づいてより信頼性の高い信頼を得る。 次に検出された境界ボックスをアセンブリにランク付けする。 また,異なる信頼レベルで異なるボックス数を扱う必要があることに起因する信頼不均衡問題に対処するための包括的アプローチも導入する。 我々はPRAEに基づく非最大抑圧(P-NMS)を用いて、アンサンブル学習における従来のNMS法を置き換える。 PASCAL VOCとCOCO2017データセットの実験は、私たちのPRAEメソッドが、最先端の手法をかなりのマージンで一貫して上回っていることを示している。

Model ensembles are becoming one of the most effective approaches for improving object detection performance already optimized for a single detector. Conventional methods directly fuse bounding boxes but typically fail to consider proposal qualities when combining detectors. This leads to a new problem of confidence discrepancy for the detector ensembles. The confidence has little effect on single detectors but significantly affects detector ensembles. To address this issue, we propose a novel ensemble called the Probabilistic Ranking Aware Ensemble (PRAE) that refines the confidence of bounding boxes from detectors. By simultaneously considering the category and the location on the same validation set, we obtain a more reliable confidence based on statistical probability. We can then rank the detected bounding boxes for assembly. We also introduce a bandit approach to address the confidence imbalance problem caused by the need to deal with different numbers of boxes at different confidence levels. We use our PRAE-based non-maximum suppression (P-NMS) to replace the conventional NMS method in ensemble learning. Experiments on the PASCAL VOC and COCO2017 datasets demonstrate that our PRAE method consistently outperforms state-of-the-art methods by significant margins.
翻訳日:2021-05-10 12:17:19 公開日:2021-05-07
# より分離可能で、セグメンテーションが容易:クロスドメインセマンティクスセグメンテーションのためのクラスタアライメント法

More Separable and Easier to Segment: A Cluster Alignment Method for Cross-Domain Semantic Segmentation ( http://arxiv.org/abs/2105.03151v1 )

ライセンス: Link先を確認
Shuang Wang, Dong Zhao, Yi Li, Chi Zhang, Yuwei Guo, Qi Zang, Biao Hou, Licheng Jiao(参考訳) ドメイン間の機能アライメントは、Unsupervised Domain Adaptation (UDA) セマンティックセグメンテーションの主流メソッドの1つである。 既存のセグメンテーションのための特徴アライメント手法は,ドメインの差分を減らそうとする対角訓練によってドメイン不変の特徴を学習するが,それらには2つの限界がある: 1)ピクセル間の関連は維持されない; 2)ソースドメインで訓練された分類器はターゲットにうまく適応できない。 本稿では、上記の問題を緩和するために、ドメイン密接性仮定に基づく新しいudaセマンティクスセグメンテーション手法を提案する。 具体的には、同じ意味を持つクラスタピクセルに対して、プロトタイプのクラスタリング戦略を適用し、機能アライメント中にターゲットドメインピクセル間の関連性をよりよく維持する。 クラスタリング後、分類器をより適応させるため、対象領域の親和性グラフに基づく正規化カット損失を利用して、決定境界を目標固有にする。 GTA5$\rightarrow$CityscapesとSynTHIA$\rightarrow$Cityscapesで実施した十分な実験により,本手法の有効性が証明された。

Feature alignment between domains is one of the mainstream methods for Unsupervised Domain Adaptation (UDA) semantic segmentation. Existing feature alignment methods for semantic segmentation learn domain-invariant features by adversarial training to reduce domain discrepancy, but they have two limits: 1) associations among pixels are not maintained, 2) the classifier trained on the source domain couldn't adapted well to the target. In this paper, we propose a new UDA semantic segmentation approach based on domain closeness assumption to alleviate the above problems. Specifically, a prototype clustering strategy is applied to cluster pixels with the same semantic, which will better maintain associations among target domain pixels during the feature alignment. After clustering, to make the classifier more adaptive, a normalized cut loss based on the affinity graph of the target domain is utilized, which will make the decision boundary target-specific. Sufficient experiments conducted on GTA5 $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes proved the effectiveness of our method, which illustrated that our results achieved the new state-of-the-art.
翻訳日:2021-05-10 12:17:01 公開日:2021-05-07
# Adv-Makeup: 顔認識に対する新たな非知覚的かつ伝達可能な攻撃

Adv-Makeup: A New Imperceptible and Transferable Attack on Face Recognition ( http://arxiv.org/abs/2105.03162v1 )

ライセンス: Link先を確認
Bangjie Yin, Wenxuan Wang, Taiping Yao, Junfeng Guo, Zelun Kong, Shouhong Ding, Jilin Li and Cong Liu(参考訳) 深層ニューラルネットワーク、特に顔認識モデルは、デジタルと物理的な敵対的な例の両方に弱いことが示されている。 しかし、既存の顔認識システムに対する敵対的な例では、ブラックボックスモデルへの転送性を欠いたり、実際に実装しなかったりしている。 本稿では,ブラックボックス設定下での非知覚的かつ移動可能な攻撃を実現する,一元的対向顔生成手法Adv-Makeupを提案する。 adv-makeupは、顔の軌道領域上の不可避なアイシャドーを合成するブレンディングモジュールを備えたタスク駆動メイクアップ生成法を開発した。 また、転送性を達成するために、adv-makeupは、様々なモデルからより一般的な攻撃機能を学ぶために、きめ細かいメタラーニング攻撃戦略を実装している。 既存の技術と比較すると、十分な視覚化結果から、Adv-Makeupはデジタルシナリオと物理シナリオの両方で、はるかに非知覚的な攻撃を発生させることができる。 一方、大規模な定量的実験により、Adv-Makeupはブラックボックス設定下での攻撃成功率を大幅に改善し、商用システムへの攻撃も可能であることが示された。

Deep neural networks, particularly face recognition models, have been shown to be vulnerable to both digital and physical adversarial examples. However, existing adversarial examples against face recognition systems either lack transferability to black-box models, or fail to be implemented in practice. In this paper, we propose a unified adversarial face generation method - Adv-Makeup, which can realize imperceptible and transferable attack under black-box setting. Adv-Makeup develops a task-driven makeup generation method with the blending module to synthesize imperceptible eye shadow over the orbital region on faces. And to achieve transferability, Adv-Makeup implements a fine-grained meta-learning adversarial attack strategy to learn more general attack features from various models. Compared to existing techniques, sufficient visualization results demonstrate that Adv-Makeup is capable to generate much more imperceptible attacks under both digital and physical scenarios. Meanwhile, extensive quantitative experiments show that Adv-Makeup can significantly improve the attack success rate under black-box setting, even attacking commercial systems.
翻訳日:2021-05-10 12:16:36 公開日:2021-05-07
# オートエンコーダを用いた車内作業分類のための車間一般化

Autoencoder Based Inter-Vehicle Generalization for In-Cabin Occupant Classification ( http://arxiv.org/abs/2105.03164v1 )

ライセンス: Link先を確認
Steve Dias Da Cruz and Bertram Taetz and Oliver Wasenm\"uller and Thomas Stifter and Didier Stricker(参考訳) 一般的なドメインシフト問題定式化では、トレーニング中に複数のソースドメイン、あるいはターゲットドメインの統合を検討する。 異なる車室内間での機械学習モデルの一般化に関して、我々は、1台の車両におけるトレーニングの基準を定式化し、モデルが配置される車両の目標分布にアクセスせずに、訓練中に複数の車両にアクセスできないようにした。 後部ベンチにおける乗員分類のためのSVIROデータセットの調査を行い,転送性向上のためのオートエンコーダに基づくアプローチを提案する。 autoencoderは、スクラッチからトレーニングされた場合、一般的に使用される分類モデルと同等であり、大量のデータで事前トレーニングされたモデルを上回る場合もあります。 さらに、オートエンコーダは未知の車両から訓練した車両に画像を変換することができる。 これらの結果は、2つの車内からの実際の赤外線画像の評価によって裏付けられる。

Common domain shift problem formulations consider the integration of multiple source domains, or the target domain during training. Regarding the generalization of machine learning models between different car interiors, we formulate the criterion of training in a single vehicle: without access to the target distribution of the vehicle the model would be deployed to, neither with access to multiple vehicles during training. We performed an investigation on the SVIRO dataset for occupant classification on the rear bench and propose an autoencoder based approach to improve the transferability. The autoencoder is on par with commonly used classification models when trained from scratch and sometimes out-performs models pre-trained on a large amount of data. Moreover, the autoencoder can transform images from unknown vehicles into the vehicle it was trained on. These results are corroborated by an evaluation on real infrared images from two vehicle interiors.
翻訳日:2021-05-10 12:16:16 公開日:2021-05-07
# a^2-fpn:注意アグリゲーションに基づく特徴ピラミッドネットワーク

A^2-FPN: Attention Aggregation based Feature Pyramid Network for Instance Segmentation ( http://arxiv.org/abs/2105.03186v1 )

ライセンス: Link先を確認
Miao Hu and Yali Li and Lu Fang and Shengjin Wang(参考訳) ピラミッド型特徴表現の学習は、異なるスケールでオブジェクトインスタンスを認識するのに不可欠である。 Feature Pyramid Network (FPN)は、高レベルのセマンティクスを備えた機能ピラミッドを構築するための古典的なアーキテクチャである。 しかし、特徴抽出と融合における本質的な欠陥は、FPNがより差別的な特徴をさらに集積することを妨げる。 本研究では,注意誘導特徴集合によるマルチスケール特徴学習を改善するために,アテンションアグリゲーションに基づく特徴ピラミッドネットワーク(a^2-fpn)を提案する。 特徴抽出において,多レベルグローバルな文脈特徴の収集・分散により識別的特徴を抽出し,チャネルの大幅な減少による意味情報の損失を軽減する。 特徴融合では、隣接した特徴から補完的な情報を集約し、コンテンツ認識サンプリングのための位置対応の組換えカーネルを生成し、チャンネルワイドの重み付けを用いて、要素ワイド付加前のセマンティック一貫性を高める。 A^2-FPNは異なるインスタンスセグメンテーションフレームワークで一貫した利得を示す。 Mask R-CNNのFPNをA^2-FPNに置き換えることで、ResNet-50とResNet-101をバックボーンとして使用する場合、その性能を2.1%、マスクAPが1.6%向上する。 さらに、A^2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。

Learning pyramidal feature representations is crucial for recognizing object instances at different scales. Feature Pyramid Network (FPN) is the classic architecture to build a feature pyramid with high-level semantics throughout. However, intrinsic defects in feature extraction and fusion inhibit FPN from further aggregating more discriminative features. In this work, we propose Attention Aggregation based Feature Pyramid Network (A^2-FPN), to improve multi-scale feature learning through attention-guided feature aggregation. In feature extraction, it extracts discriminative features by collecting-distributing multi-level global context features, and mitigates the semantic information loss due to drastically reduced channels. In feature fusion, it aggregates complementary information from adjacent features to generate location-wise reassembly kernels for content-aware sampling, and employs channel-wise reweighting to enhance the semantic consistency before element-wise addition. A^2-FPN shows consistent gains on different instance segmentation frameworks. By replacing FPN with A^2-FPN in Mask R-CNN, our model boosts the performance by 2.1% and 1.6% mask AP when using ResNet-50 and ResNet-101 as backbone, respectively. Moreover, A^2-FPN achieves an improvement of 2.0% and 1.4% mask AP when integrated into the strong baselines such as Cascade Mask R-CNN and Hybrid Task Cascade.
翻訳日:2021-05-10 12:16:02 公開日:2021-05-07
# MOTR:TRansformerによるエンドツーエンド多目的追跡

MOTR: End-to-End Multiple-Object Tracking with TRansformer ( http://arxiv.org/abs/2105.03247v1 )

ライセンス: Link先を確認
Fangao Zeng, Bin Dong, Tiancai Wang, Cheng Chen, Xiangyu Zhang, Yichen Wei(参考訳) マルチオブジェクト追跡(MOT)タスクにおける重要な課題は、トラック中のオブジェクトの時間的モデリングである。 既存のトラッキングバイ検出法は、空間的または外観的類似性のような単純なヒューリスティックを採用する。 このような手法は、共通性にもかかわらず、過剰に単純であり、閉塞による追跡のような複雑なバリエーションをモデル化するには不十分である。 既存の手法ではデータから時間変動を学習する能力がない。 本稿では,最初の完全エンドツーエンドのマルチオブジェクトトラッキングフレームワークMOTRを提案する。 オブジェクトの長距離時間変動をモデル化することを学ぶ。 暗黙的に時間的関連付けを行い、以前の明示的なヒューリスティックを避ける。 Transformer と DETR 上に構築された MOTR は "トラッククエリ" という概念を導入している。 各トラッククエリは、オブジェクトのトラック全体をモデル化する。 オブジェクトの検出と追跡をシームレスに行うために、フレーム単位で転送および更新される。 時間的アグリゲーションネットワークと多フレームトレーニングを組み合わせることで、長距離時間的関係をモデル化する。 実験の結果,motrは最先端のパフォーマンスを達成できた。 コードはhttps://github.com/megvii-model/MOTRで入手できる。

The key challenge in multiple-object tracking (MOT) task is temporal modeling of the object under track. Existing tracking-by-detection methods adopt simple heuristics, such as spatial or appearance similarity. Such methods, in spite of their commonality, are overly simple and insufficient to model complex variations, such as tracking through occlusion. Inherently, existing methods lack the ability to learn temporal variations from data. In this paper, we present MOTR, the first fully end-to-end multiple-object tracking framework. It learns to model the long-range temporal variation of the objects. It performs temporal association implicitly and avoids previous explicit heuristics. Built on Transformer and DETR, MOTR introduces the concept of "track query". Each track query models the entire track of an object. It is transferred and updated frame-by-frame to perform object detection and tracking, in a seamless manner. Temporal aggregation network combined with multi-frame training is proposed to model the long-range temporal relation. Experimental results show that MOTR achieves state-of-the-art performance. Code is available at https://github.com/megvii-model/MOTR.
翻訳日:2021-05-10 12:15:34 公開日:2021-05-07
# 教師なし機能埋め込みのためのインスタンス関係の探索

Exploring Instance Relations for Unsupervised Feature Embedding ( http://arxiv.org/abs/2105.03341v1 )

ライセンス: Link先を確認
Yifei Zhang, Yu Zhou, Weiping Wang(参考訳) 教師なし特徴埋め込み(unsupervised feature embedded)で達成された大きな進歩にもかかわらず、既存のコントラスト学習法は通常、正のサンプルペアを引き寄せて負のサンプルペアを埋め込み空間に忌避しながら、系統的なインスタンス関係の探索を怠りながら、ビュー不変表現を追求する。 本稿では,教師なし特徴埋め込みのインスタンス間マルチビュー関係とインテント間補間関係を含むインスタンス間関係について検討する。 具体的には,インスタンスの異なる拡張サンプルと負のサンプル間の距離分布を整合させることで,インスタンス内マルチビュー関係を埋め込む。 画像サンプル補間のための情報の割合を画素空間から特徴埋め込み空間に移すことで、instance補間関係を考察する。 提案手法はEIRと呼ばれ、単純なyet効果があり、既存のビュー不変のコントラスト学習手法に簡単に挿入できる。 画像分類と検索に関する公開ベンチマークで実施した実験は、最先端または同等の性能である。

Despite the great progress achieved in unsupervised feature embedding, existing contrastive learning methods typically pursue view-invariant representations through attracting positive sample pairs and repelling negative sample pairs in the embedding space, while neglecting to systematically explore instance relations. In this paper, we explore instance relations including intra-instance multi-view relation and inter-instance interpolation relation for unsupervised feature embedding. Specifically, we embed intra-instance multi-view relation by aligning the distribution of the distance between an instance's different augmented samples and negative samples. We explore inter-instance interpolation relation by transferring the ratio of information for image sample interpolation from pixel space to feature embedding space. The proposed approach, referred to as EIR, is simple-yet-effective and can be easily inserted into existing view-invariant contrastive learning based methods. Experiments conducted on public benchmarks for image classification and retrieval report state-of-the-art or comparable performance.
翻訳日:2021-05-10 12:15:22 公開日:2021-05-07
# 忠実性保存をともなう前景誘導顔面インペインティング

Foreground-guided Facial Inpainting with Fidelity Preservation ( http://arxiv.org/abs/2105.03342v1 )

ライセンス: Link先を確認
Jireh Jam, Connah Kendrick, Vincent Drouard, Kevin Walker, Moi Hoon Yap(参考訳) 画像リアリズムのための高忠実性保存を備えた顔画像の塗装は非常に難しい作業である。 これは、簡単に転送できない重要な顔の特徴(成分)の微妙なテクスチャが原因である。 多くの画像塗装技術が、優れた能力と高い定量的性能で提案されている。 しかし, 顔の塗布では特徴が顕著になり, 混合塗布領域の視覚的品質は質的にも重要となる。 これらの事実に基づいて,畳み込みニューラルネットワーク層を用いて顔特徴を抽出・生成できるフォアグラウンド誘導型顔塗工フレームワークを設計した。 前景のセグメンテーションマスクを用いて忠実さを保っている。 具体的には,表情,自然特徴,不自然な特徴(メイクアップ)を意味論的に推論する新たな損失関数を提案する。 我々は,CelebA-HQデータセット,CelebAMask-HQのセグメンテーションマスク(前景誘導用)およびQuick Draw Mask(行方不明地域用)を用いて実験を行った。 提案手法は, 顔成分の高忠実度保存を, 質的に比較すると, 比較して定量的な結果を得た。

Facial image inpainting, with high-fidelity preservation for image realism, is a very challenging task. This is due to the subtle texture in key facial features (component) that are not easily transferable. Many image inpainting techniques have been proposed with outstanding capabilities and high quantitative performances recorded. However, with facial inpainting, the features are more conspicuous and the visual quality of the blended inpainted regions are more important qualitatively. Based on these facts, we design a foreground-guided facial inpainting framework that can extract and generate facial features using convolutional neural network layers. It introduces the use of foreground segmentation masks to preserve the fidelity. Specifically, we propose a new loss function with semantic capability reasoning of facial expressions, natural and unnatural features (make-up). We conduct our experiments using the CelebA-HQ dataset, segmentation masks from CelebAMask-HQ (for foreground guidance) and Quick Draw Mask (for missing regions). Our proposed method achieved comparable quantitative results when compare to the state of the art but qualitatively, it demonstrated high-fidelity preservation of facial components.
翻訳日:2021-05-10 12:15:05 公開日:2021-05-07
# ResMLP:データ効率訓練による画像分類のためのフィードフォワードネットワーク

ResMLP: Feedforward networks for image classification with data-efficient training ( http://arxiv.org/abs/2105.03404v1 )

ライセンス: Link先を確認
Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, Herv\'e J\'egou(参考訳) 画像分類のための多層パーセプトロン上に構築されたアーキテクチャであるResMLPを提案する。 i) 画像パッチが独立に、かつ同一にチャネル間で相互作用する線形層と、(ii) チャネルがパッチ毎に独立に相互作用する2層フィードフォワードネットワークを交換する単純な残留ネットワークである。 大量のデータ提供と任意に蒸留を使って現代的なトレーニング戦略でトレーニングすると、imagenet上で驚くほど精度と複雑さのトレードオフが得られる。 我々はTimライブラリと事前トレーニングされたモデルに基づいてコードを共有します。

We present ResMLP, an architecture built entirely upon multi-layer perceptrons for image classification. It is a simple residual network that alternates (i) a linear layer in which image patches interact, independently and identically across channels, and (ii) a two-layer feed-forward network in which channels interact independently per patch. When trained with a modern training strategy using heavy data-augmentation and optionally distillation, it attains surprisingly good accuracy/complexity trade-offs on ImageNet. We will share our code based on the Timm library and pre-trained models.
翻訳日:2021-05-10 12:14:45 公開日:2021-05-07
# 実行可能区間時間論理仕様

Executable Interval Temporal Logic Specifications ( http://arxiv.org/abs/2105.03375v1 )

ライセンス: Link先を確認
Antonio Cau, Stefan Kuhn, James Hoey(参考訳) 本稿では,実行時時間論理(ITL)仕様の可逆性について検討する。 ITLは、状態の空でないシーケンスとして表される振る舞いの観点から、システムについての推論を可能にする。 異なる抽象化レベルにおけるシステムの仕様化を可能にします。 高いレベルでは、この仕様はプロパティ、例えば安全性と生存性の観点から定義されている。 具体的なレベルでは、プログラミング構成の観点からシステムを指定することができる。 これらの具体的な仕様、すなわちシステムの振る舞いをテストし、シミュレートすることができる。 本稿では,この ITL 仕様の実行可能性の概念を定式化する。 ITLはまた、逆動作の推論を可能にするリフレクション演算子も備えている。 我々は、実行可能なIPL仕様の可逆性、すなわち、このリフレクション演算子を用いて特定のシステムの具体的な振る舞いを反転させる方法について検討する。

In this paper the reversibility of executable Interval Temporal Logic (ITL) specifications is investigated. ITL allows for the reasoning about systems in terms of behaviours which are represented as non-empty sequences of states. It allows for the specification of systems at different levels of abstraction. At a high level this specification is in terms of properties, for instance safety and liveness properties. At concrete level one can specify a system in terms of programming constructs. One can execute these concrete specification, i.e., test and simulate the behaviour of the system. In this paper we will formalise this notion of executability of ITL specifications. ITL also has a reflection operator which allows for the reasoning about reversed behaviours. We will investigate the reversibility of executable ITL specifications, i.e., how one can use this reflection operator to reverse the concrete behaviour of a particular system.
翻訳日:2021-05-10 12:14:19 公開日:2021-05-07
# ペアワイズ学習におけるディファレンシャルプライバシ:非凸解析

Differential Privacy for Pairwise Learning: Non-convex Analysis ( http://arxiv.org/abs/2105.03033v1 )

ライセンス: Link先を確認
Yilin Kang, Yong Liu, Jian Li, Weiping Wang(参考訳) ペアワイズ学習は、ペアのトレーニングインスタンスに依存し、ペアのサンプル間の関係をモデル化するのに自然に適合するペアワイズ損失関数による学習タスクに焦点を当てる。 本稿では,ペアワイズ学習のプライバシに着目し,勾配摂動に基づくペアワイズ学習のための新たな差分プライバシーパラダイムを提案する。 我々は、$\ell_2$-sensitivity と moments accountant の2つの視点からプライバシー保証を分析する。 さらに,提案手法の一般化誤差,過剰な経験的リスク,過剰な集団リスクを解析し,対応する限界を与える。 ペアワイズ微分プライバシーにアルゴリズム的安定性理論を導入することで、この理論解析では凸対損失関数は不要となり、これは凸条件と非凸条件の両方に一般化することを意味する。 このような状況下では、ユーティリティ境界は凸性や強い凸性仮定の下での以前の境界よりも優れており、これは魅力的な結果である。

Pairwise learning focuses on learning tasks with pairwise loss functions, which depend on pairs of training instances, and naturally fits for modeling relationships between pairs of samples. In this paper, we focus on the privacy of pairwise learning and propose a new differential privacy paradigm for pairwise learning, based on gradient perturbation. We analyze the privacy guarantees from two points of view: the $\ell_2$-sensitivity and the moments accountant method. We further analyze the generalization error, the excess empirical risk, and the excess population risk of our proposed method and give corresponding bounds. By introducing algorithmic stability theory to pairwise differential privacy, our theoretical analysis does not require convex pairwise loss functions, which means that our method is general to both convex and non-convex conditions. Under these circumstances, the utility bounds are better than previous bounds under convexity or strongly convexity assumption, which is an attractive result.
翻訳日:2021-05-10 12:13:51 公開日:2021-05-07
# ConCAD:睡眠時無呼吸検出のためのコントラスト学習に基づくクロスアテンション

ConCAD: Contrastive Learning-based Cross Attention for Sleep Apnea Detection ( http://arxiv.org/abs/2105.03037v1 )

ライセンス: Link先を確認
Guanjie Huang and Fenglong Ma(参考訳) 近年のディープラーニング手法の進歩により、元のデータから深い特徴を自動的に学習する手法が、効果的かつ広く普及しつつある。 しかし、手作りの知識ベースの機能はまだ洞察に富んでいる。 これらの専門家による特徴は、モデルの一般化を増大させ、2つのパターン間の時間間隔など、いくつかのデータ特性のモデルを思い出させる。 これは、通常データが制限され複雑である、臨床的に関連のあるデータを扱うタスクにおいて特に有利である。 暗黙の深い機能と専門家による明確な機能の両方をまとめるには、効果的な融合戦略が不可欠である。 本研究では,特定の臨床応用,すなわち睡眠時無呼吸検出に焦点をあてる。 そこで本研究では睡眠時無呼吸検出のためのコントラスト学習に基づくクロスアテンションフレームワークを提案する。 クロスアテンション機構は、その重要性に基づいて自動的にアテンション重みを割り当てることで、深い機能と専門機能とを融合させることができる。 コントラスト学習は、各クラスのインスタンスを親密に保ち、埋め込み空間内の異なるクラスからインスタンスをプッシュすることで、より良い表現を学ぶことができる。 さらに,教師付きコントラスト損失とクロスエントロピー損失を融合することにより,コントラスト学習と分類を同時に行うように設計された。 提案フレームワークは,標準ディープラーニングモデルに容易に統合でき,専門家の知識とコントラスト学習を活用し,パフォーマンスを向上させる。 睡眠時無呼吸アノテーションを持つ2つのパブリックECGデータセットで示されているように、ConCADは検出性能を大幅に改善し、最先端のベンチマーク手法より優れている。

With recent advancements in deep learning methods, automatically learning deep features from the original data is becoming an effective and widespread approach. However, the hand-crafted expert knowledge-based features are still insightful. These expert-curated features can increase the model's generalization and remind the model of some data characteristics, such as the time interval between two patterns. It is particularly advantageous in tasks with the clinically-relevant data, where the data are usually limited and complex. To keep both implicit deep features and expert-curated explicit features together, an effective fusion strategy is becoming indispensable. In this work, we focus on a specific clinical application, i.e., sleep apnea detection. In this context, we propose a contrastive learning-based cross attention framework for sleep apnea detection (named ConCAD). The cross attention mechanism can fuse the deep and expert features by automatically assigning attention weights based on their importance. Contrastive learning can learn better representations by keeping the instances of each class closer and pushing away instances from different classes in the embedding space concurrently. Furthermore, a new hybrid loss is designed to simultaneously conduct contrastive learning and classification by integrating a supervised contrastive loss with a cross-entropy loss. Our proposed framework can be easily integrated into standard deep learning models to utilize expert knowledge and contrastive learning to boost performance. As demonstrated on two public ECG dataset with sleep apnea annotation, ConCAD significantly improves the detection performance and outperforms state-of-art benchmark methods.
翻訳日:2021-05-10 12:13:36 公開日:2021-05-07
# CFDシミュレーションの計算コスト削減のためのFVMネットワーク

FVM Network to Reduce Computational Cost of CFD Simulation ( http://arxiv.org/abs/2105.03332v1 )

ライセンス: Link先を確認
Joongoo Jeon, Sung Joong Kim(参考訳) CPU性能の急激な向上にもかかわらず、化学反応する流れをシミュレートする計算コストは、多くの場合まだ実現不可能である。 ニューラルネットワークモデルを用いてCFDシミュレーションを高速化する研究はほとんどない。 しかし,マルチステップCFD時系列データの予測は依然として困難である。 多くのCFD符号の基本原理である有限体積法(FVM)は、以前のネットワークモデルでは十分に考慮されていないようである。 本研究では,fvmの原理を階層入力およびデリバティブ出力システムでシミュレートするfvmネットワーク(fvmn)を提案する。 このベースラインモデルの性能を非定常反応フローデータセットを用いて評価した。 FVMNの最大相対誤差(0.04%)は、トレーニングデータセットの一般モデル(1.12%)よりもはるかに小さいことが確認された。 このエラーサイズの違いは、予測データセットでより顕著だった。 また,FVMNの計算速度は,同じCPU条件下でもCFDソルバよりも約10倍高速であった。 基底真理データとの相対誤差は, 提案モデルでは有意に減少したが, 線形に増加する勾配誤差は, 長い過渡計算では残る問題である。 そこで我々は,交流計算によりcfdシミュレーションを効果的に高速化できる機械学習支援cfdフレームワークを提案する。

Despite the rapid growth of CPU performance, the computational cost to simulate the chemically reacting flow is still infeasible in many cases. There are few studies to accelerate the CFD simulation by using neural network models. However, they noted that it is still difficult to predict multi-step CFD time series data. The finite volume method (FVM) which is the basic principle of most CFD codes seems not to be sufficiently considered in the previous network models. In this study, a FVM network (FVMN) which simulate the principles of FVM by the tier-input and derivative-output system was proposed. The performance of this baseline model was evaluated using unsteady reacting flow datasets. It was confirmed that the maximum relative error of the FVMN (0.04%) was much smaller than the general model (1.12%) in the training dataset. This difference in error size was more prominent in the prediction datasets. In addition, it was observed that the calculation speed was about 10 times faster in FVMN than CFD solver even under the same CPU condition. Although the relative error with the ground truth data was significantly reduced in the proposed model, the linearly increasing gradient error is a remaining issue in longer transient calculations. Therefore, we additionally suggested Machine learning aided CFD framework which can substantially accelerate the CFD simulation through alternating computations.
翻訳日:2021-05-10 12:13:12 公開日:2021-05-07
# fashion after fashion: a report of ai in fashion

fAshIon after fashion: A Report of AI in Fashion ( http://arxiv.org/abs/2105.03050v1 )

ライセンス: Link先を確認
Xingxing Zou, Waikeung Wong(参考訳) ファッション後の独立レポートfAshIonにおいて、ファッションにおけるfAshIon(AI)の発展について検討し、その可能性を探り、近い将来、ファッション産業の大きなディスラプターとなる。 そこで,ファッション業界で使用されているAI技術について,いくつかのレンズを用いて検討する。 我々は,過去10年間に行われたfAshIon研究を要約し,概観,評価,基本技術,販売,スタイリング,デザイン,購入の7つのグループに分類した。 fAshIonリサーチで言及されているデータセットは、使いやすくするために、GitHubページに統合されている。 本研究は,fAshIon研究の背景を明らかにするため,著者の背景と地理的地域を分析した。 本分析の結果は,fAshIonにおける研究の全体像を研究者に提供するためのものである。 我々の主要な研究の一環として、ファッション業界における応用ファッションの幅広い事例をレビューし、その産業、市場、個人への影響を分析した。 また,fAshIonの課題を特定し,今後の研究の基盤となる可能性も示唆した。 最終的に私たちは、ai技術が埋め込まれたファッション産業を変革し、利益を上げることができるファッションにおけるaiの利用に、多くの潜在的な機会が存在することを示しています。

In this independent report fAshIon after fashion, we examine the development of fAshIon (artificial intelligence (AI) in fashion) and explore its potentiality to become a major disruptor of the fashion industry in the near future. To do this, we investigate AI technologies used in the fashion industry through several lenses. We summarise fAshIon studies conducted over the past decade and categorise them into seven groups: Overview, Evaluation, Basic Tech, Selling, Styling, Design, and Buying. The datasets mentioned in fAshIon research have been consolidated on one GitHub page for ease of use. We analyse the authors' backgrounds and the geographic regions treated in these studies to determine the landscape of fAshIon research. The results of our analysis are presented with an aim to provide researchers with a holistic view of research in fAshIon. As part of our primary research, we also review a wide range of cases of applied fAshIon in the fashion industry and analyse their impact on the industry, markets and individuals. We also identify the challenges presented by fAshIon and suggest that these may form the basis for future research. We finally exhibit that many potential opportunities exist for the use of AI in fashion which can transform the fashion industry embedded with AI technologies and boost profits.
翻訳日:2021-05-10 12:12:51 公開日:2021-05-07
# 動的マルチエージェントシステムの情報設計

Informational Design of Dynamic Multi-Agent System ( http://arxiv.org/abs/2105.03052v1 )

ライセンス: Link先を確認
Tao Zhang and Quanyan Zhu(参考訳) 本研究は,新しい情報設計問題を検討し,知的エージェントの行動にのみ影響するペイオフ関連環境信号の手法について検討する。 エージェントの戦略的相互作用は、各エージェントが複数の信号源から1つの環境信号を追加のペイオフ関連情報として選択し、次にアクションを取る不完全情報マルコフゲームによってキャプチャされる。 1つの信号源を持ち、エージェントに送られたシグナルの情報構造を設計することによってエージェントの平衡挙動を制御することを目的とした合理的情報デザイナー(原則)が存在する。 設計プロセスがエージェントの戦略選択行動の予測を避けるように、情報設計がプリンシパルが送信する信号を選択するよう各エージェントにインセンティブを与えるとき、直接情報設計に焦点を合わせることは一般性を失うことなく行われるという従属原理が確立されている。 従順性原理に基づき、従順性実装性(OIL)と呼ばれるプリンシパルの目標を与えられた設計プロトコルを導入し、従順性マルコフ完全ベイズ平衡(O-SMPBE)のクラスでOILを特徴付けるマイアソン情報設計について検討する。 提案手法は, エージェントがプリンシパルから送られてくる信号を選択することを動機付ける固定点アライメント(固定点アライメント)として, エージェントの行動方針プロファイルがO-SMPBEの政策成分であることを確認し, プリンシパルの目標を達成するための枠組みを提案する。 提案手法は,競争におけるマルチエージェントシステムの望ましい行動や,協調的な設定,完全および不完全情報環境における異種確率ゲームへの拡張に応用できる。

This work considers a novel information design problem and studies how the craft of payoff-relevant environmental signals solely can influence the behaviors of intelligent agents. The agents' strategic interactions are captured by an incomplete-information Markov game, in which each agent first selects one environmental signal from multiple signal sources as additional payoff-relevant information and then takes an action. There is a rational information designer (principal) who possesses one signal source and aims to control the equilibrium behaviors of the agents by designing the information structure of her signals sent to the agents. An obedient principle is established which states that it is without loss of generality to focus on the direct information design when the information design incentivizes each agent to select the signal sent by the principal, such that the design process avoids the predictions of the agents' strategic selection behaviors. Based on the obedient principle, we introduce the design protocol given a goal of the principal referred to as obedient implementability (OIL) and study a Myersonian information design that characterizes the OIL in a class of obedient sequential Markov perfect Bayesian equilibria (O-SMPBE). A framework is proposed based on an approach which we refer to as the fixed-point alignment that incentivizes the agents to choose the signal sent by the principal, makes sure that the agents' policy profile of taking actions is the policy component of an O-SMPBE, and the principal's goal is achieved. The proposed approach can be applied to elicit desired behaviors of multi-agent systems in competing as well as cooperating settings and be extended to heterogeneous stochastic games in the complete- and the incomplete-information environments.
翻訳日:2021-05-10 12:12:30 公開日:2021-05-07
# ランダム化探索ヒューリスティック解析のための拡張ジャンプ関数ベンチマーク

An Extended Jump Function Benchmark for the Analysis of Randomized Search Heuristics ( http://arxiv.org/abs/2105.03090v1 )

ライセンス: Link先を確認
Henry Bambury, Antoine Bultel, Benjamin Doerr(参考訳) ジャンプ関数はランダム化探索ヒューリスティック、特に進化アルゴリズム(eas)の理論において最も研究されている非ユニモーダルベンチマークである。 彼らは、EAが地域最適化からどのように逃れるかについての理解を著しく改善しました。 しかし、その特定の構造 -- 局所的な最適性を残すことは、グローバルな最適性に直接ジャンプするしかなく -- は、そのような結果がどの程度代表的であるかという疑問を提起する。 そこで本稿では,全球最適値から距離$k$で出発する幅の低適合性谷を含むジャンプ関数の拡張クラス$\textsc{jump}_{k,\delta}$を提案する。 すべての$k = o(n^{1/3})$ と $\delta < k$ に対して、$(1+1)$~ea の最適な突然変異率は$\frac{\delta}{n}$ であり、速い $(1+1)$~ea は、従来の$(1+1)$~ea よりも、$\delta$ で超指数的に速い。 しかし、いくつかの既知の結果が一般化していないことも観察している: スタグネーション検出を伴うランダム化局所探索アルゴリズムは、いくつかの$\textsc{jump}_{k,\delta}$インスタンスで$k$ on $\textsc{jump}_k$の係数多項式による高速$(1+1)$~eaよりも高速である。 計算の面では、この新クラスはより広いフィットネス・バレーでの実験を可能にする。

Jump functions are the most studied non-unimodal benchmark in the theory of randomized search heuristics, in particular, evolutionary algorithms (EAs). They have significantly improved our understanding of how EAs escape from local optima. However, their particular structure -- to leave the local optimum one can only jump directly to the global optimum -- raises the question of how representative such results are. For this reason, we propose an extended class $\textsc{Jump}_{k,\delta}$ of jump functions that contain a valley of low fitness of width $\delta$ starting at distance $k$ from the global optimum. We prove that several previous results extend to this more general class: for all $k = o(n^{1/3})$ and $\delta < k$, the optimal mutation rate for the $(1+1)$~EA is $\frac{\delta}{n}$, and the fast $(1+1)$~EA runs faster than the classical $(1+1)$~EA by a factor super-exponential in $\delta$. However, we also observe that some known results do not generalize: the randomized local search algorithm with stagnation detection, which is faster than the fast $(1+1)$~EA by a factor polynomial in $k$ on $\textsc{Jump}_k$, is slower by a factor polynomial in $n$ on some $\textsc{Jump}_{k,\delta}$ instances. Computationally, the new class allows experiments with wider fitness valleys, especially when they lie further away from the global optimum.
翻訳日:2021-05-10 12:11:57 公開日:2021-05-07
# オンライン電力系統セキュリティ評価のための多変量密度予測手法

A Multivariate Density Forecast Approach for Online Power System Security Assessment ( http://arxiv.org/abs/2105.03047v1 )

ライセンス: Link先を確認
Zichao Meng, Ye Guo, Wenjun Tang, Hongbin Sun, Wenqi Huang(参考訳) 本稿では,電力系統における複数のセキュリティマージンの積算分布関数(JCDF)を予測するために,ディープラーニングに基づく多変量密度予測モデルを構築した。 既存の多変量密度予測モデルとは異なり,提案手法では予測対象の分布を事前仮定する必要がなくなる。 さらに、ニューラルネットワークの普遍近似能力に基づいて、提案手法の値領域が全ての連続JCDFを含むことが証明されている。 予測されたJCDFは、将来の電力系統のセキュリティレベルを評価する決定論的セキュリティ評価指標を計算するためにさらに使用される。 現在の多変量密度予測モデルよりも提案手法が優れていることを検証する。 決定論的セキュリティ評価指標は、セキュリティマージンよりもオペレーターにとって有益であることが示されている。

A multivariate density forecast model based on deep learning is designed in this paper to forecast the joint cumulative distribution functions (JCDFs) of multiple security margins in power systems. Differing from existing multivariate density forecast models, the proposed method requires no a priori hypotheses on the distribution of forecasting targets. In addition, based on the universal approximation capability of neural networks, the value domain of the proposed approach has been proven to include all continuous JCDFs. The forecasted JCDF is further employed to calculate the deterministic security assessment index evaluating the security level of future power system operations. Numerical tests verify the superiority of the proposed method over current multivariate density forecast models. The deterministic security assessment index is demonstrated to be more informative for operators than security margins as well.
翻訳日:2021-05-10 12:11:26 公開日:2021-05-07
# 汎用解を用いたワークフロー満足度問題の解法

Solving the Workflow Satisfiability Problem using General Purpose Solvers ( http://arxiv.org/abs/2105.03273v1 )

ライセンス: Link先を確認
Daniel Karapetyan and Gregory Gutin(参考訳) ワークフロー満足性問題(workflow satisfiability problem, wsp)は、ワークフロー仕様の制約に従うワークフローの各ステップに権限のあるユーザの割り当てを求めるアクセス制御において、よく研究されている問題である。 WSPの現実世界のインスタンスのユーザ数と比較すると、通常$k$のステップ数は小さいため、WSPパラメトリド複雑性研究のパラメータとして$k$が考慮されている。 WSPは一般にW[1]ハードであることが示されているが、ユーザ非依存(UI)の制約が固定パラメータ(FPT)であることに制限されている。 しかし、ui制約の制限は実用的でないかもしれない。 非ui制約を効率的に処理するために,制約の分岐係数の概念を導入する。 制約の分岐係数が比較的小さく、UI以外の制約の数が妥当である限り、WSPはFPT時間で解決できる。 Karapetyanらによる結果の拡張。 (2019) では, 適切な定式化を用いた場合, 任意の制約でWSP上でFPTライクな性能を達成できることが実証された。 これにより、実用的なWSPインスタンスのほとんどに取り組むことができます。 それ自体は重要であるが、この結果が、他のFPT問題のFPT対応式を探す動機になることを期待している。

The workflow satisfiability problem (WSP) is a well-studied problem in access control seeking allocation of authorised users to every step of the workflow, subject to workflow specification constraints. It was noticed that the number $k$ of steps is typically small compared to the number of users in the real-world instances of WSP; therefore $k$ is considered as the parameter in WSP parametrised complexity research. While WSP in general was shown to be W[1]-hard, WSP restricted to a special case of user-independent (UI) constraints is fixed-parameter tractable (FPT). However, restriction to the UI constraints might be impractical. To efficiently handle non-UI constraints, we introduce the notion of branching factor of a constraint. As long as the branching factors of the constraints are relatively small and the number of non-UI constraints is reasonable, WSP can be solved in FPT time. Extending the results from Karapetyan et al. (2019), we demonstrate that general-purpose solvers are capable of achieving FPT-like performance on WSP with arbitrary constraints when used with appropriate formulations. This enables one to tackle most of practical WSP instances. While important on its own, we hope that this result will also motivate researchers to look for FPT-aware formulations of other FPT problems.
翻訳日:2021-05-10 12:11:13 公開日:2021-05-07
# 眼底網膜画像における多中心緑内障分類のための自己適応移動学習

Self-Adaptive Transfer Learning for Multicenter Glaucoma Classification in Fundus Retina Images ( http://arxiv.org/abs/2105.03068v1 )

ライセンス: Link先を確認
Yiming Bao, Jun Wang, Tong Li, Linyan Wang, Jianwei Xu, Juan Ye and Dahong Qian(参考訳) 緑内障の早期診断とスクリーニングは、患者が治療を受け、視力を維持するために重要である。 近年,網膜眼底画像からの緑内障のコンピュータ診断(CAD)にディープラーニング(DL)を用いたモデルが成功している。 しかし、ある病院センターからのデータセットを用いて事前訓練されたDLモデルは、別の病院センターからのデータセットの性能が劣る可能性があるため、実際の現場での応用は限られている。 本稿では,マルチセンターデータセット間の領域ギャップを埋めるために,自己適応型転送学習(SATL)戦略を提案する。 具体的には、ソースドメイン上で事前訓練されたDLモデルのエンコーダを使用して、再構成モデルのエンコーダを初期化する。 そして、対象領域からのラベル付き画像データのみを用いて再構成モデルを訓練し、モデル内のエンコーダを適応させ、ターゲット領域の画像エンコーディングと緑内障分類の両方に有用な高次特徴を同時に抽出する。 実験の結果,SATL法はプライベートおよび2つの公共緑内障診断データセット間の領域適応に有効であることが示された。 pri-RFG, REFUGE, LAG。 さらに、提案した戦略は、実際のシーンアプリケーションとプライバシ保護ポリシーを満たすソースドメインデータから完全に独立している。

The early diagnosis and screening of glaucoma are important for patients to receive treatment in time and maintain eyesight. Nowadays, deep learning (DL) based models have been successfully used for computer-aided diagnosis (CAD) of glaucoma from retina fundus images. However, a DL model pre-trained using a dataset from one hospital center may have poor performance on a dataset from another new hospital center and therefore its applications in the real scene are limited. In this paper, we propose a self-adaptive transfer learning (SATL) strategy to fill the domain gap between multicenter datasets. Specifically, the encoder of a DL model that is pre-trained on the source domain is used to initialize the encoder of a reconstruction model. Then, the reconstruction model is trained using only unlabeled image data from the target domain, which makes the encoder in the model adapt itself to extract useful high-level features both for target domain images encoding and glaucoma classification, simultaneously. Experimental results demonstrate that the proposed SATL strategy is effective in the domain adaptation task between a private and two public glaucoma diagnosis datasets, i.e. pri-RFG, REFUGE, and LAG. Moreover, the proposed strategy is completely independent of the source domain data, which meets the real scene application and the privacy protection policy.
翻訳日:2021-05-10 12:10:53 公開日:2021-05-07
# 実世界のカテゴリーレベル調音ポーズ推定に向けて

Towards Real-World Category-level Articulation Pose Estimation ( http://arxiv.org/abs/2105.03260v1 )

ライセンス: Link先を確認
Liu Liu, Han Xue, Wenqiang Xu, Haoyuan Fu, Cewu Lu(参考訳) 人間の生活は明瞭な物体で占められている。 現在のカテゴリーレベルのArticulation Pose Estimation (CAPE) 法は, 各カテゴリに対して一定の運動構造を持つ単一インスタンス環境下で研究されている。 これらの制約を考慮して,この問題を実環境環境に適用し,cape-real(caper)タスク設定を提案する。 この設定により、意味圏内の様々なキネマティック構造が可能となり、実世界の観察において複数のインスタンスが共存する。 このタスクを支援するために,ReArt-48 を用いたモデルリポジトリを構築し,Fast Articulated Object Modeling (FAOM) と Semi-Authentic MixEd Reality Technique (SAMERT) を含む効率的なデータセット生成パイプラインを提案する。 パイプラインと合わせて、大規模な混合現実データセットReArtMixと現実世界データセットReArtValを構築します。 また,RGB-Dインプットを有効活用して,複数インスタンスの複数ポーズを1回のフォワードパスで推定するフレームワークReArtNOCSを提案する。 大規模な実験により、提案されたReArtNOCSは、CAPERとCAPEの両方で優れた性能を達成できることが示された。 CAPERタスクの今後の研究の強力なベースラインとして機能すると考えています。

Human life is populated with articulated objects. Current Category-level Articulation Pose Estimation (CAPE) methods are studied under the single-instance setting with a fixed kinematic structure for each category. Considering these limitations, we reform this problem setting for real-world environments and suggest a CAPE-Real (CAPER) task setting. This setting allows varied kinematic structures within a semantic category, and multiple instances to co-exist in an observation of real world. To support this task, we build an articulated model repository ReArt-48 and present an efficient dataset generation pipeline, which contains Fast Articulated Object Modeling (FAOM) and Semi-Authentic MixEd Reality Technique (SAMERT). Accompanying the pipeline, we build a large-scale mixed reality dataset ReArtMix and a real world dataset ReArtVal. We also propose an effective framework ReArtNOCS that exploits RGB-D input to estimate part-level pose for multiple instances in a single forward pass. Extensive experiments demonstrate that the proposed ReArtNOCS can achieve good performance on both CAPER and CAPE settings. We believe it could serve as a strong baseline for future research on the CAPER task.
翻訳日:2021-05-10 12:10:33 公開日:2021-05-07
# LINN:リフティングにインスパイアされた画像認識のための可逆ニューラルネットワーク

LINN: Lifting Inspired Invertible Neural Network for Image Denoising ( http://arxiv.org/abs/2105.03303v1 )

ライセンス: Link先を確認
Jun-Jie Huang, Pier Luigi Dragotti(参考訳) 本稿では,変換型デノナイジングフレームワークに着想を得た画像デノナイジング(DnINN)のための可逆ニューラルネットワークを提案する。 提案したDnINNは、ウェーブレット理論のリフトスキームにインスパイアされたLINNと呼ばれる可逆ニューラルネットワークと、変換係数からノイズを取り除くために使用される疎性駆動型デノナイジングネットワークから構成される。 消音動作は、単一のソフトスレッディング動作または学習された反復収縮しきい値ネットワークで行う。 LINNの前方通過は、デノナイズに適したオーバーコンプリート表現を生成する。 消音画像は、消音ネットワークの出力を用いてlinnの後方パスを用いて再構成される。 シミュレーションの結果,提案手法は学習可能なパラメータの1/4しか必要とせず,DnCNN法と同等の結果が得られることがわかった。

In this paper, we propose an invertible neural network for image denoising (DnINN) inspired by the transform-based denoising framework. The proposed DnINN consists of an invertible neural network called LINN whose architecture is inspired by the lifting scheme in wavelet theory and a sparsity-driven denoising network which is used to remove noise from the transform coefficients. The denoising operation is performed with a single soft-thresholding operation or with a learned iterative shrinkage thresholding network. The forward pass of LINN produces an over-complete representation which is more suitable for denoising. The denoised image is reconstructed using the backward pass of LINN using the output of the denoising network. The simulation results show that the proposed DnINN method achieves results comparable to the DnCNN method while only requiring 1/4 of learnable parameters.
翻訳日:2021-05-10 12:10:11 公開日:2021-05-07
# ランベック前群は序列のフロベニウスクモである

Lambek pregroups are Frobenius spiders in preorders ( http://arxiv.org/abs/2105.03038v1 )

ライセンス: Link先を確認
Dusko Pavlovic(参考訳) スパイダー(Spider)は、数学、物理学、計算機科学の基本構造である*特殊フロベニウス代数*のあだ名である。 ※前群*は言語学の基本構造である。 プリグループとスパイダーは自然言語処理で一緒に使われてきた:一つは構文、もう一つは意味論である。 先行群自体が、文法から自然に生じる事前順序付き関係の圏における尖ったクモとして特徴づけられることが判明した。 逆に、一般的なスパイダー代数は前群結合として特徴づけることができる。 これは集合上のスパイダー代数の特徴づけを拡張し、関係をアーベル群の非連結和として拡張する。 その結果から,機械学習とデータ解析の基盤構造を理解し,適用するための新たな手法が示唆された。

"Spider" is a nickname of *special Frobenius algebras*, a fundamental structure from mathematics, physics, and computer science. *Pregroups* are a fundamental structure from linguistics. Pregroups and spiders have been used together in natural language processing: one for syntax, the other for semantics. It turns out that pregroups themselves can be characterized as pointed spiders in the category of preordered relations, where they naturally arise from grammars. The other way around, general spider algebras can be characterized as pregroup unions. This extends the characterization of spider algebras over sets and relations as disjoint unions of abelian groups. The compositional framework that emerged with the results suggests new ways to understand and apply the basis structures in machine learning and data analysis.
翻訳日:2021-05-10 12:09:54 公開日:2021-05-07
# $r$-値:分布シフトに対する安定性の評価

The $r$-value: evaluating stability with respect to distributional shifts ( http://arxiv.org/abs/2105.03067v1 )

ライセンス: Link先を確認
Suyash Gupta and Dominik Rothenh\"ausler(参考訳) p$値や信頼区間のような不確実性の一般的な統計指標は、サンプリングによる不確実性、すなわち全人口を観測しない不確実性を定量化する。 実際には、人口は場所や時間によって変化する。 これにより、データセット間で伝達される知識の収集が困難になる。 そこで本稿では,Kulback-Liebler分散球における一般分布摂動下でのパラメータの感度について,統計的推定値の分布不確かさを定量化する不確実性尺度を提案する。 信号対雑音比が小さい場合、分布の不確かさは信号対雑音比の単調変換である。 しかし、一般的には別の概念であり、異なる研究問題に対応している。 さらに,指向性あるいは可変固有シフトに関して,パラメータの安定性を推定する手法を提案する。 また, 分散不確実性の測定値を用いてデータ収集を優先順位付けし, シフト分布下での統計的パラメータの精度向上を図る。 提案手法の有効性をシミュレーションや実データで評価し,特定のシフトに対する推定器の分布(in-)安定性を解明し,シフト分布からの限られた情報のみを収集するだけで,シフト分布下のパラメータをより正確に推定できることを示す。

Common statistical measures of uncertainty like $p$-values and confidence intervals quantify the uncertainty due to sampling, that is, the uncertainty due to not observing the full population. In practice, populations change between locations and across time. This makes it difficult to gather knowledge that transfers across data sets. We propose a measure of uncertainty that quantifies the distributional uncertainty of a statistical estimand with respect to Kullback-Liebler divergence, that is, the sensitivity of the parameter under general distributional perturbations within a Kullback-Liebler divergence ball. If the signal-to-noise ratio is small, distributional uncertainty is a monotonous transformation of the signal-to-noise ratio. In general, however, it is a different concept and corresponds to a different research question. Further, we propose measures to estimate the stability of parameters with respect to directional or variable-specific shifts. We also demonstrate how the measure of distributional uncertainty can be used to prioritize data collection for better estimation of statistical parameters under shifted distribution. We evaluate the performance of the proposed measure in simulations and real data and show that it can elucidate the distributional (in-)stability of an estimator with respect to certain shifts and give more accurate estimates of parameters under shifted distribution only requiring to collect limited information from the shifted distribution.
翻訳日:2021-05-10 12:09:42 公開日:2021-05-07
# CoDE: デモエンコーディングのためのコロケーション

CoDE: Collocation for Demonstration Encoding ( http://arxiv.org/abs/2105.03019v1 )

ライセンス: Link先を確認
Mandy Xie, Anqi Li, Karl Van Wyk, Frank Dellaert, Byron Boots, Nathan Ratliff(参考訳) ロボット工学者は、データ効率的なポリシー学習のために、しばしば模倣学習(il)に目を向ける。 データセットアグリゲーション(dagger)に関する独創的な研究によって正統化された多くのilメソッドは、oracleの専門家を紹介することで、古いビヘイビアクローン(bc)メソッドによる分散シフト問題と戦う。 残念ながら、oracleの専門家へのアクセスはしばしば非現実的であり、データはリードスルーや遠隔操作のような手動のオフラインメソッドから来ることが多い。 本稿では,実験的リスク最小化として学習をモデル化することにより,軌道デモの固定セットのみで動作するcolocation for demonstration encoding (code)と呼ばれるデータ効率の高い模倣学習手法を提案する。 最適制御におけるコロケーション技術から着想を得た補助軌道網を導入することにより,時間的問題による問題点を回避した。 我々の手法は、標準的なBC法よりもはるかにデータ効率が高い。 本研究では,効率的なテーブルトップ操作のための7自由度ロボットマニピュレータ学習法について実験を行った。

Roboticists frequently turn to Imitation learning (IL) for data efficient policy learning. Many IL methods, canonicalized by the seminal work on Dataset Aggregation (DAgger), combat distributional shift issues with older Behavior Cloning (BC) methods by introducing oracle experts. Unfortunately, access to oracle experts is often unrealistic in practice; data frequently comes from manual offline methods such as lead-through or teleoperation. We present a data-efficient imitation learning technique called Collocation for Demonstration Encoding (CoDE) that operates on only a fixed set of trajectory demonstrations by modeling learning as empirical risk minimization. We circumvent problematic back-propagation through time problems by introducing an auxiliary trajectory network taking inspiration from collocation techniques in optimal control. Our method generalizes well and is much more data efficient than standard BC methods. We present experiments on a 7-degree-of-freedom (DoF) robotic manipulator learning behavior shaping policies for efficient tabletop operation.
翻訳日:2021-05-10 12:09:19 公開日:2021-05-07
# サウジアラビアにおける日中新型コロナウイルスの気象影響 : 機械学習を用いた検討

Weather impact on daily cases of COVID-19 in Saudi Arabia using machine learning ( http://arxiv.org/abs/2105.03027v1 )

ライセンス: Link先を確認
Abdullah Alsuhaibani and Abdulrahman Alhaidari(参考訳) 新型コロナウイルスは世界保健機関(WHO)によって世界的なパンデミックとして発表された。 感染拡大の重大さは、各国の医療能力や強制ロックダウンといった様々な要因によって決定される。 しかし、国の気候が感染者数に寄与する要因であるかどうかは明らかではない。 本稿では,サウジアラビアの89都市における新型コロナウイルスと気象の関係について,機械学習技術を用いて検討する。 サウジアラビア厚生労働省の日報を用いて、新型コロナウイルスの感染者に関するデータを収集・前処理し、報告された日報と一致した過去の気象データを入手した。 モデルのトレーニングと評価に使用するデータの事前処理と準備を行った。 以上の結果から,気温と風速はパンデミックの広がりと最も強い相関関係にあることが示唆された。 私たちの主な貢献は、データ収集、前処理、日々のケースの予測です。 すべての試験モデルに対して,K=5のK折りのクロスバリデーションを用いた。 我々の最良のモデルは、平均平方誤差(MSE)、ルート平均誤差(RMSE)、平均絶対誤差(MAE)、R{2}(97.30, 9.86, 1.85, 82.3\%)を持つランダム森林である。

COVID-19 was announced by the World Health Organisation (WHO) as a global pandemic. The severity of the disease spread is determined by various factors such as the countries' health care capacity and the enforced lockdown. However, it is not clear if a country's climate acts as a contributing factor towards the number of infected cases. This paper aims to examine the relationship between COVID-19 and the weather of 89 cities in Saudi Arabia using machine learning techniques. We compiled and preprocessed data using the official daily report of the Ministry of Health of Saudi Arabia for COVID-19 cases and obtained historical weather data aligned with the reported case daily reports. We preprocessed and prepared the data to be used in models' training and evaluation. Our results show that temperature and wind have the strongest association with the spread of the pandemic. Our main contribution is data collection, preprocessing, and prediction of daily cases. For all tested models, we used cross-validation of K-fold of K=5. Our best model is the random forest that has a Mean Square Error(MSE), Root Mean Square (RMSE), Mean Absolute Error (MAE), and R{2} of 97.30, 9.86, 1.85, and 82.3\%, respectively.
翻訳日:2021-05-10 12:09:02 公開日:2021-05-07
# PEMNET: 転移学習に基づく高温高分子電解質膜電気化学系のモデリング手法

PEMNET: A Transfer Learning-based Modeling Approach of High-Temperature Polymer Electrolyte Membrane Electrochemical Systems ( http://arxiv.org/abs/2105.03057v1 )

ライセンス: Link先を確認
Luis A. Briceno-Mena and Christopher G. Arges and Jose A. Romagnoli(参考訳) 高温高分子電解質膜燃料電池(HT-PEMFC)とHT-PEM電気化学水素ポンプ(HT-PEM ECHP)の幅広い採用には、正確なスケールアップと最適化を提供するモデルと計算ツールが必要である。 知識に基づくモデリングには時間を要するため限界があり、常に利用できないシステムに関する情報(材料特性や異なる材料間の界面挙動など)を必要とする。 一方、データ駆動モデリングは実装が容易ですが、多くの場合、取得が難しい大きなデータセットを必要とします。 この貢献において、知識に基づくモデリングとデータ駆動モデリングは、Few-Shot Learning(FSL)アプローチを実装することで一意に結合される。 HT-PEMFC用に開発された知識ベースモデルを用いて、シミュレーションデータ(887,735点)を生成し、ニューラルネットワークのソースモデルを事前訓練した。 さらに,HT-PEMFCs向けに開発されたソースモデルは,燃料電池に類似した材料を利用する別の電気化学系であるHT-PEM ECHPsに適用された。 HT-PEMFCとHT-PEM ECHPの異なる材料と操作条件(それぞれ50ポイント)から得られた実験データセットを用いて、FSLを介して8つのターゲットモデルを訓練した。 RRMSEはHT-PEMCの1.04から3.73%、HT-PEM ECHPの6.38から8.46%)。

Widespread adoption of high-temperature polymer electrolyte membrane fuel cells (HT-PEMFCs) and HT-PEM electrochemical hydrogen pumps (HT-PEM ECHPs) requires models and computational tools that provide accurate scale-up and optimization. Knowledge-based modeling has limitations as it is time consuming and requires information about the system that is not always available (e.g., material properties and interfacial behavior between different materials). Data-driven modeling on the other hand, is easier to implement, but often necessitates large datasets that could be difficult to obtain. In this contribution, knowledge-based modeling and data-driven modeling are uniquely combined by implementing a Few-Shot Learning (FSL) approach. A knowledge-based model originally developed for a HT-PEMFC was used to generate simulated data (887,735 points) and used to pretrain a neural network source model. Furthermore, the source model developed for HT-PEMFCs was successfully applied to HT-PEM ECHPs - a different electrochemical system that utilizes similar materials to the fuel cell. Experimental datasets from both HT-PEMFCs and HT-PEM ECHPs with different materials and operating conditions (~50 points each) were used to train 8 target models via FSL. Models for the unseen data reached high accuracies in all cases (rRMSE between 1.04 and 3.73% for HT-PEMCs and between 6.38 and 8.46% for HT-PEM ECHPs).
翻訳日:2021-05-10 12:08:41 公開日:2021-05-07
# AnNETTE: 積み重ねモデルによる正確なニューラルネットワーク実行時間推定

ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked Models ( http://arxiv.org/abs/2105.03176v1 )

ライセンス: Link先を確認
Matthias Wess, Matvey Ivanov, Anvesh Nookala, Christoph Unger, Alexander Wendt, Axel Jantsch(参考訳) DNNの新しいアクセラレータハードウェアにより、AIアプリケーションの計算能力は急速に向上した。 しかし、DNNアルゴリズムがより複雑になり、特定のアプリケーションに最適化されるにつれて、レイテンシ要件は依然として困難であり、設計領域で最適な点を見つけることが重要である。 対象ハードウェアからアーキテクチャ検索を分離するために,ハードウェアアクセラレータ上でのdnnの推論遅延をマッピングと層別推定モデルに基づいてモデル化できる時間推定フレームワークを提案する。 提案手法は,マイクロカーネルおよび多層ベンチマークからモデル群を抽出し,マッピングおよびネットワーク実行時間推定のためのスタックモデルを生成する。 本研究では, 生成した混合モデルの推定精度と忠実度, 屋上モデルと統計モデル, 改良された屋根上モデルを比較して評価する。 我々は、DNNDKとIntel Neural Compute Stick 2でZCU102 SoCボード上で、12の最先端ニューラルネットワーク上で混合モデルを検証した。 平均推定誤差はDNNDKが3.47%、NCS2が7.44%であり、ほぼ全ての選択されたネットワークの統計層と分析層モデルを上回っている。 NASBenchデータセットの34ネットワークのランダムに選択されたサブセットに対して、混合モデルはスピアマンのランク相関係数の 0.988 の忠実度に達する。 ANNETTEのコードはhttps://github.com/embedded-machine-learning/annetteで公開されている。

With new accelerator hardware for DNN, the computing power for AI applications has increased rapidly. However, as DNN algorithms become more complex and optimized for specific applications, latency requirements remain challenging, and it is critical to find the optimal points in the design space. To decouple the architectural search from the target hardware, we propose a time estimation framework that allows for modeling the inference latency of DNNs on hardware accelerators based on mapping and layer-wise estimation models. The proposed methodology extracts a set of models from micro-kernel and multi-layer benchmarks and generates a stacked model for mapping and network execution time estimation. We compare estimation accuracy and fidelity of the generated mixed models, statistical models with the roofline model, and a refined roofline model for evaluation. We test the mixed models on the ZCU102 SoC board with DNNDK and Intel Neural Compute Stick 2 on a set of 12 state-of-the-art neural networks. It shows an average estimation error of 3.47% for the DNNDK and 7.44% for the NCS2, outperforming the statistical and analytical layer models for almost all selected networks. For a randomly selected subset of 34 networks of the NASBench dataset, the mixed model reaches fidelity of 0.988 in Spearman's rank correlation coefficient metric. The code of ANNETTE is publicly available at https://github.com/embedded-machine-learning/annette.
翻訳日:2021-05-10 12:08:14 公開日:2021-05-07
# 高齢者健康の高次元軌跡に対する解釈型機械学習

Interpretable machine learning for high-dimensional trajectories of aging health ( http://arxiv.org/abs/2105.03410v1 )

ライセンス: Link先を確認
Spencer Farrell, Arnold Mitnitski, Kenneth Rockwood, Andrew Rutenberg(参考訳) 我々は、身体的、機能的、生物学的な変数を含む、健康と生存の個人的高齢軌跡の計算モデルを構築し、人口統計学、生活習慣学、医学的背景情報に基づく。 健康変数を確率力学系内の明示的なペアワイズ相互作用によって結合する,現代的な機械学習技術と解釈可能なインタラクションネットワークを組み合わせる。 我々のモデルは, 大規模縦断データに対してスケーラブルであり, 個別の高次元健康軌道の予測, 基本健康状態からの生存, および健康変数間の相互関係の解釈可能なネットワークを推定する。 このネットワークは、健康変数と強く結びついたヒース変数のクラスターとの間の、もっともらしい生理的つながりを識別する。 老化データ(elsa)を英語の縦断研究によって学習し,健康状態や生存率について,専用線形モデルよりも優れた性能を示す。 我々のモデルは、現実的な年齢の合成個体を生成し、欠落したデータをインプットし、任意の初期健康状態が与えられた将来の老化結果をシミュレートするためにも利用できる。

We have built a computational model for individual aging trajectories of health and survival, which contains physical, functional, and biological variables, and is conditioned on demographic, lifestyle, and medical background information. We combine techniques of modern machine learning with an interpretable interaction network, where health variables are coupled by explicit pair-wise interactions within a stochastic dynamical system. Our model is scalable to large longitudinal data sets, is predictive of individual high-dimensional health trajectories and survival from baseline health states, and infers an interpretable network of directed interactions between the health variables. The network identifies plausible physiological connections between health variables and clusters of strongly connected heath variables. We use English Longitudinal Study of Aging (ELSA) data to train our model and show that it performs better than dedicated linear models for health outcomes and survival. Our model can also be used to generate synthetic individuals that age realistically, to impute missing data, and to simulate future aging outcomes given arbitrary initial health states.
翻訳日:2021-05-10 12:07:39 公開日:2021-05-07
# 機械学習におけるハイブリッド・フェデレーションと集中型学習アーキテクチャの一家族

A Family of Hybrid Federated and Centralized Learning Architectures in Machine Learning ( http://arxiv.org/abs/2105.03288v1 )

ライセンス: Link先を確認
Ahmet M. Elbir and Sinem Coleri(参考訳) 機械学習タスクの多くは、クライアントからパラメータサーバ(PS)へのローカルデータセットの送信を必要とする集中型学習(CL)に焦点を当てている。 これを解決するために、フェデレーション学習(fl)は有望なツールであり、クライアントはデータセット全体ではなく、モデル更新のみをpsに送信する。 しかし、FLはクライアントから強力な計算資源を要求する。 したがって、計算リソースが十分でなければ、すべてのクライアントがトレーニングに参加できるわけではない。 この問題に対処するために,より実用的なアプローチであるハイブリッドフェデレーション・集中型学習(hfcl)を導入し,十分なリソースを持つクライアントのみがflを採用し,残りのクライアントはpsにデータセットを送信し,モデルに代えて計算を行う。 そして、すべてのクライアントに対応するモデルパラメータをPSに集約する。 データセット伝送の効率を向上させるために,クライアント毎の計算量の増加とシーケンシャルなデータ伝送の2つの手法を提案する。 hfclフレームワークは、すべてのクライアントがデータセットと学習プロセスでコラボレーションするため、clよりも50〜%少ない通信オーバーヘッドを持ちながら、クライアントの半分がflを実行するだけで、学習精度が最大20〜%向上するflを上回っている。

Many of the machine learning tasks focus on centralized learning (CL), which requires the transmission of local datasets from the clients to a parameter server (PS) entailing huge communication overhead. To overcome this, federated learning (FL) has been a promising tool, wherein the clients send only the model updates to the PS instead of the whole dataset. However, FL demands powerful computational resources from the clients. Therefore, not all the clients can participate in training if they do not have enough computational resources. To address this issue, we introduce a more practical approach called hybrid federated and centralized learning (HFCL), wherein only the clients with sufficient resources employ FL, while the remaining ones send their datasets to the PS, which computes the model on behalf of them. Then, the model parameters corresponding to all clients are aggregated at the PS. To improve the efficiency of dataset transmission, we propose two different techniques: increased computation-per-client and sequential data transmission. The HFCL frameworks outperform FL with up to $20\%$ improvement in the learning accuracy when only half of the clients perform FL while having $50\%$ less communication overhead than CL since all the clients collaborate on the learning process with their datasets.
翻訳日:2021-05-10 12:07:02 公開日:2021-05-07
# ソーシャルメディアに基づくファッショントレンド予測のための複数関係の活用

Leveraging Multiple Relations for Fashion TrendForecasting Based on Social Media ( http://arxiv.org/abs/2105.03299v1 )

ライセンス: Link先を確認
Yujuan Ding, Yunshan Ma, Lizi Liao, Wai Keung Wong, Tat-Seng Chua(参考訳) ファッショントレンド予測は、ファッション企業とファッション愛好者の両方に有用な提案を提供する上で、非常に重要な研究である。 この困難な課題に取り組むために様々な研究がなされてきたが、彼らは非常に季節的あるいは単純なパターンの限られたファッション要素しか研究しておらず、実際の複雑なファッショントレンドは明らかではない。 さらに、このタスクのメインストリームソリューションは依然として統計ベースであり、予測精度を制限する時系列データモデリングのみに焦点を当てている。 洞察に富んだファッショントレンド予測に向けて、以前の研究 [1] は、ファッショントレンドを情報的に示すことのできる、よりきめ細かいファッション要素を分析することを提案した。 具体的には、ソーシャルメディアデータに基づく特定のユーザーグループに対する、ファッション要素の詳細なトレンド予測に焦点を当てた。 さらに,ファッショントレンドモデリングと予測の問題に対処するために,ニューラルネットワークに基づく手法であるkernを提案した。 本研究では,先行研究を拡張すべく,Relation Enhanced Attention Recurrent(REAR)ネットワークという改良モデルを提案する。 KERNと比較して、REARモデルはファッション要素間の関係だけでなく、ユーザグループ間の関係も活用し、様々なファッショントレンド間の相関関係をより多く捉える。 長距離トレンド予測の性能をさらに向上するため,REAR法では,将来の地平線における時間的パターンをよりよく捉えることができるすべり時間的注意機構を考案した。 FITおよびGeoStyleデータセットを用いて、REARの性能を評価するための大規模な実験およびさらなる分析を行った。 KERNと比較してREARの改善を示すファッショントレンド予測におけるREARモデルの有効性を実験的および解析的に実証した。

Fashion trend forecasting is of great research significance in providing useful suggestions for both fashion companies and fashion lovers. Although various studies have been devoted to tackling this challenging task, they only studied limited fashion elements with highly seasonal or simple patterns, which could hardly reveal the real complex fashion trends. Moreover, the mainstream solutions for this task are still statistical-based and solely focus on time-series data modeling, which limit the forecast accuracy. Towards insightful fashion trend forecasting, previous work [1] proposed to analyze more fine-grained fashion elements which can informatively reveal fashion trends. Specifically, it focused on detailed fashion element trend forecasting for specific user groups based on social media data. In addition, it proposed a neural network-based method, namely KERN, to address the problem of fashion trend modeling and forecasting. In this work, to extend the previous work, we propose an improved model named Relation Enhanced Attention Recurrent (REAR) network. Compared to KERN, the REAR model leverages not only the relations among fashion elements but also those among user groups, thus capturing more types of correlations among various fashion trends. To further improve the performance of long-range trend forecasting, the REAR method devises a sliding temporal attention mechanism, which is able to capture temporal patterns on future horizons better. Extensive experiments and more analysis have been conducted on the FIT and GeoStyle datasets to evaluate the performance of REAR. Experimental and analytical results demonstrate the effectiveness of the proposed REAR model in fashion trend forecasting, which also show the improvement of REAR compared to the KERN.
翻訳日:2021-05-10 12:06:37 公開日:2021-05-07
# 静的コードアナライザを用いたオープンソースリポジトリのセキュリティ修正検出

Detecting Security Fixes in Open-Source Repositories using Static Code Analyzers ( http://arxiv.org/abs/2105.03346v1 )

ライセンス: Link先を確認
Therese Fehrer, Roc\'io Cabrera Lozoya, Antonino Sabetta, Dario Di Nucci, Damian A. Tamburri(参考訳) オープンソースソフトウェア(OSS)に影響を与える脆弱性に関する信頼性の高いコードレベルの情報のソースは乏しいため、コードレベルの検出と、脆弱なOSS依存関係の評価を提供する高度なツールの広範な採用を妨げる。 本稿では,機械学習(ML)アプリケーションにおけるコミットを表現する機能として,既製の静的コードアナライザの出力がどの程度使用されるかを検討する。 特に,埋め込みの構築やMLモデルをトレーニングして,脆弱性修正を含むソースコードコミットを自動的に識別する方法について検討する。 セキュリティ関連および非セキュリティ関連コミットに対するそのような埋め込みを分析し、統計的に重要な方法では違いはないが、芸術の状況に匹敵する結果を得られるMLパイプラインを構築するためにそれらを使用することは可能であることを示す。 私たちはまた、当社のメソッドとcommit2vecの組み合わせは、脆弱性を修正するコミットの自動識別における、技術の現状に対する明確な改善を意味していることを発見しました。

The sources of reliable, code-level information about vulnerabilities that affect open-source software (OSS) are scarce, which hinders a broad adoption of advanced tools that provide code-level detection and assessment of vulnerable OSS dependencies. In this paper, we study the extent to which the output of off-the-shelf static code analyzers can be used as a source of features to represent commits in Machine Learning (ML) applications. In particular, we investigate how such features can be used to construct embeddings and train ML models to automatically identify source code commits that contain vulnerability fixes. We analyze such embeddings for security-relevant and non-security-relevant commits, and we show that, although in isolation they are not different in a statistically significant manner, it is possible to use them to construct a ML pipeline that achieves results comparable with the state of the art. We also found that the combination of our method with commit2vec represents a tangible improvement over the state of the art in the automatic identification of commits that fix vulnerabilities: the ML models we construct and commit2vec are complementary, the former being more generally applicable, albeit not as accurate.
翻訳日:2021-05-10 12:06:11 公開日:2021-05-07