このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210505となっている論文です。

PDF登録状況(公開日: 20210505)

TitleAuthorsAbstract論文公表日・翻訳日
# ナビゲーションアプリの道路交通汚染:脅威と対策

Road Traffic Poisoning of Navigation Apps: Threats and Countermeasures ( http://arxiv.org/abs/2002.05051v3 )

ライセンス: Link先を確認
Simone Raponi, Savio Sciancalepore, Gabriele Oligeri, Roberto Di Pietro(参考訳) Assisted-navigationアプリケーションは私たちの日常生活に重要な影響を与えます。 しかし、仮想化技術とSoftware-Defined Radiosの技術の進歩により、道路交通中毒という新たな攻撃ベクトルが実現された。 これらの攻撃は、この貢献に対処するいくつかの恐ろしいシナリオを開き、関連する課題を特定し、革新的な対策を提案する。

Assisted-navigation applications have a relevant impact on our daily life. However, technological progress in virtualization technologies and Software-Defined Radios recently enabled new attack vectors, namely, road traffic poisoning. These attacks open up several dreadful scenarios, which are addressed in this contribution by identifying the associated challenges and proposing innovative countermeasures.
翻訳日:2023-06-03 21:23:11 公開日:2021-05-05
# 固定核を持つ電子と光子の半相対論的$N$ボディ量子力学

Semi-relativistic $N$-body quantum mechanics of electrons and photons, with fixed nuclei ( http://arxiv.org/abs/2002.11106v2 )

ライセンス: Link先を確認
Michael K.-H. Kiessling(参考訳) It is argued that by the end of the 1920s a quantum-mechanical model could have been in place, that not only produces the atomic and molecular energy levels of the many-body Pauli equation with Coulomb interactions and external classical electro- and magneto-static fields without putting these interactions in by hand, but that also accurately describes the interaction of charged particles with electromagnetic radiation, in particular the transitions between atomic or molecular energy levels associated with emission or absorption of radiation. このモデルは、時空におけるマクスウェルの電磁場方程式の再解釈を、光子と電子のX配置空間における波動方程式の量子力学的期待値として提案する。 光子の生成/消滅形式論は、古典的マクスウェル方程式を第二量子化することなく現れ、生成/消滅の概念を含まずに、この形式論の別の物理的解釈を示唆する。 さらに、このモデルは、ローレンツ共変ではない基本顕微鏡モデルから、マクロ物理学モデルのローレンツ共変が多数の法則を通して現れることを示唆している。

It is argued that by the end of the 1920s a quantum-mechanical model could have been in place, that not only produces the atomic and molecular energy levels of the many-body Pauli equation with Coulomb interactions and external classical electro- and magneto-static fields without putting these interactions in by hand, but that also accurately describes the interaction of charged particles with electromagnetic radiation, in particular the transitions between atomic or molecular energy levels associated with emission or absorption of radiation. This model suggests a re-interpretation of Maxwell's electromagnetic field equations on spacetime as quantum-mechanical expected values of wave equations on time X configuration space for photons and electrons. The creation / annihilation formalism for photons emerges without invoking second-quantizing the classical Maxwell equations, and without involving the concept of creation / annihilation, thus suggesting an alternative physical interpretation of this formalism. Furthermore, the model suggests that Lorentz covariance of macroscopic physics models emerges through a law of large numbers from a fundamental microscopic model that is not itself Lorentz covariant.
翻訳日:2023-06-02 04:57:23 公開日:2021-05-05
# ダイヤモンド中のシリコン空洞中心

Hidden Silicon-Vacancy Centers in Diamond ( http://arxiv.org/abs/2006.02323v3 )

ライセンス: Link先を確認
Christopher L. Smallwood, Ronald Ulbricht, Matthew W. Day, Tim Schr\"oder, Kelsey M. Bates, Travis M. Autry, Geoffrey Diederich, Edward Bielejec, Mark E. Siemens, and Steven T. Cundiff(参考訳) ダイヤモンド中の負荷電シリコン空孔(siv$^-$)中心の高密度試料をコリニア光多次元コヒーレント分光法を用いて特徴付ける。 補完的信号検出方式の結果を比較することで、光発光では一般的に観測されない、スペクトル不均一性や拡張電子的$t_2$倍の隠れた集団を同定する。 この現象は、色中心ベースの量子デバイスにおける電気コヒーレンスを制御する潜在的なメカニズムを示すひずみによって引き起こされる可能性が高い。

We characterize a high-density sample of negatively charged silicon-vacancy (SiV$^-$) centers in diamond using collinear optical multidimensional coherent spectroscopy. By comparing the results of complementary signal detection schemes, we identify a hidden population of \ce{SiV^-} centers that is not typically observed in photoluminescence, and which exhibits significant spectral inhomogeneity and extended electronic $T_2$ times. The phenomenon is likely caused by strain, indicating a potential mechanism for controlling electric coherence in color-center-based quantum devices.
翻訳日:2023-05-17 06:40:34 公開日:2021-05-05
# 位相相の3+1次元ゲージ模型におけるガッピング境界と弦状励起

Gapped boundaries and string-like excitations in (3+1)d gauge models of topological phases ( http://arxiv.org/abs/2006.06536v2 )

ライセンス: Link先を確認
Alex Bullivant, Clement Delcamp(参考訳) 3+1)d Dijkgraaf-Witten理論の格子ハミルトン実現について検討する。 バルクループ状励起に加えて、ハミルトニアンはガッピング境界で終わるバルクダイニック弦状励起を生じる。 チューブ代数アプローチを用いて、そのような励起を分類し、対応する表現理論を導出する。 次元還元論を通じて、このチューブ代数を、2つのガッピング境界の間の界面における(2+1)d境界点様励起を記述するものと関連付ける。 このような点状励起は、入力核融合圏上の加群圏の双カテゴリに符号化されることはよく知られている。 この対応を利用して、ガッピング境界で終わる弦のような励起をエンコードする双圏を定義し、群格付き2-ベクトル空間の入力双圏の中心の部分双圏であることを示す。 このプロセスでは,3+1dにおけるギャップ付き境界が,この入力二圏上のいわゆる擬代数オブジェクトによってラベル付けされるかを説明する。

We study lattice Hamiltonian realisations of (3+1)d Dijkgraaf-Witten theory with gapped boundaries. In addition to the bulk loop-like excitations, the Hamiltonian yields bulk dyonic string-like excitations that terminate at gapped boundaries. Using a tube algebra approach, we classify such excitations and derive the corresponding representation theory. Via a dimensional reduction argument, we relate this tube algebra to that describing (2+1)d boundary point-like excitations at interfaces between two gapped boundaries. Such point-like excitations are well known to be encoded into a bicategory of module categories over the input fusion category. Exploiting this correspondence, we define a bicategory that encodes the string-like excitations ending at gapped boundaries, showing that it is a sub-bicategory of the centre of the input bicategory of group-graded 2-vector spaces. In the process, we explain how gapped boundaries in (3+1)d can be labelled by so-called pseudo-algebra objects over this input bicategory.
翻訳日:2023-05-16 00:29:03 公開日:2021-05-05
# 情報理論原理からのエントロピーと相対エントロピー

Entropy and relative entropy from information-theoretic principles ( http://arxiv.org/abs/2006.11164v2 )

ライセンス: Link先を確認
Gilad Gour, Marco Tomamichel(参考訳) エントロピーと相対エントロピーに対する公理的アプローチを導入する。これは最小情報理論の公理、すなわち混合およびデータ処理における単調性、および積分布に対する添加性にのみ依存する。 これらの公理は、確率単純かつ有意な上界と下界の内部における連続性を確立するのに十分な構造、例えば、すべての相対エントロピーが次数 0$ と $\infty$ の R'enyi 分岐の間にあることが分かる。 さらに、そのような相対的エントロピーの正定性に対する単純な条件と、相対的トラッピングの変種の観点からのキャラクタリゼーションを示す。 我々の主な結果は、エントロピーと相対エントロピーの1対1対応である。

We introduce an axiomatic approach to entropies and relative entropies that relies only on minimal information-theoretic axioms, namely monotonicity under mixing and data-processing as well as additivity for product distributions. We find that these axioms induce sufficient structure to establish continuity in the interior of the probability simplex and meaningful upper and lower bounds, e.g., we find that every relative entropy must lie between the R\'enyi divergences of order $0$ and $\infty$. We further show simple conditions for positive definiteness of such relative entropies and a characterisation in term of a variant of relative trumping. Our main result is a one-to-one correspondence between entropies and relative entropies.
翻訳日:2023-05-13 11:23:18 公開日:2021-05-05
# バルク結晶の3波混合による光子対源の絡み合い

Entangled Photon-Pair Sources based on three-wave mixing in bulk crystals ( http://arxiv.org/abs/2007.15364v2 )

ライセンス: Link先を確認
Ali Anwar, Chithrabhanu Perumangatt, Fabian Steinlechner, Thomas Jennewein and Alexander Ling(参考訳) 絡み合った光子対は量子鍵分布からテレポーテーションまで、量子通信プロトコルにおいて重要な資源である。 現在の光子対の製造技術は、バルク非線形結晶における自然パラメトリックダウン変換(SPDC)によるものである。 量子ネットワークの隆盛により、展開可能な高性能な光子ペア源への興味が高まっている。 この原稿は、連続波ポンプを用いたバルク光学系spd源の最先端のレビューを提供し、デプロイメント構築における主要な考慮事項について論じている。

Entangled photon-pairs are a critical resource in quantum communication protocols ranging from quantum key distribution to teleportation. The current workhorse technique for producing photon-pairs is via spontaneous parametric down conversion (SPDC) in bulk nonlinear crystals. The increased prominence of quantum networks has led to growing interest in deployable high performance entangled photon-pair sources. This manuscript provides a review of the state-of-the-art for bulk-optics-based SPDC sources with continuous wave pump, and discusses some of the main considerations when building for deployment.
翻訳日:2023-05-07 18:29:09 公開日:2021-05-05
# 単核融合カテゴリのスキーイン理論法

Skein-Theoretic Methods for Unitary Fusion Categories ( http://arxiv.org/abs/2008.07129v3 )

ライセンス: Link先を確認
Anup Poudel and Sachin J. Valera(参考訳) ユニタリ融合圏(UFC)は、量子物理学との結びつきによって注目されている。 ufc $\mathcal{c}$ において、$q\otimes q \cong \mathbf{1}\oplus\bigoplus^k_{i=1}x_{i}$ という形の融合規則を検討し、グラフ計算を用いて情報を抽出する。 例えば、$k=1,2$ と $\mathcal{c}$ がリボンであるときに、関連するすべてのスケイン関係を分類する。 特に、$q$ が反対称的に自己双対である場合を考える。 主な結果は、回転作用素の作用を「カノニカル基底」として考慮することである。 サムマンズ $x_{i}$ の自己双対性を仮定すると、例えば $f$-matrix $f^{qq}_q$ の実対称性のような一般的な観測が行われる。 次に、$k=2$ および $\mathcal{C}$ がリボンであるとき、$F^{qqq}_q$ の明示的な公式を見つけ、回転作用素のスペクトルがカウフマン多項式とドゥブロヴニク多項式を区別することを確認する。

Unitary fusion categories (UFCs) have gained increased attention due to emerging connections with quantum physics. We consider a fusion rule of the form $q\otimes q \cong \mathbf{1}\oplus\bigoplus^k_{i=1}x_{i}$ in a UFC $\mathcal{C}$, and extract information using the graphical calculus. For instance, we classify all associated skein relations when $k=1,2$ and $\mathcal{C}$ is ribbon. In particular, we also consider the instances where $q$ is antisymmetrically self-dual. Our main results follow from considering the action of a rotation operator on a "canonical basis". Assuming self-duality of the summands $x_{i}$, some general observations are made e.g. the real-symmetricity of the $F$-matrix $F^{qqq}_q$. We then find explicit formulae for $F^{qqq}_q$ when $k=2$ and $\mathcal{C}$ is ribbon, and see that the spectrum of the rotation operator distinguishes between the Kauffman and Dubrovnik polynomials.
翻訳日:2023-05-06 01:19:26 公開日:2021-05-05
# 非標準相互作用による3つのフレーバーニュートリノ振動におけるレゲット・ガーグの不等式違反の強化

Enhanced violation of Leggett-Garg Inequality in three flavour neutrino oscillations via non-standard interactions ( http://arxiv.org/abs/2009.12328v2 )

ライセンス: Link先を確認
Sheeba Shafaq and Poonam Mehta(参考訳) ニュートリノ振動は非ゼロ質量と混合によって起こり、最も重要なことは天体距離スケールでも量子コヒーレンスを維持すると信じられている。 本研究では,非標準相互作用を考慮した場合のレゲット・ガーグ不等式違反の程度を調べることにより,3つのフレーバーニュートリノ振動の量子性を検討する。 NSIパラメータの適切な選択に関する標準シナリオに関して,LGI違反の増大を報告した。

Neutrino oscillations occur due to non-zero masses and mixings and most importantly they are believed to maintain quantum coherence even over astrophysical length scales. In the present study, we explore the quantumness of three flavour neutrino oscillations by studying the extent of violation of Leggett-Garg inequalities (LGI) if non-standard interactions are taken into account. We report an enhancement in violation of LGI with respect to the standard scenario for appropriate choice of NSI parameters.
翻訳日:2023-05-01 00:31:10 公開日:2021-05-05
# マルチコピー適応型局所識別:最強2ビット非局所基底

Multi-copy adaptive local discrimination: Strongest possible two-qubit nonlocal bases ( http://arxiv.org/abs/2011.09287v2 )

ライセンス: Link先を確認
Manik Banik, Tamal Guha, Mir Alimuddin, Guruprasad Kar, Saronath Halder, Some Sankar Bhattacharya(参考訳) 複合量子状態の集合は、その最適識別が大域的な操作を必要とするという意味で非局所的な振る舞いを示すことができる。 しかし、N 対直交純状態を含むこのようなアンサンブルは、状態の (N-1) コピーが利用可能であれば、常に適応的局所スキームの下で完全に区別することができる。 この手紙では、適応的識別が状態の3コピーを必要とする2量子ヒルベルト空間における正規直交基底の例を示す。 本システムでは,正規直交アンサンブルのマルチコピー適応的局所的識別性を全一般性で解析し,各アンサンブルに異なる非局所強度を割り当てる。 また,適応分離スキームに基づく識別では,適応局所スキームよりもコピー数が少なくなるアンサンブルを考案した。 提案手法は多部構成の秘密共有タスクにおいて重要であり, 局所的にアクセス可能な情報に対して, 興味をそそるスーパーアダクティビティ現象を示すものである。

Ensembles of composite quantum states can exhibit nonlocal behaviour in the sense that their optimal discrimination may require global operations. Such an ensemble containing N pairwise orthogonal pure states, however, can always be perfectly distinguished under adaptive local scheme if (N-1) copies of the state are available. In this letter, we provide examples of orthonormal bases in two-qubit Hilbert space whose adaptive discrimination require 3 copies of the state. For this composite system we analyze multi-copy adaptive local distinguishability of orthogonal ensembles in full generality which in turn assigns varying nonlocal strength to different such ensembles. We also come up with ensembles whose discrimination under adaptive separable scheme require less number of copies than adaptive local schemes. Our construction finds important application in multipartite secret sharing tasks and indicates towards an intriguing super-additivity phenomenon for locally accessible information.
翻訳日:2023-04-23 19:17:01 公開日:2021-05-05
# 一般超伝導量子回路シミュレーションのための自由モード除去とモードデカップリング

Free Mode Removal and Mode Decoupling for Simulating General Superconducting Quantum Circuits ( http://arxiv.org/abs/2011.10564v3 )

ライセンス: Link先を確認
Dawei Ding, Hsiang-Sheng Ku, Yaoyun Shi, Hui-Hai Zhao(参考訳) 超伝導量子回路は、普遍量子コンピュータの主要な候補の1つである。 新規な量子ビットおよび多ビット超伝導回路の設計には、一般的な回路の特性をシミュレートし解析する能力が必要である。 特に、トランスモン的アプローチの外部では、非調和性の仮定はできないので、ブラックボックス量子化アプローチを前置し、形式回路量子化アプローチを必要とする。 我々は、一般超伝導回路のシミュレーションに関する2つの問題を考察し、解決する。 問題の1つは、回路における自由モード、すなわちハミルトニアンの潜在的項を持たない回路モードの取り扱いである。 別の問題は、回路サイズ、すなわち、強く結合されたマルチモード回路をシミュレートする課題である。 これらの問題に対処するために我々が使う主要な数学的ツールは、量子力学の設定における線形正準変換である。 本稿では,自由モードを他の回路モードから完全に切り離す線形正準変換を行うことにより,自由モードを除去するための証明可能なアルゴリズムを提案する。 二つ目は、一連の異なる線形正準変換を与え、中間結合を減らし、弱結合のケースに問題を還元し、古典シミュレーションのオーバーヘッドを大幅に軽減することで解決する。 我々は、2つの帰納結合フラクソニウム量子ビットの回路にそれらを適用し、シミュレートする必要があるヒルベルト空間の大きさを数桁削減することで、デカップリング法をベンチマークする。

Superconducting quantum circuits is one of the leading candidates for a universal quantum computer. Designing novel qubit and multiqubit superconducting circuits requires the ability to simulate and analyze the properties of a general circuit. In particular, going outside the transmon approach, we cannot make assumptions on anharmonicity, thus precluding blackbox quantization approaches and necessitating the formal circuit quantization approach. We consider and solve two issues involved in simulating general superconducting circuits. One of the issues is the handling of free modes in the circuit, that is, circuit modes with no potential term in the Hamiltonian. Another issue is circuit size, namely the challenge of simulating strongly coupled multimode circuits. The main mathematical tool we use to address these issues is the linear canonical transformation in the setting of quantum mechanics. We address the first issue by giving a provably correct algorithm for removing free modes by performing a linear canonical transformation to completely decouple the free modes from other circuit modes. We address the second by giving a series of different linear canonical transformations to reduce intermode couplings, thereby reducing the problem to the weakly coupled case and greatly mitigating the overhead for classical simulation. We benchmark our decoupling methods by applying them to the circuit of two inductively coupled fluxonium qubits, obtaining several orders of magnitude reduction in the size of the Hilbert space that needs to be simulated.
翻訳日:2023-04-23 14:43:50 公開日:2021-05-05
# 熱エンジンの最大出力:非対称相互作用時間の役割

Maximal power for heat engines: role of asymmetric interaction times ( http://arxiv.org/abs/2012.09296v2 )

ライセンス: Link先を確認
Pedro E. Harunari, Fernando S. Filho, Carlos E. Fiore, and Alexandre Rosas(参考訳) 有限パワーで動作する可逆熱機械の性能は、非平衡古典的および量子熱力学、工学などの主な課題の1つである。 エンジン性能を最適化するためにインタラクション時間非対称性を調整するという考え方を導入する。 最も単純な熱機械の1つは、熱と粒子の2つの異なる貯留層と順次相互作用する量子ドットからなる。 固有最適化プロトコルは確率的熱力学の枠組みで解析される。 その結果、非対称相互作用時間は電力出力の増大に基礎的な役割を果たし、最大化は対称の場合の25\%よりも大きい増加をもたらすことが判明した。 余分な利点として、最大出力での効率は、幅広い貯水池温度に対する可逆的なカーゾン=オールボーン効率よりも若干大きい。

The performance of endoreversible thermal machines operating at finite power constitutes one of the main challenges of nonequilibrium classical and quantum thermodynamics, engineering and others. We introduce the idea of adjusting the interaction time asymmetry in order to optimize the engine performance. We consider one of the simplest thermal machines, composed of a quantum dot interacting sequentially with two different reservoirs of heat and particles. Distinct optimization protocols are analyzed in the framework of stochastic thermodynamics. Results reveal that asymmetric interaction times play a fundamental role in enhancing the power output and that maximizations can provide an increase larger than 25\% the symmetric case. As an extra advantage, efficiencies at maximum power are slightly greater than the endoreversible Curzon-Ahlborn efficiency for a broad range of reservoir temperatures.
翻訳日:2023-04-20 10:54:30 公開日:2021-05-05
# 神経進化はあなたの微分方程式を正確に解けるか?

Can Transfer Neuroevolution Tractably Solve Your Differential Equations? ( http://arxiv.org/abs/2101.01998v2 )

ライセンス: Link先を確認
Jian Cheng Wong, Abhishek Gupta, Yew-Soon Ong(参考訳) 本稿では,微分方程式を解くための神経進化について述べる。 この解は、微分方程式の残差項によって損失関数が定義されるディープニューラルネットワークを最適化することで得られる。 近年の研究では、確率勾配勾配(SGD)の変種を通した物理情報ニューラルネットワークの学習に焦点が当てられているが、最適化の課題により正確な解を得るのが困難である。 微分方程式の解法では、サンプル外一般化ではなく、ネットワークのグローバルな最適パラメータを見つけるという問題に直面している。 単一の勾配方向に沿って探索するSGDは、局所的な最適点に閉じ込められやすいため、ここでは最良のアプローチではないかもしれない。 対照的に、神経進化は局所最適を回避することを目的として多様な解の並列探索を行う。 最適化されたニューラルネットワークにより、より正確なソリューションを見つけることができる。 しかし、神経進化は遅くなり、実際に扱いにくい問題を引き起こすことがある。 このことを念頭において, 新規で計算効率の良い転移神経進化アルゴリズムを提案する。 提案手法は, 負の伝達リスクから保護するために適応することで, 新たな問題を解決する際に関連する経験優先を活用できる。 このアルゴリズムは様々な微分方程式に応用され、伝達神経進化がSGDよりも正確で高速な収束を実現することを実証的に示す。 実験結果は、これまで研究されていない微分方程式を解くための注目すべきアプローチとして、伝達神経進化を確立する。 我々の研究は、物理インフォームドニューラルネットワークを最適化するための利用可能なアルゴリズムのリソースを拡大する。

This paper introduces neuroevolution for solving differential equations. The solution is obtained through optimizing a deep neural network whose loss function is defined by the residual terms from the differential equations. Recent studies have focused on learning such physics-informed neural networks through stochastic gradient descent (SGD) variants, yet they face the difficulty of obtaining an accurate solution due to optimization challenges. In the context of solving differential equations, we are faced with the problem of finding globally optimum parameters of the network, instead of being concerned with out-of-sample generalization. SGD, which searches along a single gradient direction, is prone to become trapped in local optima, so it may not be the best approach here. In contrast, neuroevolution carries out a parallel exploration of diverse solutions with the goal of circumventing local optima. It could potentially find more accurate solutions with better optimized neural networks. However, neuroevolution can be slow, raising tractability issues in practice. With that in mind, a novel and computationally efficient transfer neuroevolution algorithm is proposed in this paper. Our method is capable of exploiting relevant experiential priors when solving a new problem, with adaptation to protect against the risk of negative transfer. The algorithm is applied on a variety of differential equations to empirically demonstrate that transfer neuroevolution can indeed achieve better accuracy and faster convergence than SGD. The experimental outcomes thus establish transfer neuroevolution as a noteworthy approach for solving differential equations, one that has never been studied in the past. Our work expands the resource of available algorithms for optimizing physics-informed neural networks.
翻訳日:2023-04-17 17:50:11 公開日:2021-05-05
# 非線形量子共振器による熱的整流

Thermal rectification through a nonlinear quantum resonator ( http://arxiv.org/abs/2101.10732v2 )

ライセンス: Link先を確認
Bibek Bhandari, Paolo Andrea Erdman, Rosario Fazio, Elisabetta Paladino and Fabio Taddei(参考訳) 原型低次元量子系(非線形共振器)における熱整流の総合的かつ体系的な研究を行い、熱整流の観測に必要な条件を特定し、それを最大化するための戦略について議論する。 特に、無調和性が非常に強く、システムが量子ビットに還元される場合に焦点を当てる。 後者の場合、弱系-バスカップリング構造に保持される整流化の一般的な上界を導出し、ラムシフトを整流化を強化するためにどのように活用できるかを示す。 そして、異なる方法を採用することで、弱結合体制を超えていきます。 一 共トンネル工程を含む。 二 非平衡グリーン関数形式の使用及び 三 ファインマン・ヴァーノン経路積分法による方法 強結合法では弱結合法で導かれる境界を破ることができ、熱整流法で見える高次コヒーレント過程の明確な署名が得られる。 一般の場合、システム力学に多くのレベルが関与する場合、計算した熱補正を運動方程式および平均場近似と比較する。 従来の手法では, 小型又は中間的な不調和性に対して, より大きい補正係数を予測できることがわかった。

We present a comprehensive and systematic study of thermal rectification in a prototypical low-dimensional quantum system -- a non-linear resonator: we identify necessary conditions to observe thermal rectification and we discuss strategies to maximize it. We focus, in particular, on the case where anharmonicity is very strong and the system reduces to a qubit. In the latter case, we derive general upper bounds on rectification which hold in the weak system-bath coupling regime, and we show how the Lamb shift can be exploited to enhance rectification. We then go beyond the weak-coupling regime by employing different methods: i) including co-tunneling processes, ii) using the non-equilibrium Green's function formalism and iii) using the Feynman-Vernon path integral approach. We find that the strong coupling regime allows us to violate the bounds derived in the weak-coupling regime, providing us with clear signatures of high order coherent processes visible in the thermal rectification. In the general case, where many levels participate to the system dynamics, we compare the heat rectification calculated with the equation of motion method and with a mean-field approximation. We find that the former method predicts, for a small or intermediate anharmonicity, a larger rectification coefficient.
翻訳日:2023-04-13 22:29:44 公開日:2021-05-05
# モジュールベンチマークフレームワークの統合による大規模自動アルゴリズム設計に向けて

Towards Large Scale Automated Algorithm Design by Integrating Modular Benchmarking Frameworks ( http://arxiv.org/abs/2102.06435v2 )

ライセンス: Link先を確認
Amine Aziz-Alaoui and Carola Doerr and Johann Dreo(参考訳) 本稿では,アルゴリズムフレームワーク paradiseo のアルゴリズム構成ツール irace と実験プラットフォーム iohprofiler によるインタフェースの効率性を示す最初の概念実証ユースケースを提案する。 これら3つのツールを組み合わせて,複雑なベンチマーク問題に対して大規模アルゴリズム群を体系的に解析できる強力なベンチマーク環境を構築する。 パイプラインの主な利点は、高速な評価時間、アルゴリズムの分析をサポートするリッチデータセットを生成する可能性、サンプリングベースの最適化ヒューリスティックの非常に幅広いクラスをベンチマークするために使用できる標準化されたインターフェースである。 体系的なアルゴリズム構成研究を可能にすることに加えて、我々のアプローチは、既存のオペレーターとの相互作用における新しいアイデアの貢献を評価する方法である。

We present a first proof-of-concept use-case that demonstrates the efficiency of interfacing the algorithm framework ParadisEO with the automated algorithm configuration tool irace and the experimental platform IOHprofiler. By combing these three tools, we obtain a powerful benchmarking environment that allows us to systematically analyze large classes of algorithms on complex benchmark problems. Key advantages of our pipeline are fast evaluation times, the possibility to generate rich data sets to support the analysis of the algorithms, and a standardized interface that can be used to benchmark very broad classes of sampling-based optimization heuristics. In addition to enabling systematic algorithm configuration studies, our approach paves a way for assessing the contribution of new ideas in interplay with already existing operators -- a promising avenue for our research domain, which at present may have a too strong focus on comparing entire algorithm instances.
翻訳日:2023-04-11 08:13:37 公開日:2021-05-05
# flip:任意サイズパラメトリ量子回路のためのフレキシブル初期化器

FLIP: A flexible initializer for arbitrarily-sized parametrized quantum circuits ( http://arxiv.org/abs/2103.08572v2 )

ライセンス: Link先を確認
Frederic Sauvage, Sukin Sim, Alexander A. Kunitsa, William A. Simon, Marta Mauri, Alejandro Perdomo-Ortiz(参考訳) フォールトトレラントな量子計算戦略と比較すると、変分量子アルゴリズムは、近い将来に実世界のアプリケーションで量子優位を達成する可能性を持つ候補の1つである。 しかし、回路パラメータの最適化は厳しいままであり、バレンプラトーの存在、最適化ランドスケープにおける多くの局所ミニマ、限られた量子資源といった多くの障害によって妨げられている。 パラメータの非ランダム初期化は、パラメタライズド量子回路(PQC)トレーニングの成功の鍵であると考えられる。 メタラーニングの分野からアイデアを引き出し、拡張し、機械学習の助けを借りてこのパラメータ初期化タスクに対処し、任意サイズのパラメタライズド量子回路のためのFLIP(FLexible Initializer)を提案する。 FLIPは任意のPQCの族に適用することができ、初期パラメータの一般的な集合に頼る代わりに、トレーニングセットとして使用される関連する問題の族から成功パラメータの構造を学ぶように調整されている。 FLIPの柔軟性は、トレーニングフェーズで使用されるパラメータの数が多い量子回路において、パラメータの初期化を予測する可能性を示唆している。 これは、現在提案されている他のメタ学習パラメータ初期化戦略に欠けている重要な特徴である。 本稿では, 3つのシナリオにおいてFLIPを用いることの利点を述べる。不毛な高原における問題ファミリ, 最大カット問題インスタンスを解くPQCトレーニング, 1次元フェルミ-ハッバードモデルの基底状態エネルギーを求めるPQCトレーニングである。

When compared to fault-tolerant quantum computational strategies, variational quantum algorithms stand as one of the candidates with the potential of achieving quantum advantage for real-world applications in the near term. However, the optimization of the circuit parameters remains arduous and is impeded by many obstacles such as the presence of barren plateaus, many local minima in the optimization landscape, and limited quantum resources. A non-random initialization of the parameters seems to be key to the success of the parametrized quantum circuits (PQC) training. Drawing and extending ideas from the field of meta-learning, we address this parameter initialization task with the help of machine learning and propose FLIP: a FLexible Initializer for arbitrarily-sized Parametrized quantum circuits. FLIP can be applied to any family of PQCs, and instead of relying on a generic set of initial parameters, it is tailored to learn the structure of successful parameters from a family of related problems which are used as the training set. The flexibility advocated to FLIP hinges in the possibility of predicting the initialization of parameters in quantum circuits with a larger number of parameters from those used in the training phase. This is a critical feature lacking in other meta-learning parameter initializing strategies proposed to date. We illustrate the advantage of using FLIP in three scenarios: a family of problems with proven barren plateaus, PQC training to solve max-cut problem instances, and PQC training for finding the ground state energies of 1D Fermi-Hubbard models.
翻訳日:2023-04-08 01:59:43 公開日:2021-05-05
# スキルとモバイル:AI研究者の移民選好に関する調査

Skilled and Mobile: Survey Evidence of AI Researchers' Immigration Preferences ( http://arxiv.org/abs/2104.07237v2 )

ライセンス: Link先を確認
Remco Zwetsloot, Baobao Zhang, Noemi Dreksler, Lauren Kahn, Markus Anderljung, Allan Dafoe, Michael C. Horowitz(参考訳) 各国、企業、大学は、トップクラスの人工知能(AI)研究者と競い合っている。 これらの研究者は、どこに移民し、移民決定にどんな影響を及ぼすのか? 我々は、ニューラル情報処理システム会議(NeurIPS)と国際機械学習会議(ICML)の2つの名門AIカンファレンスのうちの1つで論文を受理した研究者の移民選好とモチベーションを$$(n = 524)で調査した。 アメリカはAI研究者にとって最も人気のある目的地であり、英国、カナダ、スイス、フランスがそれに続いた。 国の職業的機会は、AI研究者の移民決定に影響を及ぼす最も一般的な要因であり、続いてライフスタイルと文化、政治的気候、個人関係が続いた。 調査対象国の移民政策は、調査対象者の半数弱に留まり、約4分の1は現在の移民の難しさが決定要因であると指摘した。 ビザと移民の困難は、アメリカ合衆国、イギリス、カナダでAI研究を行う上で特に障害であると認識された。 ai人材政策とガバナンスの将来に対する調査結果の意義について考察する。

Countries, companies, and universities are increasingly competing over top-tier artificial intelligence (AI) researchers. Where are these researchers likely to immigrate and what affects their immigration decisions? We conducted a survey $(n = 524)$ of the immigration preferences and motivations of researchers that had papers accepted at one of two prestigious AI conferences: the Conference on Neural Information Processing Systems (NeurIPS) and the International Conference on Machine Learning (ICML). We find that the U.S. is the most popular destination for AI researchers, followed by the U.K., Canada, Switzerland, and France. A country's professional opportunities stood out as the most common factor that influences immigration decisions of AI researchers, followed by lifestyle and culture, the political climate, and personal relations. The destination country's immigration policies were important to just under half of the researchers surveyed, while around a quarter noted current immigration difficulties to be a deciding factor. Visa and immigration difficulties were perceived to be a particular impediment to conducting AI research in the U.S., the U.K., and Canada. Implications of the findings for the future of AI talent policies and governance are discussed.
翻訳日:2023-04-03 18:33:08 公開日:2021-05-05
# 局所曲率に基づくトポロジカル絶縁体相互作用のための教師付き学習アルゴリズム

A supervised learning algorithm for interacting topological insulators based on local curvature ( http://arxiv.org/abs/2104.11237v2 )

ライセンス: Link先を確認
Paolo Molignini, Antonio Zegarra, Evert van Nieuwenburg, R. Chitra, and Wei Chen(参考訳) 固体系における位相次数は、ブリルアンゾーン全体にわたる適切な曲率関数の積分からしばしば計算される。 単一粒子のスペクトルギャップが閉じた位相相転移では、曲率関数は分岐し、ブリルアンゾーンの特定の高対称性点で符号を変化させる。 これらの汎用的性質は、高対称性点における曲率関数のみを入力データとして使用する教師あり機械学習スキームの導入を示唆する。 このスキームを様々な次元と対称性の相互作用するトポロジカル絶縁体に適用し、相互作用しないデータで訓練された人工ニューラルネットワークが相互作用するケースのすべてのトポロジカル位相を、非常に少ない数値で正確に予測できることを実証する。 興味深いことに、この手法はユビキタスな相互作用によって引き起こされるトポロジカル量子多臨界性を明らかにする。

Topological order in solid state systems is often calculated from the integration of an appropriate curvature function over the entire Brillouin zone. At topological phase transitions where the single particle spectral gap closes, the curvature function diverges and changes sign at certain high symmetry points in the Brillouin zone. These generic properties suggest the introduction of a supervised machine learning scheme that uses only the curvature function at the high symmetry points as input data. We apply this scheme to a variety of interacting topological insulators in different dimensions and symmetry classes, and demonstrate that an artificial neural network trained with the noninteracting data can accurately predict all topological phases in the interacting cases with very little numerical effort. Intriguingly, the method uncovers a ubiquitous interaction-induced topological quantum multicriticality in the examples studied.
翻訳日:2023-04-02 20:10:13 公開日:2021-05-05
# トラップイオンqccd量子コンピュータ上のテンソルネットワークからの絡み合い

Entanglement from tensor networks on a trapped-ion QCCD quantum computer ( http://arxiv.org/abs/2104.11235v2 )

ライセンス: Link先を確認
Michael Foss-Feig, Stephen Ragole, Andrew Potter, Joan Dreiling, Caroline Figgatt, John Gaebler, Alex Hall, Steven Moses, Juan Pino, Ben Spaun, Brian Neyenhuis, and David Hayes(参考訳) 量子回路中に量子ビットを選択的に測定、初期化、再利用する能力は、特定のテンソルネットワーク状態の空間構造を量子回路のダイナミクスにマッピングすることを可能にし、量子コンピュータを用いて限られた絡み合いを持つ多体系をシミュレートする際に劇的な資源節約を実現する。 すべての相関関数に加えて、無限系の絡み合い構造(特に半鎖絡み合いスペクトル)は、「ボンド量子ビット」の小さなレジスタに便利に符号化され、相対的に容易に抽出できる。 選択的な中間回路測定とリセットを備えたトラップイオンqccd量子コンピュータを用いて、相関スピン鎖のエントロピーを熱力学的限界内で直接決定し、ボンド量子ビットレジスタを拡張することで相転移が迅速に解消されることを示す。

The ability to selectively measure, initialize, and reuse qubits during a quantum circuit enables a mapping of the spatial structure of certain tensor-network states onto the dynamics of quantum circuits, thereby achieving dramatic resource savings when using a quantum computer to simulate many-body systems with limited entanglement. We experimentally demonstrate a significant benefit of this approach to quantum simulation: In addition to all correlation functions, the entanglement structure of an infinite system -- specifically the half-chain entanglement spectrum -- is conveniently encoded within a small register of "bond qubits" and can be extracted with relative ease. Using a trapped-ion QCCD quantum computer equipped with selective mid-circuit measurement and reset, we quantitatively determine the near-critical entanglement entropy of a correlated spin chain directly in the thermodynamic limit and show that its phase transition becomes quickly resolved upon expanding the bond-qubit register.
翻訳日:2023-04-02 20:09:57 公開日:2021-05-05
# 仕事の証明に関する量子アドバンテージ

Quantum Advantage on Proof of Work ( http://arxiv.org/abs/2105.01821v1 )

ライセンス: Link先を確認
Dan A. Bard, Joseph J. Kearney, Carlos A. Perez-Delgado(参考訳) Proof-of-Work(PoW)は、ほとんどの主要なブロックチェーン暗号の基本技術である。 以前、量子デバイスはビットコインの文脈でpowを実行するのに計算上の利点があることが指摘されていた。 ここでは、この量子優位性が既存の全てのPoWメカニズムだけでなく、可能なPoWにも及んでいることを主張する。 これは、ブロックチェーン全体の完全性に対する量子ベースの攻撃と、bitcoinやその他の暗号通貨のマイニングを目的とした量子計算のより正当な利用の両方に強い影響を与える。 最初のケースでは、これらの量子攻撃が様々な暗号通貨に対していつ実現可能になるかを推定し、そのような攻撃の影響について議論する。 後者については、量子ベースの暗号通貨マイナーに切り替える際の経済的インセンティブを計算するための正確な公式を導出する。 この式を用いて、いくつかのテストシナリオを分析し、暗号通貨マイニングのための量子ハードウェアへの投資は大きな利益をもたらす可能性があると結論づけた。

Proof-of-Work (PoW) is a fundamental underlying technology behind most major blockchain cryptocurrencies. It has been previously pointed out that quantum devices provide a computational advantage in performing PoW in the context of Bitcoin. Here we make the case that this quantum advantage extends not only to all existing PoW mechanisms, but to any possible PoW as well. This has strong consequences regarding both quantum-based attacks on the integrity of the entirety of the blockchain, as well as more legitimate uses of quantum computation for the purpose of mining Bitcoin and other cryptocurrencies. For the first case, we estimate when these quantum attacks will become feasible, for various cryptocurrencies, and discuss the impact of such attacks. For the latter, we derive a precise formula to calculate the economic incentive for switching to quantum-based cryptocurrency miners. Using this formula, we analyze several test scenarios, and conclude that investing in quantum hardware for cryptocurrency mining has the potential to pay off immensely.
翻訳日:2023-04-01 13:30:03 公開日:2021-05-05
# 量子攻撃に対するブロックチェーン技術の脆弱性

Vulnerability of Blockchain Technologies to Quantum Attacks ( http://arxiv.org/abs/2105.01815v1 )

ライセンス: Link先を確認
Joseph J. Kearney, Carlos A. Perez-Delgado(参考訳) 量子計算は、今日の多くの暗号プロトコルに対する脅威である。 2035年までに、重要な暗号スキームRSA2048を破ることのできる量子コンピュータが存在すると推定されている。 ブロックチェーン技術は、多くの必須サブルーチンの暗号化プロトコルに依存している。 これらのプロトコルのいくつかは、すべてではないが、量子攻撃に開放されている。 ここでは、Bitcoin、Ethereum、Litecoin、ZCashなど、今日デプロイされた主要なブロックチェーンベースの暗号を分析し、量子攻撃に対するリスクを判定する。 研究対象の暗号通貨とその基盤となるブロックチェーン技術と、量子攻撃に対する相対的な脆弱性レベルの比較分析で終了する。

Quantum computation represents a threat to many cryptographic protocols in operation today. It has been estimated that by 2035, there will exist a quantum computer capable of breaking the vital cryptographic scheme RSA2048. Blockchain technologies rely on cryptographic protocols for many of their essential sub-routines. Some of these protocols, but not all, are open to quantum attacks. Here we analyze the major blockchain-based cryptocurrencies deployed today -- including Bitcoin, Ethereum, Litecoin and ZCash, and determine their risk exposure to quantum attacks. We finish with a comparative analysis of the studied cryptocurrencies and their underlying blockchain technologies and their relative levels of vulnerability to quantum attacks.
翻訳日:2023-04-01 13:29:47 公開日:2021-05-05
# 量子コンピュータ上のキラルフェルミオンを用いたカシミールエネルギー

Casimir energy with chiral fermions on a quantum computer ( http://arxiv.org/abs/2105.02032v1 )

ライセンス: Link先を確認
Juliette K. Stecenko, Yuan Feng, Michael McGuigan(参考訳) 本稿では,量子コンピュータ上でのカシミールエネルギーの計算について論じる。 カシミールエネルギー(英: casimir energy)は、基底状態エネルギーを計算するために近距離ハイブリッド古典量子アルゴリズムが存在する量子コンピュータ上で計算する理想的な量であり、カシミールエネルギーは様々な設定においてこの量に物理的意味を与える。 境界条件や場がボソニックかフェルミオンかによって、量子コンピュータ上でカシミールエネルギーの計算をどのように設定するかを説明し、IBM QISKitを用いた変分量子固有解法を用いて計算する。 有限個の量子ビットの格子正規化に基づく結果と,自由粒子場,自由フェルミオン場,キラルフェルミオン場に対する連続体計算との比較を行った。 我々はベルグマンとソーンによって導入された正規化法を用いて、カイラルフェルミオンのカシミールエネルギーを計算する。 計算の精度はキュービット数によってどのように変化するかを示す。 量子コンピュータ上でハミルトニアンを表すために用いられるパウリ項の数は、量子ビット数でどのようにスケールするかを示す。 量子コンピュータにおけるカシミール計算の宇宙論、ナノマテリアル、弦モデル、カルザ・クラインモデル、ダークエネルギーへの応用について議論する。

In this paper we discuss the computation of Casimir energy on a quantum computer. The Casimir energy is an ideal quantity to calculate on a quantum computer as near term hybrid classical quantum algorithms exist to calculate the ground state energy and the Casimir energy gives physical implications for this quantity in a variety of settings. Depending on boundary conditions and whether the field is bosonic or fermionic we illustrate how the Casimir energy calculation can be set up on a quantum computer and calculated using the Variational Quantum Eigensolver algorithm with IBM QISKit. We compare the results based on a lattice regularization with a finite number of qubits with the continuum calculation for free boson fields, free fermion fields and chiral fermion fields. We use a regularization method introduced by Bergman and Thorn to compute the Casimir energy of a chiral fermion. We show how the accuracy of the calculation varies with the number of qubits. We show how the number of Pauli terms which are used to represent the Hamiltonian on a quantum computer scales with the number of qubits. We discuss the application of the Casimir calculations on quantum computers to cosmology, nanomaterials, string models, Kaluza Klein models and dark energy.
翻訳日:2023-04-01 13:26:11 公開日:2021-05-05
# Weapon-Target割り当て問題の解法のための断熱量子計算

Adiabatic Quantum Computing for Solving the Weapon-Target Assignment Problem ( http://arxiv.org/abs/2105.02011v1 )

ライセンス: Link先を確認
Veit Stoo{\ss}, Martin Ulmke, Felix Govaers(参考訳) 量子コンピューティングは、機械学習や複雑な最適化問題など、さまざまな分野における計算能力の大幅な改善を約束する。 最近の技術進歩は、断熱量子コンピューティングのansatzがすぐに実用化されるかもしれないことを示唆している。 本研究では,この計算パラダイムを応用し,よく知られた兵器目標割り当て問題であるnp-hard非線形整数計画最適化タスクの量子計算に基づく解法を開発した。 提案モデルの有効性は、ハミルトニアンモデルに符号化された最適解への量子ビット系の断熱的進化の数値シミュレーションによって実証される。 全体として、この手法は兵器管理の文脈に限らず、モデルハミルトニアンにわずかな修正を加えることで、一般的なワーカー・タスクの割り当て最適化に適用できる。

Quantum computing promises significant improvements of computation capabilities in various fields such as machine learning and complex optimization problems. Recent technological advancements suggest that the adiabatic quantum computing ansatz may soon see practical applications. In this work, we adopt this computation paradigm to develop a quantum computation based solver of the well-known weapon target assignment problem, an NP-hard nonlinear integer programming optimization task. The feasibility of the presented model is demonstrated by numerical simulation of the adiabatic evolution of a system of quantum bits towards the optimal solution encoded in the model Hamiltonian. Over all, the described method is not limited to the context of weapon management but is, with slight modifications to the model Hamiltonian, applicable to worker-task allocation optimization in general.
翻訳日:2023-04-01 13:25:26 公開日:2021-05-05
# 量子コアを用いたインスタント

Instantons with Quantum Core ( http://arxiv.org/abs/2105.01996v1 )

ライセンス: Link先を確認
Viatcheslav Mukhanov, Alexander Sorin(参考訳) 量子揺らぎを考慮に入れた結果として現れる新しい瞬間を考える。 これらのゆらぎはコールマン理論で放棄された O(4) 特異解を自然に正則化する。 以前の研究[3,4]では、新しいインスタントンは、真に解けるポテンシャルの2つの特別な例において、偽真空崩壊の広く受け入れられた像をどう修正するかを示した。 ここでは、任意のポテンシャルに対する考察を一般化し、真空揺らぎが支配する量子コアを持つこれらの新しいインスタントンの一般理論を提供する。 我々は, 薄壁近似だけでなく, この近似が失敗する場合においても, 一般ポテンシャルに対するインスタントンのパラメータを決定できる手法を開発した。 コールマンインスタントンとは異なり、量子コアを持つインスタントンは常に真空が不安定でなければならない場合に存在する。

We consider new instantons that appear as a result of accounting for quantum fluctuations. These fluctuations naturally regularize the O(4) singular solutions abandoned in Coleman's theory. In the previous works [3,4] we showed how new instantons modify the widely accepted picture of false vacuum decay in two particular examples of exactly solvable potentials. Here we generalize our consideration to arbitrary potentials and provide a general theory of these new instantons with quantum cores in which vacuum fluctuations dominate. We develop a method that allows us to determine the parameters of instantons for generic potentials not only in the thin-wall approximation but also in the cases where this approximation fails. Unlike the Coleman instantons, the instantons with quantum cores always exist in the cases where the vacuum must be unstable.
翻訳日:2023-04-01 13:25:13 公開日:2021-05-05
# グラフェン導体を用いた原子チップの機能向上

Using graphene conductors to enhance the functionality of atom-chips ( http://arxiv.org/abs/2105.01907v1 )

ライセンス: Link先を確認
K. Wongcharoenbhorn, R. Crawford, N. Welch, F. Wang, G. Sinuco-Le\'on, P. Kr\"uger, F. Intravaia, C. Koller, T.M. Fromhold(参考訳) 本研究では, グラフェン系ファンデルワールスヘテロ構造を用いて, 捕捉された原子雲の寿命とチップ表面近傍の限界を克服することにより, 原子チップの性能と機能性を変換可能であることを示す。 我々の分析では、熱(ジョンソン)ノイズのグリーン関数計算と、原子チップが生成するカシミール・ポルダー原子表面アトラクションが関係している。 これにより、スピンフリップ、トンネル、および3体衝突による寿命制限を決定できる。 厚い金属伝導体や基板を用いる原子チップと比較して、2次元材料に基づく原子チップ構造は、到達可能な最小原子-表面の分離をわずか100nmに減らし、捕獲された原子雲の寿命を桁違いに増加させ、背景真空の品質に制限される。 二次元導体を持つ原子チップは導体パターンの不完全性に起因するトラップ電位の空間変動を減少させる。 これらの利点は、量子センシングアプリケーションや複雑な量子システムの基礎研究における原子チップの性能を向上させる。

We show that the performance and functionality of atom-chips can be transformed by using graphene-based van der Waals heterostructures to overcome present limitations on the lifetime of the trapped atom cloud and on its proximity to the chip surface. Our analysis involves Green-function calculations of the thermal (Johnson) noise and Casimir-Polder atom-surface attraction produced by the atom-chip. This enables us to determine the lifetime limitations produced by spin-flip, tunneling and three-body collisional losses. Compared with atom-chips that use thick metallic conductors and substrates, atom-chip structures based on two-dimensional materials reduce the minimum attainable atom-surface separation to a few 100 nm and increase the lifetimes of the trapped atom clouds by orders of magnitude so that they are limited only by the quality of the background vacuum. We predict that atom-chips with two-dimensional conductors will also reduce spatial fluctuations in the trapping potential originating from imperfections in the conductor patterns. These advantages will enhance the performance of atom-chips for quantum sensing applications and for fundamental studies of complex quantum systems.
翻訳日:2023-04-01 13:24:37 公開日:2021-05-05
# コヒーレント光を用いたほぼ完全な非古典的相関の観測

Observations of near-perfect nonclassical correlation using coherent light ( http://arxiv.org/abs/2105.01862v1 )

ライセンス: Link先を確認
Sangbae Kim and Byoung S. Ham(参考訳) 相補性理論はコペンハーゲン解釈の本質である。 ハンベリー・ブラウンとtwissの実験以来、光子の粒子の性質は反相関やベルの不等式違反といった様々な量子現象に対して、2光子相関の観点から集中的に研究されてきた。 しかし、これらの量子的特徴に関する基本的な問題に関して、そのような絡み合った光子対を生成する方法と、それらの間の最大相関の原因について明確な答えは存在しない。 本研究では, サブポアソン分散コヒーレント光子を用いてビームスプリッタ上の反相関の物理を実験的に証明する。 干渉スキームにおける自己干渉に関するボルン則によれば、光子は他者と相互作用せず、それ自体で干渉することができる。 これは対相関の心臓であり、対光子間の特定の位相関係が反相関のために明らかにされ、量子力学の相補性理論を満たす。

Complementarity theory is the essence of the Copenhagen interpretation. Since the Hanbury Brown and Twiss experiments, the particle nature of photons has been intensively studied for various quantum phenomena such as anticorrelation and Bell inequality violation in terms of two-photon correlation. Regarding the fundamental question on these quantum features, however, no clear answer exists for how to generate such an entanglement photon pair and what causes the maximum correlation between them. Here, we experimentally demonstrate the physics of anticorrelation on a beam splitter using sub-Poisson distributed coherent photons, where a particular photon number is post-selected using a multiphoton resolving coincidence measurement technique. According to Born rule regarding self-interference in an interferometric scheme, a photon does not interact with others, but can interfere by itself. This is the heart of anticorrelation, where a particular phase relation between paired photons is unveiled for anticorrelation, satisfying the complementarity theory of quantum mechanics.
翻訳日:2023-04-01 13:24:04 公開日:2021-05-05
# 複数の空間モードを用いた自由空間量子鍵分布の解析

Performance Analysis of Free-space Quantum Key Distribution Using Multiple Spatial Modes ( http://arxiv.org/abs/2105.01858v1 )

ライセンス: Link先を確認
Wenhua He, Saikat Guha, Jeffrey H. Shapiro and Boulat A. Bash(参考訳) 回折制限近場伝播系では、自由空間光量子鍵分布(QKD)系は複数の空間モードを用いて鍵レートを改善することができる。 ここでは,非直交平板集束ビームを用いたQKDの解析を行う。 レートペナルティに苦しむが、実装の容易さは、よく研究された正規直交ラゲールゲージ(lg)モードの魅力的な代替手段となっている。 実際、乱流が存在する場合、非直交モードはLGモードよりも高いQKD速度が得られる。

In the diffraction-limited near-field propagation regime, free-space optical quantum key distribution (QKD) systems can employ multiple spatial modes to improve their key rate. Here, we analyze QKD using the non-orthogonal flat-top focused beams. Although they suffer from a rate penalty, their ease of implementation makes them an attractive alternative to the well-studied orthonormal Laguerre-Gauss (LG) modes. Indeed, in the presence of turbulence, the non-orthogonal modes may achieve higher QKD rate than the LG modes.
翻訳日:2023-04-01 13:23:48 公開日:2021-05-05
# 量子最適制御を用いたパラメータ化ハミルトンシミュレーション

Parameterized Hamiltonian simulation using quantum optimal control ( http://arxiv.org/abs/2105.02153v1 )

ライセンス: Link先を確認
Paul Kairys, Travis S. Humble(参考訳) アナログ量子シミュレーションは、量子力学を研究するハードウェア固有のアプローチを提供するが、モデルハミルトニアンを利用可能なデバイスパラメータにマッピングするには、ハードウェアのダイナミクスにマッチする必要がある。 本稿では,デジタル分解技術と最適制御を利用してアナログシミュレーションを行う量子ハミルトンシミュレーションのパラダイムを提案する。 超伝導トランスモンデバイスのための最適アナログ制御を構築して,Bose-Hubbardモデルの拡張のダイナミクスをエミュレートすることによって,このアプローチを検証する。 制御時間,ディジタルエラー,パルス複雑性の役割を実証し,これらの制御の精度と堅牢性について検討する。 我々は、このパラダイムを短期量子デバイスに実装する機会について論じる。

Analog quantum simulation offers a hardware-specific approach to studying quantum dynamics, but mapping a model Hamiltonian onto the available device parameters requires matching the hardware dynamics. We introduce a paradigm for quantum Hamiltonian simulation that leverages digital decomposition techniques and optimal control to perform analog simulation. We validate this approach by constructing the optimal analog controls for a superconducting transmon device to emulate the dynamics of an extended Bose-Hubbard model. We demonstrate the role of control time, digital error, and pulse complexity, and we explore the accuracy and robustness of these controls. We conclude by discussing the opportunity for implementing this paradigm in near-term quantum devices.
翻訳日:2023-04-01 13:18:12 公開日:2021-05-05
# 人工知能の倫理とガバナンス--機械学習研究者の調査結果から

Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers ( http://arxiv.org/abs/2105.02117v1 )

ライセンス: Link先を確認
Baobao Zhang, Markus Anderljung, Lauren Kahn, Noemi Dreksler, Michael C. Horowitz, Allan Dafoe(参考訳) 機械学習(ml)と人工知能(ai)の研究者は、aiの非倫理的利用と認識されるものに対して行動を起こすことを含む、aiの倫理とガバナンスにおいて重要な役割を果たす(belfield, 2020; van noorden, 2020)。 それでも、この影響力のあるグループの態度はよく理解されておらず、AI/ML研究者間の合意や意見の相違を識別する能力を損なう。 これらの研究者の見解を検討するため、トップAI/MLカンファレンス(N = 524)に掲載した研究者を対象に調査を行った。 これらの結果は、2016年のAI/ML研究者の調査(Grace, Salvatier, Dafoe, Zhang, & Evans, 2018)と2018年の米国一般調査(Zhang & Dafoe, 2020)と比較する。 ai/ml研究者は、国際組織や科学組織に対して高いレベルの信頼を置き、公共の利益におけるaiの開発と利用を形作ること、西洋のほとんどのハイテク企業に対する中道的な信頼、国家の軍事組織や中国のハイテク企業、facebookに対する信頼が低いことが分かりました。 回答者は、致命的な自律兵器に取り組んでいるAI/ML研究者に対して圧倒的に反対だったが、AI、特に物流アルゴリズムの他の軍事的応用に取り組んでいる研究者には反対していない。 回答者の大多数は、AI安全研究は優先されるべきであり、ML機関は潜在的な害を評価するために事前公開レビューを行うべきだと考えている。 テクノロジーそのものに近づき、AI/MLの再調査者は、新しいリスクを強調し、技術的なソリューションを開発するためによく配置されている。 この発見は、研究者、民間セクターの幹部、政策立案者が規制、ガバナンスの枠組み、原則の指導、aiのための国内および国際的なガバナンス戦略をどう考えるかを改善するのに役立つだろう。

Machine learning (ML) and artificial intelligence (AI) researchers play an important role in the ethics and governance of AI, including taking action against what they perceive to be unethical uses of AI (Belfield, 2020; Van Noorden, 2020). Nevertheless, this influential group's attitudes are not well understood, which undermines our ability to discern consensuses or disagreements between AI/ML researchers. To examine these researchers' views, we conducted a survey of those who published in the top AI/ML conferences (N = 524). We compare these results with those from a 2016 survey of AI/ML researchers (Grace, Salvatier, Dafoe, Zhang, & Evans, 2018) and a 2018 survey of the US public (Zhang & Dafoe, 2020). We find that AI/ML researchers place high levels of trust in international organizations and scientific organizations to shape the development and use of AI in the public interest; moderate trust in most Western tech companies; and low trust in national militaries, Chinese tech companies, and Facebook. While the respondents were overwhelmingly opposed to AI/ML researchers working on lethal autonomous weapons, they are less opposed to researchers working on other military applications of AI, particularly logistics algorithms. A strong majority of respondents think that AI safety research should be prioritized and that ML institutions should conduct pre-publication review to assess potential harms. Being closer to the technology itself, AI/ML re-searchers are well placed to highlight new risks and develop technical solutions, so this novel attempt to measure their attitudes has broad relevance. The findings should help to improve how researchers, private sector executives, and policymakers think about regulations, governance frameworks, guiding principles, and national and international governance strategies for AI.
翻訳日:2023-04-01 13:17:42 公開日:2021-05-05
# ボトムアップ型ライフサイクルアプローチによるiotエッジデバイスの具体的カーボンフットプリント評価

Assessing the embodied carbon footprint of IoT edge devices with a bottom-up life-cycle approach ( http://arxiv.org/abs/2105.02082v1 )

ライセンス: Link先を確認
Thibault Pirson and David Bol(参考訳) 今後は、IoT(Internet-of-Things)デバイスが数千億もの物理的オブジェクトに急増すると予想されている。 しかしながら、IoTは環境問題に取り組むための有望なソリューションとして提示されることが多いが、物理デバイスのライフサイクルを通じて発生する直接的な環境影響は通常見過ごされている。 環境負荷は、環境が生み出すポジティブな影響と比較して無視できると暗黙的に仮定される。 本稿では,IoTエッジデバイスのクレードルゲートカーボンフットプリントを評価するために,ハードウェアプロファイルに基づくパラメトリックフレームワークを提案する。 私たちはフレームワークを3つの方法で活用する。 まず, それぞれの生産炭素フットプリントを評価するために, 4つのユースケースに適用する。 次に,iot edgeデバイス固有の異質性は,単純なデバイスと複雑なデバイスの間の生産炭素フットプリントが150倍以上異なると考える必要があることを示した。 最後に,世界のIoTエッジデバイスの生産によって引き起こされる絶対炭素フットプリントを10年間のマクロ分析により推定する。 結果は2027年の22から562 mtco2-eq/年である。 しかし、LCAボトムアップアプローチで認められたトラクション誤差は、通常、環境影響の過小評価につながる。 当社のユースケースの結果を,GoogleとAppleから入手可能な数少ないレポートと比較した。この結果から,当社の予測は,トランケーションエラーを補うために,約2倍の値で上向きに修正される可能性があることを示唆している。 2027年の最悪のシナリオは、年間1000山CO2-eqに達する。 これにより、IoTエッジデバイスの設計とデプロイにおいて、環境制約を考慮する必要性が真に強調される。

In upcoming years, the number of Internet-of-Things (IoT) devices is expected to surge up to tens of billions of physical objects. However, while the IoT is often presented as a promising solution to tackle environmental challenges, the direct environmental impacts generated over the life cycle of the physical devices are usually overlooked. It is implicitly assumed that their environmental burden is negligible compared to the positive impacts they can generate. In this paper, we present a parametric framework based on hardware profiles to evaluate the cradle-to-gate carbon footprint of IoT edge devices. We exploit our framework in three ways. First, we apply it on four use cases to evaluate their respective production carbon footprint. Then, we show that the heterogeneity inherent to IoT edge devices must be considered as the production carbon footprint between simple and complex devices can vary by a factor of more than 150x. Finally, we estimate the absolute carbon footprint induced by the worldwide production of IoT edge devices through a macroscopic analysis over a 10-year period. Results range from 22 to 562 MtCO2-eq/year in 2027 depending on the deployment scenarios. However, the truncation error acknowledged for LCA bottom-up approaches usually lead to an undershoot of the environmental impacts. We compared the results of our use cases with the few reports available from Google and Apple, which suggest that our estimates could be revised upwards by a factor around 2x to compensate for the truncation error. Worst-case scenarios in 2027 would therefore reach more than 1000 MtCO2-eq/year. This truly stresses the necessity to consider environmental constraints when designing and deploying IoT edge devices.
翻訳日:2023-04-01 13:16:23 公開日:2021-05-05
# 古典的軌道からの量子絡み合い

Quantum entanglement from classical trajectories ( http://arxiv.org/abs/2105.02075v1 )

ライセンス: Link先を確認
Johan E. Runeson and Jeremy O. Richardson(参考訳) 量子古典軌道シミュレーションにおける長年の課題は、古典的自由度と量子的自由度の間の絡み合いの処理である。 本稿では, 絡み合った状態の出現を, 独立的かつ決定論的なエレンフェスト様の古典的軌跡の観点から記述する。 古典的な環境での2レベル量子系の場合、これはスピン1/2の経路積分表現に量子系をマッピングすることで導かれる。 本手法はコヒーレンスとデコヒーレンスを正確に考慮し,非断熱散乱問題においてウェーブパックの分割を再現することを示す。 この発見は、確率的表面ホッピング、結合軌道、あるいは半古典的アプローチの代替として、新しいシミュレーションのクラスを開く。

A long-standing challenge in mixed quantum-classical trajectory simulations is the treatment of entanglement between the classical and quantal degrees of freedom. We present a novel approach which describes the emergence of entangled states entirely in terms of independent and deterministic Ehrenfest-like classical trajectories. For a two-level quantum system in a classical environment, this is derived by mapping the quantum system onto a path-integral representation of a spin-1/2. We demonstrate that the method correctly accounts for coherence and decoherence and thus reproduces the splitting of a wavepacket in a nonadiabatic scattering problem. This discovery opens up a new class of simulations as an alternative to stochastic surface-hopping, coupled-trajectory or semiclassical approaches.
翻訳日:2023-04-01 13:15:57 公開日:2021-05-05
# ニューロモルフィックコンピューティングにおける動的信頼性管理

Dynamic Reliability Management in Neuromorphic Computing ( http://arxiv.org/abs/2105.02038v1 )

ライセンス: Link先を確認
Shihao Song, Jui Hanamshet, Adarsha Balaji, Anup Das, Jeffrey L. Krichmar, Nikil D. Dutt, Nagarajan Kandasamy, Francky Catthoor(参考訳) ニューロモルフィックコンピューティングシステムは、高密度で低エネルギーのシナプス記憶を実装するために非揮発性メモリ(NVM)を使用する。 NVMを操作するのに必要な電圧と電流は、ハードウェア内の各ニューロンとシナプス回路におけるCMOSベースのトランジスタの老化を引き起こし、トランジスタのパラメータを名目値からドリフトさせる。 アグレッシブなデバイススケーリングは電力密度と温度を増加させ、老化を加速させ、ニューロモルフィックシステムの信頼性の高い動作に挑戦する。 既存の信頼性指向技術は、ハードウェア内のすべてのニューロンとシナプス回路を一定間隔で定期的に分解し、最悪の動作条件を仮定する。 これらの回路を分解するには、通常の動作を中断し、スパイク発生と伝播の遅延を発生させ、スパイク間間隔に影響を与え、その結果、例えば精度を低下させる必要がある。 本稿では,ニューラルネットワークの動作中のCMOSトランジスタの短期劣化に応答して,ニューロンとシナプス回路を動的に遅延するインテリジェントランタイムマネージャ(NCRTM)を設計し,信頼性目標を満たすことを目的として,ニューロモルフィックシステムにおける老化関連信頼性問題を緩和するアーキテクチャ手法を提案する。 NCRTMは、絶対に必要な場合にのみこれらの回路をデストレッチし、そうでなければ、クリティカルパスからデストレッチ操作をスケジューリングすることでパフォーマンスへの影響を低減する。 我々はNCRTMをニューロモルフィックハードウェア上で最先端の機械学習ワークロードで評価する。 以上の結果から,NCRTMはニューロモルフィックハードウェアの信頼性を著しく向上し,性能に限界があることが示された。

Neuromorphic computing systems uses non-volatile memory (NVM) to implement high-density and low-energy synaptic storage. Elevated voltages and currents needed to operate NVMs cause aging of CMOS-based transistors in each neuron and synapse circuit in the hardware, drifting the transistor's parameters from their nominal values. Aggressive device scaling increases power density and temperature, which accelerates the aging, challenging the reliable operation of neuromorphic systems. Existing reliability-oriented techniques periodically de-stress all neuron and synapse circuits in the hardware at fixed intervals, assuming worst-case operating conditions, without actually tracking their aging at run time. To de-stress these circuits, normal operation must be interrupted, which introduces latency in spike generation and propagation, impacting the inter-spike interval and hence, performance, e.g., accuracy. We propose a new architectural technique to mitigate the aging-related reliability problems in neuromorphic systems, by designing an intelligent run-time manager (NCRTM), which dynamically destresses neuron and synapse circuits in response to the short-term aging in their CMOS transistors during the execution of machine learning workloads, with the objective of meeting a reliability target. NCRTM de-stresses these circuits only when it is absolutely necessary to do so, otherwise reducing the performance impact by scheduling de-stress operations off the critical path. We evaluate NCRTM with state-of-the-art machine learning workloads on a neuromorphic hardware. Our results demonstrate that NCRTM significantly improves the reliability of neuromorphic hardware, with marginal impact on performance.
翻訳日:2023-04-01 13:15:11 公開日:2021-05-05
# 波動関数の意識と崩壊

Consciousness and the Collapse of the Wave Function ( http://arxiv.org/abs/2105.02314v1 )

ライセンス: Link先を確認
David J. Chalmers and Kelvin J. McQueen(参考訳) 意識は量子波動関数を崩壊させるか? この考えはジョン・フォン・ノイマンとユージン・ウィグナーによって真面目に受け止められたが、現在では広く否定されている。 我々は, 意識の数学的理論(統合情報理論)と, 量子崩壊ダイナミクス(連続的自発的局所化)の考慮を組み合わせることにより, 概念を展開する。 この理論の単純なバージョンは量子ゼノ効果によって偽造されるが、より複雑なバージョンは経験的証拠と相容れないままである。 原理的には、理論のバージョンは量子コンピュータの実験によってテストすることができる。 結論は、意識の反復解釈が明らかに正しいのではなく、探究する価値のある研究プログラムがあるということだ。

Does consciousness collapse the quantum wave function? This idea was taken seriously by John von Neumann and Eugene Wigner but is now widely dismissed. We develop the idea by combining a mathematical theory of consciousness (integrated information theory) with an account of quantum collapse dynamics (continuous spontaneous localization). Simple versions of the theory are falsified by the quantum Zeno effect, but more complex versions remain compatible with empirical evidence. In principle, versions of the theory can be tested by experiments with quantum computers. The upshot is not that consciousness-collapse interpretations are clearly correct, but that there is a research program here worth exploring.
翻訳日:2023-04-01 13:07:26 公開日:2021-05-05
# 量子情報は揮発性の形で身体なしで残ることができる

Quantum information can remain without physical body in volatile form ( http://arxiv.org/abs/2105.03250v1 )

ライセンス: Link先を確認
Brij Mohan, Sohail, Chirag Srivastava, Arun K. Pati, Ujjwal Sen(参考訳) 古典的および量子的情報に深く根ざした見解は、「情報」すなわち情報を保存し、処理するためには、身体が必要であるということである。 ここでは、物理体なしで量子情報が残るかどうかを問う。 我々は、この疑問に肯定的な形で答える、すなわち、量子情報は、揮発的な形で物理体なしでは存在できないと論じる。 量子情報のボラティリティの概念を導入し、その条件が量子テレポーテーションプロトコルで自然に満たされていることを示す。 特殊相対性理論が仮定されないとしても、量子情報を揮発的にすることができる。 また,この現象の古典的限界と多元的シナリオについても論じる。

A deeply rooted view in classical and quantum information is that "information is physical", i.e., to store and process information, we need a physical body. Here we ask whether quantum information can remain without a physical body. We answer this question in the affirmative, i.e., we argue that quantum information can exist without a physical body in volatile form. We introduce the notion of the volatility of quantum information and show that indeed the conditions for it are naturally satisfied in the quantum teleportation protocol. We argue that even if special relativity principles are not assumed, it is possible to make quantum information volatile. We also discuss the classical limit of the phenomenon, as well as the multiparty scenario.
翻訳日:2023-04-01 12:58:32 公開日:2021-05-05
# 可積分リーブ・ライニガーモデルにおけるスペクトル統計

Spectrum statistics in the integrable Lieb-Liniger model ( http://arxiv.org/abs/2105.02967v1 )

ライセンス: Link先を確認
Samy Mailoud Sekkouri, Felix Izrailev, Fausto Borgonovi(参考訳) 我々は、可積分量子系の統計的性質に関する古くから広く議論されている問題に、パラダイム的リーブ・ライニガーモデルの解析を通して対処する。 この1次元相互作用ボソンの量子多体モデルにより、ベーテ・アンザッツ法によるエネルギースペクトルの厳密な決定が可能となり、ポアソン統計がこのモデルの特徴的特徴であるかどうかが注目される。 解析的および数値的研究の両方を用いて、スペクトルの性質は、全エネルギースペクトルに対して、あるいは固定された全運動量を持つ単一の部分集合に対して、解析が行われるかどうかに強く依存することを示した。 本研究では, 近傍のエネルギー間の間隔のポアソン分布は, 大きすぎる, 弱い相互作用強度, 十分に高いエネルギーに対して, 一定の運動量を持つ一連のエネルギー準位に対してのみ発生することを示す。 一方,エネルギー準位間の長距離相関の研究では,ポアソン過程による予測から強い偏差が見られた。

We address the old and widely debated question of the statistical properties of integrable quantum systems, through the analysis of the paradigmatic Lieb-Liniger model. This quantum many-body model of 1-d interacting bosons allows for the rigorous determination of energy spectra via the Bethe ansatz approach and our interest is understanding whether Poisson statistics is a characteristic feature of this model. Using both analytical and numerical studies we show that the properties of spectra strongly depend on whether the analysis is done for a full energy spectrum or for a single subset with fixed total momentum. We show that the Poisson distribution of spacing between nearest-neighbor energies can occur only for a set of energy levels with fixed total momentum, for neither too large nor too weak interaction strength, and for sufficiently high energy. On the other hand, when studying long-range correlations between energy levels, we found strong deviations from the predictions given by a Poisson process.
翻訳日:2023-04-01 12:58:21 公開日:2021-05-05
# シュロディンガー方程式は普遍的、暗黒物質、二重拡散である

Schrodinger's Equation is Universal, Dark Matter and Double Diffusion ( http://arxiv.org/abs/2105.02690v1 )

ライセンス: Link先を確認
Johan Beumee, Hershel Rabitz(参考訳) 角運動量,スピン,その他の粒子特性を無視しながら,エネルギーと運動量を保存する主粒子とインシデント粒子の古典力学弾性衝突を考察する。 この論文の主な結果は、2つの古典的ハミルトンエネルギーの衝突が、シュロディンガー波動関数の導出に使用される二次ネルソン測度と似た対称および反対称(浸透)項の4つの重み付き粒子で表されることを示している。 ネルソンに続いて、第2粒子の挙動をポテンシャルで捉えることができ、主粒子の移動速度と移動速度を確率微分方程式を用いてモデル化すれば、主粒子の運動はシュロディンガーの方程式を満たす。 この方程式の拡散分散は、関連する質量の比率と仮定された分散に置き換えられる。 最初の例は、1種類の入射粒子の存在下でシュロディンガー方程式を考慮し、量子力学でこの結果を再現しようとするものである。 主粒子エネルギー準位は入射粒子の倍数となり、系全体のエネルギー式は量子力学と一致するが、確率方程式には違いがある。 シュロディンガー方程式はニュートン方程式の補正を表すためにも用いられ、ダークマターの探索にユーザプロファイルが使われることを示唆する。 衝突モデルに対する別の解は、相互作用がアインシュタインの特殊相対性理論におけるミンコフスキー方程式の補正を示唆するときに相対論的性質を示す。 また、古典的なシュロディンガー方程式を主粒子と入射粒子の両方で同時に用いることができ、異なる拡散パラメータを持つ波動方程式の相関集合を導くことができる。

This paper considers a main particle and an incident particle classical mechanics elastic collision preserving energy and momentum while ignoring the angular momentum, spin or other particle characteristics. The main result of the paper shows that the colliding two particle classical Hamiltonian energy can be represented in four weighted individual particle in symmetric and anti-symmetric (osmotic) terms similar to the quadratic Nelson measure used in the derivation of the Schrodinger wave function. Following Nelson, if the second particle behavior can be captured in a potential and the ingoing and outgoing velocities of the main particle are modelled using stochastic differential equations the motion of the main particle satisfies the Schrodinger's equation. The diffusion variance of this equation is replaced by a related ratio of masses and the assumed variance. The first example attempts to reconcile this result with quantum mechanics by considering the Schrodinger equation in the presence of only one type of incident particle. The main particle energy levels become multiples of the incident particle and the energy expression for the entire system agrees with quantum mechanics but there are differences with the stochastic equation. The Schrodinger equation can also be used to represent corrections for Newton's equation and suggests a user profile to be used in the search for Dark Matter. An alternative solution to the collision model also shows relativistic properties as the interactions suggest corrections to the Minkowski equation in Einstein's Special Relativity. It is also possible to use the classical Schrodinger's equation both on the main and incident particle simultaneously leading to a correlated set of wave equations with different diffusion parameters.
翻訳日:2023-04-01 12:58:02 公開日:2021-05-05
# トーマス・フェルミ方程式のマヨラナ解について

On the Majorana solution to the Thomas-Fermi equation ( http://arxiv.org/abs/2105.02686v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez and Javier Garcia(参考訳) マヨラナによって発見されたトーマス・フェルミ方程式の解を解析する。 そこで本研究では,斜面の起点における連成により,利用可能な方法よりもはるかに精度の高い結果が得られることを示す。 また、この級数の収束半径を推定し、原点に最も近い特異点が平方根分岐点であることを予想する。

We analyse the solution to the Thomas-Fermi equation discovered by Majorana. We show that the series for the slope at origin enables one to obtain results of accuracy far beyond those provided by available methods. We also estimate the radius of convergence of this series and conjecture that the singularity closest to origin is a square-root branch point.
翻訳日:2023-04-01 12:57:37 公開日:2021-05-05
# 磁気共鳴によるキラル誘起スピン選択性の評価

Assessing the nature of chiral-induced spin-selectivity by magnetic resonance ( http://arxiv.org/abs/2105.02350v1 )

ライセンス: Link先を確認
A. Chiesa, M. Chizzini, E. Garlatti, E. Salvadori, F. Tacchino, P. Santini, I. Tavernelli, R. Bittl, M. Chiesa, R. Sessoli and S. Carretta(参考訳) ヘリカルシステムによる電荷輸送によるキラル誘導スピン選択性(CISS)の理解は、最近多くの実験的、理論的努力に影響を与えたが、依然として激しい議論の対象となっている。 CISSの性質を評価するため,単一分子レベルで発生した電子移動過程に焦点をあてる。 量子ビットを高感度でコヒーレントな磁気センサとして利用し、アクセプター偏極の明確なシグネチャを与える単純な磁気共鳴実験をデザインした。 さらに,分子のランダムな配向解に対する時間分解型電子常磁性共鳴実験から情報を得ることができた。 提案した実験は、電子移動におけるキラルリンカーの役割を明らかにし、量子コンピューティング用途にも活用できる。

Understanding chiral induced spin-selectivity (CISS), resulting from charge transport through helical systems, has recently inspired many experimental and theoretical efforts, but is still object of intense debate. In order to assess the nature of CISS, we propose to focus on electron-transfer processes occurring at the single-molecule level. We design simple magnetic resonance experiments, exploiting a qubit as a highly sensitive and coherent magnetic sensor, to provide clear signatures of the acceptor polarization. Moreover, we show that information could even be obtained from time-resolved electron paramagnetic resonance experiments on a randomly-oriented solution of molecules. The proposed experiments will unveil the role of chiral linkers in electron-transfer and could also be exploited for quantum computing applications.
翻訳日:2023-04-01 12:56:46 公開日:2021-05-05
# 適応ラムゼー系列測定のための逐次ベイズ実験設計

Sequential Bayesian experiment design for adaptive Ramsey sequence measurements ( http://arxiv.org/abs/2105.02327v1 )

ライセンス: Link先を確認
Robert D. McMichael, Sergey Dushenko and Sean M. Blakley(参考訳) ラムゼー列はスピン量子ビットの量子位相測定の標準的な例である。 ramsey測定では、位相蓄積時間設定の設定を慎重に選択することで、測定効率を最適化することができる。 本稿では,低忠実度ラムゼー測定における位相蓄積時間に関する逐次ベイズ実験設計プロトコルを実装し,従来報告した適応ヒューリスティックプロトコルとランダム設定選択との性能を比較する。 測定と設計の計算を同時に実行できるワークフローは、測定オーバーヘッドから計算時間を大幅に排除します。 先行周波数が推定する唯一のパラメータである場合、ベイズ設計は適応的ヒューリスティックおよびランダムなプロトコルに対する2と4の因子によってより高速になる。

The Ramsey sequence is a canonical example of a quantum phase measurement for a spin qubit. In Ramsey measurements, the measurement efficiency can be optimized through careful selection of settings for the phase accumulation time setting, $\tau$. This paper implements a sequential Bayesian experiment design protocol for the phase accumulation time in low-fidelity Ramsey measurements, and performance is compared to both a previously reported adaptive heuristic protocol and random setting choices. A workflow allowing measurements and design calculations to run concurrently largely eliminates computation time from measurement overhead. When precession frequency is the lone parameter to estimate, the Bayesian design is faster by factors of 2 and 4 relative to the adaptive heuristic and random protocols respectively.
翻訳日:2023-04-01 12:56:09 公開日:2021-05-05
# マルチスケールコンボリューションを用いたターゲットカメラ指向方式によるハイパースペクトル画像分類

A CNN With Multi-scale Convolution for Hyperspectral Image Classification using Target-Pixel-Orientation scheme ( http://arxiv.org/abs/2001.11198v3 )

ライセンス: Link先を確認
Jayasree Saha, Yuvraj Khanna, Jayanta Mukherjee(参考訳) 近年、CNNはハイパースペクトル画像分類の課題に対処するために人気がある。 ハイパースペクトル画像(HSI)にそのようなスペクトル情報があるにもかかわらず、次元性の呪いを生み出す。 また、スペクトルシグネチャの空間的な大きな変動は分類問題にさらに困難をもたらす。 さらに、トレーニングサンプルの不足によるエンドツーエンドでのCNNのトレーニングも、難しくて興味深い問題です。 本稿では,CNNベースのネットワークをトレーニングするために,新たなターゲットパッチ指向手法を提案する。 また、3D-CNNと2D-CNNベースのネットワークアーキテクチャのハイブリッドを導入し、帯域削減法と特徴抽出法を実装した。 実験の結果,本手法は既存の工法で報告された精度よりも優れていた。

Recently, CNN is a popular choice to handle the hyperspectral image classification challenges. In spite of having such large spectral information in Hyper-Spectral Image(s) (HSI), it creates a curse of dimensionality. Also, large spatial variability of spectral signature adds more difficulty in classification problem. Additionally, training a CNN in the end to end fashion with scarced training examples is another challenging and interesting problem. In this paper, a novel target-patch-orientation method is proposed to train a CNN based network. Also, we have introduced a hybrid of 3D-CNN and 2D-CNN based network architecture to implement band reduction and feature extraction methods, respectively. Experimental results show that our method outperforms the accuracies reported in the existing state of the art methods.
翻訳日:2023-01-05 12:20:31 公開日:2021-05-05
# フォトリアリスティックな仮想ニュースアンカーを合成するニューラルネットワークリップシンクフレームワーク

A Neural Lip-Sync Framework for Synthesizing Photorealistic Virtual News Anchors ( http://arxiv.org/abs/2002.08700v2 )

ライセンス: Link先を確認
Ruobing Zheng, Zhou Zhu, Bo Song, Changjiang Ji(参考訳) 音声信号から口の動きを生成する技術としてリップシンクが登場した。 しかし、高解像度でフォトリアリスティックなバーチャルニュースアンカーの合成はまだ難しい。 自然な外観、視覚的整合性、処理効率の欠如が、既存の手法の主な問題である。 本稿では,高忠実度仮想ニュースアンカーのための新しいリップシンクフレームワークを提案する。 一対のテンポラル畳み込みネットワークを用いて、音声信号から口の動きへのクロスモーダルな逐次マッピングを学習し、その後、合成顔地図を高解像度でフォトリアリスティックな外観に変換するニューラルネットワークが続く。 この完全にトレーニング可能なフレームワークは、多くの低遅延アプリケーションで従来のグラフィックベースのメソッドを上回るエンドツーエンドの処理を提供する。 実験はまた、このフレームワークが視覚的外観と効率の両方において、現代のニューラルベース手法よりも優れていることを示している。

Lip sync has emerged as a promising technique for generating mouth movements from audio signals. However, synthesizing a high-resolution and photorealistic virtual news anchor is still challenging. Lack of natural appearance, visual consistency, and processing efficiency are the main problems with existing methods. This paper presents a novel lip-sync framework specially designed for producing high-fidelity virtual news anchors. A pair of Temporal Convolutional Networks are used to learn the cross-modal sequential mapping from audio signals to mouth movements, followed by a neural rendering network that translates the synthetic facial map into a high-resolution and photorealistic appearance. This fully trainable framework provides end-to-end processing that outperforms traditional graphics-based methods in many low-delay applications. Experiments also show the framework has advantages over modern neural-based methods in both visual appearance and efficiency.
翻訳日:2022-12-30 08:11:44 公開日:2021-05-05
# saliencyモデルはオッズワンアウトターゲットを検出するか? 新しいデータセットと評価

Do Saliency Models Detect Odd-One-Out Targets? New Datasets and Evaluations ( http://arxiv.org/abs/2005.06583v2 )

ライセンス: Link先を確認
Iuliia Kotseruba, Calden Wloka, Amir Rasouli, John K. Tsotsos(参考訳) 最近のサリーエンシー分野の進歩は固定化予測に集中し、ベンチマークは飽和に達している。 しかしながら、心理学や神経科学の幅広い分野において、現在のアプローチでは十分に捉えられない人間の視覚的注意の側面を記述している。 そこで本研究では,サリエンスの正準例と考えられるシングルトン検出について検討する。 2つの新しいデータセットを紹介した。1つは精神物理学的パターンを持ち、もう1つは自然な奇抜な刺激を持つ。 これらのデータセットを用いて、ほぼすべてのサリエンシアルゴリズムが合成画像や自然画像のシングルトンターゲットに適切に反応しないという広範な実験を通して実証する。 さらに,これらの刺激に対する最先端のcnn-based saliencyモデルの効果について検討し,追加のトレーニングデータでは,オッズ・ワン・アウト・ターゲットを見つける能力が大幅に向上することはないと結論づけた。 データセットはhttp://data.nvision2.eecs.yorku.ca/P3O3/で入手できる。

Recent advances in the field of saliency have concentrated on fixation prediction, with benchmarks reaching saturation. However, there is an extensive body of works in psychology and neuroscience that describe aspects of human visual attention that might not be adequately captured by current approaches. Here, we investigate singleton detection, which can be thought of as a canonical example of salience. We introduce two novel datasets, one with psychophysical patterns and one with natural odd-one-out stimuli. Using these datasets we demonstrate through extensive experimentation that nearly all saliency algorithms do not adequately respond to singleton targets in synthetic and natural images. Furthermore, we investigate the effect of training state-of-the-art CNN-based saliency models on these types of stimuli and conclude that the additional training data does not lead to a significant improvement of their ability to find odd-one-out targets. Datasets are available at http://data.nvision2.eecs.yorku.ca/P3O3/.
翻訳日:2022-12-03 13:25:59 公開日:2021-05-05
# エントロピーに基づく外乱スコアと道路インフラストラクチャ画像の新規検出への応用

An Entropy Based Outlier Score and its Application to Novelty Detection for Road Infrastructure Images ( http://arxiv.org/abs/2005.13288v2 )

ライセンス: Link先を確認
Jonas Wurst, Alberto Flores Fern\'andez, Michael Botsch and Wolfgang Utschick(参考訳) 本研究は,グラフベース次元減少手法に組み込むことができる新規な教師なし外付けスコアについて述べる。 スコアはこれらの技法の有向近辺グラフを使用する。 したがって、データを低次元に投影するために使用される類似性の同じ尺度も、外れ値を決定するために使用される。 外れ値スコアは類似性の重み付き正規化エントロピーによって実現される。 このスコアは道路インフラストラクチャー画像に適用される。 その目的は、事前に収集されたベースデータセットから新たに観測されたインフラストラクチャを特定することである。 未知のシナリオを検出することは、自動運転車の迅速な検証の鍵となる。 その結果,提案手法の可能性が示唆された。 アウトリアースコアの一般化能力を検証するために、様々な実世界のデータセットにも適用される。 提案手法を用いて外れ値の同定における全体的な平均性能は,最先端手法と比較して高い。 インフラ画像を生成するために,この作業の一環として,Matlab の OpenDRIVE 解析・プロットツールを開発した。 このツールと、Uniform Manifold ApproximationとProjectionを組み合わせたエントロピーベースのアウトリースコアの実装が公開されている。

A novel unsupervised outlier score, which can be embedded into graph based dimensionality reduction techniques, is presented in this work. The score uses the directed nearest neighbor graphs of those techniques. Hence, the same measure of similarity that is used to project the data into lower dimensions, is also utilized to determine the outlier score. The outlier score is realized through a weighted normalized entropy of the similarities. This score is applied to road infrastructure images. The aim is to identify newly observed infrastructures given a pre-collected base dataset. Detecting unknown scenarios is a key for accelerated validation of autonomous vehicles. The results show the high potential of the proposed technique. To validate the generalization capabilities of the outlier score, it is additionally applied to various real world datasets. The overall average performance in identifying outliers using the proposed methods is higher compared to state-of-the-art methods. In order to generate the infrastructure images, an openDRIVE parsing and plotting tool for Matlab is developed as part of this work. This tool and the implementation of the entropy based outlier score in combination with Uniform Manifold Approximation and Projection are made publicly available.
翻訳日:2022-11-28 07:52:45 公開日:2021-05-05
# タスクと動作計画のためのロボットスキルの構成モデル学習

Learning compositional models of robot skills for task and motion planning ( http://arxiv.org/abs/2006.06444v2 )

ライセンス: Link先を確認
Zi Wang, Caelan Reed Garrett, Leslie Pack Kaelbling, and Tom\'as Lozano-P\'erez(参考訳) 本研究の目的は,センサモレータプリミティブを用いて複雑な長距離操作問題を解決することで,ロボットの基本能力を高めることである。 これは、新しい組み合わせで原始的な能力を組み合わせ、様々な問題にまたがって一般化できる柔軟な生成計画を必要とする。 プリミティブなアクションを計画するためには、アクションのモデルが必要です。 アクティブラーニングとサンプリングに最先端の手法を駆使し,新しい改良を展開する。 ガウス過程の手法を用いて,少数の学習例からスキルの有効性の制約を学習する。 さらに,提案手法は,計画中の連続候補制御パラメータ(例えばカップの注ぐ経路点など)の包括的かつ多様なシーケンスを生成するための効率的な適応サンプリング手法を開発する。 これらの価値は、従来のモーションプランナーにとってエンドエフェクターの目標となり、そのスキルを実行する完全なロボットの動きを解決します。 学習方法と計画手法を併用することで,それぞれの強みを活かし,様々な複雑な動的操作タスクを計画する。 従来のロボットプリミティブを,効率的なロボットタスクとモーションプランナを用いて,新たに学習したモデルと組み合わせた統合システムによるアプローチを実証する。 我々は,選択した原始行動の質を計測することで,シミュレーションと実世界の双方でアプローチを評価する。 最後に,本システムを様々な長方形シミュレーションおよび実世界の操作問題に適用する。

The objective of this work is to augment the basic abilities of a robot by learning to use sensorimotor primitives to solve complex long-horizon manipulation problems. This requires flexible generative planning that can combine primitive abilities in novel combinations and thus generalize across a wide variety of problems. In order to plan with primitive actions, we must have models of the actions: under what circumstances will executing this primitive successfully achieve some particular effect in the world? We use, and develop novel improvements on, state-of-the-art methods for active learning and sampling. We use Gaussian process methods for learning the constraints on skill effectiveness from small numbers of expensive-to-collect training examples. Additionally, we develop efficient adaptive sampling methods for generating a comprehensive and diverse sequence of continuous candidate control parameter values (such as pouring waypoints for a cup) during planning. These values become end-effector goals for traditional motion planners that then solve for a full robot motion that performs the skill. By using learning and planning methods in conjunction, we take advantage of the strengths of each and plan for a wide variety of complex dynamic manipulation tasks. We demonstrate our approach in an integrated system, combining traditional robotics primitives with our newly learned models using an efficient robot task and motion planner. We evaluate our approach both in simulation and in the real world through measuring the quality of the selected primitive actions. Finally, we apply our integrated system to a variety of long-horizon simulated and real-world manipulation problems.
翻訳日:2022-11-24 01:15:48 公開日:2021-05-05
# FISAR:ディープニューラルネットワークに基づく最適化による前向き不変な安全強化学習

FISAR: Forward Invariant Safe Reinforcement Learning with a Deep Neural Network-Based Optimize ( http://arxiv.org/abs/2006.11419v4 )

ライセンス: Link先を確認
Chuangchuang Sun, Dong-Ki Kim, Jonathan P. How(参考訳) 本稿では,安全クリティカル環境における制約付き強化学習について検討する。 制約違反を単調に減少させるため、リャプノフ関数として制約を考慮し、ポリシーパラメータの更新ダイナミクスに新たな線形制約を課す。 結果として、元の安全集合は前方不変である。 しかし、新しい保証可能な制約が元のポリシーパラメータの代わりに更新ダイナミクスに課されるため、古典最適化アルゴリズムはもはや適用されない。 そこで我々は,線形制約を満たすことなく目的を最適化するために,汎用ディープニューラルネットワーク(DNN)に基づく最適化学習を提案する。 制約満足度は複数の線形不等式制約で定式化されたポリトープへの射影によって達成される。 我々の知る限りでは、これは前方不変性を保証する制約付き最適化のためのtextit{first} DNNベースのオプティマイザである。 当社のオプティマイザは制約違反を減らし,累積報酬を単調に最大化するためのポリシーをトレーニングしている。 数値制約最適化と障害物回避ナビゲーションによる理論的結果の検証

This paper investigates reinforcement learning with constraints, which are indispensable in safety-critical environments. To drive the constraint violation monotonically decrease, we take the constraints as Lyapunov functions and impose new linear constraints on the policy parameters' updating dynamics. As a result, the original safety set can be forward-invariant. However, because the new guaranteed-feasible constraints are imposed on the updating dynamics instead of the original policy parameters, classic optimization algorithms are no longer applicable. To address this, we propose to learn a generic deep neural network (DNN)-based optimizer to optimize the objective while satisfying the linear constraints. The constraint-satisfaction is achieved via projection onto a polytope formulated by multiple linear inequality constraints, which can be solved analytically with our newly designed metric. To the best of our knowledge, this is the \textit{first} DNN-based optimizer for constrained optimization with the forward invariance guarantee. We show that our optimizer trains a policy to decrease the constraint violation and maximize the cumulative reward monotonically. Results on numerical constrained optimization and obstacle-avoidance navigation validate the theoretical findings.
翻訳日:2022-11-19 03:22:13 公開日:2021-05-05
# ニューラルモデル説明のための勾配を用いたシンボリック手法のスケーリング

Scaling Symbolic Methods using Gradients for Neural Model Explanation ( http://arxiv.org/abs/2006.16322v4 )

ライセンス: Link先を確認
Subham Sekhar Sahoo, Subhashini Venugopalan, Li Li, Rishabh Singh, Patrick Riley(参考訳) ニューラルネットワーク特性の分析と検証にはSMT(Satifiability Modulo Theory)に基づくシンボリック手法が提案されているが、大規模ネットワークでのスケーラビリティの低さのため、その利用は極めて制限されている。 本研究では, 勾配に基づく手法と記号的手法を組み合わせた解析手法を提案し, モデル説明への応用を実証する。 特に,この手法を用いて,ニューラルネットワークの予測に最も関係のある入力の最小領域を同定する。 我々のアプローチでは、勾配情報(積分勾配に基づく)を使用して、第1層のニューロンのサブセットに集中することで、我々の技術は大規模ネットワークに拡張できる。 対応するSMT制約は、入力をマスクした後、選択されたニューロンの活性化がしきい値を超えるような最小の入力マスク発見問題を符号化する。 マスクの最小化のために解決した後、マスク領域を計測し、マスク内の特徴の相対的な順序を生成する。 これは、予測を行うときに、"モデルが見ている場所"を説明するサリエンシマップを生成する。 我々は,MNIST,ImageNet,Beer Reviewsの3つのデータセット上で手法の評価を行い,アプローチによって生成された領域がスペーサーであり,勾配法のみと比較して高い唾液度スコアが得られることを示す。 コードと例は、https://github.com/google-research/google-research/tree/master/smug_saliencyにある。

Symbolic techniques based on Satisfiability Modulo Theory (SMT) solvers have been proposed for analyzing and verifying neural network properties, but their usage has been fairly limited owing to their poor scalability with larger networks. In this work, we propose a technique for combining gradient-based methods with symbolic techniques to scale such analyses and demonstrate its application for model explanation. In particular, we apply this technique to identify minimal regions in an input that are most relevant for a neural network's prediction. Our approach uses gradient information (based on Integrated Gradients) to focus on a subset of neurons in the first layer, which allows our technique to scale to large networks. The corresponding SMT constraints encode the minimal input mask discovery problem such that after masking the input, the activations of the selected neurons are still above a threshold. After solving for the minimal masks, our approach scores the mask regions to generate a relative ordering of the features within the mask. This produces a saliency map which explains "where a model is looking" when making a prediction. We evaluate our technique on three datasets - MNIST, ImageNet, and Beer Reviews, and demonstrate both quantitatively and qualitatively that the regions generated by our approach are sparser and achieve higher saliency scores compared to the gradient-based methods alone. Code and examples are at - https://github.com/google-research/google-research/tree/master/smug_saliency
翻訳日:2022-11-15 13:10:55 公開日:2021-05-05
# $k$-NNレグレッションにおける$k$の選択のための最小不一致原理戦略

Minimum discrepancy principle strategy for choosing $k$ in $k$-NN regression ( http://arxiv.org/abs/2008.08718v4 )

ライセンス: Link先を確認
Yaroslav Averyanov and Alain Celisse(参考訳) 我々は,$k$-nn回帰推定器のハイパーパラメータ$k$を選択するための新しいデータ駆動戦略を提案する。 我々は,ハイパーパラメータを反復的手順 ($k$以上) として選択する問題を扱い,早期停止の考え方と最小差分原理に基づく実践的戦略を用いて提案する。 このモデル選択戦略は、いくつかの滑らかな函数クラス、例えば有界領域上のリプシッツ函数クラスに対する共変量に対する固定設計仮定の下で、ミニマックス最適であることが証明されている。 この新しい手法は、ホールドアウト法や5倍クロスバリデーション法といった他のモデル選択戦略と比較して、人工および実世界のデータセットの統計性能をしばしば改善する。 戦略の新規性は、モデル選択手順の計算時間を短縮し、結果の推定器の統計的(極小)最適性を保ちながら得られる。 より正確には、サイズ n$ のサンプルが与えられたとき、最寄りの近傍が既に事前計算されていると仮定し、もし$\left\{ 1, \ldots, n \right\}$ の中から $k$ を選ぶと、戦略は、一般のクロスバリデーションまたはアカイケの aic 基準の計算時間を$\mathcal{o}\left(n^3 \right)$ to $\mathcal{o}\left(n^2 (n - k) \right)$ から減少させる。 シミュレーションのコードはhttps://github.com/yaroslavaveryanov/minimum-discrepancy-principle-for-choosing-kで提供されている。

We present a novel data-driven strategy to choose the hyperparameter $k$ in the $k$-NN regression estimator. We treat the problem of choosing the hyperparameter as an iterative procedure (over $k$) and propose using an easily implemented in practice strategy based on the idea of early stopping and the minimum discrepancy principle. This model selection strategy is proven to be minimax-optimal, under the fixed-design assumption on covariates, over some smoothness function classes, for instance, the Lipschitz functions class on a bounded domain. The novel method often improves statistical performance on artificial and real-world data sets in comparison to other model selection strategies, such as the Hold-out method and 5-fold cross-validation. The novelty of the strategy comes from reducing the computational time of the model selection procedure while preserving the statistical (minimax) optimality of the resulting estimator. More precisely, given a sample of size $n$, assuming that the nearest neighbors are already precomputed, if one should choose $k$ among $\left\{ 1, \ldots, n \right\}$, the strategy reduces the computational time of the generalized cross-validation or Akaike's AIC criteria from $\mathcal{O}\left( n^3 \right)$ to $\mathcal{O}\left( n^2 (n - k) \right)$, where $k$ is the proposed (minimum discrepancy principle) value of the nearest neighbors. Code for the simulations is provided at https://github.com/YaroslavAveryanov/Minimum-discrepancy-principle-for-choosing-k.
翻訳日:2022-10-27 03:15:28 公開日:2021-05-05
# 逐次価格メカニズムの強化学習

Reinforcement Learning of Sequential Price Mechanisms ( http://arxiv.org/abs/2010.01180v2 )

ライセンス: Link先を確認
Gianluca Brero, Alon Eden, Matthias Gerstgrasser, David C. Parkes, Duncan Rheingans-Yoo(参考訳) 我々は,間接的メカニズムに対する強化学習の活用について紹介する。これは,逐次的価格メカニズムの既存クラスと連携し,連続的独裁とポスト価格機構の両方を一般化し,本質的には強固な戦略的防御機構を特徴付ける。 このクラス内で最適なメカニズムを学ぶことは、部分的に観測可能なマルコフ決定過程を形成する。 このようなメカニズムが単純な静的メカニズムよりも強力である場合、学習のための観測統計の不十分さや不十分性、複雑な(深い)ポリシーの必要性に対して厳密な条件を提供する。 本手法は,いくつかの実験環境で最適あるいは至近の最適機構を学習できることを示す。

We introduce the use of reinforcement learning for indirect mechanisms, working with the existing class of sequential price mechanisms, which generalizes both serial dictatorship and posted price mechanisms and essentially characterizes all strongly obviously strategyproof mechanisms. Learning an optimal mechanism within this class forms a partially-observable Markov decision process. We provide rigorous conditions for when this class of mechanisms is more powerful than simpler static mechanisms, for sufficiency or insufficiency of observation statistics for learning, and for the necessity of complex (deep) policies. We show that our approach can learn optimal or near-optimal mechanisms in several experimental settings.
翻訳日:2022-10-12 01:16:16 公開日:2021-05-05
# 線形帯域における表現学習の影響

Impact of Representation Learning in Linear Bandits ( http://arxiv.org/abs/2010.06531v2 )

ライセンス: Link先を確認
Jiaqi Yang, Wei Hu, Jason D. Lee, Simon S. Du(参考訳) 本研究では,表現学習が帯域幅問題の効率を改善する方法を検討する。 我々は、次元$d$と平行に$T$の線形バンディットをプレイする環境で、これらの$T$のバンディットタスクは共通の$k(\ll d)$次元線形表現を共有する。 有限作用設定に対しては、$\widetilde{O}(T\sqrt{kN} + \sqrt{dkNT})$ regret, ここでは、$N$は、各バンディットに対して演奏するラウンドの数である。 T$が十分に大きい場合、我々のアルゴリズムは、後悔する$\widetilde{O}(T\sqrt{d N})を達成できるナイーブアルゴリズム(独立に$T$をプレイする)を大幅に上回る。 また、$\Omega(T\sqrt{kN} + \sqrt{dkNT})$ regret lower bound も提供し、このアルゴリズムが多変数因子まで最小値であることを示す。 さらに,このアルゴリズムを無限動作設定に拡張し,特定のレジームにおける表現学習の利点を示す対応する後悔境界を得る。 また,提案手法の有効性を理論的に示すために,合成および実世界のデータについても実験を行った。

We study how representation learning can improve the efficiency of bandit problems. We study the setting where we play $T$ linear bandits with dimension $d$ concurrently, and these $T$ bandit tasks share a common $k (\ll d)$ dimensional linear representation. For the finite-action setting, we present a new algorithm which achieves $\widetilde{O}(T\sqrt{kN} + \sqrt{dkNT})$ regret, where $N$ is the number of rounds we play for each bandit. When $T$ is sufficiently large, our algorithm significantly outperforms the naive algorithm (playing $T$ bandits independently) that achieves $\widetilde{O}(T\sqrt{d N})$ regret. We also provide an $\Omega(T\sqrt{kN} + \sqrt{dkNT})$ regret lower bound, showing that our algorithm is minimax-optimal up to poly-logarithmic factors. Furthermore, we extend our algorithm to the infinite-action setting and obtain a corresponding regret bound which demonstrates the benefit of representation learning in certain regimes. We also present experiments on synthetic and real-world data to illustrate our theoretical findings and demonstrate the effectiveness of our proposed algorithms.
翻訳日:2022-10-08 00:23:40 公開日:2021-05-05
# 効率的・チューニングフリーリンク適応のための強化学習

Reinforcement Learning for Efficient and Tuning-Free Link Adaptation ( http://arxiv.org/abs/2010.08651v2 )

ライセンス: Link先を確認
Vidit Saxena, Hugo Tullberg, and Joakim Jald\'en(参考訳) 無線リンクは、データ送信パラメータを動的チャネルの状態に適応させる -- これはリンク適応と呼ばれる。 古典的なリンク適応は、最適なリンク性能の設定が難しいチューニングパラメータに依存している。 近年,多腕バンディットの離散アームとして伝達パラメータがモデル化されるリンク適応の自動化のために強化学習が提案されている。 本稿では,データ伝達パラメータ間の相関を利用したリンク適応のための潜在学習モデルを提案する。 さらに,近年のマルチアームバンディット問題に対するトンプソンサンプリングの成功により,与えられたチャネル状態に対する最適パラメータを迅速に学習する潜時トンプソンサンプリング(LTS)アルゴリズムを提案する。 チャネルダイナミクスを自動的に追跡するチューニングフリー機構によって、ltsをフェーディング無線チャネルに拡張します。 減少する無線チャネルを用いた数値評価では、LTSは最先端のリンク適応アルゴリズムと比較して、全リンクを最大100%改善する。

Wireless links adapt the data transmission parameters to the dynamic channel state -- this is called link adaptation. Classical link adaptation relies on tuning parameters that are challenging to configure for optimal link performance. Recently, reinforcement learning has been proposed to automate link adaptation, where the transmission parameters are modeled as discrete arms of a multi-armed bandit. In this context, we propose a latent learning model for link adaptation that exploits the correlation between data transmission parameters. Further, motivated by the recent success of Thompson sampling for multi-armed bandit problems, we propose a latent Thompson sampling (LTS) algorithm that quickly learns the optimal parameters for a given channel state. We extend LTS to fading wireless channels through a tuning-free mechanism that automatically tracks the channel dynamics. In numerical evaluations with fading wireless channels, LTS improves the link throughout by up to 100% compared to the state-of-the-art link adaptation algorithms.
翻訳日:2022-10-06 22:24:09 公開日:2021-05-05
# Supernetはニューラルアーキテクチャ検索にどのように役立つか?

How Does Supernet Help in Neural Architecture Search? ( http://arxiv.org/abs/2010.08219v2 )

ライセンス: Link先を確認
Yuge Zhang, Quanlu Zhang, Yaming Yang(参考訳) アーキテクチャ性能推定を高速化するアプローチとしての軽量化が注目されている。 各アーキテクチャを個別にトレーニングする代わりに、重み付けはすべてのアーキテクチャをサブモデルとして組み立てるスーパーネットを構築する。 しかし、スーパーネット最適化とNASの目的との間にギャップがあるため、NASプロセスが実際には重量共有の恩恵を受けているかどうかが議論されている。 NAS-Bench-101, NAS-Bench-201, DARTS-CIFAR10, DARTS-PTB, ProxylessNAS の5つの探索空間において, 重み共有がNASに与える影響を総合的に解析する。 ウェイトシェアリングはいくつかの検索スペースではうまく機能するが、他では失敗する。 一歩進めて,このような現象と重量共有能力を考慮したバイアスをさらに特定した。 我々の研究は、将来のNAS研究者に、重量共有のパワーをより活用するよう促すことが期待されている。

Weight sharing, as an approach to speed up architecture performance estimation has received wide attention. Instead of training each architecture separately, weight sharing builds a supernet that assembles all the architectures as its submodels. However, there has been debate over whether the NAS process actually benefits from weight sharing, due to the gap between supernet optimization and the objective of NAS. To further understand the effect of weight sharing on NAS, we conduct a comprehensive analysis on five search spaces, including NAS-Bench-101, NAS-Bench-201, DARTS-CIFAR10, DARTS-PTB, and ProxylessNAS. We find that weight sharing works well on some search spaces but fails on others. Taking a step forward, we further identified biases accounting for such phenomenon and the capacity of weight sharing. Our work is expected to inspire future NAS researchers to better leverage the power of weight sharing.
翻訳日:2022-10-06 19:54:43 公開日:2021-05-05
# オンライン外部校正によるマルチLiDARシステムのロバストオドメトリーとマッピング

Robust Odometry and Mapping for Multi-LiDAR Systems with Online Extrinsic Calibration ( http://arxiv.org/abs/2010.14294v2 )

ライセンス: Link先を確認
Jianhao Jiao, Haoyang Ye, Yilong Zhu, Ming Liu(参考訳) 複数のLiDARを組み合わせることで、ロボットは環境に対する知覚的認識を最大化し、同時に位置付けとマッピング(SLAM)を約束する十分な測定値を得ることができる。 本稿では,複数のLiDARのロバストかつ同時キャリブレーション,オドメトリー,マッピングを実現するシステムを提案する。 提案手法は, 実測値からエッジと平面の特徴を抽出する前処理から始める。 動作および外部初期化処理の後、スライドウィンドウベースのマルチLiDARオドメトリーがオンボードで実行され、オンラインキャリブレーション補正と収束同定によるポーズを推定する。 さらに,データ不確かさをモデル化・低減する手法とともに,グローバルマップを構築し,十分な特徴量を有するポーズを最適化するマッピングアルゴリズムを開発した。 キャリブレーションとスラムの10のシーケンス(全長4.60km)について広範な実験を行い,本手法の有効性を検証し,最新技術と比較した。 提案手法は,様々なマルチLiDARセットアップに対して,完全かつ堅牢で拡張可能なシステムであることを示す。 ソースコード、データセット、デモはhttps://ram-lab.com/file/site/m-loam.com/で見ることができる。

Combining multiple LiDARs enables a robot to maximize its perceptual awareness of environments and obtain sufficient measurements, which is promising for simultaneous localization and mapping (SLAM). This paper proposes a system to achieve robust and simultaneous extrinsic calibration, odometry, and mapping for multiple LiDARs. Our approach starts with measurement preprocessing to extract edge and planar features from raw measurements. After a motion and extrinsic initialization procedure, a sliding window-based multi-LiDAR odometry runs onboard to estimate poses with online calibration refinement and convergence identification. We further develop a mapping algorithm to construct a global map and optimize poses with sufficient features together with a method to model and reduce data uncertainty. We validate our approach's performance with extensive experiments on ten sequences (4.60km total length) for the calibration and SLAM and compare them against the state-of-the-art. We demonstrate that the proposed work is a complete, robust, and extensible system for various multi-LiDAR setups. The source code, datasets, and demonstrations are available at https://ram-lab.com/file/site/m-loam.
翻訳日:2022-10-02 12:51:35 公開日:2021-05-05
# diffusionnet: 表面上の離散化非依存学習

DiffusionNet: Discretization Agnostic Learning on Surfaces ( http://arxiv.org/abs/2012.00888v2 )

ライセンス: Link先を確認
Nicholas Sharp, Souhaib Attaiki, Keenan Crane, Maks Ovsjanikov(参考訳) 本研究では,簡易拡散層が空間コミュニケーションに非常に有効であるという知見に基づいて,3次元表面の深層学習への新たなアプローチを提案する。 結果として得られるネットワークは、表面の様々なサンプリングと解像度を自動的に一般化する。 我々のネットワークは三角形メッシュや点雲などの様々な幾何学的表現で識別することができ、ある表現でトレーニングして、別の表現に適用することもできる。 本研究では,局所的から全グローバル的までの連続的ネットワークパラメータとして拡散の空間的サポートを最適化し,手動で近傍サイズを選択するという負担を取り除く。 この方法の他の成分は、各点に独立に適用される多層パーセプトロンと、指向性フィルタをサポートする空間勾配特徴のみである。 その結果得られるネットワークはシンプルで堅牢で効率的です。 ここでは,主に三角形メッシュ表面に注目し,表面分類,セグメンテーション,非剛性対応など,さまざまなタスクの最先端結果を示す。

We introduce a new approach to deep learning on 3D surfaces, based on the insight that a simple diffusion layer is highly effective for spatial communication. The resulting networks automatically generalize across different samplings and resolutions of a surface -- a basic property which is crucial for practical applications. Our networks can be discretized on various geometric representations such as triangle meshes or point clouds, and can even be trained on one representation then applied to another. We optimize the spatial support of diffusion as a continuous network parameter ranging from purely local to totally global, removing the burden of manually choosing neighborhood sizes. The only other ingredients in the method are a multi-layer perceptron applied independently at each point, and spatial gradient features to support directional filters. The resulting networks are simple, robust, and efficient. Here, we focus primarily on triangle mesh surfaces, and demonstrate state-of-the-art results for a variety of tasks including surface classification, segmentation, and non-rigid correspondence.
翻訳日:2021-05-30 19:54:41 公開日:2021-05-05
# (参考訳) pixelNeRF:1つか2つの画像からの神経放射場

pixelNeRF: Neural Radiance Fields from One or Few Images ( http://arxiv.org/abs/2012.02190v2 )

ライセンス: CC BY 4.0
Alex Yu, Vickie Ye, Matthew Tancik, Angjoo Kanazawa(参考訳) 入力画像に条件付き連続的なニューラルシーン表現を予測する学習フレームワークであるPixelNeRFを提案する。 既存の神経放射場構築のアプローチでは、各シーンへの表現を独立に最適化し、多くのキャリブレーションされたビューと重要な計算時間を必要とする。 我々は、画像入力にNeRFを条件付けるアーキテクチャを導入し、これらの欠点を解決するための一歩を踏み出した。 これにより、ネットワークを複数のシーンにまたがってトレーニングし、事前にシーンを学習し、わずかなビューセットからフィードフォワードで新しいビュー合成を実行することができる。 NeRFのボリュームレンダリングアプローチを活用することで、我々のモデルは、明示的な3D監視なしで画像から直接訓練することができる。 本研究では,単一画像の新規ビュー合成タスクに対するShapeNetベンチマークの広範な実験を行った。 さらに,DTUデータセットから複数オブジェクトのShapeNetシーンと実シーンに表示することで,ピクセルNeRFの柔軟性を実証する。 いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインより優れている。 ビデオとコードについては、プロジェクトのWebサイトを参照してください。

We propose pixelNeRF, a learning framework that predicts a continuous neural scene representation conditioned on one or few input images. The existing approach for constructing neural radiance fields involves optimizing the representation to every scene independently, requiring many calibrated views and significant compute time. We take a step towards resolving these shortcomings by introducing an architecture that conditions a NeRF on image inputs in a fully convolutional manner. This allows the network to be trained across multiple scenes to learn a scene prior, enabling it to perform novel view synthesis in a feed-forward manner from a sparse set of views (as few as one). Leveraging the volume rendering approach of NeRF, our model can be trained directly from images with no explicit 3D supervision. We conduct extensive experiments on ShapeNet benchmarks for single image novel view synthesis tasks with held-out objects as well as entire unseen categories. We further demonstrate the flexibility of pixelNeRF by demonstrating it on multi-object ShapeNet scenes and real scenes from the DTU dataset. In all cases, pixelNeRF outperforms current state-of-the-art baselines for novel view synthesis and single image 3D reconstruction. For the video and code, please visit the project website: https://alexyu.net/pixelnerf
翻訳日:2021-05-23 17:41:44 公開日:2021-05-05
# (参考訳) polygrammar: デジタルポリマーの表現と生成のための文法

Polygrammar: Grammar for Digital Polymer Representation and Generation ( http://arxiv.org/abs/2105.05278v1 )

ライセンス: CC0 1.0
Minghao Guo, Wan Shou, Liane Makatura, Timothy Erps, Michael Foshey, Wojciech Matusik(参考訳) ポリマーは様々な性質と異なる分子構造によって決定される応用を持つ広く研究されている材料である。 これらの構造を明確に表現し、実現可能な化学設計の全空間を探索することが不可欠である。 しかし、既存のアプローチでは、その固有のスケールと構造的複雑さのために、ポリマーの包括的な設計モデルを提供できない。 本稿では,高分子の表現と生成に特化して設計されたパラメトリックな文脈感性文法を提案する。 実証的な例として,ポリウレタンの文法を実装した。 我々の象徴的なハイパーグラフ表現と14の単純な生産規則を用いて、PolyGrammarはすべての有効なポリウレタン構造を表現および生成することができる。 また、一般的なSMILES文字列形式からポリウレタン構造をポリグラマー表現に変換するアルゴリズムを提案する。 文献から収集した600以上のポリウレタン試料のデータセットを翻訳し,ポリグラムマーの代表力をテストする。 さらに,ポリグラマーは他の共重合体やポリアクリレートなどのホモポリマーにも容易に拡張できることを示した。 完全で明示的な表現スキームと正当性を保証する説明可能な生成モデルを提供することで、ポリグラムはより包括的で実用的なポリマーの発見と探索のためのシステムに向けて重要な一歩を踏み出します。 正式な言語と化学の最初の橋渡しとして、ポリグラマーは有機分子や無機分子を含む他の化学薬品に類似した文法の設計を知らせる重要な青写真としても機能する。

Polymers are widely-studied materials with diverse properties and applications determined by different molecular structures. It is essential to represent these structures clearly and explore the full space of achievable chemical designs. However, existing approaches are unable to offer comprehensive design models for polymers because of their inherent scale and structural complexity. Here, we present a parametric, context-sensitive grammar designed specifically for the representation and generation of polymers. As a demonstrative example, we implement our grammar for polyurethanes. Using our symbolic hypergraph representation and 14 simple production rules, our PolyGrammar is able to represent and generate all valid polyurethane structures. We also present an algorithm to translate any polyurethane structure from the popular SMILES string format into our PolyGrammar representation. We test the representative power of PolyGrammar by translating a dataset of over 600 polyurethane samples collected from literature. Furthermore, we show that PolyGrammar can be easily extended to the other copolymers and homopolymers such as polyacrylates. By offering a complete, explicit representation scheme and an explainable generative model with validity guarantees, our PolyGrammar takes an important step toward a more comprehensive and practical system for polymer discovery and exploration. As the first bridge between formal languages and chemistry, PolyGrammar also serves as a critical blueprint to inform the design of similar grammars for other chemistries, including organic and inorganic molecules.
翻訳日:2021-05-14 12:34:38 公開日:2021-05-05
# (参考訳) ラグビーリーグにおけるチームアタックパフォーマンス分析のための期待所有価値モデルの開発

Development of an expected possession value model to analyse team attacking performances in rugby league ( http://arxiv.org/abs/2105.05303v1 )

ライセンス: CC BY 4.0
Thomas Sawczuk, Anna Palczewska and Ben Jones(参考訳) 本研究の目的は,スーパーリーグ180試合の59,233試合をEPVモデルを用いて,ラグビーリーグにおけるチーム攻撃性能を評価する枠組みを提供することである。 EPV-308はピッチを308 5m x 5mのゾーンに分割し、EPV-77はピッチを77 10m x 10mのゾーンに分割し、EPV-19はピッチを試合中に生成された総ゾーン値に依存する19のゾーンに分割した。 攻撃的な所有物はマルコフ連鎖と見なされ、所有物の結果に基づいて各ゾーンの値が推定された。 Kullback-Leibler Divergenceは、各ゾーンから生成された値(報酬分布)の再現性を評価するために使用された。 EPV-308 は EPV-77 や EPV-19 と比較して最大の変動性と再現性が低い。 以前の6試合が検討された時、試合後の試合では、95+/-4%、51+/-12%、0+/-0%で、EPV-19、EPV-77、EPV-308に同様の報酬分布があった。 本研究は,ラグビーリーグにおけるチームアタックパフォーマンスを評価するためのEVV-19の利用を支援し,チーム間でアタックパフォーマンスを比較するための簡単なフレームワークを提供する。

This study aimed to provide a framework to evaluate team attacking performances in rugby league using 59,233 plays from 180 Super League matches via expected possession value (EPV) models. The EPV-308 split the pitch into 308 5m x 5m zones, the EPV-77 split the pitch into 77 10m x 10m zones and the EPV-19 split the pitch in 19 zones of variable size dependent on the total zone value generated during a match. Attacking possessions were considered as Markov Chains, allowing the value of each zone visited to be estimated based on the outcome of the possession. The Kullback-Leibler Divergence was used to evaluate the reproducibility of the value generated from each zone (the reward distribution) by teams between matches. The EPV-308 had the greatest variability and lowest reproducibility, compared to EPV-77 and EPV-19. When six previous matches were considered, the team's subsequent match attacking performances had a similar reward distribution for EPV-19, EPV-77 and EPV-308 on 95 +/- 4%, 51 +/- 12% and 0 +/- 0% of occasions. This study supports the use of EPV-19 to evaluate team attacking performance in rugby league and provides a simple framework through which attacking performances can be compared between teams.
翻訳日:2021-05-14 12:32:39 公開日:2021-05-05
# (参考訳) Approximate Message Passingに関する統一チュートリアル

A unifying tutorial on Approximate Message Passing ( http://arxiv.org/abs/2105.02180v1 )

ライセンス: CC BY 4.0
Oliver Y. Feng, Ramji Venkataramanan, Cynthia Rush and Richard J. Samworth(参考訳) 過去10年ほどにわたり、近似メッセージパッシング(amp)アルゴリズムは様々な構造化高次元統計問題で非常に人気を集めている。 これらの技術の起源は、統計物理学の文献における信念の伝播の概念に遡ることができるという事実は多くの統計学者にとってこの領域にある種の神秘を与える。 この研究の目標は、AMPフレームワークのパワーと柔軟性を説明するために、統計的な観点からAMPの主なアイデアを示すことです。 その過程で, 既存の文献における結果の多くを強化し, 統一する。

Over the last decade or so, Approximate Message Passing (AMP) algorithms have become extremely popular in various structured high-dimensional statistical problems. The fact that the origins of these techniques can be traced back to notions of belief propagation in the statistical physics literature lends a certain mystique to the area for many statisticians. Our goal in this work is to present the main ideas of AMP from a statistical perspective, to illustrate the power and flexibility of the AMP framework. Along the way, we strengthen and unify many of the results in the existing literature.
翻訳日:2021-05-14 06:40:36 公開日:2021-05-05
# (参考訳) TANGO:モバイルマニピュレータのツールインタラクション予測における常識の一般化

TANGO: Commonsense Generalization in Predicting Tool Interactions for Mobile Manipulators ( http://arxiv.org/abs/2105.04556v1 )

ライセンス: CC BY 4.0
Shreshth Tuli and Rajas Bansal and Rohan Paul and Mausam(参考訳) 工場や家庭で私たちを助けるロボットは、オブジェクトをタスクを実行するツールとして利用することを学ぶ必要がある。 ツールがいつ役に立つのか、またそのツールが他のツールとどのように組み合わされ、人間が指示するハイレベルなタスクを達成するかに関する常識知識を学ぶ問題を考える。 我々はタスク固有のツールインタラクションを予測する新しいニューラルモデルであるTANGOを紹介する。 TANGOは物理シミュレーターで仮想ロボットを指示する人間教師のデモを用いて訓練される。 TANGOは、グラフニューラルネットワークを使用して、オブジェクトとそれらの間のシンボリックな関係からなる世界状態をエンコードする。 モデルは、ゴールとアクション履歴の知識を使ってシーンに出席することを学び、最終的に実行するシンボリックアクションをデコードする。 重要なことは、既知のツールが欠落している未確認環境への一般化に対処するが、代替の未確認ツールが存在する。 知識ベースから学習した組込みによる環境表現の強化により,新しい環境に効果的に一般化できることを示す。 実験の結果,シミュレートされた移動マニピュレータにおいて,シンボリックプランの予測精度が60.5-78.9%向上した。

Robots assisting us in factories or homes must learn to make use of objects as tools to perform tasks, e.g., a tray for carrying objects. We consider the problem of learning commonsense knowledge of when a tool may be useful and how its use may be composed with other tools to accomplish a high-level task instructed by a human. We introduce TANGO, a novel neural model for predicting task-specific tool interactions. TANGO is trained using demonstrations obtained from human teachers instructing a virtual robot in a physics simulator. TANGO encodes the world state comprising of objects and symbolic relationships between them using a graph neural network. The model learns to attend over the scene using knowledge of the goal and the action history, finally decoding the symbolic action to execute. Crucially, we address generalization to unseen environments where some known tools are missing, but alternative unseen tools are present. We show that by augmenting the representation of the environment with pre-trained embeddings derived from a knowledge-base, the model can generalize effectively to novel environments. Experimental results show a 60.5-78.9% improvement over the baseline in predicting successful symbolic plans in unseen settings for a simulated mobile manipulator.
翻訳日:2021-05-14 06:39:11 公開日:2021-05-05
# (参考訳) 患者バイタルサインを用いた集中治療単位長と死亡率の予測--機械学習モデルの開発と検証

Predicting Intensive Care Unit Length of Stay and Mortality Using Patient Vital Signs: Machine Learning Model Development and Validation ( http://arxiv.org/abs/2105.04414v1 )

ライセンス: CC BY 4.0
Khalid Alghatani, Nariman Ammar, Abdelmounaam Rezgui, Arash Shaban-Nejad(参考訳) 患者のモニタリングはあらゆるケアにおいて不可欠です。 本稿では、滞在時間と死亡率予測モデルの開発と検証について報告する。 モデルは、Intelligent Remote patient Monitoring (IRPM)フレームワークのインテリジェントICU患者監視モジュールで使用され、患者の健康状態を監視し、悪質な医療状況が予測されたときにタイムリーなアラート、操作ガイダンス、レポートを生成する。 集中治療(mimic)データベースのための公開医療情報マートを用いて,成人患者に対するicu滞在データ抽出を行い,死亡予測モデルとicu滞在時間予測モデルの2つの予測モデルを構築した。 死亡率モデルでは,6つの機械学習(ML)バイナリ分類アルゴリズムを適用し,退院状況(生存の有無)を予測した。 滞在時間モデルでは,平均2.64日間のicu滞在率を用いて,同じ6mlアルゴリズムをバイナリ分類に適用した。 回帰に基づく分類では,2つのMLアルゴリズムを用いて日数を予測する。 1つはベースライン人口統計学的特徴とバイタルサイン特徴を用いており、もう1つは提案した量子的アプローチに基づいており、そこではベースラインのバイタルサイン特徴から構築された21の付加的特徴(修正手段、標準偏差、量子的パーセンテージ)を用いている。 quantilesアプローチを使って、合理的なパフォーマンスを維持しながら、最小限の機能で予測モデリングを実行できる。 死亡率モデルで得られた最高精度はランダムフォレストアルゴリズムを用いて約89%であった。 人口中央値のICU滞在(2.64日)に基づいて、滞在モデルで達成された最高精度は、ランダム森林アルゴリズムを用いて、およそ65%であった。

Patient monitoring is vital in all stages of care. We here report the development and validation of ICU length of stay and mortality prediction models. The models will be used in an intelligent ICU patient monitoring module of an Intelligent Remote Patient Monitoring (IRPM) framework that monitors the health status of patients, and generates timely alerts, maneuver guidance, or reports when adverse medical conditions are predicted. We utilized the publicly available Medical Information Mart for Intensive Care (MIMIC) database to extract ICU stay data for adult patients to build two prediction models: one for mortality prediction and another for ICU length of stay. For the mortality model, we applied six commonly used machine learning (ML) binary classification algorithms for predicting the discharge status (survived or not). For the length of stay model, we applied the same six ML algorithms for binary classification using the median patient population ICU stay of 2.64 days. For the regression-based classification, we used two ML algorithms for predicting the number of days. We built two variations of each prediction model: one using 12 baseline demographic and vital sign features, and the other based on our proposed quantiles approach, in which we use 21 extra features engineered from the baseline vital sign features, including their modified means, standard deviations, and quantile percentages. We could perform predictive modeling with minimal features while maintaining reasonable performance using the quantiles approach. The best accuracy achieved in the mortality model was approximately 89% using the random forest algorithm. The highest accuracy achieved in the length of stay model, based on the population median ICU stay (2.64 days), was approximately 65% using the random forest algorithm.
翻訳日:2021-05-14 06:19:18 公開日:2021-05-05
# (参考訳) ソフトアテンションは皮膚がんの分類性能を改善する

Soft-Attention Improves Skin Cancer Classification Performance ( http://arxiv.org/abs/2105.03358v1 )

ライセンス: CC BY 4.0
Soumyya Kanti Datta, Mohammad Abuzar Shaikh, Hari Srihari, Mingchen Gao(参考訳) 臨床応用では、ニューラルネットワークは入力画像の最も重要な部分に集中し、強調する必要がある。 ソフトアテンション機構により、ニューラルネットワークはこの目標を達成することができる。 本稿では,深部神経アーキテクチャにおけるソフトアテンションの有効性について検討する。 ソフトアテンションの主な目的は、重要な特徴の価値を高め、ノイズを誘発する特徴を抑制することである。 皮膚病変を分類しながら, vgg, resnet, inceptionresnetv2, densenetアーキテクチャの性能とソフトアテンション機構の有無を比較した。 ソフトアテンションと組み合わせた元のネットワークはベースライン[14]を4.7%上回り、HAM10000データセットの精度は93.7%である。 さらに、Soft-Attention couplingは、ベースライン[28]と比較して感度スコアを3.8%改善し、ISIC-2017データセットで91.6%を達成した。 コードはgithubで公開されている。

In clinical applications, neural networks must focus on and highlight the most important parts of an input image. Soft-Attention mechanism enables a neural network toachieve this goal. This paper investigates the effectiveness of Soft-Attention in deep neural architectures. The central aim of Soft-Attention is to boost the value of important features and suppress the noise-inducing features. We compare the performance of VGG, ResNet, InceptionResNetv2 and DenseNet architectures with and without the Soft-Attention mechanism, while classifying skin lesions. The original network when coupled with Soft-Attention outperforms the baseline[14] by 4.7% while achieving a precision of 93.7% on HAM10000 dataset. Additionally, Soft-Attention coupling improves the sensitivity score by 3.8% compared to baseline[28] and achieves 91.6% on ISIC-2017 dataset. The code is publicly available at github.
翻訳日:2021-05-11 01:32:19 公開日:2021-05-05
# (参考訳) こんなふうに... そうですか? 深部ネットワークにおける潜時空間プロトタイプ説明可能性の欠点

This Looks Like That... Does it? Shortcomings of Latent Space Prototype Explainability in Deep Networks ( http://arxiv.org/abs/2105.02968v1 )

ライセンス: CC BY 4.0
Adrian Hoffmann, Claudio Fanconi, Rahul Rade, Jonas Kohler(参考訳) 建築設計による人間の解釈可能な決定をもたらすディープニューラルネットワークは、近年、伝統的なブラックボックスモデルのポストホック解釈の代替として人気が高まっている。 これらのネットワークの中で、最も広く使われているアプローチはいわゆるプロトタイプ学習であり、学習された潜在プロトタイプと類似性は、目に見えないデータポイントの分類の基礎となる。 本稿では,このようなアプローチの重要な欠点を指摘する。 すなわち、潜在空間の類似性と入力空間の類似性の間には意味的なギャップがあり、解釈可能性の損なう可能性がある。 いわゆるProtoPNetでこの問題を実証する2つの実験を設計する。 具体的には、このネットワークの解釈可能性のメカニズムは、意図的に作り上げたり、JPEG圧縮アーチファクトを作れば、理解不能な決定を下すことができる。 プロトタイプベースのモデルを実際にデプロイする場合、実践者はこのような欠点を念頭に置いておくべきです。

Deep neural networks that yield human interpretable decisions by architectural design have lately become an increasingly popular alternative to post hoc interpretation of traditional black-box models. Among these networks, the arguably most widespread approach is so-called prototype learning, where similarities to learned latent prototypes serve as the basis of classifying an unseen data point. In this work, we point to an important shortcoming of such approaches. Namely, there is a semantic gap between similarity in latent space and similarity in input space, which can corrupt interpretability. We design two experiments that exemplify this issue on the so-called ProtoPNet. Specifically, we find that this network's interpretability mechanism can be led astray by intentionally crafted or even JPEG compression artefacts, which can produce incomprehensible decisions. We argue that practitioners ought to have this shortcoming in mind when deploying prototype-based models in practice.
翻訳日:2021-05-11 01:22:39 公開日:2021-05-05
# (参考訳) 新型コロナウイルス流行予測のための時系列モデルとハイブリッド時系列モデルの比較

Comparison of Traditional and Hybrid Time Series Models for Forecasting COVID-19 Cases ( http://arxiv.org/abs/2105.03266v1 )

ライセンス: CC BY-SA 4.0
Samyak Prajapati, Aman Swaraj, Ronak Lalwani, Akhil Narwal, Karan Verma, Ghanshyam Singh, Ashok Kumar(参考訳) 時系列予測手法は、流行の広がりを推定する上で重要な役割を果たす。 2019年12月の新型コロナウイルスの流行は、すでに世界中で数百万人を感染させており、今も続いている。 パンデミックのカーブが平ら化し始めた直後、多くの国が再び、パンデミックの第2波と呼ばれるケースの増加を目撃し始めた。 したがって、時系列予測モデルの徹底的な分析は、州当局や保健当局に将来の時代の即時戦略を提供するために必要である。 本研究の目的は次の3つである: (a) 拡散の全体傾向をモデル化すること; (b) 確認されたケース(米国、インド、ブラジル)が最も多い国で10日間の短期予測を生成すること; (c) 時系列の線形および非線形の特徴を正確にモデル化するのに最適なアルゴリズムを定量的に決定すること。 各国の総累積ケースの予測モデルの比較は、報告データと予測値を比較し、RMSE, MAE, MAPE値に基づいてアルゴリズム(Prophet, Holt-Winters, LSTM, ARIMA, ARIMA-NARNN)をランキングする。 アリマとnarnn(nonlinear auto-regression neural network)のハイブリッドな組み合わせは、rmseを低減した選択されたモデルの中で最高の結果をもたらし、最も一般的な時系列予測(arima)の方法の1つよりも35.3%高い値を示した。 その結果,ARIMA-NARNNモデルとProphet, Holt Winters, LSTM, ARIMAモデルとのハイブリッド実装の有効性が示された。

Time series forecasting methods play critical role in estimating the spread of an epidemic. The coronavirus outbreak of December 2019 has already infected millions all over the world and continues to spread on. Just when the curve of the outbreak had started to flatten, many countries have again started to witness a rise in cases which is now being referred as the 2nd wave of the pandemic. A thorough analysis of time-series forecasting models is therefore required to equip state authorities and health officials with immediate strategies for future times. This aims of the study are three-fold: (a) To model the overall trend of the spread; (b) To generate a short-term forecast of 10 days in countries with the highest incidence of confirmed cases (USA, India and Brazil); (c) To quantitatively determine the algorithm that is best suited for precise modelling of the linear and non-linear features of the time series. The comparison of forecasting models for the total cumulative cases of each country is carried out by comparing the reported data and the predicted value, and then ranking the algorithms (Prophet, Holt-Winters, LSTM, ARIMA, and ARIMA-NARNN) based on their RMSE, MAE and MAPE values. The hybrid combination of ARIMA and NARNN (Nonlinear Auto-Regression Neural Network) gave the best result among the selected models with a reduced RMSE, which proved to be almost 35.3% better than one of the most prevalent method of time-series prediction (ARIMA). The results demonstrated the efficacy of the hybrid implementation of the ARIMA-NARNN model over other forecasting methods such as Prophet, Holt Winters, LSTM, and the ARIMA model in encapsulating the linear as well as non-linear patterns of the epidemical datasets.
翻訳日:2021-05-11 01:08:57 公開日:2021-05-05
# (参考訳) 有向非巡回図形モデルのパラメータ優先といくつかの確率分布のキャラクタリゼーション

Parameter Priors for Directed Acyclic Graphical Models and the Characterization of Several Probability Distributions ( http://arxiv.org/abs/2105.03248v1 )

ライセンス: CC BY 4.0
Dan Geiger and David Heckerman(参考訳) 本研究では,DAGモデルにおいて,モデル選択のためのパラメータ先行値を簡易に構築する手法を提案する。 特に,少数の評価セットから,多数のdagモデルに対してパラメータプリエントを構築することを許容する仮定をいくつか導入する。 次に、無作為なサンプルを与えられた全てのdagモデルの限界可能性を直接計算する方法を提案する。 この手法を線形回帰モデルの再帰的集合からなるガウスDAGモデルに適用する。 我々の仮定を満たす完全ガウスDAGモデルに先立つパラメータが正規ウィッシュアート分布であることを示す。 w$を$n \times n$, $n \ge 3$, positive-definite symmetric matrix of random variable, $f(w)$ be a pdf of $w$とする。 すると f$(W)$ がウィッシュアート分布であることと、$W_{11} - W_{12} W_{22}^{-1} W'_{12}$ が$\{W_{12}, W_{22}\}$ のすべてのブロック分割に対して$W_{11}, W'_{12}, W'_{12}, W'_{22}$ が独立であることは同値である。 正規分布と正規ウィッシュアート分布の類似性も提供される。

We develop simple methods for constructing parameter priors for model choice among Directed Acyclic Graphical (DAG) models. In particular, we introduce several assumptions that permit the construction of parameter priors for a large number of DAG models from a small set of assessments. We then present a method for directly computing the marginal likelihood of every DAG model given a random sample with no missing observations. We apply this methodology to Gaussian DAG models which consist of a recursive set of linear regression models. We show that the only parameter prior for complete Gaussian DAG models that satisfies our assumptions is the normal-Wishart distribution. Our analysis is based on the following new characterization of the Wishart distribution: let $W$ be an $n \times n$, $n \ge 3$, positive-definite symmetric matrix of random variables and $f(W)$ be a pdf of $W$. Then, f$(W)$ is a Wishart distribution if and only if $W_{11} - W_{12} W_{22}^{-1} W'_{12}$ is independent of $\{W_{12},W_{22}\}$ for every block partitioning $W_{11},W_{12}, W'_{12}, W_{22}$ of $W$. Similar characterizations of the normal and normal-Wishart distributions are provided as well.
翻訳日:2021-05-11 00:58:48 公開日:2021-05-05
# 胸部X線自動解釈のための画像埋め込みとモデル構築

Image Embedding and Model Ensembling for Automated Chest X-Ray Interpretation ( http://arxiv.org/abs/2105.02966v1 )

ライセンス: Link先を確認
Edoardo Giacomello, Pier Luca Lanzi, Daniele Loiacono, Luca Nassano(参考訳) 胸部X線(英語版)(CXR)は、おそらく世界で最も頻度の高い放射線学的調査である。 本研究では,CXR自動診断モデルを開発するための機械学習手法について述べる。 特に,200k以上のcxrラベル付き画像の大規模なコレクションであるchexpertデータセット上で,いくつかの畳み込みニューラルネットワーク(cnn)をトレーニングした。 次に、トレーニングされたCNNを用いて、CXR画像の埋め込みを計算し、2組のツリーベース分類器をトレーニングした。 最後に,学習した分類器を組み合わせるための3つのアンサンブル戦略について記述し,比較した。 本研究の目標は, 性能面でのメリットを期待するのではなく, 上記の2つの手法,すなわち画像埋め込みとモデルの抽出が, 医用画像理解を必要とする課題を効果的かつ効果的に解決できることである。 その視点での私たちの結果は、さらなる調査を奨励し、価値があります。

Chest X-ray (CXR) is perhaps the most frequently-performed radiological investigation globally. In this work, we present and study several machine learning approaches to develop automated CXR diagnostic models. In particular, we trained several Convolutional Neural Networks (CNN) on the CheXpert dataset, a large collection of more than 200k CXR labeled images. Then, we used the trained CNNs to compute embeddings of the CXR images, in order to train two sets of tree-based classifiers from them. Finally, we described and compared three ensembling strategies to combine together the classifiers trained. Rather than expecting some performance-wise benefits, our goal in this work is showing that the above two methodologies, i.e., the extraction of image embeddings and models ensembling, can be effective and viable to solve tasks that require medical imaging understanding. Our results in that perspective are encouraging and worthy of further investigation.
翻訳日:2021-05-10 12:24:46 公開日:2021-05-05
# 翻訳品質評価:マニュアルおよび自動方法に関する簡単な調査

Translation Quality Assessment: A Brief Survey on Manual and Automatic Methods ( http://arxiv.org/abs/2105.03311v1 )

ライセンス: Link先を確認
Lifeng Han, Gareth J. F. Jones and Alan F. Smeaton(参考訳) 効果的な翻訳モデリングと翻訳研究を容易にするため,翻訳の質を評価することが重要な課題である。 正確性、信頼性、再現性、コストの観点から見れば、翻訳品質評価(TQA)そのものはリッチで困難なタスクです。 本稿では、手動判定基準と自動評価指標の両方を含むTQA手法の高精度かつ簡潔な調査を行い、さらに詳細なサブカテゴリに分類する。 翻訳モデル研究者と品質評価研究者の両方にとって、この研究が資産になることを願っています。 さらに、実践者が従来のtqa分野をより迅速に理解し、自分たちのニーズに密接に関連する評価ソリューションを見つけることが可能になることを願っています。 この研究は、自動テキスト要約(ATS)、自然言語理解(NLU)、自然言語生成(NLG)などの機械翻訳(MT)に加えて、他の自然言語処理(NLP)タスクの品質評価および評価手法のさらなる発展にも役立てることができる。

To facilitate effective translation modeling and translation studies, one of the crucial questions to address is how to assess translation quality. From the perspectives of accuracy, reliability, repeatability and cost, translation quality assessment (TQA) itself is a rich and challenging task. In this work, we present a high-level and concise survey of TQA methods, including both manual judgement criteria and automated evaluation metrics, which we classify into further detailed sub-categories. We hope that this work will be an asset for both translation model researchers and quality assessment researchers. In addition, we hope that it will enable practitioners to quickly develop a better understanding of the conventional TQA field, and to find corresponding closely relevant evaluation solutions for their own needs. This work may also serve inspire further development of quality assessment and evaluation methodologies for other natural language processing (NLP) tasks in addition to machine translation (MT), such as automatic text summarization (ATS), natural language understanding (NLU) and natural language generation (NLG).
翻訳日:2021-05-10 12:20:04 公開日:2021-05-05
# PCE-PINN:海洋モデルにおける不確実性伝播のための物理インフォームニューラルネットワーク

PCE-PINNs: Physics-Informed Neural Networks for Uncertainty Propagation in Ocean Modeling ( http://arxiv.org/abs/2105.02939v1 )

ライセンス: Link先を確認
Bj\"orn L\"utjens, Catherine H. Crawford, Mark Veillette, Dava Newman(参考訳) cmip6モデルアンサンブルによると、気候モデルは摂氏1.5度から5度までの温暖化シナリオの不確実性範囲を2100まで予測している。 気候リスク管理とインフラ適応は、地域レベルでの不確実性の正確な定量化を必要とする。 高解像度の気候モデルのアンサンブルは、不確実性を正確に定量化することができるが、ほとんどの物理ベースの気候モデルは、アンサンブルとして走るには計算コストがかかりすぎる。 物理情報ニューラルネットワーク(PINN)の最近の研究は、ディープラーニングと物理科学を組み合わせて、気候サブモデルの最大15万倍高速コピーを学習している。 しかし、PINNの気候モデリングへの応用は、これまで決定論的モデルに限られてきた。 我々は,不確実性伝播の古典的手法である多項式カオス展開(PCE)とPINNを組み合わせた新しい手法を利用する。 PCE-PINNは、既知のパラメータの不確かさの不確かさの伝播を示す高速サロゲートモデルを学ぶ。 局所対流拡散方程式を用いて海洋モデルの有効性を示す。

Climate models project an uncertainty range of possible warming scenarios from 1.5 to 5 degree Celsius global temperature increase until 2100, according to the CMIP6 model ensemble. Climate risk management and infrastructure adaptation requires the accurate quantification of the uncertainties at the local level. Ensembles of high-resolution climate models could accurately quantify the uncertainties, but most physics-based climate models are computationally too expensive to run as ensemble. Recent works in physics-informed neural networks (PINNs) have combined deep learning and the physical sciences to learn up to 15k faster copies of climate submodels. However, the application of PINNs in climate modeling has so far been mostly limited to deterministic models. We leverage a novel method that combines polynomial chaos expansion (PCE), a classic technique for uncertainty propagation, with PINNs. The PCE-PINNs learn a fast surrogate model that is demonstrated for uncertainty propagation of known parameter uncertainties. We showcase the effectiveness in ocean modeling by using the local advection-diffusion equation.
翻訳日:2021-05-10 12:14:08 公開日:2021-05-05
# ディープニューラルネットワークの脆弱性を悪用する - 逆行攻撃とフォールトインジェクション攻撃

Exploiting Vulnerabilities in Deep Neural Networks: Adversarial and Fault-Injection Attacks ( http://arxiv.org/abs/2105.03251v1 )

ライセンス: Link先を確認
Faiq Khalid, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) 小さなペースメーカーチップから航空機の衝突回避システムまで、最先端のサイバー物理システム(CPS)はディープニューラルネットワーク(DNN)に依存し始めている。 しかし、様々な研究で結論付けられたように、DNNは敵攻撃を含むセキュリティ上の脅威に非常に敏感である。 本稿では,まず,ニューラルネットワークシステムに対するセキュリティ攻撃を発生させる脆弱性について考察する。 次に、DNNに対する既存の逆方向およびフォールトインジェクションに基づく攻撃の概要を示す。 また,敵攻撃の実践において,様々な課題を浮き彫りにするための簡単な分析を行った。 最後に, 対向攻撃やフォールトインジェクション攻撃に耐性のある, 堅牢なDNNベースのシステムを開発するための様々な方法についても論じる。

From tiny pacemaker chips to aircraft collision avoidance systems, the state-of-the-art Cyber-Physical Systems (CPS) have increasingly started to rely on Deep Neural Networks (DNNs). However, as concluded in various studies, DNNs are highly susceptible to security threats, including adversarial attacks. In this paper, we first discuss different vulnerabilities that can be exploited for generating security attacks for neural network-based systems. We then provide an overview of existing adversarial and fault-injection-based attacks on DNNs. We also present a brief analysis to highlight different challenges in the practical implementation of adversarial attacks. Finally, we also discuss various prospective ways to develop robust DNN-based systems that are resilient to adversarial and fault-injection attacks.
翻訳日:2021-05-10 12:07:53 公開日:2021-05-05
# ニューラルネットワークを用いた高次元コミッタ関数の半群法

A semigroup method for high dimensional committor functions based on neural network ( http://arxiv.org/abs/2012.06727v3 )

ライセンス: Link先を確認
Haoya Li, Yuehaw Khoo, Yinuo Ren, Lexing Ying(参考訳) 本稿では,Fokker-Planck方程式を満たす高次元コミッタ関数をニューラルネットワークで計算する手法を提案する。 偏微分方程式を扱う代わりに、新しい手法は微分作用素の半群に基づく積分的定式化を扱う。 新しい定式化の変分形式は、コミッタ関数をニューラルネットワークとしてパラメータ化することにより解決される。 この新しいアプローチには2つの大きな利点がある。 まず、確率的勾配降下型アルゴリズムは、混合二階微分を計算することなく、コミッタ関数のトレーニングに適用することができる。 さらに、ペナルティ項で境界条件を強制する従来の方法とは異なり、新しい手法では境界条件を自動的に考慮する。 提案手法の性能を示す数値的な結果を得た。

This paper proposes a new method based on neural networks for computing the high-dimensional committor functions that satisfy Fokker-Planck equations. Instead of working with partial differential equations, the new method works with an integral formulation based on the semigroup of the differential operator. The variational form of the new formulation is then solved by parameterizing the committor function as a neural network. There are two major benefits of this new approach. First, stochastic gradient descent type algorithms can be applied in the training of the committor function without the need of computing any mixed second-order derivatives. Moreover, unlike the previous methods that enforce the boundary conditions through penalty terms, the new method takes into account the boundary conditions automatically. Numerical results are provided to demonstrate the performance of the proposed method.
翻訳日:2021-05-10 05:10:28 公開日:2021-05-05
# (参考訳) SafeDrug: 安全な医薬品推奨のためのデュアル分子グラフエンコーダ

SafeDrug: Dual Molecular Graph Encoders for Safe Drug Recommendations ( http://arxiv.org/abs/2105.02711v1 )

ライセンス: CC BY 4.0
Chaoqi Yang, Cao Xiao, Fenglong Ma, Lucas Glass, Jimeng Sun(参考訳) 医療レコメンデーションは、医療のためのAIの重要なタスクである。 既存の研究は、電子健康記録のみに基づいて複雑な健康状態の患者に薬物の組み合わせを推奨することに焦点を当てている。 1) 薬物分子構造などの重要なデータが推奨プロセスで利用されていない。 2)薬物と薬物の相互作用 (DDI) は暗黙的にモデル化され, 準最適結果をもたらす可能性がある。 これらの制約に対処するために, SafeDrug というDDI制御可能な薬物レコメンデーションモデルを提案し, 薬物分子構造を明示的に利用し, DDIをモデル化する。 SafeDrugは、グローバルメッセージパッシングニューラルネットワーク(MPNN)モジュールと、薬物分子の接続性と機能を完全にエンコードするローカル二部学習モジュールを備えている。 SafeDrugはまた、推奨薬物の組み合わせのDDIレベルを効果的に制御する制御可能な損失機能を備えている。 ベンチマークデータセットでは、我々のSafeDrugは、DDIを19.43%削減し、ジャカード類似度を2.88%改善することが比較的示されている。 さらにSafeDrugは、従来のディープラーニングベースのアプローチよりもはるかに少ないパラメータを必要とするため、トレーニングが約14%、推論が約2倍高速になる。

Medication recommendation is an essential task of AI for healthcare. Existing works focused on recommending drug combinations for patients with complex health conditions solely based on their electronic health records. Thus, they have the following limitations: (1) some important data such as drug molecule structures have not been utilized in the recommendation process. (2) drug-drug interactions (DDI) are modeled implicitly, which can lead to sub-optimal results. To address these limitations, we propose a DDI-controllable drug recommendation model named SafeDrug to leverage drugs' molecule structures and model DDIs explicitly. SafeDrug is equipped with a global message passing neural network (MPNN) module and a local bipartite learning module to fully encode the connectivity and functionality of drug molecules. SafeDrug also has a controllable loss function to control DDI levels in the recommended drug combinations effectively. On a benchmark dataset, our SafeDrug is relatively shown to reduce DDI by 19.43% and improves 2.88% on Jaccard similarity between recommended and actually prescribed drug combinations over previous approaches. Moreover, SafeDrug also requires much fewer parameters than previous deep learning-based approaches, leading to faster training by about 14% and around 2x speed-up in inference.
翻訳日:2021-05-08 04:29:09 公開日:2021-05-05
# (参考訳) サブハイパーグラフ検出のための情報制限

Information Limits for Detecting a Subhypergraph ( http://arxiv.org/abs/2105.02259v1 )

ライセンス: CC BY 4.0
Mingao Yuan, Zuofeng Shang(参考訳) 我々は、一様ハイパーグラフに対応する観測された隣接テンソルに基づいてサブハイパーグラフを復元する問題を考える。 均一なハイパーグラフは、サブハイパーグラフと呼ばれる頂点の部分集合を含むと仮定される。 ハイパーグラフに制限されたエッジは他のエッジとは異なる確率分布に従うと仮定される。 我々は,サブハイパーグラフの弱い回復と正確な回復の両方を検討し,それぞれの場合において情報理論上の限界を確立する。 具体的には,情報理論の観点から,サブハイパーグラフを弱く正確に復元する可能性について,鋭い条件を確立する。 これらの条件は仮説検定文献から導かれた条件とは根本的に異なる。

We consider the problem of recovering a subhypergraph based on an observed adjacency tensor corresponding to a uniform hypergraph. The uniform hypergraph is assumed to contain a subset of vertices called as subhypergraph. The edges restricted to the subhypergraph are assumed to follow a different probability distribution than other edges. We consider both weak recovery and exact recovery of the subhypergraph, and establish information-theoretic limits in each case. Specifically, we establish sharp conditions for the possibility of weakly or exactly recovering the subhypergraph from an information-theoretic point of view. These conditions are fundamentally different from their counterparts derived in hypothesis testing literature.
翻訳日:2021-05-08 04:10:35 公開日:2021-05-05
# (参考訳) ADAM: 言語学習を実装するためのサンドボックス

ADAM: A Sandbox for Implementing Language Learning ( http://arxiv.org/abs/2105.02263v1 )

ライセンス: CC BY 4.0
Ryan Gabbard, Deniz Beser, Jacob Lichtefeld, Joe Cecil, Mitch Marcus, Sarah Payne, Charles Yang, and Marjorie Freedman(参考訳) 我々は,pythonによる児童言語学習実験を設計・実行するためのソフトウェアシステムadamを提案する。 このシステムは、仮想世界を用いて、言語学習者が認知可能な学習アルゴリズムを用いて観察された世界の知覚的および言語的表現を形成する、基礎的な言語習得プロセスをシミュレートする。 ADAMのモジュール性は、学習アルゴリズムだけでなく、異なる言語学習カリキュラムの設計とテストを容易にする。 本報告では,adamシステムのアーキテクチャを詳細に説明し,そのコンポーネントを例で説明する。 私たちはコードを提供します。

We present ADAM, a software system for designing and running child language learning experiments in Python. The system uses a virtual world to simulate a grounded language acquisition process in which the language learner utilizes cognitively plausible learning algorithms to form perceptual and linguistic representations of the observed world. The modular nature of ADAM makes it easy to design and test different language learning curricula as well as learning algorithms. In this report, we describe the architecture of the ADAM system in detail, and illustrate its components with examples. We provide our code.
翻訳日:2021-05-08 03:54:42 公開日:2021-05-05
# (参考訳) オントロジーネットワークにおける人間活動認識モデル

Human Activity Recognition Models in Ontology Networks ( http://arxiv.org/abs/2105.02264v1 )

ライセンス: CC BY-SA 4.0
Luca Buoncompagni, Syed Yusha Kareem and Fulvio Mastrogiovanni(参考訳) 我々は、スマートホームがオンラインで行動認識を行うための知識を表現するためのオントロジーのネットワークを設計するためのフレームワークであるarianna+を提案する。 ネットワークでは、ノードは様々なデータコンテキスト化を可能にするオントロジーであり、エッジはデータを詳述する汎用計算手順である。 arianna+は、存在論的知識の原子表現であるプロシージャとステートメントの入力と出力の間の柔軟なインターフェースを提供する。 Arianna+は、論理に基づく推論、すなわちオントロジーにおける特定のステートメントの分類をチェックすることによって、イベントに基づいてプロシージャをスケジュールする。 各手順は、特定の事前知識に基づいてオントロジーで異なる文脈で記述された入力と出力を含む。 arianna+は、複数のコンテキスト内のデータをエンコードするネットワークの設計を可能にし、参照シナリオとして、すべてのアクティビティ間で共有される空間的コンテキストと、各アクティビティが認識されるための時間的コンテキストに基づくモジュラーネットワークを提案する。 本稿では,小オントロジーのネットワークは,同一の知識を符号化する1つのオントロジーよりも,より知性が高く,計算負荷が小さいことを論じる。 arianna+は、同じアーキテクチャのヘテロジニアスなデータ処理技術に統合されている。 したがって,アクティビティ認識に対する新たなアルゴリズムアプローチを提案するのではなく,論理ベースおよびデータ駆動型アクティビティモデルにコンテキスト指向で適応するためのアーキテクチャ的側面に注目する。 また、データコンテキスト化とアクティビティ認識の推論の活用について論じ、ドメインの専門家が推進する反復的な開発プロセスを支援する。

We present Arianna+, a framework to design networks of ontologies for representing knowledge enabling smart homes to perform human activity recognition online. In the network, nodes are ontologies allowing for various data contextualisation, while edges are general-purpose computational procedures elaborating data. Arianna+ provides a flexible interface between the inputs and outputs of procedures and statements, which are atomic representations of ontological knowledge. Arianna+ schedules procedures on the basis of events by employing logic-based reasoning, i.e., by checking the classification of certain statements in the ontologies. Each procedure involves input and output statements that are differently contextualised in the ontologies based on specific prior knowledge. Arianna+ allows to design networks that encode data within multiple contexts and, as a reference scenario, we present a modular network based on a spatial context shared among all activities and a temporal context specialised for each activity to be recognised. In the paper, we argue that a network of small ontologies is more intelligible and has a reduced computational load than a single ontology encoding the same knowledge. Arianna+ integrates in the same architecture heterogeneous data processing techniques, which may be better suited to different contexts. Thus, we do not propose a new algorithmic approach to activity recognition, instead, we focus on the architectural aspects for accommodating logic-based and data-driven activity models in a context-oriented way. Also, we discuss how to leverage data contextualisation and reasoning for activity recognition, and to support an iterative development process driven by domain experts.
翻訳日:2021-05-08 03:40:44 公開日:2021-05-05
# (参考訳) 検索を再考する: 専門家をディレタントから外す

Rethinking Search: Making Experts out of Dilettantes ( http://arxiv.org/abs/2105.02274v1 )

ライセンス: CC BY 4.0
Donald Metzler, Yi Tay, Dara Bahri, Marc Najork(参考訳) 情報を必要とする場合、ユーザーは専門家と関わりたいが、代わりに検索エンジンのような情報検索システムに目を向けることが多い。 古典的な情報検索システムは、情報要求に直接答えるのではなく、(おそらく権威ある)回答への参照を提供する。 成功する質問応答システムは、人間の専門家がオンデマンドで作成する限定的なコーパスを提供する。 対照的に、大規模な事前学習された言語モデルは、情報ニーズに反応する可能性のある散文を直接生成することができるが、現時点では専門家ではなくディレタントである。 本稿では,従来の情報検索と大規模事前学習言語モデルのアイデアを,専門家のアドバイスを真に提供するシステムに合成し,進化させる方法について検討する。

When experiencing an information need, users want to engage with an expert, but often turn to an information retrieval system, such as a search engine, instead. Classical information retrieval systems do not answer information needs directly, but instead provide references to (hopefully authoritative) answers. Successful question answering systems offer a limited corpus created on-demand by human experts, which is neither timely nor scalable. Large pre-trained language models, by contrast, are capable of directly generating prose that may be responsive to an information need, but at present they are dilettantes rather than experts - they do not have a true understanding of the world, they are prone to hallucinating, and crucially they are incapable of justifying their utterances by referring to supporting documents in the corpus they were trained over. This paper examines how ideas from classical information retrieval and large pre-trained language models can be synthesized and evolved into systems that truly deliver on the promise of expert advice.
翻訳日:2021-05-08 02:54:19 公開日:2021-05-05
# (参考訳) 量子コンピュータを用いた量子埋め込みカーネルの訓練

Training Quantum Embedding Kernels on Near-Term Quantum Computers ( http://arxiv.org/abs/2105.02276v1 )

ライセンス: CC BY 4.0
Thomas Hubregtsen, David Wierichs, Elies Gil-Fuster, Peter-Jan H. S. Derks, Paul K. Faehrmann, Johannes Jakob Meyer(参考訳) カーネルメソッドは、古典的な機械学習の基盤である。 量子コンピュータを使ってカーネルを計算するというアイデアが最近注目を集めている。 量子コンピュータのヒルベルト空間にデータを埋め込むことで構築された量子埋め込みカーネル(QEK)は、学習問題に対する洞察を収集できる特別な量子カーネル技術であり、特にノイズの多い中間スケール量子デバイスに適している。 そこで本研究では,まず量子埋め込みカーネルの紹介を行い,ノイズの多い短期量子コンピュータ上で実現した場合に生じる現実的な問題を解析する。 変動パラメータを持つ量子埋め込みカーネルに焦点を当てる。 これらの変動パラメータは、カーネルターゲットアライメント(達成可能な分類精度と結びついたヒューリスティック)を増加させることで、所定のデータセットに最適化される。 さらに、デバイス欠陥からのノイズが予測されたカーネルに影響を与える条件を示し、量子埋め込みカーネルに合わせたこれらの有害な効果を緩和する戦略を提供する。 また、有限サンプリングの影響と、カーネルマトリックスの品質に保証を与える境界の導出についても論じる。 本研究は,実ハードウェア上での数値実験と実験によって得られた知見を示す。

Kernel methods are a cornerstone of classical machine learning. The idea of using quantum computers to compute kernels has recently attracted attention. Quantum embedding kernels (QEKs) constructed by embedding data into the Hilbert space of a quantum computer are a particular quantum kernel technique that allows to gather insights into learning problems and that are particularly suitable for noisy intermediate-scale quantum devices. In this work, we first provide an accessible introduction to quantum embedding kernels and then analyze the practical issues arising when realizing them on a noisy near-term quantum computer. We focus on quantum embedding kernels with variational parameters. These variational parameters are optimized for a given dataset by increasing the kernel-target alignment, a heuristic connected to the achievable classification accuracy. We further show under which conditions noise from device imperfections influences the predicted kernel and provide a strategy to mitigate these detrimental effects which is tailored to quantum embedding kernels. We also address the influence of finite sampling and derive bounds that put guarantees on the quality of the kernel matrix. We illustrate our findings by numerical experiments and tests on actual hardware.
翻訳日:2021-05-08 02:30:33 公開日:2021-05-05
# (参考訳) R2U3D:肺分節に対する再発3次元U-Net

R2U3D: Recurrent Residual 3D U-Net for Lung Segmentation ( http://arxiv.org/abs/2105.02290v1 )

ライセンス: CC BY-SA 4.0
Dhaval D. Kadia, Md Zahangir Alom, Ranga Burada, Tam V. Nguyen, Vijayan K. Asari(参考訳) 肺の容積情報を処理し、スキャンの不要な領域を除去し、肺の実際の領域を3Dボリュームに分割するので、3D肺セグメンテーションは必須である。 近年,U-Netなどのディープラーニングモデルは,バイオメディカルイメージセグメンテーションにおいて,他のネットワークアーキテクチャよりも優れている。 本稿では,3次元肺分割作業のための新しいモデル,すなわちRecurrent Residual 3D U-Net(R2U3D)を提案する。 特に,提案モデルでは,U-Netに基づくRecurrent Residual Neural Networkに3次元畳み込みを組み込む。 3dで空間依存を学習し、3dボリューム情報の伝播を増加させる。 提案するR2U3Dネットワークは、公開データセットLUNA16に基づいてトレーニングされており、LUNA16(テストセット)とVESSEL12データセットの両方で最先端のパフォーマンスを達成する。 さらに,R2U3DモデルのCTスキャンの少ないトレーニング,すなわちデータ拡張を行なわずに100スキャンを行い,ソフトディス類似度係数(Soft-DSC)の0.9920で優れた結果が得られることを示した。

3D lung segmentation is essential since it processes the volumetric information of the lungs, removes the unnecessary areas of the scan, and segments the actual area of the lungs in a 3D volume. Recently, the deep learning model, such as U-Net outperforms other network architectures for biomedical image segmentation. In this paper, we propose a novel model, namely, Recurrent Residual 3D U-Net (R2U3D), for the 3D lung segmentation task. In particular, the proposed model integrates 3D convolution into the Recurrent Residual Neural Network based on U-Net. It helps learn spatial dependencies in 3D and increases the propagation of 3D volumetric information. The proposed R2U3D network is trained on the publicly available dataset LUNA16 and it achieves state-of-the-art performance on both LUNA16 (testing set) and VESSEL12 dataset. In addition, we show that training the R2U3D model with a smaller number of CT scans, i.e., 100 scans, without applying data augmentation achieves an outstanding result in terms of Soft Dice Similarity Coefficient (Soft-DSC) of 0.9920.
翻訳日:2021-05-08 01:54:45 公開日:2021-05-05
# (参考訳) スケーラブルなグラフニューラルネットワークトレーニング - サンプリングの場合

Scalable Graph Neural Network Training: The Case for Sampling ( http://arxiv.org/abs/2105.02315v1 )

ライセンス: CC BY 4.0
Marco Serafini, Hui Guan(参考訳) グラフニューラルネットワーク(英: graph neural network、gnns)は、グラフ上で学習を行うための深層ニューラルネットワークアーキテクチャの新たなファミリーである。 グラフデータの不規則性から、効率的にトレーニングすることは難しい。 単一デバイスの容量を超える大規模グラフへのスケールでは、この問題はさらに困難になる。 データやモデル並列化といった分散DNNトレーニングに対する標準的なアプローチは、GNNに直接適用されない。 代わりに、全グラフとサンプルベースのトレーニングという2つの異なるアプローチが文献に現れている。 本稿では,2つのアプローチをレビューし,比較する。 両方のアプローチでスケーラビリティは難しいものですが、より有望なアプローチであるため、調査ではサンプルベースのトレーニングに重点を置くべきです。 最後に,サンプルベーストレーニングを支援する最近のシステムについて述べる。

Graph Neural Networks (GNNs) are a new and increasingly popular family of deep neural network architectures to perform learning on graphs. Training them efficiently is challenging due to the irregular nature of graph data. The problem becomes even more challenging when scaling to large graphs that exceed the capacity of single devices. Standard approaches to distributed DNN training, such as data and model parallelism, do not directly apply to GNNs. Instead, two different approaches have emerged in the literature: whole-graph and sample-based training. In this paper, we review and compare the two approaches. Scalability is challenging with both approaches, but we make a case that research should focus on sample-based training since it is a more promising approach. Finally, we review recent systems supporting sample-based training.
翻訳日:2021-05-08 01:42:31 公開日:2021-05-05
# (参考訳) 公平性のためのより包括的な人々のアノテーションへのステップ

A Step Toward More Inclusive People Annotations for Fairness ( http://arxiv.org/abs/2105.02317v1 )

ライセンス: CC BY 4.0
Candice Schumann, Susanna Ricco, Utsav Prabhu, Vittorio Ferrari, Caroline Pantofaru(参考訳) Open Images Datasetには約900万の画像が含まれており、コンピュータビジョン研究において広く受け入れられているデータセットである。 大規模なデータセットの一般的なプラクティスであるように、アノテーションは徹底的ではなく、各イメージのクラスのサブセットのみに対するバウンディングボックスと属性ラベルがある。 本稿では,MIAP(More Inclusive Annotations for People)サブセットと呼ばれるOpen Imagesデータセットのサブセットに新たなアノテーションセットを提示する。 MIAPサブセットの属性とラベル付け手法は、モデルフェアネスの研究を可能にするように設計された。 さらに,個人クラスとそのサブクラスに対する本来のアノテーション方法論を分析し,その結果のパターンを議論し,将来的なアノテーションの取り組みについて報告する。 オリジナルのアノテーションセットと徹底的なアノテーションセットの両方を考慮することで、トレーニングアノテーションのシステマティックパターンがモデリングにどのように影響するかを研究できる。

The Open Images Dataset contains approximately 9 million images and is a widely accepted dataset for computer vision research. As is common practice for large datasets, the annotations are not exhaustive, with bounding boxes and attribute labels for only a subset of the classes in each image. In this paper, we present a new set of annotations on a subset of the Open Images dataset called the MIAP (More Inclusive Annotations for People) subset, containing bounding boxes and attributes for all of the people visible in those images. The attributes and labeling methodology for the MIAP subset were designed to enable research into model fairness. In addition, we analyze the original annotation methodology for the person class and its subclasses, discussing the resulting patterns in order to inform future annotation efforts. By considering both the original and exhaustive annotation sets, researchers can also now study how systematic patterns in training annotations affect modeling.
翻訳日:2021-05-08 01:31:14 公開日:2021-05-05
# (参考訳) 有効4次元表情認識のための大小顔面運動

Magnifying Subtle Facial Motions for Effective 4D Expression Recognition ( http://arxiv.org/abs/2105.02319v1 )

ライセンス: CC BY 4.0
Qingkai Zhen, Di Huang, Yunhong Wang, Hassen Drira, Boulbaba Ben Amor, Mohamed Daoudi(参考訳) 本稿では,4次元表情自動認識(4d fer)のための効果的なパイプラインを提案する。 コンピュータビジョンの2つの成長するが、異なるアイデアを組み合わせる - リーマン幾何学のツールを使って空間的な顔の変形を計算し、時間的フィルタリングを使ってそれらを拡大する。 3次元面の流れを最初に解析し、最近開発されたリーマン的手法に基づき空間的変形を捉え、隣接する3次元面の登録と比較を共同で行う。 そして、得られた変形の時間的進化を、時間とともに顔の活動を増幅するために倍率法に入力する。 本論文の主な貢献である後者では、感情分類性能を高める微妙な(隠れた)変形を明らかにすることができる。 抽出された幾何学的特徴(変形)を最大化した後,bu-4dfeデータセット,94.18%の平均性能,分類精度が10%以上向上した。

In this paper, an effective pipeline to automatic 4D Facial Expression Recognition (4D FER) is proposed. It combines two growing but disparate ideas in Computer Vision -- computing the spatial facial deformations using tools from Riemannian geometry and magnifying them using temporal filtering. The flow of 3D faces is first analyzed to capture the spatial deformations based on the recently-developed Riemannian approach, where registration and comparison of neighboring 3D faces are led jointly. Then, the obtained temporal evolution of these deformations are fed into a magnification method in order to amplify the facial activities over the time. The latter, main contribution of this paper, allows revealing subtle (hidden) deformations which enhance the emotion classification performance. We evaluated our approach on BU-4DFE dataset, the state-of-art 94.18% average performance and an improvement that exceeds 10% in classification accuracy, after magnifying extracted geometric features (deformations), are achieved.
翻訳日:2021-05-08 01:17:03 公開日:2021-05-05
# (参考訳) 野生生物画像の反復的人間と自動同定

Iterative Human and Automated Identification of Wildlife Images ( http://arxiv.org/abs/2105.02320v1 )

ライセンス: CC BY 4.0
Zhongqi Miao, Ziwei Liu, Kaitlyn M. Gaynor, Meredith S. Palmer, Stella X. Yu, Wayne M. Getz(参考訳) カメラのトラップは野生生物の監視にますます使われているが、この技術は通常、広範なデータアノテーションを必要とする。 近年,深層学習は野生生物の自動認識を大幅に進歩させた。 しかし、野生生物データが本質的に動的であり、長い尾の分布を伴う場合、現在の手法は大きな静的データセットに依存するため妨げられる。 これら2つの欠点は、ループ内の機械学習と人間のハイブリッドの組み合わせによって克服できる。 提案する反復的人間・自動識別手法は,長い尾の分布を持つ野生動物の画像データから学習することができる。 さらに、急速に変化する自然システムのコミュニティダイナミクスを捉えるのに役立つ自己学習も含んでいる。 広範な実験により,既存の手法の人間のアノテーションの20%しか使わず,90%の精度を実現できることが分かった。 我々の人間と機械の相乗的コラボレーションは、ディープラーニングを比較的非効率なポストアノテーションツールから、人間のアノテーションの負担を大幅に軽減し、効率的で絶え間ないモデル更新を可能にする協調的なオン・ゴーイングアノテーションツールに変換する。

Camera trapping is increasingly used to monitor wildlife, but this technology typically requires extensive data annotation. Recently, deep learning has significantly advanced automatic wildlife recognition. However, current methods are hampered by a dependence on large static data sets when wildlife data is intrinsically dynamic and involves long-tailed distributions. These two drawbacks can be overcome through a hybrid combination of machine learning and humans in the loop. Our proposed iterative human and automated identification approach is capable of learning from wildlife imagery data with a long-tailed distribution. Additionally, it includes self-updating learning that facilitates capturing the community dynamics of rapidly changing natural systems. Extensive experiments show that our approach can achieve a ~90% accuracy employing only ~20% of the human annotations of existing approaches. Our synergistic collaboration of humans and machines transforms deep learning from a relatively inefficient post-annotation tool to a collaborative on-going annotation tool that vastly relieves the burden of human annotation and enables efficient and constant model updates.
翻訳日:2021-05-08 01:03:41 公開日:2021-05-05
# 医療領域における人的意思決定支援システムのための説明可能な人工知能

Explainable Artificial Intelligence for Human Decision-Support System in Medical Domain ( http://arxiv.org/abs/2105.02357v1 )

ライセンス: Link先を確認
Samanta Knapi\v{c}, Avleen Malhi, Rohit Salujaa, Kary Fr\"amling(参考訳) 本稿では,医療画像解析における決定支援のための説明可能な人工知能手法の可能性について述べる。 同じ医用画像データセットに3種類の説明可能な方法を適用することで,畳み込みニューラルネットワーク(cnn)による決定の理解性を向上させることを目的とした。 ビデオカプセル内視鏡(VCE)から得られた腹腔内ガストロル画像の視覚的説明は、ブラックボックス予測に対する医療専門家の信頼を高めることを目的としていた。 LIMEとSHAPとCIU(Contextual Value and Utility)を中心に,2つのポストホック解釈型機械学習手法を実装した。 生成した説明は人的評価を用いて評価した。 LIME,SHAP,CIUの3つのユーザ研究を行った。 異なる医学的背景を持つユーザは、Webベースの調査設定で一連のテストを実施し、与えられた説明の経験と理解について述べた。 3種類の説明形式を持つ3つのユーザグループ(n=20, 20)を定量的に分析した。 仮説として,CIU の説明可能な手法は LIME と SHAP の手法よりも,人間の意思決定支援の増大や透明性の向上,ユーザにとって理解しやすい方法であることが示唆された。 さらにCIUは、より高速な説明を生成することで、LIMEやSHAPよりも優れていた。 本研究は, 様々な説明支援設定において, 人的意思決定に顕著な違いがあることを示唆する。 そこで本研究では,様々な医療データセット上で実装の今後の改善を一般化し,医療専門家に優れた意思決定支援を提供するための3つの方法を提案する。

In the present paper we present the potential of Explainable Artificial Intelligence methods for decision-support in medical image analysis scenarios. With three types of explainable methods applied to the same medical image data set our aim was to improve the comprehensibility of the decisions provided by the Convolutional Neural Network (CNN). The visual explanations were provided on in-vivo gastral images obtained from a Video capsule endoscopy (VCE), with the goal of increasing the health professionals' trust in the black box predictions. We implemented two post-hoc interpretable machine learning methods LIME and SHAP and the alternative explanation approach CIU, centered on the Contextual Value and Utility (CIU). The produced explanations were evaluated using human evaluation. We conducted three user studies based on the explanations provided by LIME, SHAP and CIU. Users from different non-medical backgrounds carried out a series of tests in the web-based survey setting and stated their experience and understanding of the given explanations. Three user groups (n=20, 20, 20) with three distinct forms of explanations were quantitatively analyzed. We have found that, as hypothesized, the CIU explainable method performed better than both LIME and SHAP methods in terms of increasing support for human decision-making as well as being more transparent and thus understandable to users. Additionally, CIU outperformed LIME and SHAP by generating explanations more rapidly. Our findings suggest that there are notable differences in human decision-making between various explanation support settings. In line with that, we present three potential explainable methods that can with future improvements in implementation be generalized on different medical data sets and can provide great decision-support for medical experts.
翻訳日:2021-05-07 13:41:23 公開日:2021-05-05
# 抽出要約のための遺伝的アルゴリズム

Genetic Algorithms For Extractive Summarization ( http://arxiv.org/abs/2105.02365v1 )

ライセンス: Link先を確認
William Chen, Kensal Ramos, Kalyan Naidu Mullaguri(参考訳) NLPの現在の作業のほとんどは、多くのトレーニングデータと計算能力を必要とするディープラーニングを使用している。 本稿では,遺伝的アルゴリズム(GA)の強みについて検討し,GAが学習モデルに対する相対的カスタマイズ性から,より効率的な解を構築できると仮定した。 これは語彙集合を構築し、その単語を重みの配列として表現し、それらの重みの組をgaで最適化することで行われる。 これらの重みは、文の全体的な重み付けを構築するために使用することができ、抽出のためにしきい値に渡すことができる。 その結果,GAは過剰な語彙を抽出し,英単語に基づいて文の重要性を判断できる重み表現を学習することができた。

Most current work in NLP utilizes deep learning, which requires a lot of training data and computational power. This paper investigates the strengths of Genetic Algorithms (GAs) for extractive summarization, as we hypothesized that GAs could construct more efficient solutions for the summarization task due to their relative customizability relative to deep learning models. This is done by building a vocabulary set, the words of which are represented as an array of weights, and optimizing those set of weights with the GA. These weights can be used to build an overall weighting of a sentence, which can then be passed to some threshold for extraction. Our results showed that the GA was able to learn a weight representation that could filter out excessive vocabulary and thus dictate sentence importance based on common English words.
翻訳日:2021-05-07 13:40:05 公開日:2021-05-05
# Content4All Open Research Sign Language Translation Datasets

Content4All Open Research Sign Language Translation Datasets ( http://arxiv.org/abs/2105.02351v1 )

ライセンス: Link先を確認
Necati Cihan Camgoz, Ben Saunders, Guillaume Rochette, Marco Giovanelli, Giacomo Inches, Robin Nachtrab-Ribback, Richard Bowden(参考訳) 計算手話の研究は、有用な実生活アプリケーションの作成を可能にする大規模なデータセットを欠いている。 これまで、ほとんどの研究は、言論の小さな領域のプロトタイプシステムに限られてきた。 天気予報。 この問題に対処し、フィールドを前進させるために、より大きなニュース領域で190時間分の映像からなる6つのデータセットをリリースします。 そこから20時間の映像が難聴の専門家や通訳によって注釈付けされ、研究目的で公開されている。 本稿では,手話ビデオと字幕のアライメントを実現するために開発されたデータセット収集プロセスとツールを共有するとともに,今後の研究の基盤となるベースライン翻訳結果を共有する。

Computational sign language research lacks the large-scale datasets that enables the creation of useful reallife applications. To date, most research has been limited to prototype systems on small domains of discourse, e.g. weather forecasts. To address this issue and to push the field forward, we release six datasets comprised of 190 hours of footage on the larger domain of news. From this, 20 hours of footage have been annotated by Deaf experts and interpreters and is made publicly available for research purposes. In this paper, we share the dataset collection process and tools developed to enable the alignment of sign language video and subtitles, as well as baseline translation results to underpin future research.
翻訳日:2021-05-07 13:39:51 公開日:2021-05-05
# 画像登録のための注意(air):教師なし変圧器アプローチ

Attention for Image Registration (AiR): an unsupervised Transformer approach ( http://arxiv.org/abs/2105.02282v1 )

ライセンス: Link先を確認
Zihao Wang, Herv\'e Delingette(参考訳) 信号処理タスクにおける重要な基盤としてのイメージ登録は、しばしば安定性と効率の問題がある。 非学習登録アプローチは、修正と移動画像間の類似度メトリクスの最適化に依存する。 しかし、これらのアプローチは通常、時間と空間の複雑さの両方においてコストがかかる。 画像のサイズが大きくなるか、画像間の変形が激しい場合、問題はさらに悪化する可能性がある。 近年,畳み込みニューラルネットワーク(convolutional neural network, cnn)に基づく画像登録手法が研究コミュニティで広く研究され,非学習型手法の弱さを克服する有望な効果を示している。 本稿では, 画像登録問題における高度な学習手法を探るため, 変形可能な画像登録問題において, 注意機構を導入する手法を提案する。 提案手法は,CNNに依存しないトランスフォーマーフレームワーク(AiR)を用いて変形場を学習し,GPGPUデバイス上で効率よくトレーニングすることができる。 より鮮明な解釈で、我々は画像登録問題を言語翻訳タスクと同じものとして扱い、問題に取り組むためにトランスフォーマーを導入する。 提案手法は教師なし変形マップを学習し、2つのベンチマークデータセットで検証する。 airのソースコードはgitlabでリリースされる予定である。

Image registration as an important basis in signal processing task often encounter the problem of stability and efficiency. Non-learning registration approaches rely on the optimization of the similarity metrics between the fix and moving images. Yet, those approaches are usually costly in both time and space complexity. The problem can be worse when the size of the image is large or the deformations between the images are severe. Recently, deep learning, or precisely saying, the convolutional neural network (CNN) based image registration methods have been widely investigated in the research community and show promising effectiveness to overcome the weakness of non-learning based methods. To explore the advanced learning approaches in image registration problem for solving practical issues, we present in this paper a method of introducing attention mechanism in deformable image registration problem. The proposed approach is based on learning the deformation field with a Transformer framework (AiR) that does not rely on the CNN but can be efficiently trained on GPGPU devices also. In a more vivid interpretation: we treat the image registration problem as the same as a language translation task and introducing a Transformer to tackle the problem. Our method learns an unsupervised generated deformation map and is tested on two benchmark datasets. The source code of the AiR will be released at Gitlab.
翻訳日:2021-05-07 13:39:41 公開日:2021-05-05
# 非漸近的解析と外因性誘導平均の推論

Non-asymptotic analysis and inference for an outlyingness induced winsorized mean ( http://arxiv.org/abs/2105.02337v1 )

ライセンス: Link先を確認
Yijun Zuo(参考訳) 従来のロバスト統計コミュニティでは時代遅れと見なされる平均ベクトルのロバストな推定は、最近10年間に機械学習の文献で急増している。 最新の焦点は、非漸近的な環境での推定器の性能と計算可能性である。 多くの伝統的なロバスト推定器は計算に難解であり、ロバスト平均推定への関心の更新に一部寄与している。 しかし、ロバスト中心性推定器は、トリミング平均とサンプル中央値を含む。 後者は最も頑健だが、低効率の欠点がある。 試料平均に対するロバストな代替品として, トリミング平均, 平均中央値, %as が提案され, 文献で研究されている。 本稿では,平均値の下位ゲージ推定器の主成分のロバスト性を調査し,データ中の25\%$以上の汚染に抵抗できないことを明らかにするとともに,最も高いロバスト性(破壊することなく最大50\%$の汚染に抵抗できる)を有する外接性誘導ウィンナライズ平均を導入する。 さらに、非汚染試料に対するサブガウス性能と、有限標本設定における所定の信頼度レベルでの汚染試料に対する有界推定誤差を有する。 線形時間で計算できる。

Robust estimation of a mean vector, a topic regarded as obsolete in the traditional robust statistics community, has recently surged in machine learning literature in the last decade. The latest focus is on the sub-Gaussian performance and computability of the estimators in a non-asymptotic setting. Numerous traditional robust estimators are computationally intractable, which partly contributes to the renewal of the interest in the robust mean estimation. Robust centrality estimators, however, include the trimmed mean and the sample median. The latter has the best robustness but suffers a low-efficiency drawback. Trimmed mean and median of means, %as robust alternatives to the sample mean, and achieving sub-Gaussian performance have been proposed and studied in the literature. This article investigates the robustness of leading sub-Gaussian estimators of mean and reveals that none of them can resist greater than $25\%$ contamination in data and consequently introduces an outlyingness induced winsorized mean which has the best possible robustness (can resist up to $50\%$ contamination without breakdown) meanwhile achieving high efficiency. Furthermore, it has a sub-Gaussian performance for uncontaminated samples and a bounded estimation error for contaminated samples at a given confidence level in a finite sample setting. It can be computed in linear time.
翻訳日:2021-05-07 13:37:45 公開日:2021-05-05
# DeepSMOTE: 不均衡データのためのディープラーニングとSMOTE

DeepSMOTE: Fusing Deep Learning and SMOTE for Imbalanced Data ( http://arxiv.org/abs/2105.02340v1 )

ライセンス: Link先を確認
Damien Dablain, Bartosz Krawczyk, Nitesh V. Chawla(参考訳) 20年以上の進歩にもかかわらず、不均衡なデータは現代の機械学習モデルにとって重要な課題だと考えられている。 ディープラーニングの最近の進歩は、不均衡データ問題の重要性を増大させた。 この問題に対処する2つの主要なアプローチは、損失関数の修正とインスタンスの再サンプリングに基づいている。 インスタンスサンプリングは通常、モード崩壊に苦しむGAN(Generative Adversarial Networks)に基づいている。 したがって、深層学習モデルに特化し、その特性を維持しながら原画像を扱うことができ、マイノリティクラスを強化し、トレーニングセットのバランスをとることができる高品質な人工画像を生成することができる過剰サンプリング手法が必要となる。 深層学習モデルのための新しいオーバーサンプリングアルゴリズムであるdeepsmoteを提案する。 シンプルだが、その設計には効果がある。 i)エンコーダ/デコーダフレームワーク、(ii)SMOTEベースのオーバーサンプリング、(iii)ペナルティ項で拡張された専用損失関数の3つの主要コンポーネントで構成されている。 GANをベースとしたオーバーサンプリングに比べてDeepSMOTEの重要な利点は、DeepSMOTEが識別器を必要とせず、情報豊かで視覚検査に適した高品質な人工画像を生成することである。 DeepSMOTEコードは、https://github.com/dd1github/DeepSMOTEで公開されている。

Despite over two decades of progress, imbalanced data is still considered a significant challenge for contemporary machine learning models. Modern advances in deep learning have magnified the importance of the imbalanced data problem. The two main approaches to address this issue are based on loss function modifications and instance resampling. Instance sampling is typically based on Generative Adversarial Networks (GANs), which may suffer from mode collapse. Therefore, there is a need for an oversampling method that is specifically tailored to deep learning models, can work on raw images while preserving their properties, and is capable of generating high quality, artificial images that can enhance minority classes and balance the training set. We propose DeepSMOTE - a novel oversampling algorithm for deep learning models. It is simple, yet effective in its design. It consists of three major components: (i) an encoder/decoder framework; (ii) SMOTE-based oversampling; and (iii) a dedicated loss function that is enhanced with a penalty term. An important advantage of DeepSMOTE over GAN-based oversampling is that DeepSMOTE does not require a discriminator, and it generates high-quality artificial images that are both information-rich and suitable for visual inspection. DeepSMOTE code is publicly available at: https://github.com/dd1github/DeepSMOTE
翻訳日:2021-05-07 13:37:08 公開日:2021-05-05
# MODS -- USV指向の物体検出と障害物セグメンテーションベンチマーク

MODS -- A USV-oriented object detection and obstacle segmentation benchmark ( http://arxiv.org/abs/2105.02359v1 )

ライセンス: Link先を確認
Borja Bovcon, Jon Muhovi\v{c}, Du\v{s}ko Vranac, Dean Mozeti\v{c}, Janez Per\v{s}, Matej Kristan(参考訳) 小型無人水上機(英語版) (usv) は、環境制御や監視といった幅広い用途の沿岸水機器である。 自律運転における重要な機能は、時間的反応と衝突回避のための障害物検出であり、近年、カメラによる視覚シーンの解釈の文脈で研究されている。 データセットのキュレーションにより、関連する無人地上車両の分野でシーン解釈の大幅な進歩がなされている。 しかし、現在の海洋データセットは実世界のUSVシーンの複雑さを適切に捉えておらず、評価プロトコルは標準化されていないため、異なる手法のクロスペーパー比較が困難であり、隠蔽が進行する。 これらの問題に対処するために,海上物体検出とより一般的な海上障害物分割という2つの主要な認識課題を考慮した新しい障害物検出ベンチマークMODSを導入する。 船載IMUと同期する約81kのステレオ画像と60k以上の物体を注釈付けした新たな海洋評価データセットを提案する。 実用的なUSVナビゲーションに有用な方法で検出精度を反映した新しい障害物分割性能評価プロトコルを提案する。 提案プロトコルを用いて,最新の17種類の物体検出手法と障害物分割手法を評価し,フィールドの開発を容易にするベンチマークを作成した。

Small-sized unmanned surface vehicles (USV) are coastal water devices with a broad range of applications such as environmental control and surveillance. A crucial capability for autonomous operation is obstacle detection for timely reaction and collision avoidance, which has been recently explored in the context of camera-based visual scene interpretation. Owing to curated datasets, substantial advances in scene interpretation have been made in a related field of unmanned ground vehicles. However, the current maritime datasets do not adequately capture the complexity of real-world USV scenes and the evaluation protocols are not standardised, which makes cross-paper comparison of different methods difficult and hiders the progress. To address these issues, we introduce a new obstacle detection benchmark MODS, which considers two major perception tasks: maritime object detection and the more general maritime obstacle segmentation. We present a new diverse maritime evaluation dataset containing approximately 81k stereo images synchronized with an on-board IMU, with over 60k objects annotated. We propose a new obstacle segmentation performance evaluation protocol that reflects the detection accuracy in a way meaningful for practical USV navigation. Seventeen recent state-of-the-art object detection and obstacle segmentation methods are evaluated using the proposed protocol, creating a benchmark to facilitate development of the field.
翻訳日:2021-05-07 13:36:47 公開日:2021-05-05
# 非線形ダイナミクス発見のための物理インフォームドスプライン学習

Physics-informed Spline Learning for Nonlinear Dynamics Discovery ( http://arxiv.org/abs/2105.02368v1 )

ライセンス: Link先を確認
Fangzheng Sun, Yang Liu, Hao Sun(参考訳) 力学系は典型的には線型・非線形微分方程式の集合によって支配される。 非常に限られたデータからこれらの方程式の分析形式を蒸留することは、物理学、生物学、気候科学、工学、社会科学など多くの分野において難解である。 この根本的な課題に対処するために、疎サンプリングされたノイズデータに基づいて、非線形力学の擬似支配方程式を発見するために、新しい物理インフォームドスプラインラーニング(PiSL)フレームワークを提案する。 鍵となる概念は、(1)スプラインを利用して局所的なダイナミクスを補間し、分析的微分を行い、候補項のライブラリを構築すること、(2)支配方程式のスパース表現を採用すること、(3)スプライン学習を知らせることである。 スプラインと基礎物理学の相乗効果は、高レベルのデータ不足とノイズに対処する堅牢な能力をもたらす。 制御方程式の構造と明示的な表現を形成するスパース係数を体系的に刈り取るために,ハイブリッドスペーサ・プロモーティング交互方向最適化戦略を開発した。 提案手法の有効性と優越性は, 複数の非線形力学系で実証され, 最先端手法との比較を行った。

Dynamical systems are typically governed by a set of linear/nonlinear differential equations. Distilling the analytical form of these equations from very limited data remains intractable in many disciplines such as physics, biology, climate science, engineering and social science. To address this fundamental challenge, we propose a novel Physics-informed Spline Learning (PiSL) framework to discover parsimonious governing equations for nonlinear dynamics, based on sparsely sampled noisy data. The key concept is to (1) leverage splines to interpolate locally the dynamics, perform analytical differentiation and build the library of candidate terms, (2) employ sparse representation of the governing equations, and (3) use the physics residual in turn to inform the spline learning. The synergy between splines and discovered underlying physics leads to the robust capacity of dealing with high-level data scarcity and noise. A hybrid sparsity-promoting alternating direction optimization strategy is developed for systematically pruning the sparse coefficients that form the structure and explicit expression of the governing equations. The efficacy and superiority of the proposed method has been demonstrated by multiple well-known nonlinear dynamical systems, in comparison with a state-of-the-art method.
翻訳日:2021-05-07 13:35:35 公開日:2021-05-05
# 適応収集データを用いた政策学習

Policy Learning with Adaptively Collected Data ( http://arxiv.org/abs/2105.02344v1 )

ライセンス: Link先を確認
Ruohan Zhan, Zhimei Ren, Susan Athey, Zhengyuan Zhou(参考訳) 履歴データから最適なポリシーを学ぶことで、パーソナライズによる利益を様々なアプリケーションで実現することができる。 成長する政策学習文献は、治療割当方針がデータに適応しない設定に焦点を当てている。 しかし、適応データ収集は、1)推論効率を改善するために設計された適応実験から収集されたデータ、2)時間とともにパフォーマンスを改善するために運用方針を適応的に進化させている生産システムから収集されたデータである。 文脈的盗賊) 本稿では,適応的に収集したデータを用いて最適方針を学習する課題に対処し,この問題に対する最初の理論的質問の1つを提供する。 一般化された逆確率重み付き推定器に基づくアルゴリズムを提案し,その有限サンプル後悔境界を確立する。 この後悔の上限を、適応型データを用いた政策学習の基本的な難しさを特徴付ける下限で補う。 最後に、合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を示す。

Learning optimal policies from historical data enables the gains from personalization to be realized in a wide variety of applications. The growing policy learning literature focuses on a setting where the treatment assignment policy does not adapt to the data. However, adaptive data collection is becoming more common in practice, from two primary sources: 1) data collected from adaptive experiments that are designed to improve inferential efficiency; 2) data collected from production systems that are adaptively evolving an operational policy to improve performance over time (e.g. contextual bandits). In this paper, we aim to address the challenge of learning the optimal policy with adaptively collected data and provide one of the first theoretical inquiries into this problem. We propose an algorithm based on generalized augmented inverse propensity weighted estimators and establish its finite-sample regret bound. We complement this regret upper bound with a lower bound that characterizes the fundamental difficulty of policy learning with adaptive data. Finally, we demonstrate our algorithm's effectiveness using both synthetic data and public benchmark datasets.
翻訳日:2021-05-07 13:35:15 公開日:2021-05-05
# Granger Causality: レビューと最近の進歩

Granger Causality: A Review and Recent Advances ( http://arxiv.org/abs/2105.02675v1 )

ライセンス: Link先を確認
Ali Shojaie and Emily B. Fox(参考訳) 半世紀以上前に導入されたGranger causalityは、経済学や金融学、ゲノム学、神経科学など、多くのアプリケーション領域で時系列データを分析するための一般的なツールとなっている。 この人気にもかかわらず、時系列間の因果関係を推測するこの概念の有効性は継続的な議論の対象となっている。 さらに、元々の定義は一般的であったが、計算ツールの限界は、グランジャー因果関係の応用を、単純二変量ベクトル自己回帰過程に限定している。 本稿では,初期の発展と議論のレビューから,高次元時系列モデルから非線形・非ガウシアン観測を考慮し,サブサンプリング・混合周波数時系列を可能にする最近の発展まで,初期のアプローチの様々な欠点を扱った最近の進歩について述べる。

Introduced more than a half century ago, Granger causality has become a popular tool for analyzing time series data in many application domains, from economics and finance to genomics and neuroscience. Despite this popularity, the validity of this notion for inferring causal relationships among time series has remained the topic of continuous debate. Moreover, while the original definition was general, limitations in computational tools have primarily limited the applications of Granger causality to simple bivariate vector auto-regressive processes consisting. Starting with a review of early developments and debates, this paper discusses recent advances that address various shortcomings of the earlier approaches, from models for high-dimensional time series to more recent developments that account for nonlinear and non-Gaussian observations and allow for sub-sampled and mixed frequency time series.
翻訳日:2021-05-07 13:34:26 公開日:2021-05-05
# 自律的分離保証における深層強化学習の安全性向上

Safety Enhancement for Deep Reinforcement Learning in Autonomous Separation Assurance ( http://arxiv.org/abs/2105.02331v1 )

ライセンス: Link先を確認
Wei Guo, Marc Brittain, Peng Wei(参考訳) 分離保証タスクは、複雑で高密度の空域環境において、航空管制官にとって極めて困難である。 深部強化学習(DRL)は,学習モデルが速度操作を推奨するこれまでの作業において,自律的な分離保証フレームワークの開発に用いられた。 本研究では,不確実性のない環境でのこのモデルの安全性を向上させるために,自律的分離保証アプリケーションにおけるDRLの安全モジュールを提案する。 提案モジュールはモデル不確実性と状態不確実性の両方に対処して安全性を向上させる。 安全モジュールは2つのサブモジュールから構成されており、(1)状態安全サブモジュールは、モデル入力状態に状態障害を導入する実行時間データ拡張法に基づいており、(2)モデル安全サブモジュールは、drlモデルポリシーの後方分布を学習するモンテカルロドロップアウト拡張である。 環境設定が困難なオープンソースの航空交通シミュレータにおける2つのサブモジュールの有効性を実証する。 数値実験により,提案したサブセーフティモジュールは,自律的分離保証タスクにおいてDRLエージェントの安全性を著しく向上させることを示す。

The separation assurance task will be extremely challenging for air traffic controllers in a complex and high density airspace environment. Deep reinforcement learning (DRL) was used to develop an autonomous separation assurance framework in our previous work where the learned model advised speed maneuvers. In order to improve the safety of this model in unseen environments with uncertainties, in this work we propose a safety module for DRL in autonomous separation assurance applications. The proposed module directly addresses both model uncertainty and state uncertainty to improve safety. Our safety module consists of two sub-modules: (1) the state safety sub-module is based on the execution-time data augmentation method to introduce state disturbances in the model input state; (2) the model safety sub-module is a Monte-Carlo dropout extension that learns the posterior distribution of the DRL model policy. We demonstrate the effectiveness of the two sub-modules in an open-source air traffic simulator with challenging environment settings. Through extensive numerical experiments, our results show that the proposed sub-safety modules help the DRL agent significantly improve its safety performance in an autonomous separation assurance task.
翻訳日:2021-05-07 13:28:51 公開日:2021-05-05
# 自己注意を超えて:視覚タスクのための2つの線形層を用いた外部注意

Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks ( http://arxiv.org/abs/2105.02358v1 )

ライセンス: Link先を確認
Meng-Hao Guo, Zheng-Ning Liu, Tai-Jiang Mu, Shi-Min Hu(参考訳) 注意機構、特に自己注意は、視覚タスクにおける深い特徴表現においてますます重要な役割を果たす。 自己注意(Self-attention)は、すべての位置のペア親和性を使って、各位置の機能を重み付けして更新し、単一のサンプル内で長距離依存性をキャプチャする。 しかし、自己アテンションは二次的複雑性を持ち、異なるサンプル間の潜在的な相関を無視する。 本稿では,2つの外部的,小さく,学習可能,共有的記憶に基づく,新たな注意機構を提案する。2つの逐次線形層と2つの正規化層を単純に使用すれば容易に実装でき,既存のアーキテクチャにおける自己着脱を便利に置き換える。 外部の注意は線形な複雑さを持ち、すべてのサンプル間の相関を暗黙的に考慮する。 画像分類,意味セグメンテーション,画像生成,ポイントクラウド分類,ポイントクラウドセグメンテーションタスクに関する広範な実験により,本手法が自己照査機構やその派生品と同等あるいは優れた性能を提供し,計算コストとメモリコストをはるかに削減できることが判明した。

Attention mechanisms, especially self-attention, play an increasingly important role in deep feature representation in visual tasks. Self-attention updates the feature at each position by computing a weighted sum of features using pair-wise affinities across all positions to capture long-range dependency within a single sample. However, self-attention has a quadratic complexity and ignores potential correlation between different samples. This paper proposes a novel attention mechanism which we call external attention, based on two external, small, learnable, and shared memories, which can be implemented easily by simply using two cascaded linear layers and two normalization layers; it conveniently replaces self-attention in existing popular architectures. External attention has linear complexity and implicitly considers the correlations between all samples. Extensive experiments on image classification, semantic segmentation, image generation, point cloud classification and point cloud segmentation tasks reveal that our method provides comparable or superior performance to the self-attention mechanism and some of its variants, with much lower computational and memory costs.
翻訳日:2021-05-07 13:28:00 公開日:2021-05-05
# 再生停止問題の学習アルゴリズムと物流における輸送統合への応用

Learning Algorithms for Regenerative Stopping Problems with Applications to Shipping Consolidation in Logistics ( http://arxiv.org/abs/2105.02318v1 )

ライセンス: Link先を確認
Kishor Jothimurugan, Matthew Andrews, Jeongran Lee and Lorenzo Maggi(参考訳) 制御器が停止し、長期平均コストを最小限に抑えると、システムが再起動する再生停止問題について検討する。 従来のモデルベースのソリューションは、推定モデルのためのデータとコンピューティング戦略から基礎となるプロセスを推定する。 本稿では,シミュレーションからニューラルネットワークポリシーを学習する深層強化学習と模倣学習を比較した。 我々は,ロジスティクスにおける出荷統合という現実世界の問題に対する異なるアプローチを評価し,これらの問題を解決するためにディープラーニングを効果的に活用できることを実証する。

We study regenerative stopping problems in which the system starts anew whenever the controller decides to stop and the long-term average cost is to be minimized. Traditional model-based solutions involve estimating the underlying process from data and computing strategies for the estimated model. In this paper, we compare such solutions to deep reinforcement learning and imitation learning which involve learning a neural network policy from simulations. We evaluate the different approaches on a real-world problem of shipping consolidation in logistics and demonstrate that deep learning can be effectively used to solve such problems.
翻訳日:2021-05-07 13:20:50 公開日:2021-05-05
# CombOptNet:整数プログラミング制約を学習することで正しいNP-Hard問題に適合する

CombOptNet: Fit the Right NP-Hard Problem by Learning Integer Programming Constraints ( http://arxiv.org/abs/2105.02343v1 )

ライセンス: Link先を確認
Anselm Paulus and Michal Rol\'inek and V\'it Musil and Brandon Amos and Georg Martius(参考訳) 現代の機械学習技術で論理的およびアルゴリズム的推論を組み込むことは、潜在的に変革的な影響に対する根本的な課題である。 アルゴリズム側では、多くのNPハード問題を整数プログラムとして表すことができ、そこでは制約が「組合せ仕様」の役割を担っている。 本研究では,コスト項と制約の両方を学習できる層として,整数型プログラミングソルバをニューラルネットワークアーキテクチャに統合することを目的としている。 結果として得られたエンドツーエンドのトレーニング可能なアーキテクチャは、生データから特徴を抽出し、最先端の整数プログラミングソルバで適切な(学習された)組合せ問題を解く。 我々は、合成データに対する広範な性能解析と、競合するコンピュータビジョンキーポイントマッチングベンチマークでの実証により、このようなレイヤーの可能性を示す。

Bridging logical and algorithmic reasoning with modern machine learning techniques is a fundamental challenge with potentially transformative impact. On the algorithmic side, many NP-hard problems can be expressed as integer programs, in which the constraints play the role of their "combinatorial specification". In this work, we aim to integrate integer programming solvers into neural network architectures as layers capable of learning both the cost terms and the constraints. The resulting end-to-end trainable architectures jointly extract features from raw data and solve a suitable (learned) combinatorial problem with state-of-the-art integer programming solvers. We demonstrate the potential of such layers with an extensive performance analysis on synthetic data and with a demonstration on a competitive computer vision keypoint matching benchmark.
翻訳日:2021-05-07 13:20:41 公開日:2021-05-05
# asp.netでベッド管理を行うための手術室(re)

Operating Room (Re)Scheduling with Bed Management via ASP ( http://arxiv.org/abs/2105.02283v1 )

ライセンス: Link先を確認
Carmine Dodaro, Giuseppe Galat\`a, Muhammad Kamran Khan, Marco Maratea, Ivan Porro(参考訳) 手術室スケジューリング(英: Operating Room Scheduling、ORS)は、手術室に患者を割り当て、計画された各手術の専門性、長さと優先順位、手術室のセッション期間、集中治療室と病棟の両方に滞在する期間全体のベッドの可用性を考慮するタスクである。 ORS問題に対する適切な解決策は、医療サービス品質と病院環境における患者の満足度にとって最も重要なものである。 本稿では、まず、解答セットプログラミング(ASP.NET)に基づく問題の解を示す。 提案手法は, 現実的なサイズとパラメータを持つベンチマークを用いて, 5日間のスケジュールにおける目標長の3つのシナリオで検証し, 結果から, ASPがORS問題に適した解決方法であることが示された。 また、最大15日間のスケジュール長についてもスケーラビリティ解析を行い、より長い計画地平線上でのソリューションの適合性を示した。 さらに、再スケジュール問題、すなわち、再スケジューリング問題に対するASPソリューションも提示する。 何らかの理由でオフラインスケジュールが完了できない場合。 最後に、ASPを介してORS問題を管理するWebフレームワークを導入し、ユーザが問題の主パラメータを挿入し、特定のインスタンスを解決し、結果をリアルタイムでグラフィカルに表示できるようにする。 論理プログラミングの理論と実践(tplp)における考察。

The Operating Room Scheduling (ORS) problem is the task of assigning patients to operating rooms, taking into account different specialties, lengths and priority scores of each planned surgery, operating room session durations, and the availability of beds for the entire length of stay both in the Intensive Care Unit and in the wards. A proper solution to the ORS problem is of primary importance for the healthcare service quality and the satisfaction of patients in hospital environments. In this paper we first present a solution to the problem based on Answer Set Programming (ASP). The solution is tested on benchmarks with realistic sizes and parameters, on three scenarios for the target length on 5-day scheduling, common in small-medium sized hospitals, and results show that ASP is a suitable solving methodology for the ORS problem in such setting. Then, we also performed a scalability analysis on the schedule length up to 15 days, which still shows the suitability of our solution also on longer plan horizons. Moreover, we also present an ASP solution for the rescheduling problem, i.e. when the off-line schedule cannot be completed for some reason. Finally, we introduce a web framework for managing ORS problems via ASP that allows a user to insert the main parameters of the problem, solve a specific instance, and show results graphically in real-time. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-05-07 13:18:46 公開日:2021-05-05
# 確率的二値最適化のためのランダム化確率変数導出法

Randomized Stochastic Variance-Reduced Methods for Stochastic Bilevel Optimization ( http://arxiv.org/abs/2105.02266v1 )

ライセンス: Link先を確認
Zhishuai Guo, Tianbao Yang(参考訳) 本稿では,非凸確率二段階最適化(non-convex stochastic bilevel optimization, sbo)問題について考察する。 多くの研究がこれらの問題を解決する確率的アルゴリズムを提案しているが、それらは2つの観点で制限されている: (i) サンプルの複雑さは高いが、これは非凸確率的最適化の最先端の結果と一致しない。 低レベルな問題が数多くある場合、各イテレーションでこれらの低レベルな問題を全て処理することは禁じられるかもしれません。 そこで本稿では,非凸sbo問題に対する高速ランダム化確率アルゴリズムを提案する。 まず, 1 つの低い問題しか持たない非凸 SBO に対する確率的手法を提案し,そのサンプルの複雑さを$O(1/\epsilon^3)$ とすると, 適切な条件下での$\epsilon$-stationary point を求めることができる。 第2に、各イテレーションにおいて1つの低い問題のみを処理し、サンプルの複雑さを$O(m/\epsilon^3)$より悪くすることで、$m>1$低い問題を処理する非凸SBOのランダム化確率的手法を提案する。 我々の知る限りでは、これは多くの低いレベルの問題を持つSBOを考慮し、最先端のサンプル複雑性を確立する最初の研究である。

In this paper, we consider non-convex stochastic bilevel optimization (SBO) problems that have many applications in machine learning. Although numerous studies have proposed stochastic algorithms for solving these problems, they are limited in two perspectives: (i) their sample complexities are high, which do not match the state-of-the-art result for non-convex stochastic optimization; (ii) their algorithms are tailored to problems with only one lower-level problem. When there are many lower-level problems, it could be prohibitive to process all these lower-level problems at each iteration. To address these limitations, this paper proposes fast randomized stochastic algorithms for non-convex SBO problems. First, we present a stochastic method for non-convex SBO with only one lower problem and establish its sample complexity of $O(1/\epsilon^3)$ for finding an $\epsilon$-stationary point under appropriate conditions, matching the lower bound for stochastic smooth non-convex optimization. Second, we present a randomized stochastic method for non-convex SBO with $m>1$ lower level problems by processing only one lower problem at each iteration, and establish its sample complexity no worse than $O(m/\epsilon^3)$, which could have a better complexity than simply processing all $m$ lower problems at each iteration. To the best of our knowledge, this is the first work considering SBO with many lower level problems and establishing state-of-the-art sample complexity.
翻訳日:2021-05-07 13:15:26 公開日:2021-05-05
# Epileptic Seizure 予測のための新しいマルチスケール3次元CNN

A Novel Multi-scale Dilated 3D CNN for Epileptic Seizure Prediction ( http://arxiv.org/abs/2105.02823v1 )

ライセンス: Link先を確認
Ziyu Wang, Jie Yang and Mohamad Sawan(参考訳) てんかん発作の正確な予測は、患者が怪我を避けるために事前に予防措置を講じることを可能にする。 本研究では,脳波信号の時間,周波数,チャネル情報を解析するために,新しい畳み込みニューラルネットワーク(cnn)を提案する。 モデルは3次元(3D)カーネルを使用して、3次元上の特徴抽出を容易にする。 マルチスケール拡張畳み込みの応用により、3Dカーネルはより柔軟な受容場を持つことができる。 提案したCNNモデルはCHB-MIT EEGデータベースを用いて評価され,実験結果から既存の最先端モデルよりも優れ,80.5%の精度,85.8%の感度,75.1%の特異性が得られた。

Accurate prediction of epileptic seizures allows patients to take preventive measures in advance to avoid possible injuries. In this work, a novel convolutional neural network (CNN) is proposed to analyze time, frequency, and channel information of electroencephalography (EEG) signals. The model uses three-dimensional (3D) kernels to facilitate the feature extraction over the three dimensions. The application of multiscale dilated convolution enables the 3D kernel to have more flexible receptive fields. The proposed CNN model is evaluated with the CHB-MIT EEG database, the experimental results indicate that our model outperforms the existing state-of-the-art, achieves 80.5% accuracy, 85.8% sensitivity and 75.1% specificity.
翻訳日:2021-05-07 13:12:16 公開日:2021-05-05
# FedMLのためのByzantine-Robustとプライバシ保護フレームワーク

Byzantine-Robust and Privacy-Preserving Framework for FedML ( http://arxiv.org/abs/2105.02295v1 )

ライセンス: Link先を確認
Hanieh Hashemi, Yongqin Wang, Chuan Guo, Murali Annavaram(参考訳) フェデレーション学習は、一連のクライアント間で分散されたデータからモデルを協調的にトレーニングするための一般的なパラダイムとして登場した。 この学習設定は、トレーニング中のクライアントデータのプライバシ保護方法と、トレーニングされたモデルの完全性を保証する方法の2つのユニークな課題である。 一つのフレームワークで両方の課題に対処することを目的とした2段階のソリューションを提案する。 まず、サーバ内でtrusted execution environment(tee)を使用してセキュアなエンクレーブを作成することを提案する。 各クライアントは勾配を暗号化し、検証可能なエンクレーブに送ることができる。 勾配はプライバシー侵害を恐れずにエンクレーブ内で復号化される。 しかし、TEEの堅牢性チェック計算は計算が禁止されている。 したがって、第2のステップでは、teesが勾配をエンコードし、ビザンチンチェック計算をgpuなどのアクセラレータにオフロードできる新しい勾配エンコーディングを行う。 提案手法は,情報漏洩に関する理論的境界を提供し,経験的評価におけるベースラインの大幅な高速化を提供する。

Federated learning has emerged as a popular paradigm for collaboratively training a model from data distributed among a set of clients. This learning setting presents, among others, two unique challenges: how to protect privacy of the clients' data during training, and how to ensure integrity of the trained model. We propose a two-pronged solution that aims to address both challenges under a single framework. First, we propose to create secure enclaves using a trusted execution environment (TEE) within the server. Each client can then encrypt their gradients and send them to verifiable enclaves. The gradients are decrypted within the enclave without the fear of privacy breaches. However, robustness check computations in a TEE are computationally prohibitive. Hence, in the second step, we perform a novel gradient encoding that enables TEEs to encode the gradients and then offloading Byzantine check computations to accelerators such as GPUs. Our proposed approach provides theoretical bounds on information leakage and offers a significant speed-up over the baseline in empirical evaluation.
翻訳日:2021-05-07 13:11:40 公開日:2021-05-05
# 無線センサネットワークにおける資源管理のためのマルチエージェントQラーニングフレームワークの検討

Survey on Multi-Agent Q-Learning frameworks for resource management in wireless sensor network ( http://arxiv.org/abs/2105.02371v1 )

ライセンス: Link先を確認
Arvin Tashakori(参考訳) 本稿では,マルチエージェントQ-Learningアルゴリズムを調査し,使用するゲーム理論フレームワークを分析し,各フレームワークのアプリケーションに対処し,課題と今後の方向性を報告する。 本研究の目的は,無線センサネットワークにおける資源管理である。 第1節では,無線センサネットワークの適用について紹介した。 その後、モデルなし強化学習問題に対する古典的解法として有名なQ-Learningアルゴリズムを概説した。 第3章では,マルチエージェントシナリオのためのq-learningアルゴリズムを拡張し,その課題について論じた。 第4節では,無線センサネットワークにおける資源割り当てとタスクスケジューリングのために,研究者がこの問題に対処するために用いたゲーム理論フレームワークのセットを調査した。 最後に、著者はこの分野で興味深いオープンチャレンジをいくつか挙げた。

This report aims to survey multi-agent Q-Learning algorithms, analyze different game theory frameworks used, address each framework's applications, and report challenges and future directions. The target application for this study is resource management in the wireless sensor network. In the first section, the author provided an introduction regarding the applications of wireless sensor networks. After that, the author presented a summary of the Q-Learning algorithm, a well-known classic solution for model-free reinforcement learning problems. In the third section, the author extended the Q-Learning algorithm for multi-agent scenarios and discussed its challenges. In the fourth section, the author surveyed sets of game-theoretic frameworks that researchers used to address this problem for resource allocation and task scheduling in the wireless sensor networks. Lastly, the author mentioned some interesting open challenges in this domain.
翻訳日:2021-05-07 13:11:24 公開日:2021-05-05
# LGGNet:脳-コンピュータインタフェースのための局所グラフ表現からの学習

LGGNet: Learning from Local-Global-Graph Representations for Brain-Computer Interface ( http://arxiv.org/abs/2105.02786v1 )

ライセンス: Link先を確認
Yi Ding, Neethu Robinson, Qiuhao Zeng, Cuntai Guan(参考訳) 本稿では,脳波(EEG)から脳-コンピュータインタフェース(BCI)の局所グラフ表現を学習するために,神経学的にインスパイアされたグラフニューラルネットワークLGGを提案する。 脳波の時間的ダイナミクスを学習するために,マルチスケール1次元畳み込みカーネルとカーネルレベルの注意融合を用いた時間的畳み込み層を提案する。 脳内の認知過程の神経学的知識に触発され、脳の機能領域の異なる領域における脳活動の学習と、認知過程の複雑な関係をモデル化するための局所的およびグローバルなグラフフィルタリング層を提案する。 頑健なネスト型クロスバリデーション設定では,提案手法を利用可能なデータセットDEAP上で評価し,FBFgMDM,FBTSC,Unsupervised Learning,DeepConvNet,ShallowConvNet,EEGNet,TSceptionといった最先端の手法と比較した。 その結果,提案手法がこれらすべての最先端手法を上回っており,その改善度は統計的に有意 (p<0.05) であることがわかった。 ソースコードは、https://github.com/yi-ding-cs/LGGで確認できる。

In this paper, we propose LGG, a neurologically inspired graph neural network, to learn local-global-graph representations from Electroencephalography (EEG) for a Brain-Computer Interface (BCI). A temporal convolutional layer with multi-scale 1D convolutional kernels and kernel-level attention fusion is proposed to learn the temporal dynamics of EEG. Inspired by neurological knowledge of cognitive processes in the brain, we propose local and global graph-filtering layers to learn the brain activities within and between different functional areas of the brain to model the complex relations among them during the cognitive processes. Under the robust nested cross-validation settings, the proposed method is evaluated on the publicly available dataset DEAP, and the classification performance is compared with state-of-the-art methods, such as FBFgMDM, FBTSC, Unsupervised learning, DeepConvNet, ShallowConvNet, EEGNet, and TSception. The results show that the proposed method outperforms all these state-of-the-art methods, and the improvements are statistically significant (p<0.05) in most cases. The source code can be found at: https://github.com/yi-ding-cs/LGG
翻訳日:2021-05-07 13:10:09 公開日:2021-05-05
# ウェアラブルを用いた深部認知疲労評価

Activity-Aware Deep Cognitive Fatigue Assessment using Wearables ( http://arxiv.org/abs/2105.02824v1 )

ライセンス: Link先を確認
Mohammad Arif Ul Alam(参考訳) 認知疲労は、新型コロナウイルス(COVID-19)が世界的なパンデミックとして出現して以来、世界的な問題となっている労働者の間でよく見られる問題である。 既存のマルチモーダルウェアラブルセンサー支援自動認知疲労モニタリングツールは、特定のグループ(ゲーマー、アスリート、建設労働者など)の分析に基づく身体的および生理的センサー(ecg、ppg、アクチグラフィ)に焦点を当てているが、活動認識は、異なる人の生理学に対する反応に異なるため、最も重要である。 本稿では,個人の行動認識を一般化し,認知的疲労推定を大幅に改善する,アクティビティ対応リカレントニューラルネットワーク(\emph{AcRoNN})を提案する。 提案手法を5個体のリアルタイム収集データセットと27個体の公開データセットを用いて,最先端手法と比較した。 19%改善。

Cognitive fatigue has been a common problem among workers which has become an increasing global problem since the emergence of COVID-19 as a global pandemic. While existing multi-modal wearable sensors-aided automatic cognitive fatigue monitoring tools have focused on physical and physiological sensors (ECG, PPG, Actigraphy) analytic on specific group of people (say gamers, athletes, construction workers), activity-awareness is utmost importance due to its different responses on physiology in different person. In this paper, we propose a novel framework, Activity-Aware Recurrent Neural Network (\emph{AcRoNN}), that can generalize individual activity recognition and improve cognitive fatigue estimation significantly. We evaluate and compare our proposed method with state-of-art methods using one real-time collected dataset from 5 individuals and another publicly available dataset from 27 individuals achieving max. 19% improvement.
翻訳日:2021-05-07 13:09:48 公開日:2021-05-05
# (参考訳) CDRに基づく軌道:ピンポンハンドオーバのフィルタリング

CDR Based Trajectories: Tentative for Filtering Ping-pong Handover ( http://arxiv.org/abs/2105.00526v2 )

ライセンス: CC BY 4.0
Joonas L\~omps, Artjom Lind, Amnir Hadachi(参考訳) コールディテール・レコード(cdr)とカバレッジエリアのロケーションが組み合わさって、オペレーターは顧客の位置や移動に関する驚くほどの量の情報を提供する。 アンテナカバー領域の非静的かつ重なり合う性質のため、ハンドオーバルールにより、地理的に近接した携帯電話が異なるアンテナに接続される状況が一般的である。 これにより,CDRデータから抽出した軌跡のピンポンハンドオーバ現象が,移動パターンの理解において誤解を招く可能性がある。 正確な軌道を再構築するには、データセットに現れるハンドオーバの数を減らす必要がある。 本文は,CDRに基づく軌道からピンポンハンドオーバをフィルタリングする新しい手法を提案する。 主に,CDRデータから抽出した被覆領域と再構成軌道の異なる特徴とパラメータを活かしたアンカーモデルに基づく。 この手法を用いることで,トラジェクタのピンポンハンドオーバノイズを著しく低減できるため,顧客の移動パターンをより正確に再構成できる。

Call Detail Records (CDRs) coupled with the coverage area locations provide the operator with an incredible amount of information on its customers' whereabouts and movement. Due to the non-static and overlapping nature of the antenna coverage area there commonly exist situations where cellphones geographically close to each other can be connected to different antennas due to handover rule - the operator hands over a certain cellphone to another antenna to spread the load between antennas. Hence, this aspect introduces a ping-pong handover phenomena in the trajectories extracted from the CDR data which can be misleading in understanding the mobility pattern. To reconstruct accurate trajectories it is a must to reduce the number of those handovers appearing in the dataset. This letter presents a novel approach for filtering ping-pong handovers from CDR based trajectories. Primarily, the approach is based on anchors model utilizing different features and parameters extracted from the coverage areas and reconstructed trajectories mined from the CDR data. Using this methodology we can significantly reduce the ping-pong handover noise in the trajectories, which gives a more accurate reconstruction of the customers' movement pattern.
翻訳日:2021-05-07 10:55:54 公開日:2021-05-05
# (参考訳) OR-Net:部分観測によるデータ補完のポイントワイズ関係推論

OR-Net: Pointwise Relational Inference for Data Completion under Partial Observation ( http://arxiv.org/abs/2105.00397v2 )

ライセンス: CC BY 4.0
Qianyu Feng, Linchao Zhu, Bang Zhang, Pan Pan, Yi Yang(参考訳) 現代のデータ駆動手法は通常、適用性を制限する大規模なデータセットを全面的に監視する。 しかし、測定誤差やデータ取得問題などの制約のある実際のシステムでは、通常は不完全なデータを取得する。 データ補完は注目されているが、基礎となるデータパターンと相対性理論はまだ未開発である。 現在、潜在変数モデルのファミリーは、境界分布を適合させることで、観測変数よりも深い潜在変数を学習することができる。 私たちが知る限り、現在の方法では、部分的観測下でのデータ相対性理論を知覚できない。 不完全データをモデル化することを目的として、この研究は不完全データを埋めるために関係推論を使用する。 具体的には, 部分的観測値と潜在変数上の実合同分布を近似し, 対象を推定することを期待する。 そこで,本研究では,全相関ネットワーク (or-net) を提案する。一方,部分的観測における文脈点間に内的関係を構築し,他方では観測データ点との相互関係を学習することにより,見当たらない対象を推定する。 さらに, 物理構造が観察可能であるか否かに関わらず, 提案手法を様々なシナリオに一般化できることが判明した。 提案するor-netは,関数回帰,mnistおよびcelebaデータセットの画像補完,および観測されたポーズに条件付けられた逐次運動生成など,様々なモダリティのデータ補完タスクに対して十分に一般化できることが実証された。

Contemporary data-driven methods are typically fed with full supervision on large-scale datasets which limits their applicability. However, in the actual systems with limitations such as measurement error and data acquisition problems, people usually obtain incomplete data. Although data completion has attracted wide attention, the underlying data pattern and relativity are still under-developed. Currently, the family of latent variable models allows learning deep latent variables over observed variables by fitting the marginal distribution. As far as we know, current methods fail to perceive the data relativity under partial observation. Aiming at modeling incomplete data, this work uses relational inference to fill in the incomplete data. Specifically, we expect to approximate the real joint distribution over the partial observation and latent variables, thus infer the unseen targets respectively. To this end, we propose Omni-Relational Network (OR-Net) to model the pointwise relativity in two aspects: (i) On one hand, the inner relationship is built among the context points in the partial observation; (ii) On the other hand, the unseen targets are inferred by learning the cross-relationship with the observed data points. It is further discovered that the proposed method can be generalized to different scenarios regardless of whether the physical structure can be observed or not. It is demonstrated that the proposed OR-Net can be well generalized for data completion tasks of various modalities, including function regression, image completion on MNIST and CelebA datasets, and also sequential motion generation conditioned on the observed poses.
翻訳日:2021-05-07 01:56:25 公開日:2021-05-05
# (参考訳) MFCCを用いた楽器認識のためのディープニューラルネットワーク

Deep Neural Network for Musical Instrument Recognition using MFCCs ( http://arxiv.org/abs/2105.00933v2 )

ライセンス: CC BY 4.0
Saranga Kingkor Mahanta, Abdullah Faiz Ur Rahman Khilji, Partha Pakray(参考訳) 効率的な自動音楽分類の課題は重要であり、音楽分野におけるAIの様々な高度な応用の基礎を形成する。 楽器認識は、その音響によって楽器の識別を行うタスクである。 音の振動」とも呼ばれるこの音は、楽器のクラスに合わせてモデルによって活用される。 本稿では,20種類の楽器の分類を訓練した人工ニューラルネットワーク(ann)モデルを用いた。 ここでは、音声データのメル周波数ケプストラム係数(MFCC)のみを用いる。 提案するモデルトレインは, ロンドン・フィルハーモニック・オーケストラ・データセットで, 4つの家系に属する20種類の楽器を含む。 木管、金管、打楽器、弦。 実験結果に基づいて,本モデルは同じ精度で得られた。

The task of efficient automatic music classification is of vital importance and forms the basis for various advanced applications of AI in the musical domain. Musical instrument recognition is the task of instrument identification by virtue of its audio. This audio, also termed as the sound vibrations are leveraged by the model to match with the instrument classes. In this paper, we use an artificial neural network (ANN) model that was trained to perform classification on twenty different classes of musical instruments. Here we use use only the mel-frequency cepstral coefficients (MFCCs) of the audio data. Our proposed model trains on the full London philharmonic orchestra dataset which contains twenty classes of instruments belonging to the four families viz. woodwinds, brass, percussion, and strings. Based on experimental results our model achieves state-of-the-art accuracy on the same.
翻訳日:2021-05-07 01:40:45 公開日:2021-05-05
# (参考訳) 広く適用可能なターゲットデータサンプル欠落攻撃

Broadly Applicable Targeted Data Sample Omission Attacks ( http://arxiv.org/abs/2105.01560v2 )

ライセンス: CC BY 4.0
Guy Barash, Eitan Farchi, Sarit Kraus, Onn Shehory(参考訳) 学習機構において,新規なクリーンラベル標的中毒攻撃を提案する。 古典的な中毒攻撃は、通常、追加、修正、削除によってデータを破損させるが、我々の攻撃はデータ消去のみに焦点を当てる。 我々の攻撃は、そのサンプルを操作することなく、ターゲットとする1つのテストサンプルを誤って分類する。 我々は、MNIST、IMDB、CIFARといった複数のデータセットを用いて、深層ニューラルネットワーク、SVM、決定木を含む幅広い学習者に対する省略攻撃の有効性を示す。 データの欠落に対する私たちの攻撃の焦点は、実装と分析がより簡単であるため、単に有益である。 攻撃予算が低い場合、攻撃の成功率は80%以上であり、場合によってはホワイトボックス学習において100%であることを示す。 ブラックボックス学習の基準ベンチマークより体系的に上である。 ホワイトボックスとブラックボックスの両方の場合、特定の学習者やデータセットに関わらず、モデルの精度の変化は無視できる。 また,提案手法は,データセットのサイズと分布を考慮し,単純化されたPAC学習者に対して高い確率で省略攻撃を成功させる,単純化されたPAC学習フレームワークにおいて理論的に証明する。

We introduce a novel clean-label targeted poisoning attack on learning mechanisms. While classical poisoning attacks typically corrupt data via addition, modification and omission, our attack focuses on data omission only. Our attack misclassifies a single, targeted test sample of choice, without manipulating that sample. We demonstrate the effectiveness of omission attacks against a large variety of learners including deep neural networks, SVM and decision trees, using several datasets including MNIST, IMDB and CIFAR. The focus of our attack on data omission only is beneficial as well, as it is simpler to implement and analyze. We show that, with a low attack budget, our attack's success rate is above 80%, and in some cases 100%, for white-box learning. It is systematically above the reference benchmark for black-box learning. For both white-box and black-box cases, changes in model accuracy are negligible, regardless of the specific learner and dataset. We also prove theoretically in a simplified agnostic PAC learning framework that, subject to dataset size and distribution, our omission attack succeeds with high probability against any successful simplified agnostic PAC learner.
翻訳日:2021-05-07 01:39:56 公開日:2021-05-05
# (参考訳) マラリア管理のためのデータ効率の良い強化学習

Data-Efficient Reinforcement Learning for Malaria Control ( http://arxiv.org/abs/2105.01620v2 )

ライセンス: CC BY 4.0
Lixin Zou, Long Xia, Linfang Hou, Xiangyu Zhao, and Dawei Yin(参考訳) 特に、マラリア対策や治療勧告など、人々の日常生活に重大な影響を及ぼす問題に対して、コストに敏感なタスクの下での連続的な意思決定は困難である。 政策立案者が直面する主な課題は、いくつかの試行で複雑な環境と対話することで、スクラッチからポリシーを学ぶことである。 この研究は、Variance-Bonus Monte Carlo Tree Search~(VB-MCTS)と呼ばれる実用的でデータ効率のよいポリシー学習手法を導入し、ごくわずかなデータでコピーでき、ほんの数回の試行でスクラッチから学習しやすくする。 具体的には、モデルに基づく強化学習手法である。 モデルバイアスを避けるために、ガウス過程~(GP)回帰を適用し、遷移を明示的に推定する。 GP世界モデルを用いて、世界の不確実性を測定するために分散結合報酬を提案する。 MCTSで計画に報酬を加えることで、より効率的で効果的な探索が可能になる。 さらに、導出多項式のサンプル複雑性はvb-mctsがサンプル効率が高いことを示している。 最後に、競争力のある世界レベルのRL競技における卓越したパフォーマンスと広範な実験結果により、挑戦的なマラリア対策の最先端に対する優位性を検証する。

Sequential decision-making under cost-sensitive tasks is prohibitively daunting, especially for the problem that has a significant impact on people's daily lives, such as malaria control, treatment recommendation. The main challenge faced by policymakers is to learn a policy from scratch by interacting with a complex environment in a few trials. This work introduces a practical, data-efficient policy learning method, named Variance-Bonus Monte Carlo Tree Search~(VB-MCTS), which can copy with very little data and facilitate learning from scratch in only a few trials. Specifically, the solution is a model-based reinforcement learning method. To avoid model bias, we apply Gaussian Process~(GP) regression to estimate the transitions explicitly. With the GP world model, we propose a variance-bonus reward to measure the uncertainty about the world. Adding the reward to the planning with MCTS can result in more efficient and effective exploration. Furthermore, the derived polynomial sample complexity indicates that VB-MCTS is sample efficient. Finally, outstanding performance on a competitive world-level RL competition and extensive experimental results verify its advantage over the state-of-the-art on the challenging malaria control task.
翻訳日:2021-05-07 01:25:07 公開日:2021-05-05
# (参考訳) 離散euler-lagrange残差最小化による構造的力学モデルの訓練

Training Structured Mechanical Models by Minimizing Discrete Euler-Lagrange Residual ( http://arxiv.org/abs/2105.01811v1 )

ライセンス: CC BY-SA 4.0
Kunal Menda, Jayesh K. Gupta, Zachary Manchester and Mykel J. Kochenderfer(参考訳) 意思決定と制御のためのモデルベースのパラダイムは、ロボット工学においてユビキタスになりつつある。 彼らはデータからシステムのモデルを効率的に学習する能力に頼っている。 構造化力学モデル (Structured Mechanical Models, SMM) は、予測された加速度と観測された加速度の誤差を最小化し、データに適合する機械系のデータ効率のブラックボックスパラメータ化である。 本研究では,離散オイラー・ラグランジュ残差を最小化することにより,SMMをデータに適合させる手法を提案する。 提案手法では,無音と減衰した二重振り子による連角時系列にモデルを適用し,観測ノイズを伴うデータに適合する学習モデルの品質について検討した。 実験の結果,従来のSMMの適合方式よりも精度の高いモデルが得られた。 提案手法がより適切な方法論であるユースケースを特定する。 実験を再現するためのソースコードはhttps://github.com/sisl/delsmmで入手できる。

Model-based paradigms for decision-making and control are becoming ubiquitous in robotics. They rely on the ability to efficiently learn a model of the system from data. Structured Mechanical Models (SMMs) are a data-efficient black-box parameterization of mechanical systems, typically fit to data by minimizing the error between predicted and observed accelerations or next states. In this work, we propose a methodology for fitting SMMs to data by minimizing the discrete Euler-Lagrange residual. To study our methodology, we fit models to joint-angle time-series from undamped and damped double-pendulums, studying the quality of learned models fit to data with and without observation noise. Experiments show that our methodology learns models that are better in accuracy to those of the conventional schemes for fitting SMMs. We identify use cases in which our method is a more appropriate methodology. Source code for reproducing the experiments is available at https://github.com/sisl/delsmm.
翻訳日:2021-05-06 22:04:36 公開日:2021-05-05
# (参考訳) ビデオデータにおけるリアルタイム顔マスク検出

Real-time Face Mask Detection in Video Data ( http://arxiv.org/abs/2105.01816v1 )

ライセンス: CC BY 4.0
Yuchen Ding, Zichen Li, David Yastremsky(参考訳) 現在進行中の新型コロナウイルス(covid-19)パンデミックへの対応として,リアルタイムビデオストリームから正確かつ誤ったマスク着用を識別可能な,堅牢なディープラーニングパイプラインを提案する。 この目標を達成するために,我々は2つの異なるアプローチを考案し,その性能と実行時の効率を評価した。 最初のアプローチでは、トレーニング済みの顔検出器と、大規模な合成データセットでトレーニングされたマスク付き画像分類器を組み合わせる。 第2のアプローチでは、最先端のオブジェクト検出ネットワークを使用して、ラベル付き現実画像の小さなセットに微調整された、1ショットで顔のローカライズと分類を行う。 最初のパイプラインは、合成データセット上で99.97%の精度を達成し、6fpsをビデオデータ上で動作させた。 第2のパイプラインは、実世界の画像では89%のmAP(0.5)を達成し、ビデオデータでは52FPSを維持できた。 我々は、バウンディングボックスラベルを持つ大きなデータセットがキュレーション可能である場合、このタスクは、推論速度が優れ、主要な評価指標で十分なパフォーマンスがあるため、yoloやssdのようなオブジェクト検出アーキテクチャを使用するのが最適であると結論づけた。

In response to the ongoing COVID-19 pandemic, we present a robust deep learning pipeline that is capable of identifying correct and incorrect mask-wearing from real-time video streams. To accomplish this goal, we devised two separate approaches and evaluated their performance and run-time efficiency. The first approach leverages a pre-trained face detector in combination with a mask-wearing image classifier trained on a large-scale synthetic dataset. The second approach utilizes a state-of-the-art object detection network to perform localization and classification of faces in one shot, fine-tuned on a small set of labeled real-world images. The first pipeline achieved a test accuracy of 99.97% on the synthetic dataset and maintained 6 FPS running on video data. The second pipeline achieved a mAP(0.5) of 89% on real-world images while sustaining 52 FPS on video data. We have concluded that if a larger dataset with bounding-box labels can be curated, this task is best suited using object detection architectures such as YOLO and SSD due to their superior inference speed and satisfactory performance on key evaluation metrics.
翻訳日:2021-05-06 21:55:41 公開日:2021-05-05
# (参考訳) ExcavatorCovid:COVID-19の時間・因果分析のためのテキストコーパスからのイベントと関係抽出

ExcavatorCovid: Extracting Events and Relations from Text Corpora for Temporal and Causal Analysis for COVID-19 ( http://arxiv.org/abs/2105.01819v1 )

ライセンス: CC BY 4.0
Bonan Min, Benjamin Rozonoyer, Haoling Qiu, Alexander Zamanian, Jessica MacBride(参考訳) 新型コロナウイルスのパンデミックの影響を緩和する政策立案者からのタイムリーな対応は、イベントやその原因、影響の包括的把握に依存している。 これらの事象は、圧倒的なスピードと規模で報告される。 本稿では,オープンソーステキスト文書(ニュースや学術出版物など)を取り込み,COVID19関連事象とそれらの関係を抽出し,時間・因果解析グラフ(TCAG)を構築する機械読取システムであるExcavatorCovidを提案する。 excavatorは政府機関が情報過負荷を軽減し、政治的・経済的な決定やパンデミックに関連する出来事の下流効果を理解し、新型コロナウイルスの影響を軽減するためのタイムリーな対応を支援する。 Excavatorが新型コロナウイルス(COVID-19)のパンデミックを乗り越えることを期待している。アナリストと意思決定者は、Excavatorによって将来複雑な問題をよりよく理解し、解決する権限を与えられる。 TCAGの可視化はhttp://afrl402.bbn.com:5050/index.htmlで見ることができる。 デモビデオもhttps://vimeo.com/528619007で公開しました。

Timely responses from policy makers to mitigate the impact of the COVID-19 pandemic rely on a comprehensive grasp of events, their causes, and their impacts. These events are reported at such a speed and scale as to be overwhelming. In this paper, we present ExcavatorCovid, a machine reading system that ingests open-source text documents (e.g., news and scientific publications), extracts COVID19 related events and relations between them, and builds a Temporal and Causal Analysis Graph (TCAG). Excavator will help government agencies alleviate the information overload, understand likely downstream effects of political and economic decisions and events related to the pandemic, and respond in a timely manner to mitigate the impact of COVID-19. We expect the utility of Excavator to outlive the COVID-19 pandemic: analysts and decision makers will be empowered by Excavator to better understand and solve complex problems in the future. An interactive TCAG visualization is available at http://afrl402.bbn.com:5050/index.html. We also released a demonstration video at https://vimeo.com/528619007.
翻訳日:2021-05-06 21:44:55 公開日:2021-05-05
# (参考訳) TransHash: 効率的な画像検索のためのトランスフォーマーベースのハミングハッシュ

TransHash: Transformer-based Hamming Hashing for Efficient Image Retrieval ( http://arxiv.org/abs/2105.01823v1 )

ライセンス: CC BY-SA 4.0
Yongbiao Chen (1), Sheng Zhang (2), Fangxin Liu (1), Zhigang Chang (1), Mang Ye (3), Zhengwei Qi (1) ((1) Shanghai Jiao Tong University, (2) University of Southern California, (3) Wuhan University)(参考訳) ディープハミングハッシュは大規模画像検索の近距離探索で人気が高まっている。 これまで、画像検索コミュニティのための深いハッシュは、例えば畳み込みニューラルネットワークアーキテクチャによって支配されていた。 \texttt{Resnet}\cite{he2016deep}。 本稿では,視覚トランスフォーマーの最近の進歩に触発されて,ディープハッシュ学習のための純粋トランスフォーマーフレームワークである \textbf{transhash} を提案する。 具体的には,(1) <textit{Vision Transformer} (ViT) に基づいて,画像特徴抽出のためのシアメーゼ視覚変換器のバックボーンを設計する。 細かな特徴を学ぶために、トランスフォーマーの上にデュアルストリーム機能学習を革新し、差別的なグローバル機能とローカル機能を学ぶ。 さらに,動的に構築された類似度行列を用いたベイズ学習方式を採用し,コンパクトなバイナリハッシュ符号を学習する。 私たちの知る限りでは、畳み込みニューラルネットワーク(\textit{CNNs})を使わずに深層学習問題に取り組む最初の試みである。 我々は,広く研究されている3つのデータセット, \textbf{CIFAR-10}, \textbf{NUSWIDE}, \textbf{IMAGENET}について包括的な実験を行った。 この実験は、既存の最先端のディープハッシュ手法に対する我々の優位性を証明した。 具体的には、3つの公開データセットでそれぞれ異なるハッシュビット長に対する平均 \textit{mAP} で 8.2\%, 2.6\%, 12.7\% のパフォーマンス向上を達成する。

Deep hamming hashing has gained growing popularity in approximate nearest neighbour search for large-scale image retrieval. Until now, the deep hashing for the image retrieval community has been dominated by convolutional neural network architectures, e.g. \texttt{Resnet}\cite{he2016deep}. In this paper, inspired by the recent advancements of vision transformers, we present \textbf{Transhash}, a pure transformer-based framework for deep hashing learning. Concretely, our framework is composed of two major modules: (1) Based on \textit{Vision Transformer} (ViT), we design a siamese vision transformer backbone for image feature extraction. To learn fine-grained features, we innovate a dual-stream feature learning on top of the transformer to learn discriminative global and local features. (2) Besides, we adopt a Bayesian learning scheme with a dynamically constructed similarity matrix to learn compact binary hash codes. The entire framework is jointly trained in an end-to-end manner.~To the best of our knowledge, this is the first work to tackle deep hashing learning problems without convolutional neural networks (\textit{CNNs}). We perform comprehensive experiments on three widely-studied datasets: \textbf{CIFAR-10}, \textbf{NUSWIDE} and \textbf{IMAGENET}. The experiments have evidenced our superiority against the existing state-of-the-art deep hashing methods. Specifically, we achieve 8.2\%, 2.6\%, 12.7\% performance gains in terms of average \textit{mAP} for different hash bit lengths on three public datasets, respectively.
翻訳日:2021-05-06 21:33:45 公開日:2021-05-05
# (参考訳) 物理インフォーメーションニューラルネットワークによる流体力学のサーロゲートモデリングの改善

Improved Surrogate Modeling of Fluid Dynamics with Physics-Informed Neural Networks ( http://arxiv.org/abs/2105.01838v1 )

ライセンス: CC BY 4.0
Jian Cheng Wong, Chinchun Ooi, Pao-Hsiung Chiu, My Ha Dao(参考訳) 物理学に変形したニューラルネットワーク(pinns)は、多くの複雑なエンジニアリングシステムのために、基本的な制御方程式を含む物理ベースのドメイン知識をニューラルネットワークモデルに組み込む方法として大きな期待を示している。 境界条件が不定義になりうる逆問題や、典型的な教師付き学習アプローチが失敗するようなデータ欠如のシナリオにおいて、特に効果的である。 Here, we further explore the use of this modeling methodology to surrogate modeling of a fluid dynamical system, and demonstrate additional undiscussed and interesting advantages of such a modeling methodology over conventional data-driven approaches: 1) improving the model's predictive performance even with incomplete description of the underlying physics; 2) improving the robustness of the model to noise in the dataset; 3) reduced effort to convergence during optimization for a new, previously unseen scenario by transfer optimization of a pre-existing model. したがって、物理に基づく正規化項を組み込むことで、データセットがノイズの多い場合のテスト誤差の桁違いの改善や、部分物理学のみを含む場合の2~3倍の改善など、多くの実体的な方法で同等のデータ駆動サロゲートモデルを大幅に改善できることがわかった。 さらに,このようなサロゲートモデルシナリオで使用する新しい転送最適化手法を提案するとともに,収束までの速度が約3倍向上し,新たなシナリオのトレーニングのための従来のxavier初期化よりも予測性能が桁違いに向上することを示す。

Physics-Informed Neural Networks (PINNs) have recently shown great promise as a way of incorporating physics-based domain knowledge, including fundamental governing equations, into neural network models for many complex engineering systems. They have been particularly effective in the area of inverse problems, where boundary conditions may be ill-defined, and data-absent scenarios, where typical supervised learning approaches will fail. Here, we further explore the use of this modeling methodology to surrogate modeling of a fluid dynamical system, and demonstrate additional undiscussed and interesting advantages of such a modeling methodology over conventional data-driven approaches: 1) improving the model's predictive performance even with incomplete description of the underlying physics; 2) improving the robustness of the model to noise in the dataset; 3) reduced effort to convergence during optimization for a new, previously unseen scenario by transfer optimization of a pre-existing model. Hence, we noticed the inclusion of a physics-based regularization term can substantially improve the equivalent data-driven surrogate model in many substantive ways, including an order of magnitude improvement in test error when the dataset is very noisy, and a 2-3x improvement when only partial physics is included. In addition, we propose a novel transfer optimization scheme for use in such surrogate modeling scenarios and demonstrate an approximately 3x improvement in speed to convergence and an order of magnitude improvement in predictive performance over conventional Xavier initialization for training of new scenarios.
翻訳日:2021-05-06 21:16:50 公開日:2021-05-05
# (参考訳) CUAB: 胸部X線画像解析を強化した畳み込み不確実性注意ブロック

CUAB: Convolutional Uncertainty Attention Block Enhanced the Chest X-ray Image Analysis ( http://arxiv.org/abs/2105.01840v1 )

ライセンス: CC BY 4.0
Chi-Shiang Wang, Fang-Yi Su, Tsung-Lu Michael Lee, Yi-Shan Tsai, Jung-Hsien Chiang(参考訳) 近年、畳み込みニューラルネットワーク(CNN)は、医用画像解析、物体検出、画像分割など、さまざまな画像認識アプリケーションにうまく実装されている。 多くの研究と応用がCNNアルゴリズムとモデルの性能改善に取り組んでいる。 CNNの性能向上を目的とした戦略は,(1)より深いネットワークアーキテクチャ,(2)アーキテクチャの自動探索,(3)進化的注意ブロックの3つの主要なアプローチに分類することができる。 アプローチ(1)と(2)とは異なり、畳み込み注意ブロックアプローチは低コストでより柔軟である。 より効率的な特徴を抽出することで、CNNのパフォーマンスを向上させる。 しかし、既存の注意ブロックは重要な機能の拡張に焦点を当てており、不確実性情報の潜在的な特徴が失われている。 テスト時間拡張とテスト時間ドロップアウトのアプローチに触発されて,不確実性情報を利用してcnnベースのモデルを改善する新しい畳み込み不確実性注意ブロック(cuab)を開発した。 提案モジュールは,コンピュータビジョンタスクにおける特徴マップ上の不確実領域から潜在的な情報を検出する。 これはcnnモデルにおける畳み込みブロックの任意の位置に適用できる柔軟な機能的注意ブロックである。 医用画像分割作業において,CUABをResNetとResNeXtの著名なバックボーンモデルを用いて評価した。 cuabは肺炎の73%, 肺炎の84%, 気胸のセグメンテーションでは84%のdiceスコアを得た。 その結果,CUABは不確実性情報を有効利用し,モデル性能を向上させることができた。

In recent years, convolutional neural networks (CNNs) have been successfully implemented to various image recognition applications, such as medical image analysis, object detection, and image segmentation. Many studies and applications have been working on improving the performance of CNN algorithms and models. The strategies that aim to improve the performance of CNNs can be grouped into three major approaches: (1) deeper and wider network architecture, (2) automatic architecture search, and (3) convolutional attention block. Unlike approaches (1) and (2), the convolutional attention block approach is more flexible with lower cost. It enhances the CNN performance by extracting more efficient features. However, the existing attention blocks focus on enhancing the significant features, which lose some potential features in the uncertainty information. Inspired by the test time augmentation and test-time dropout approaches, we developed a novel convolutional uncertainty attention block (CUAB) that can leverage the uncertainty information to improve CNN-based models. The proposed module discovers potential information from the uncertain regions on feature maps in computer vision tasks. It is a flexible functional attention block that can be applied to any position in the convolutional block in CNN models. We evaluated the CUAB with notable backbone models, ResNet and ResNeXt, on a medical image segmentation task. The CUAB achieved a dice score of 73% and 84% in pneumonia and pneumothorax segmentation, respectively, thereby outperforming the original model and other notable attention approaches. The results demonstrated that the CUAB can efficiently utilize the uncertainty information to improve the model performance.
翻訳日:2021-05-06 21:07:24 公開日:2021-05-05
# (参考訳) 前立腺癌適応放射線治療のためのマルチタスク学習による関節登録と分節化

Joint Registration and Segmentation via Multi-Task Learning for Adaptive Radiotherapy of Prostate Cancer ( http://arxiv.org/abs/2105.01844v1 )

ライセンス: CC BY 4.0
Mohamed S. Elmahdy, Laurens Beljaards, Sahar Yousefi, Hessam Sokooti, Fons Verbeek, U. A. van der Heide, and Marius Staring(参考訳) 医用画像の登録とセグメンテーションは、医用画像分析において最も頻繁な作業である。 これらのタスクは相補的で相関性があるので、共同でそれらを同時に適用することは有益である。 本稿では,マルチタスク学習(mtl)による統合問題として登録とセグメンテーションを定式化し,それらの課題の強みを活用し,有益な情報共有による弱みを緩和する。 我々は、これらのタスクを損失レベルだけでなく、アーキテクチャレベルでもマージすることを提案します。 本手法は前立腺癌に対する適応的画像誘導放射線治療の文脈において検討され,CT画像とそれに対応する輪郭の計画と追跡を行った。 この研究には、異なる製造業者や研究所のデータセットが2つ含まれている。 第1データセットはトレーニング(12例)と検証(6例)に分けられ,方法論の最適化と検証に用いられ,第2データセット(14例)は独立したテストセットとして使用された。 本研究では,異なるネットワークアーキテクチャから自動生成した輪郭の品質と損失重み付け手法を定量的に比較した。 さらに, 生成した変形ベクトル場(dvf)の品質評価を行った。 MTLアルゴリズムはSTL(Single-Task Learning)アルゴリズムよりも優れており、独立したテストセット上でより優れた一般化を実現する。 最良のアルゴリズムは、それぞれ前立腺、精巣、膀胱、直腸の検証セットにおいて、1.06 pm 0.3$ mm、1.27 pm 0.4$ mm、$0.91 pm 0.4$ mm、および1.76 pm 0.8$ mmの平均表面距離を達成した。 提案手法の高精度化と高速推論速度の併用により, 適応的放射線治療のためのフォローアップスキャンの自動再構成が期待できる。

Medical image registration and segmentation are two of the most frequent tasks in medical image analysis. As these tasks are complementary and correlated, it would be beneficial to apply them simultaneously in a joint manner. In this paper, we formulate registration and segmentation as a joint problem via a Multi-Task Learning (MTL) setting, allowing these tasks to leverage their strengths and mitigate their weaknesses through the sharing of beneficial information. We propose to merge these tasks not only on the loss level, but on the architectural level as well. We studied this approach in the context of adaptive image-guided radiotherapy for prostate cancer, where planning and follow-up CT images as well as their corresponding contours are available for training. The study involves two datasets from different manufacturers and institutes. The first dataset was divided into training (12 patients) and validation (6 patients), and was used to optimize and validate the methodology, while the second dataset (14 patients) was used as an independent test set. We carried out an extensive quantitative comparison between the quality of the automatically generated contours from different network architectures as well as loss weighting methods. Moreover, we evaluated the quality of the generated deformation vector field (DVF). We show that MTL algorithms outperform their Single-Task Learning (STL) counterparts and achieve better generalization on the independent test set. The best algorithm achieved a mean surface distance of $1.06 \pm 0.3$ mm, $1.27 \pm 0.4$ mm, $0.91 \pm 0.4$ mm, and $1.76 \pm 0.8$ mm on the validation set for the prostate, seminal vesicles, bladder, and rectum, respectively. The high accuracy of the proposed method combined with the fast inference speed, makes it a promising method for automatic re-contouring of follow-up scans for adaptive radiotherapy.
翻訳日:2021-05-06 20:51:40 公開日:2021-05-05
# (参考訳) DNNのサンプル複雑度推定に関する理論的実証的アプローチ

A Theoretical-Empirical Approach to Estimating Sample Complexity of DNNs ( http://arxiv.org/abs/2105.01867v1 )

ライセンス: CC0 1.0
Devansh Bisla, Apoorva Nandini Saridena, Anna Choromanska(参考訳) 本稿では,深層ニューラルネットワーク(dnn)のトレーニングデータ量と一般化誤差の関係について考察する。 統計学習における既存の技術では、VC次元のようなキャパシティ測度を計算し、この誤差を確実に拘束する必要がある。 しかし、これらの対策をDNNにどのように拡張するかは定かではないため、既存の分析は単純なニューラルネットワークに適用できる。 さらに、多くの理論的誤差境界は経験的に検証できない。 我々は、ディープネットワークに保持され、到達不能な容量尺度に依存しない一般化誤差の推定を導出する。 i) ネットワークはゼロトレーニングエラーを達成し,ii) テストポイントにおける誤差が特徴空間におけるその点と最も近いトレーニングポイントとの間の距離に比例する確率と,それが飽和する極大距離(半径と呼ぶ)に比例する確率である。 これらの仮定に基づいてDNNの一般化誤差を推定する。 得られた推定値は o(1/(\delta n^{1/d}) でスケールされ、ここで n はトレーニングデータのサイズであり、ネットワーク (d) と前述の半径 (\delta) によって知覚されるデータの有効次元である2つの量でパラメータ化される。 ベンチマークデータセットと現実的なモデルを用いて,複数の学習タスクにおける誤差の挙動を実験的に求めた。 トレーニングデータ要件の見積は、自動運転などの安全上重要なアプリケーションの開発に不可欠である。 さらに、トレーニングデータの収集とアノテートには、膨大な財務的、計算的、人的リソースが必要です。 私たちの経験的見積もりは資源を効率的に割り当てるのに役立ちます。

This paper focuses on understanding how the generalization error scales with the amount of the training data for deep neural networks (DNNs). Existing techniques in statistical learning require computation of capacity measures, such as VC dimension, to provably bound this error. It is however unclear how to extend these measures to DNNs and therefore the existing analyses are applicable to simple neural networks, which are not used in practice, e.g., linear or shallow ones or otherwise multi-layer perceptrons. Moreover, many theoretical error bounds are not empirically verifiable. We derive estimates of the generalization error that hold for deep networks and do not rely on unattainable capacity measures. The enabling technique in our approach hinges on two major assumptions: i) the network achieves zero training error, ii) the probability of making an error on a test point is proportional to the distance between this point and its nearest training point in the feature space and at a certain maximal distance (that we call radius) it saturates. Based on these assumptions we estimate the generalization error of DNNs. The obtained estimate scales as O(1/(\delta N^{1/d})), where N is the size of the training data and is parameterized by two quantities, the effective dimensionality of the data as perceived by the network (d) and the aforementioned radius (\delta), both of which we find empirically. We show that our estimates match with the experimentally obtained behavior of the error on multiple learning tasks using benchmark data-sets and realistic models. Estimating training data requirements is essential for deployment of safety critical applications such as autonomous driving etc. Furthermore, collecting and annotating training data requires a huge amount of financial, computational and human resources. Our empirical estimates will help to efficiently allocate resources.
翻訳日:2021-05-06 20:25:14 公開日:2021-05-05
# (参考訳) 滑らかな非線形構造を持つ問題に対する核ノルム系行列完成の最適性について

On the Optimality of Nuclear-norm-based Matrix Completion for Problems with Smooth Non-linear Structure ( http://arxiv.org/abs/2105.01874v1 )

ライセンス: CC BY 4.0
Yunhua Xiang, Tianyu Zhang, Xu Wang, Ali Shojaie, Noah Simon(参考訳) もともとは、低階、あるいは概略低階行列の欠落エントリを暗示するために開発された行列完全性は、ランク制約によって課されるような基底行列の低次元線型構造を仮定する理由がない多くの問題において広く有効であることが証明されている。 本書では,この行動に関する理論的直観を定めている。 必ずしもローランクではなく、低次元の非線形多様体に属する行列を考える。 核-ノルムペナリゼーションは、観測が完全にランダムに欠落している場合にも、これらの行列を回復するのに有効であることが示されている。 特に、行列内の行数、列数、および観察された成分の関数として収束率の上限を与えるとともに、非線型埋め込みの滑らかさと次元を与える。 さらに、ミニマックス下限を与える: この下限は、我々の上限(対数係数まで)に一致し、核-ノルムペナリゼーションが(対数項まで)これらの問題に最適なミニマックスレートであることを示している。

Originally developed for imputing missing entries in low rank, or approximately low rank matrices, matrix completion has proven widely effective in many problems where there is no reason to assume low-dimensional linear structure in the underlying matrix, as would be imposed by rank constraints. In this manuscript, we build some theoretical intuition for this behavior. We consider matrices which are not necessarily low-rank, but lie in a low-dimensional non-linear manifold. We show that nuclear-norm penalization is still effective for recovering these matrices when observations are missing completely at random. In particular, we give upper bounds on the rate of convergence as a function of the number of rows, columns, and observed entries in the matrix, as well as the smoothness and dimension of the non-linear embedding. We additionally give a minimax lower bound: This lower bound agrees with our upper bound (up to a logarithmic factor), which shows that nuclear-norm penalization is (up to log terms) minimax rate optimal for these problems.
翻訳日:2021-05-06 20:04:04 公開日:2021-05-05
# (参考訳) 変更事項:再発残余ネットワークによる薬物変動予測

Change Matters: Medication Change Prediction with Recurrent Residual Networks ( http://arxiv.org/abs/2105.01876v1 )

ライセンス: CC BY 4.0
Chaoqi Yang, Cao Xiao, Lucas Glass, Jimeng Sun(参考訳) 深層学習は、複雑な健康状態の患者に薬を推奨するなど、予測医療に革命をもたらしている。 既存のアプローチでは、現在訪問中のすべての薬の予測に重点を置いている。 より臨床的な課題は、薬物の変化を特定することである。 本稿では,薬剤変化予測のための新しい再帰的残留ネットワークであるmicronを提案する。 micronは患者の健康記録の変化を入力として入力し、隠れた薬物ベクターと薬物セットをリカレントデザインで更新することを学ぶ。 投薬ベクターは、薬の経年情報をエンコードする記憶細胞に似ている。 予測のために患者履歴全体を必要とする従来の方法とは異なり、micronは、新しい患者の特徴(例えば、最近の訪問における新しい診断)のみに基づいたシーケンシャルな更新を可能にする、残差ベースの推論を持っている。 MICRONを実際の入院および外来のデータセットで評価した。 MICRONはF1スコアのベースラインでそれぞれ3.5%と7.8%の相対的な改善を達成している。 MICRONはパラメータも少なく、トレーニング時間を1エポックあたり38.3秒に、1.5倍のスピードアップで大幅に短縮する。

Deep learning is revolutionizing predictive healthcare, including recommending medications to patients with complex health conditions. Existing approaches focus on predicting all medications for the current visit, which often overlaps with medications from previous visits. A more clinically relevant task is to identify medication changes. In this paper, we propose a new recurrent residual network, named MICRON, for medication change prediction. MICRON takes the changes in patient health records as input and learns to update a hidden medication vector and the medication set recurrently with a reconstruction design. The medication vector is like the memory cell that encodes longitudinal information of medications. Unlike traditional methods that require the entire patient history for prediction, MICRON has a residual-based inference that allows for sequential updating based only on new patient features (e.g., new diagnoses in the recent visit) more efficiently. We evaluated MICRON on real inpatient and outpatient datasets. MICRON achieves 3.5% and 7.8% relative improvements over the best baseline in F1 score, respectively. MICRON also requires fewer parameters, which significantly reduces the training time to 38.3s per epoch with 1.5x speed-up.
翻訳日:2021-05-06 20:02:59 公開日:2021-05-05
# (参考訳) MOS:大規模意味空間における分布外検出のスケールアップに向けて

MOS: Towards Scaling Out-of-distribution Detection for Large Semantic Space ( http://arxiv.org/abs/2105.01879v1 )

ライセンス: CC BY 4.0
Rui Huang and Yixuan Li(参考訳) out-of-distribution (ood)インプットの検出は、現実世界に機械学習モデルを安全にデプロイするための中心的な課題である。 既存のソリューションは主に小さなデータセットで動作し、解像度が低く、クラスラベルがほとんどない(cifarなど)。 その結果,大規模画像分類タスクのOOD検出は未検討のままである。 本稿では、グループベースのOOD検出フレームワークと、新しいOODスコアリング機能であるMOSを提案することで、この重要なギャップを埋める。 私たちの重要なアイデアは、大きな意味空間を同様の概念で小さなグループに分割することで、効果的なood検出のために、in-out-distributionデータとout-of-distributionデータの間の決定境界を単純化することです。 本手法は, 従来の手法よりも高次元のクラス空間に対して大きくスケールする。 我々は、ImageNetでトレーニングされたモデルを、4つの慎重にキュレートされたOODデータセットに対して評価し、多様なセマンティックスにまたがる。 MOSは最先端の性能を確立し、平均的なFPR95を14.33%削減し、以前のベストメソッドと比較して6倍のスピードアップを実現した。

Detecting out-of-distribution (OOD) inputs is a central challenge for safely deploying machine learning models in the real world. Existing solutions are mainly driven by small datasets, with low resolution and very few class labels (e.g., CIFAR). As a result, OOD detection for large-scale image classification tasks remains largely unexplored. In this paper, we bridge this critical gap by proposing a group-based OOD detection framework, along with a novel OOD scoring function termed MOS. Our key idea is to decompose the large semantic space into smaller groups with similar concepts, which allows simplifying the decision boundaries between in- vs. out-of-distribution data for effective OOD detection. Our method scales substantially better for high-dimensional class space than previous approaches. We evaluate models trained on ImageNet against four carefully curated OOD datasets, spanning diverse semantics. MOS establishes state-of-the-art performance, reducing the average FPR95 by 14.33% while achieving 6x speedup in inference compared to the previous best method.
翻訳日:2021-05-06 19:45:31 公開日:2021-05-05
# (参考訳) DeepPlastic: 深部視覚モデルを用いたエピラグ境界プラスチック検出のための新しいアプローチ

DeepPlastic: A Novel Approach to Detecting Epipelagic Bound Plastic Using Deep Visual Models ( http://arxiv.org/abs/2105.01882v1 )

ライセンス: CC BY 4.0
Gautam Tata, Sarah-Jeanne Royer, Olivier Poirion and Jay Lowe(参考訳) 正に浮力のある海洋プラスチックごみの定量化は, 世界の海中のゴミの濃度の把握や, 高濃度のごみホットスポットの同定に重要である。 現在、浮遊プラスチックを定量化する最も一般的なモニタリング方法は、マンタトロールを使用する必要がある。 マンタトラウルス(または同様の表面回収装置)を必要とする技術は、海洋プラスチックの破片の物理的除去を第1ステップとして利用し、収集されたサンプルを第2ステップとして分析する。 分析前の物理的な除去の必要性は、高いコストを伴い、地球の海洋体全体にわたってリアルタイムの海洋プラスチック監視サービスをスケーラブルに展開することを妨げる、集中的な労働を必要とする。 より良いモニタリングとサンプリング方法がなければ、環境全体に対するプラスチック汚染の全体的な影響や、特定の海洋地域における影響の詳細は未知のままである。 本研究では,海洋表層で撮影された画像を入力として利用する,高度にスケーラブルなワークフローを提案する。 正確な定量化と物理的除去のために海洋プラスチックのリアルタイム定量化を行う。 ワークフローには、ドメイン固有のデータセットの作成と前処理、ディープニューラルネットワークを利用したオブジェクト検出モデルの構築、モデルのパフォーマンス評価が含まれる。 YOLOv5-Sは平均平均精度0.851、F1スコア0.89で動作し、ほぼリアルタイム速度を維持した。

The quantification of positively buoyant marine plastic debris is critical to understanding how concentrations of trash from across the world's ocean and identifying high concentration garbage hotspots in dire need of trash removal. Currently, the most common monitoring method to quantify floating plastic requires the use of a manta trawl. Techniques requiring manta trawls (or similar surface collection devices) utilize physical removal of marine plastic debris as the first step and then analyze collected samples as a second step. The need for physical removal before analysis incurs high costs and requires intensive labor preventing scalable deployment of a real-time marine plastic monitoring service across the entirety of Earth's ocean bodies. Without better monitoring and sampling methods, the total impact of plastic pollution on the environment as a whole, and details of impact within specific oceanic regions, will remain unknown. This study presents a highly scalable workflow that utilizes images captured within the epipelagic layer of the ocean as an input. It produces real-time quantification of marine plastic debris for accurate quantification and physical removal. The workflow includes creating and preprocessing a domain-specific dataset, building an object detection model utilizing a deep neural network, and evaluating the model's performance. YOLOv5-S was the best performing model, which operates at a Mean Average Precision (mAP) of 0.851 and an F1-Score of 0.89 while maintaining near-real-time speed.
翻訳日:2021-05-06 19:26:22 公開日:2021-05-05
# (参考訳) 情報強化復号戦略を用いた同時翻訳における完全文モデルの性能向上

Full-Sentence Models Perform Better in Simultaneous Translation Using the Information Enhanced Decoding Strategy ( http://arxiv.org/abs/2105.01893v1 )

ライセンス: CC BY 4.0
Zhengxin Yang(参考訳) ソース文で数単語のみを受信した後、各文の翻訳を開始する同時翻訳は、多くのシナリオにおいて重要な役割を果たす。 以前のプレフィックス・トゥ・プレフィックス・フレームワークは同時翻訳に適していると考えられ、性能が良いが、各レイテンシー$k$の個別モデルをトレーニングする必要による高い計算リソースコストと、各ターゲットトークンが特定のソースプレフィックスにのみ対応できるため、情報をエンコードする能力の2つの欠点がある。 完全文モデル用に設計された,単純かつ効果的な復号化戦略を採用する新しいフレームワークを提案する。 このフレームワーク内では、1つのフル文モデルをトレーニングすることで任意の遅延を達成でき、計算リソースを節約できる。 さらに,全文をエンコードする完全文モデルの能力により,復号化戦略は,復号化状態に保持されている情報をリアルタイムに強化することができる。 実験の結果,zh$\rightarrow$en,en$\rightarrow$ro,en$\leftrightarrow$deの4方向のベースラインよりも高い翻訳品質が得られることがわかった。

Simultaneous translation, which starts translating each sentence after receiving only a few words in source sentence, has a vital role in many scenarios. Although the previous prefix-to-prefix framework is considered suitable for simultaneous translation and achieves good performance, it still has two inevitable drawbacks: the high computational resource costs caused by the need to train a separate model for each latency $k$ and the insufficient ability to encode information because each target token can only attend to a specific source prefix. We propose a novel framework that adopts a simple but effective decoding strategy which is designed for full-sentence models. Within this framework, training a single full-sentence model can achieve arbitrary given latency and save computational resources. Besides, with the competence of the full-sentence model to encode the whole sentence, our decoding strategy can enhance the information maintained in the decoded states in real time. Experimental results show that our method achieves better translation quality than baselines on 4 directions: Zh$\rightarrow$En, En$\rightarrow$Ro and En$\leftrightarrow$De.
翻訳日:2021-05-06 19:13:29 公開日:2021-05-05
# (参考訳) MiCE: 教師なし画像クラスタリングのためのコントラストエキスパートの混在

MiCE: Mixture of Contrastive Experts for Unsupervised Image Clustering ( http://arxiv.org/abs/2105.01899v1 )

ライセンス: CC BY 4.0
Tsung Wei Tsai, Chongxuan Li, Jun Zhu(参考訳) 比較学習によって学習された識別的表現と、潜在混合モデルによって得られた意味構造を同時に活用する統合確率的クラスタリングフレームワークであるMiCE(Missture of Contrastive Experts)を提案する。 専門家の混合によって動機付けられたマウスは、ラベルのないデータセットを潜在意味論に従ってサブセットに分割するゲーティング関数と、それらに割り当てられた異なるサブセットを対比学習方法で識別する複数の専門家を用いる。 潜在変数による非自明な推論と学習問題を解決するために,マウスに対する期待最大化(em)アルゴリズムのスケーラブルな変種を開発し,収束の証明を提供する。 実験により,広く採用されている4つの自然画像データセット上でのMICEのクラスタリング性能を評価する。 MiCEは、様々な従来の手法や強力なコントラスト学習ベースラインよりもはるかに優れた結果が得られる。

We present Mixture of Contrastive Experts (MiCE), a unified probabilistic clustering framework that simultaneously exploits the discriminative representations learned by contrastive learning and the semantic structures captured by a latent mixture model. Motivated by the mixture of experts, MiCE employs a gating function to partition an unlabeled dataset into subsets according to the latent semantics and multiple experts to discriminate distinct subsets of instances assigned to them in a contrastive learning manner. To solve the nontrivial inference and learning problems caused by the latent variables, we further develop a scalable variant of the Expectation-Maximization (EM) algorithm for MiCE and provide proof of the convergence. Empirically, we evaluate the clustering performance of MiCE on four widely adopted natural image datasets. MiCE achieves significantly better results than various previous methods and a strong contrastive learning baseline.
翻訳日:2021-05-06 19:00:16 公開日:2021-05-05
# (参考訳) 後方強化学習によるソコバンの解法

Solving Sokoban with backward reinforcement learning ( http://arxiv.org/abs/2105.01904v1 )

ライセンス: CC BY 4.0
Yaron Shoham, Gal Elidan(参考訳) いくつかのパズルでは、ゴールの近くで使う必要がある戦略は、例えば、より早く有効になる戦略とは大きく異なる。 迷路の出口状態に近い 分岐因子が小さいためです これらの場合の一般的なアプローチは、前方探索と後方探索の両方を適用し、両者を整合させることである。 本研究では、強化学習(RL)フレームワークにおいて、このアイデアを一歩前進させるアプローチを提案する。 RLを用いた従来の前方エージェントのトレーニングは、報酬が希少であるため、難しい場合がある。 ゴールでのみ与えられる。 代わりに、私たちはまず、シンプルなリラックスしたゴールで後ろ向きのエージェントを訓練します。 次に,そのエージェントの動作から抽出した直感的なヒント特徴を用いて,パズルの状態表現を強化する。 最後に,この情報を付加した前向きエージェントを訓練する。 この単純な"アクセス"が部分的な後方計画に到達することで、パフォーマンスが大幅に向上することを示す。 ソコバンパズルの挑戦的領域において、我々のRLアプローチは、レベルを超越した最高の学習解法をはるかに上回り、最高の高度工数解のSOTA性能と競合する。 印象的に、少数の実践レベルから学習し、シンプルなRL技術を用いてこれらの結果を得る。

In some puzzles, the strategy we need to use near the goal can be quite different from the strategy that is effective earlier on, e.g. due to a smaller branching factor near the exit state in a maze. A common approach in these cases is to apply both a forward and a backward search, and to try and align the two. In this work we propose an approach that takes this idea a step forward, within a reinforcement learning (RL) framework. Training a traditional forward-looking agent using RL can be difficult because rewards are often sparse, e.g. given only at the goal. Instead, we first train a backward-looking agent with a simple relaxed goal. We then augment the state representation of the puzzle with straightforward hint features that are extracted from the behavior of that agent. Finally, we train a forward looking agent with this informed augmented state. We demonstrate that this simple "access" to partial backward plans leads to a substantial performance boost. On the challenging domain of the Sokoban puzzle, our RL approach substantially surpasses the best learned solvers that generalize over levels, and is competitive with SOTA performance of the best highly-crafted solution. Impressively, we achieve these results while learning from only a small number of practice levels and using simple RL techniques.
翻訳日:2021-05-06 18:27:22 公開日:2021-05-05
# (参考訳) ALS点群セマンティックセマンティックセグメンテーションのための擬似ラベル支援学習

Weakly Supervised Pseudo-Label assisted Learning for ALS Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2105.01919v1 )

ライセンス: CC BY 4.0
Puzuo Wang, Wei Yao(参考訳) 競合的なクラウドセマンティックセグメンテーションの結果は、通常大量のラベル付きデータに依存する。 しかし、データアノテーションは、特に3次元のポイントクラウドデータにとって、時間と労力のかかる作業である。 したがって、訓練データとして限られた根拠真理で正確な結果を得ることは極めて重要である。 単純かつ効果的な手法として、疑似ラベルはラベルのないデータからの情報をニューラルネットワークのトレーニングに利用することができる。 本研究では,各クラスに対してランダムに選択される比較的少ないサンプルラベルを用いた疑似ラベル支援ポイントクラウドセグメンテーション手法を提案する。 予測確率に基づいて擬似ラベルを生成するための適応しきい値戦略を提案した。 擬似ラベル学習は反復的なプロセスであり、モデルが収束してトレーニング効率が向上するにつれて、擬似ラベルは基底弱いラベルのみに更新された。 isprs3dセマティックラベリングベンチマークデータセットを用いた実験により、本手法は、元のトレーニングセットからラベル付きポイントを最大2$\unicode{x2030}$の完全な監視スキームで、全体的な精度83.7%、平均的なf1スコア70.2%で、同等に競争力のある結果を得たことが示された。

Competitive point cloud semantic segmentation results usually rely on a large amount of labeled data. However, data annotation is a time-consuming and labor-intensive task, particularly for three-dimensional point cloud data. Thus, obtaining accurate results with limited ground truth as training data is considerably important. As a simple and effective method, pseudo labels can use information from unlabeled data for training neural networks. In this study, we propose a pseudo-label-assisted point cloud segmentation method with very few sparsely sampled labels that are normally randomly selected for each class. An adaptive thresholding strategy was proposed to generate a pseudo-label based on the prediction probability. Pseudo-label learning is an iterative process, and pseudo labels were updated solely on ground-truth weak labels as the model converged to improve the training efficiency. Experiments using the ISPRS 3D sematic labeling benchmark dataset indicated that our proposed method achieved an equally competitive result compared to that using a full supervision scheme with only up to 2$\unicode{x2030}$ of labeled points from the original training set, with an overall accuracy of 83.7% and an average F1 score of 70.2%.
翻訳日:2021-05-06 18:11:42 公開日:2021-05-05
# (参考訳) SeaDronesSee:オープンウォーターで人間を検知するための海事ベンチマーク

SeaDronesSee: A Maritime Benchmark for Detecting Humans in Open Water ( http://arxiv.org/abs/2105.01922v1 )

ライセンス: CC BY 4.0
Leon Amadeus Varga, Benjamin Kiefer, Martin Messmer and Andreas Zell(参考訳) 無人航空機(uavs)は、その柔軟性と迅速な運用能力のため、海洋環境における捜索救助任務において重要な役割を担っている。 現代のコンピュータビジョンアルゴリズムは、そのようなミッションを支援することに非常に関心がある。 しかし、それらは地上の交通シナリオでしか利用できないUAVからの大量の実例訓練データに依存している。 さらに、現在のオブジェクト検出と追跡データセットは、限られた環境情報しか提供していないか、全く提供していない。 そこで本研究では,陸地型視覚システムから海型視覚システムへのギャップを埋めるため,大規模ビジュアルオブジェクト検出・追跡ベンチマーク(SeaDronesSee)を提案する。 5万4000以上のフレームと40万のインスタンスを、さまざまな高度から収集し、アノテートし、5から260メートル、0から90度の角度から、それぞれのメタ情報を高度、視角、その他のメタデータとして提供します。 新たに確立されたベンチマークを用いて,複数の最先端コンピュータビジョンアルゴリズムをベースラインとして評価する。 研究者が予測をアップロードし、中央のリーダーボードで結果を比較できる評価サーバを提供する。

Unmanned Aerial Vehicles (UAVs) are of crucial importance in search and rescue missions in maritime environments due to their flexible and fast operation capabilities. Modern computer vision algorithms are of great interest in aiding such missions. However, they are dependent on large amounts of real-case training data from UAVs, which is only available for traffic scenarios on land. Moreover, current object detection and tracking data sets only provide limited environmental information or none at all, neglecting a valuable source of information. Therefore, this paper introduces a large-scaled visual object detection and tracking benchmark (SeaDronesSee) aiming to bridge the gap from land-based vision systems to sea-based ones. We collect and annotate over 54,000 frames with 400,000 instances captured from various altitudes and viewing angles ranging from 5 to 260 meters and 0 to 90 degrees while providing the respective meta information for altitude, viewing angle and other meta data. We evaluate multiple state-of-the-art computer vision algorithms on this newly established benchmark serving as baselines. We provide an evaluation server where researchers can upload their prediction and compare their results on a central leaderboard
翻訳日:2021-05-06 18:00:17 公開日:2021-05-05
# (参考訳) ビッグデータ時代の常識知識基盤構築

Commonsense Knowledge Base Construction in the Age of Big Data ( http://arxiv.org/abs/2105.01925v1 )

ライセンス: CC BY 4.0
Simon Razniewski(参考訳) 常識知識のコンパイルは、従来、手作業によってアプローチされるaiトピックである。 Webデータ処理の最近の進歩は、自動化アプローチを可能にしている。 このデモでは、データ管理コミュニティに対する特定の関心の1つの側面を取り上げ、コモンセンスの知識ベース構築を自動化する3つのシステムを紹介します。 (i)知識抽出システム工学、(ii)dice はファジィ・コモンセンス知識のクリーニングにおいてスキーマ制約が果たす役割を、(iii)概念モデリングの関連性を説明するために、擬似モドーを用いる。 デモはhttps://quasimodo.r2.enst.fr, https://dice.mpi-inf.mpg.de, ascent.mpi-inf.mpg.deで公開されている。

Compiling commonsense knowledge is traditionally an AI topic approached by manual labor. Recent advances in web data processing have enabled automated approaches. In this demonstration we will showcase three systems for automated commonsense knowledge base construction, highlighting each time one aspect of specific interest to the data management community. (i) We use Quasimodo to illustrate knowledge extraction systems engineering, (ii) Dice to illustrate the role that schema constraints play in cleaning fuzzy commonsense knowledge, and (iii) Ascent to illustrate the relevance of conceptual modelling. The demos are available online at https://quasimodo.r2.enst.fr, https://dice.mpi-inf.mpg.de and ascent.mpi-inf.mpg.de.
翻訳日:2021-05-06 17:44:29 公開日:2021-05-05
# (参考訳) TensorFlow Liteによるエッジの連続学習

Continual Learning on the Edge with TensorFlow Lite ( http://arxiv.org/abs/2105.01946v1 )

ライセンス: CC BY 4.0
Giorgos Demosthenous and Vassilis Vassiliades(参考訳) 現実世界の問題を解決する目的で、高度なディープラーニングモデルを組み込みデバイスにデプロイすることは、今日の技術を使った闘争である。 プライバシとデータ制限、ネットワーク接続の問題、高速モデル適応の必要性は、エッジ上の多くのアプリケーションに適さない今日のアプローチを構成する課題のひとつであり、デバイス上でのリアルタイムトレーニングが不可欠である。 Googleは現在、実験的なトランスファー学習APIをTensorFlow Lite、機械学習ライブラリに組み込むことで、これらの課題に取り組んでいる。 本稿では,トランスファー学習はデバイス上でのモデルトレーニングにとって良い第一歩であるが,より現実的なシナリオに直面すると壊滅的な忘れがちであることを示す。 我々は,CORe50ベンチマークで単純な転送学習モデルをテストするとともに,開発したAndroidアプリケーション上で,その制限を直接示すことによってこの問題を提起する。 さらに、TensorFlow Liteライブラリを拡張して、現在の転送学習モデルのヘッドにシンプルなリプレイアプローチを統合することで、継続的な学習機能を含むようにします。 我々はCORe50ベンチマークで連続学習モデルをテストし、壊滅的な忘れに対処できることを示し、開発したアプリケーションを用いて、非理想的条件下でも継続的に学習できることを実証した。 最後に、当社はAndroidアプリケーションのコードをオープンソース化し、開発者が自身のスマートフォンアプリケーションに継続的学習を統合できるようにし、TensorFlow Lite環境への継続的学習機能のさらなる開発を容易にする。

Deploying sophisticated deep learning models on embedded devices with the purpose of solving real-world problems is a struggle using today's technology. Privacy and data limitations, network connection issues, and the need for fast model adaptation are some of the challenges that constitute today's approaches unfit for many applications on the edge and make real-time on-device training a necessity. Google is currently working on tackling these challenges by embedding an experimental transfer learning API to their TensorFlow Lite, machine learning library. In this paper, we show that although transfer learning is a good first step for on-device model training, it suffers from catastrophic forgetting when faced with more realistic scenarios. We present this issue by testing a simple transfer learning model on the CORe50 benchmark as well as by demonstrating its limitations directly on an Android application we developed. In addition, we expand the TensorFlow Lite library to include continual learning capabilities, by integrating a simple replay approach into the head of the current transfer learning model. We test our continual learning model on the CORe50 benchmark to show that it tackles catastrophic forgetting, and we demonstrate its ability to continually learn, even under non-ideal conditions, using the application we developed. Finally, we open-source the code of our Android application to enable developers to integrate continual learning to their own smartphone applications, as well as to facilitate further development of continual learning functionality into the TensorFlow Lite environment.
翻訳日:2021-05-06 17:39:58 公開日:2021-05-05
# (参考訳) 職場でのマインドリード: 共通基盤のない協力

Mind Reading at Work: Cooperation without common ground ( http://arxiv.org/abs/2105.01949v1 )

ライセンス: CC BY 4.0
Peter Wallis(参考訳) Stefan KoppさんとNicole Kramerさんは先日の論文「Frontiers in Psychology 12 (2021) 597」で、過去10年ほどの間に非常に印象的なデモがありましたが、コンピューターを人間と半分まともな会話にする方法はまだわかりません。 これを行うために必要な能力には、漸進的な共同構築とメンタライゼーションが含まれる、と彼らは主張する。 この問題に対する意見に心から同意するが、本稿では、配置されたアクションの「新しい」aiに基づくソリューションに対する別のアプローチを論じる。

As Stefan Kopp and Nicole Kramer say in their recent paper[Frontiers in Psychology 12 (2021) 597], despite some very impressive demonstrations over the last decade or so, we still don't know how how to make a computer have a half decent conversation with a human. They argue that the capabilities required to do this include incremental joint co-construction and mentalizing. Although agreeing whole heartedly with their statement of the problem, this paper argues for a different approach to the solution based on the "new" AI of situated action.
翻訳日:2021-05-06 17:31:28 公開日:2021-05-05
# (参考訳) 局所統計エッジモデルを用いたマルチスケール画像分解

Multi-scale Image Decomposition using a Local Statistical Edge Model ( http://arxiv.org/abs/2105.01951v1 )

ライセンス: CC BY 4.0
Kin-Ming Wong(参考訳) サブウィンドウ分散フィルタという新しい非線形フィルタを用いたプログレッシブ画像分解手法を提案する。 本手法は,空間スケールと変動スケールの両方において,細部画像の抽出が要求されるため,画像の精細度向上のために特別に設計されている。 本稿では,空間的に定義された画像統計を用いてエッジ認識を発達させる局所統計エッジモデルを提案する。 本手法は2つの直感的パラメータによって制御され,ユーザがどの画像の詳細を抑えるか,拡張するかを定義することができる。 累積面積テーブル加速度法により,分解パイプラインは並列性が高い。 提案するフィルタは勾配保存であり, 勾配反転アーティファクトを含まない拡張結果が得られる。 評価では,本手法を様々なマルチスケール画像詳細操作アプリケーションと,他の主流ソリューションと比較する。

We present a progressive image decomposition method based on a novel non-linear filter named Sub-window Variance filter. Our method is specifically designed for image detail enhancement purpose; this application requires extraction of image details which are small in terms of both spatial and variation scales. We propose a local statistical edge model which develops its edge awareness using spatially defined image statistics. Our decomposition method is controlled by two intuitive parameters which allow the users to define what image details to suppress or enhance. By using the summed-area table acceleration method, our decomposition pipeline is highly parallel. The proposed filter is gradient preserving and this allows our enhancement results free from the gradient-reversal artefact. In our evaluations, we compare our method in various multi-scale image detail manipulation applications with other mainstream solutions.
翻訳日:2021-05-06 17:23:33 公開日:2021-05-05
# (参考訳) 完全畳み込みネットワークを用いたアクティブ多面体進化を用いた空中カラー赤外線画像における落葉樹の事例分割

Instance segmentation of fallen trees in aerial color infrared imagery using active multi-contour evolution with fully convolutional network-based intensity priors ( http://arxiv.org/abs/2105.01998v1 )

ライセンス: CC BY 4.0
Przemyslaw Polewski, Jacquelyn Shelton, Wei Yao and Marco Heurich(参考訳) 本稿では,完全畳み込みネットワークで得られた画像のセマンティクスセグメンテーションマップ上で,マルチアクティブ輪郭進化による共通オブジェクトクラスのインスタンスをセグメンテーションするためのフレームワークを提案する。 輪郭の進化は、集合エネルギー関数がデータ適合項、明示的な形状モデル、およびオブジェクト重複を考慮したエネルギー最小化問題として論じられる。 効率的な解近傍演算子を提案し, 擬似アニールなどのメタヒューリスティックスによる最適化を実現する。 提案手法は,高分解能空中マルチスペクトル画像から個々の落下茎を分割する文脈において,その枠組みをインスタンス化する。 複雑度の異なる実世界の3つのシーンにアプローチを検証した。 試験はドイツのバイエルン森林国立公園(英語版)の地域で行われ、バークビートルの大量感染が続いた。 多角形および線分レベルで評価を行い,多角形セグメンテーションの精度は0.93,リコール率は0.82であった。 反復的なサンプルコンセンサスラインセグメント検出と比較して,リコール時の最大7パーセンテージ点 (pp) と精度6の改善が達成された。 応用形状パラメトリゼーションの単純さにもかかわらず、エネルギー関数に組み込んだ明示的な形状モデルは、最大4ppのリコールで結果を改善した。 最後に,個々のstem検出の基盤として深層学習に基づく意味セグメンテーション法を使うことの重要性を示す。 本手法は,レーザスキャンに比べて画像取得のコスト効率が高いため,自動落葉樹マッピングのアクセシビリティ向上への一歩である。 正確な落葉樹図は、植物および動物の生息環境のモデリング、炭素沈降および森林生態系の土壌品質の研究の基礎として、さらに利用することができる。

In this paper, we introduce a framework for segmenting instances of a common object class by multiple active contour evolution over semantic segmentation maps of images obtained through fully convolutional networks. The contour evolution is cast as an energy minimization problem, where the aggregate energy functional incorporates a data fit term, an explicit shape model, and accounts for object overlap. Efficient solution neighborhood operators are proposed, enabling optimization through metaheuristics such as simulated annealing. We instantiate the proposed framework in the context of segmenting individual fallen stems from high-resolution aerial multispectral imagery. We validated our approach on 3 real-world scenes of varying complexity. The test plots were situated in regions of the Bavarian Forest National Park, Germany, which sustained a heavy bark beetle infestation. Evaluations were performed on both the polygon and line segment level, showing that the multi-contour segmentation can achieve up to 0.93 precision and 0.82 recall. An improvement of up to 7 percentage points (pp) in recall and 6 in precision compared to an iterative sample consensus line segment detection was achieved. Despite the simplicity of the applied shape parametrization, an explicit shape model incorporated into the energy function improved the results by up to 4 pp of recall. Finally, we show the importance of using a deep learning based semantic segmentation method as the basis for individual stem detection. Our method is a step towards increased accessibility of automatic fallen tree mapping, due to higher cost efficiency of aerial imagery acquisition compared to laser scanning. The precise fallen tree maps could be further used as a basis for plant and animal habitat modeling, studies on carbon sequestration as well as soil quality in forest ecosystems.
翻訳日:2021-05-06 17:11:33 公開日:2021-05-05
# (参考訳) ScissionLite: トランスファー層を用いた分散ディープニューラルネットワークの高速化

ScissionLite: Accelerating Distributed Deep Neural Networks Using Transfer Layer ( http://arxiv.org/abs/2105.02019v1 )

ライセンス: CC BY 4.0
Hyunho Ahn and Munkyu Lee and Cheol-Ho Hong and Blesson Varghese(参考訳) 産業用IoT(Industrial Internet of Things)アプリケーションはエッジコンピューティングのメリットを享受できる。 例えば、ディープニューラルネットワーク(DNN)モデルに根ざしたアプリケーションは、推論の全体的なパフォーマンスを改善し、産業製品イメージのような入力データのプライバシを高めるために、IIoTデバイスとネットワークのエッジでスライスおよび分散することができる。 しかし、IIoTデバイスとエッジ間のネットワーク性能の低下は、しばしばボトルネックとなる。 本研究では,転送層(tl)を用いた分散dnn推定を高速化するフレームワーク scissionlite を開発した。 TLは,DNNモデルスライスにおける最適スライス点間に挿入されるトラフィック認識層であり,アウトバウンドネットワークトラフィックを著しく低下させることなく減少させる。 TLのために、我々はパフォーマンス限定IIoTデバイスのための新しい軽量ダウン/アップサンプリングネットワークを実装した。 そこで,ScissionLiteでは,DNNスライスをTLにデプロイするエンド・ツー・エンドのアクティビティのためのScissionTL,Preプロセッサ,Offloaderを開発した。 彼らは、DNNの最適スライス点を決定し、TLを含む事前訓練されたDNNスライスを作成し、IIoTデバイスとエッジ上でDNNスライスを実行する。 tl をスライスした dnn モデルで使用する場合、オーバーヘッドは無視できる。 scissionliteは、ローカルデバイスの実行と既存の最先端モデルスライシングアプローチと比較して、推論遅延を最大16倍と2.8倍改善する。

Industrial Internet of Things (IIoT) applications can benefit from leveraging edge computing. For example, applications underpinned by deep neural networks (DNN) models can be sliced and distributed across the IIoT device and the edge of the network for improving the overall performance of inference and for enhancing privacy of the input data, such as industrial product images. However, low network performance between IIoT devices and the edge is often a bottleneck. In this study, we develop ScissionLite, a holistic framework for accelerating distributed DNN inference using the Transfer Layer (TL). The TL is a traffic-aware layer inserted between the optimal slicing point of a DNN model slice in order to decrease the outbound network traffic without a significant accuracy drop. For the TL, we implement a new lightweight down/upsampling network for performance-limited IIoT devices. In ScissionLite, we develop ScissionTL, the Preprocessor, and the Offloader for end-to-end activities for deploying DNN slices with the TL. They decide the optimal slicing point of the DNN, prepare pre-trained DNN slices including the TL, and execute the DNN slices on an IIoT device and the edge. Employing the TL for the sliced DNN models has a negligible overhead. ScissionLite improves the inference latency by up to 16 and 2.8 times when compared to execution on the local device and an existing state-of-the-art model slicing approach respectively.
翻訳日:2021-05-06 16:38:06 公開日:2021-05-05
# (参考訳) 解釈可能・伝達可能な音声感情認識に向けて:潜在表現に基づく特徴・方法・コーパスの分析

Towards Interpretable and Transferable Speech Emotion Recognition: Latent Representation Based Analysis of Features, Methods and Corpora ( http://arxiv.org/abs/2105.02055v1 )

ライセンス: CC BY 4.0
Sneha Das and Nicole Nadine L{\o}nfeldt and Anne Katrine Pagsberg and Line H. Clemmensen(参考訳) 近年,医療分野から商業分野まで,音声感情認識(ser)が広く応用されている。 信号処理のアプローチに加えて、SERの手法もディープラーニング技術を使用している。 しかし、言語、コーパス、記録条件の一般化は、この分野ではまだ未解決の課題である。 さらに、ディープラーニングアルゴリズムのブラックボックスの性質から、モデルと意思決定プロセスにおける解釈と透明性の欠如が新たな課題となっている。 SERシステムが人間の生活に影響を与えるアプリケーションにデプロイされる場合、これは重要なことです。 本研究では,提案するSERシステムの意思決定過程を詳細に分析することで,このギャップに対処する。 そこで本研究では,4階層の感情分類において,平均的分類精度が55\%以上となる不完全・非正規化オートエンコーダに基づく低複雑度serを提案する。 次に,潜伏空間における感情のクラスタリングを調査し,モデル行動に対するコーパスの影響を理解し,潜伏埋め込みの物理的解釈を得る。 最後に,SERの性能に対する各入力機能の役割について検討する。

In recent years, speech emotion recognition (SER) has been used in wide ranging applications, from healthcare to the commercial sector. In addition to signal processing approaches, methods for SER now also use deep learning techniques. However, generalizing over languages, corpora and recording conditions is still an open challenge in the field. Furthermore, due to the black-box nature of deep learning algorithms, a newer challenge is the lack of interpretation and transparency in the models and the decision making process. This is critical when the SER systems are deployed in applications that influence human lives. In this work we address this gap by providing an in-depth analysis of the decision making process of the proposed SER system. Towards that end, we present low-complexity SER based on undercomplete- and denoising- autoencoders that achieve an average classification accuracy of over 55\% for four-class emotion classification. Following this, we investigate the clustering of emotions in the latent space to understand the influence of the corpora on the model behavior and to obtain a physical interpretation of the latent embedding. Lastly, we explore the role of each input feature towards the performance of the SER.
翻訳日:2021-05-06 16:19:34 公開日:2021-05-05
# (参考訳) AdaBoostとロバスト1ビット圧縮センシング

AdaBoost and robust one-bit compressed sensing ( http://arxiv.org/abs/2105.02083v1 )

ライセンス: CC BY 4.0
Geoffrey Chinot, Felix Kuchelmeister, Matthias L\"offler and Sara van de Geer(参考訳) 本稿では, 対向誤差を伴う頑健な1ビット圧縮センシングにおけるバイナリ分類について検討する。 モデルは過パラメータ化され、利子パラメータが効果的にスパースであると仮定する。 AdaBoost が検討され、max-$\ell_1$-margin-classifier との関係を通してリスク境界が導出される。 特に, 対向雑音の補間が, 分類問題に対して無害である理由を説明する。 シミュレーションは提示された理論を説明する。

This paper studies binary classification in robust one-bit compressed sensing with adversarial errors. It is assumed that the model is overparameterized and that the parameter of interest is effectively sparse. AdaBoost is considered, and, through its relation to the max-$\ell_1$-margin-classifier, risk bounds are derived. In particular, this provides an explanation why interpolating adversarial noise can be harmless for classification problems. Simulations illustrate the presented theory.
翻訳日:2021-05-06 16:09:24 公開日:2021-05-05
# (参考訳) 教師なし領域適応のための深部球面マニフォールドガウス核

Deep Spherical Manifold Gaussian Kernel for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2105.02089v1 )

ライセンス: CC0 1.0
Youshan Zhang and Brian D. Davison(参考訳) 教師なしドメイン適応は、既存のリッチなラベル付きドメインから新しいドメインに知識を移す際に、ドメインシフト問題に対処する効果的な方法である。 既存の多様体ベースの手法は、伝統的なモデルに基づいているか、2つの領域の単一共分散行列の差を最小化することでグラスマン多様体に大きく依存している。 さらに、既存の擬似ラベルアルゴリズムは、2つの領域間の条件分布の整合性において擬似ラベルの品質を不適切に考慮している。 本研究では,ソース空間と対象部分空間を球面多様体にマッピングし,抽出された特徴量とガウス核の両方を埋め込み,それらの差を減少させるために,深層球面多様体gaussian kernel(dsgk)フレームワークを提案する。 条件分布を整列化するために, 擬似ラベルの品質を改善し, カテゴリ的球面多様体ガウス核測地線損失を削減するための, 容易かつハードな擬似ラベル改良法をさらに開発する。 DSGKは、特にクロスドメイン学習タスクにおいて、最先端の手法よりも優れていることを示す。

Unsupervised Domain adaptation is an effective method in addressing the domain shift issue when transferring knowledge from an existing richly labeled domain to a new domain. Existing manifold-based methods either are based on traditional models or largely rely on Grassmannian manifold via minimizing differences of single covariance matrices of two domains. In addition, existing pseudo-labeling algorithms inadequately consider the quality of pseudo labels in aligning the conditional distribution between two domains. In this work, a deep spherical manifold Gaussian kernel (DSGK) framework is proposed to map the source and target subspaces into a spherical manifold and reduce the discrepancy between them by embedding both extracted features and a Gaussian kernel. To align the conditional distributions, we further develop an easy-to-hard pseudo label refinement process to improve the quality of the pseudo labels and then reduce categorical spherical manifold Gaussian kernel geodesic loss. Extensive experimental results show that DSGK outperforms state-of-the-art methods, especially on challenging cross-domain learning tasks.
翻訳日:2021-05-06 15:43:48 公開日:2021-05-05
# (参考訳) バナッハ空間における値を持つ2層ニューラルネットワーク

Two-layer neural networks with values in a Banach space ( http://arxiv.org/abs/2105.02095v1 )

ライセンス: CC BY 4.0
Yury Korolev(参考訳) 本研究では,領域と範囲がバラッハ空間である2層ニューラルネットワークについて検討する。 さらに、画像空間には部分順序、すなわち部分順序が備わっていると仮定する。 これはリース空間である。 非線形性として、正の部分を取る格子演算を選択し、$\mathbb R^d$-valued ニューラルネットワークの場合、これはReLU活性化関数に対応する。 モンテカルロ率を持つ逆および直接近似定理を証明し、有限次元の場合の既存の結果を拡張する。 本稿の第2部では,正規化理論の観点から,有限量のノイズ観測を用いてネットワークを訓練することを検討する。 音源条件として知られる正則性条件について検討し,ノイズレベルが0,サンプル数が適切な速度で無限になる場合のブレグマン距離での収束率を求める。

We study two-layer neural networks whose domain and range are Banach spaces with separable preduals. In addition, we assume that the image space is equipped with a partial order, i.e. it is a Riesz space. As the nonlinearity we choose the lattice operation of taking the positive part; in case of $\mathbb R^d$-valued neural networks this corresponds to the ReLU activation function. We prove inverse and direct approximation theorems with Monte-Carlo rates, extending existing results for the finite-dimensional case. In the second part of the paper, we consider training such networks using a finite amount of noisy observations from the regularisation theory viewpoint. We discuss regularity conditions known as source conditions and obtain convergence rates in a Bregman distance in the regime when both the noise level goes to zero and the number of samples goes to infinity at appropriate rates.
翻訳日:2021-05-06 15:29:57 公開日:2021-05-05
# (参考訳) 資源制約を考慮したMDPの効率的な戦略合成

Efficient Strategy Synthesis for MDPs with Resource Constraints ( http://arxiv.org/abs/2105.02099v1 )

ライセンス: CC BY-SA 4.0
Franti\v{s}ek Blahoudek, Petr Novotn\'y, Melkior Ornik, Pranay Thangeda and Ufuk Topcu(参考訳) 消費マルコフ決定過程と呼ばれる形式主義の質的戦略合成を考える。 この形式主義は、確率環境において資源制約の下で作用するエージェントのダイナミクスをモデル化することができる。 提示されたアルゴリズムは、モデルの表現に関して時間多項式で動作し、与えられた目標状態のセットがリソースの枯渇なしに確率1で(あるいは無限回)到達されることを保証する戦略を合成する。 特に、ミッションを安全に継続するには資源の量が少なくなった場合、その戦略は、エージェントがリソースをフルキャパシティに補充する指定されたリロード状態の1つに向かってエージェントのコースを変更し、十分な量のリソースで、エージェントが再びミッションを遂行しようとする。 また,エージェントが与えられたミッションを遂行する必要があるという期待時間を削減するための2つのヒューリスティックな手法を提案する。 提案アルゴリズムを実装し, (i) 計算時間の観点から) マルコフ決定プロセスに基づく計画手法の有効性, (ii) 実例による計画に対する2つのヒューリスティックスの肯定的な影響を示す数値例を示した。

We consider qualitative strategy synthesis for the formalism called consumption Markov decision processes. This formalism can model dynamics of an agents that operates under resource constraints in a stochastic environment. The presented algorithms work in time polynomial with respect to the representation of the model and they synthesize strategies ensuring that a given set of goal states will be reached (once or infinitely many times) with probability 1 without resource exhaustion. In particular, when the amount of resource becomes too low to safely continue in the mission, the strategy changes course of the agent towards one of a designated set of reload states where the agent replenishes the resource to full capacity; with sufficient amount of resource, the agent attempts to fulfill the mission again. We also present two heuristics that attempt to reduce expected time that the agent needs to fulfill the given mission, a parameter important in practical planning. The presented algorithms were implemented and numerical examples demonstrate (i) the effectiveness (in terms of computation time) of the planning approach based on consumption Markov decision processes and (ii) the positive impact of the two heuristics on planning in a realistic example.
翻訳日:2021-05-06 15:28:55 公開日:2021-05-05
# (参考訳) 自動分離音場からの自己教師付き学習

Self-Supervised Learning from Automatically Separated Sound Scenes ( http://arxiv.org/abs/2105.02132v1 )

ライセンス: CC BY 4.0
Eduardo Fonseca, Aren Jansen, Daniel P. W. Ellis, Scott Wisdom, Marco Tagliasacchi, John R. Hershey, Manoj Plakal, Shawn Hershey, R. Channing Moore, Xavier Serra(参考訳) 実世界のサウンドシーンは、音源の時間変化のコレクションで構成され、それぞれがオーディオ録音で混在する特徴的なサウンドイベントを生成する。 これらの構成音イベントと混合音の関連は意味的に制約され、サウンドシーンはソースクラスの結合を含み、全てのクラスが自然に共起するわけではない。 そこで本研究では,教師なし自動音声分離を用いて,教師なし音声シーンを複数の意味的リンクビューに分解し,自己教師なしコントラスト学習に活用する。 入力混合物と自動的に分離された出力とを関連付ける学習は、混合物のみを使用する過去のアプローチよりも強い表現をもたらす。 さらに,多様な分離系収束状態がすべて有用かつしばしば相補的な例変換につながることを示すことにより,コントラスト学習を成功させるために最適なソース分離は必要ではないことを見出した。 我々の最善のシステムは、これらの教師なし分離モデルを単一の拡張フロントエンドに組み込んで、ビュー全体の類似度最大化と一致予測目標を共同で最適化する。 その結果、教師なしオーディオ表現が、確立された浅いAudioSet分類ベンチマークにおける最先端の代替と競合する。

Real-world sound scenes consist of time-varying collections of sound sources, each generating characteristic sound events that are mixed together in audio recordings. The association of these constituent sound events with their mixture and each other is semantically constrained: the sound scene contains the union of source classes and not all classes naturally co-occur. With this motivation, this paper explores the use of unsupervised automatic sound separation to decompose unlabeled sound scenes into multiple semantically-linked views for use in self-supervised contrastive learning. We find that learning to associate input mixtures with their automatically separated outputs yields stronger representations than past approaches that use the mixtures alone. Further, we discover that optimal source separation is not required for successful contrastive learning by demonstrating that a range of separation system convergence states all lead to useful and often complementary example transformations. Our best system incorporates these unsupervised separation models into a single augmentation front-end and jointly optimizes similarity maximization and coincidence prediction objectives across the views. The result is an unsupervised audio representation that rivals state-of-the-art alternatives on the established shallow AudioSet classification benchmark.
翻訳日:2021-05-06 14:46:10 公開日:2021-05-05
# (参考訳) アッパーソリューションによる強化学習におけるモデルフリー政策評価

Model-free policy evaluation in Reinforcement Learning via upper solutions ( http://arxiv.org/abs/2105.02135v1 )

ライセンス: CC BY 4.0
D. Belomestny, I. Levin, E. Moulines, A. Naumov, S. Samsonov, V. Zorina(参考訳) 本研究では,一般無限大地平線mdpにおける最適値関数 $v^\star$ に対するモデルフリーな信頼区間を構築するための手法を提案する。 エージェントのポリシーの上限解を構成するための新しいuper value iterative procedure(uvip)を提案する。 UVIPは、政策評価のモデルフリーな方法につながる。 比較的一般的な仮定の下で近似UVIPの収束特性を解析し、その性能を多くのベンチマークRL問題で説明する。

In this work we present an approach for building tight model-free confidence intervals for the optimal value function $V^\star$ in general infinite horizon MDPs via the upper solutions. We suggest a novel upper value iterative procedure (UVIP) to construct upper solutions for a given agent's policy. UVIP leads to a model free method of policy evaluation. We analyze convergence properties of the approximate UVIP under rather general assumptions and illustrate its performance on a number of benchmark RL problems.
翻訳日:2021-05-06 14:25:08 公開日:2021-05-05
# (参考訳) グラフマッチングと回転不変特徴を用いたペアワイズポイントクラウド登録

Pairwise Point Cloud Registration using Graph Matching and Rotation-invariant Features ( http://arxiv.org/abs/2105.02151v1 )

ライセンス: CC BY 4.0
Rong Huang, Wei Yao, Yusheng Xu, Zhen Ye and Uwe Stilla(参考訳) 登録はポイントクラウド処理において基本だが重要なタスクであり、通常は2つのポイントクラウドから要素対応を見つけることに依存する。 しかし、信頼できる対応を見つけるには、要素のロバストで差別的な記述と対応する要素の正しい一致を確立する必要がある。 本報告では,回転不変特徴を利用した粗粒度対細登録戦略と,逐次対応を求める新しい重み付きグラフマッチング法を開発した。 グラフマッチング法では、ユークリッドおよび特徴空間におけるノードとエッジの類似性を定式化し、最適化関数を構成する。 提案手法は2つのベンチマークデータセットを用いて評価し,いくつかの最先端手法と比較した。 実験結果に関して,提案手法は, 0.2度未満の回転誤差と0.1m未満の翻訳誤差とで, 精密な登録が可能であった。

Registration is a fundamental but critical task in point cloud processing, which usually depends on finding element correspondence from two point clouds. However, the finding of reliable correspondence relies on establishing a robust and discriminative description of elements and the correct matching of corresponding elements. In this letter, we develop a coarse-to-fine registration strategy, which utilizes rotation-invariant features and a new weighted graph matching method for iteratively finding correspondence. In the graph matching method, the similarity of nodes and edges in Euclidean and feature space are formulated to construct the optimization function. The proposed strategy is evaluated using two benchmark datasets and compared with several state-of-the-art methods. Regarding the experimental results, our proposed method can achieve a fine registration with rotation errors of less than 0.2 degrees and translation errors of less than 0.1m.
翻訳日:2021-05-06 14:02:41 公開日:2021-05-05
# (参考訳) Causal Fitの良さ

Goodness of Causal Fit ( http://arxiv.org/abs/2105.02172v1 )

ライセンス: CC BY 4.0
Robert R. Tucci(参考訳) 真珠「do」介入に依存する因果適合尺度(gcf)の良さを提案する。 これは、介入を使用しないGF(Goodness of Fit)の尺度とは異なる。 DAG 集合 ${\cal G}$ が与えられたとき、良い $G\in {\cal G}$ を見つけるために、すべての $G\in {\cal G}$ に対して $GCF(G)$ と $GF(G)$ をプロットすることを提案し、そのグラフ $G\in {\cal G}$ は、両種類の良さの大きいものである。

We propose a Goodness of Causal Fit (GCF) measure which depends on Pearl "do" interventions. This is different from a measure of Goodness of Fit (GF), which does not use interventions. Given a DAG set ${\cal G}$, to find a good $G\in {\cal G}$, we propose plotting $GCF(G)$ versus $GF(G)$ for all $G\in {\cal G}$, and finding a graph $G\in {\cal G}$ with a large amount of both types of goodness.
翻訳日:2021-05-06 13:53:10 公開日:2021-05-05
# (参考訳) 大規模顔表現学習のためのプロトタイプメモリ

Prototype Memory for Large-scale Face Representation Learning ( http://arxiv.org/abs/2105.02103v1 )

ライセンス: CC BY 4.0
Evgeny Smirnov, Nikita Garaev, Vasiliy Galyuk(参考訳) 膨大なIDを持つデータセットを用いた顔表現学習には適切なトレーニング方法が必要である。 softmaxベースのアプローチは、現在の顔認識における最先端技術であり、通常の"フルソフトマックス"形式は、数百万人のデータセットには適していない。 サンプルソフトマックス」アプローチに基づくいくつかの手法が提案され、この制限を取り除いた。 しかし、これらの方法にはいくつかの欠点がある。 その1つは"prototype obsolescence"の問題である: 希少なサンプルクラスの分類子重み (prototypes) は、あまりにも低い勾配を受け取り、現在のエンコーダ状態から時代遅れになり、分離し、不正確なトレーニング信号となる。 この問題は特に超大規模データセットでは深刻である。 本稿では,この問題を緩和し,任意のサイズのデータセットをトレーニング可能な,プロトタイプメモリという新しい顔表現学習モデルを提案する。 Prototype Memoryは、最近のクラスプロトタイプを格納するための制限サイズのメモリモジュールで構成されており、適切な方法で更新するために一連のアルゴリズムを使用している。 新しいクラスのプロトタイプは、現在のミニバッチにexemplar埋め込みを使用して、オンザフライで生成される。 これらのプロトタイプはメモリに列挙され、通常のソフトマックス分類に基づくトレーニングのための分類器重みの役割に使用される。 陳腐化を防止し、メモリをエンコーダと密接な関係に保つため、プロトタイプを定期的にリフレッシュし、最古のものをデキュートして配置する。 プロトタイプメモリは計算効率が高く、データセットサイズに依存しない。 様々な損失関数、ハードサンプルマイニングアルゴリズム、エンコーダアーキテクチャで使用することができる。 一般的な顔認識ベンチマークを用いた広範囲な実験により,提案モデルの有効性を実証する。

Face representation learning using datasets with massive number of identities requires appropriate training methods. Softmax-based approach, currently the state-of-the-art in face recognition, in its usual "full softmax" form is not suitable for datasets with millions of persons. Several methods, based on the "sampled softmax" approach, were proposed to remove this limitation. These methods, however, have a set of disadvantages. One of them is a problem of "prototype obsolescence": classifier weights (prototypes) of the rarely sampled classes, receive too scarce gradients and become outdated and detached from the current encoder state, resulting in an incorrect training signals. This problem is especially serious in ultra-large-scale datasets. In this paper, we propose a novel face representation learning model called Prototype Memory, which alleviates this problem and allows training on a dataset of any size. Prototype Memory consists of the limited-size memory module for storing recent class prototypes and employs a set of algorithms to update it in appropriate way. New class prototypes are generated on the fly using exemplar embeddings in the current mini-batch. These prototypes are enqueued to the memory and used in a role of classifier weights for usual softmax classification-based training. To prevent obsolescence and keep the memory in close connection with encoder, prototypes are regularly refreshed, and oldest ones are dequeued and disposed. Prototype Memory is computationally efficient and independent of dataset size. It can be used with various loss functions, hard example mining algorithms and encoder architectures. We prove the effectiveness of the proposed model by extensive experiments on popular face recognition benchmarks.
翻訳日:2021-05-06 13:33:50 公開日:2021-05-05
# 知識の探索:デュアルメモリを用いた新しいカテゴリの発見と位置決定

The Pursuit of Knowledge: Discovering and Localizing Novel Categories using Dual Memory ( http://arxiv.org/abs/2105.01652v2 )

ライセンス: Link先を確認
Sai Saketh Rambhatla and Rama Chellappa and Abhinav Shrivastava(参考訳) 我々は,未ラベルの大規模データセットにおける新しいオブジェクトの発見と位置決定の課題であるオブジェクトカテゴリ発見に取り組む。 既存の方法では、散らばったシーンが少なく、画像ごとのオブジェクトインスタンスが少ないデータセットで結果を示すが、我々は、挑戦的なCOCOデータセットで結果を示す。 さらに、ゼロから新しいカテゴリを発見するのではなく、発見アルゴリズムは、既に知られているものを特定し、未知に注意を向けることの恩恵を受けることができると論じる。 本稿では,作業記憶と意味記憶という2つのメモリモジュールを用いて,オブジェクトカテゴリに関する事前知識を用いて新たなカテゴリを探索する手法を提案する。 我々は,COCOミニバルデータセット上での検出器の性能を示す。

We tackle object category discovery, which is the problem of discovering and localizing novel objects in a large unlabeled dataset. While existing methods show results on datasets with less cluttered scenes and fewer object instances per image, we present our results on the challenging COCO dataset. Moreover, we argue that, rather than discovering new categories from scratch, discovery algorithms can benefit from identifying what is already known and focusing their attention on the unknown. We propose a method to use prior knowledge about certain object categories to discover new categories by leveraging two memory modules, namely Working and Semantic memory. We show the performance of our detector on the COCO minival dataset to demonstrate its in-the-wild capabilities.
翻訳日:2021-05-06 13:03:07 公開日:2021-05-05
# 半有限計画法による量子ニューラルネットワークのグローバル最適性学習

Training Quantized Neural Networks to Global Optimality via Semidefinite Programming ( http://arxiv.org/abs/2105.01420v2 )

ライセンス: Link先を確認
Burak Bartan, Mert Pilanci(参考訳) ニューラルネットワーク(NN)は、機械学習において多くのタスクで非常に成功した。 NN重みの量子化は、そのエネルギー効率、推論時間、ハードウェアへの展開への影響から重要なトピックとなっている。 トレーニング後の量子化はよく研究されているが、最適量子化NNのトレーニングには、難解に見える組合せ非凸最適化の問題が含まれる。 本研究では,多項式アクティベーションを持つ量子化NNを訓練するための凸最適化手法を提案する。 本手法は,近年の2層ニューラルネットワークにおける隠れ凸性,半定値リフト,Grothendieckの同一性を利用する。 意外なことに、ある量子化NN問題は、半有限緩和により、すべての関連するパラメータの多項式時間における大域的最適性に解決できることが示される。 本手法の有効性を示す数値的な例を示す。

Neural networks (NNs) have been extremely successful across many tasks in machine learning. Quantization of NN weights has become an important topic due to its impact on their energy efficiency, inference time and deployment on hardware. Although post-training quantization is well-studied, training optimal quantized NNs involves combinatorial non-convex optimization problems which appear intractable. In this work, we introduce a convex optimization strategy to train quantized NNs with polynomial activations. Our method leverages hidden convexity in two-layer neural networks from the recent literature, semidefinite lifting, and Grothendieck's identity. Surprisingly, we show that certain quantized NN problems can be solved to global optimality in polynomial-time in all relevant parameters via semidefinite relaxations. We present numerical examples to illustrate the effectiveness of our method.
翻訳日:2021-05-06 13:02:53 公開日:2021-05-05
# 一般化行動傾向推論のための生成的逆流学習

Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference ( http://arxiv.org/abs/2105.00822v2 )

ライセンス: Link先を確認
Xiaocong Chen, Lina Yao, Xianzhi Wang, Aixin Sun, Wenjie Zhang and Quan Z. Sheng(参考訳) 強化学習の最近の進歩は、強化学習ベースのレコメンダシステムなど、動的インタラクションを通じて適応的にユーザーモデリングを学ぶことへの関心を高めている。 最適化に関するガイドラインを提供するため、ほとんどの強化学習アプリケーションにとって、報酬関数は不可欠です。 しかし,現在の強化学習に基づく手法では,動的環境や騒音環境に適応できない手作業による報酬関数が用いられている。 さらに、一般的には一般化能力を犠牲にするタスク固有の報酬機能を使用する。 本稿では,ユーザの行動嗜好モデリングのための生成的逆強化学習を提案する。 事前定義された報酬機能を使用する代わりに,識別的アクタ-クリティックネットワークとwasserstein ganに基づいて,ユーザのアクションから報酬を自動的に学習する。 提案手法は,交通信号制御,オンラインレコメンデータシステム,スキャンパス予測など,様々なシナリオにおいて最先端の手法よりも優れていることを示す。

Recent advances in reinforcement learning have inspired increasing interest in learning user modeling adaptively through dynamic interactions, e.g., in reinforcement learning based recommender systems. Reward function is crucial for most of reinforcement learning applications as it can provide the guideline about the optimization. However, current reinforcement-learning-based methods rely on manually-defined reward functions, which cannot adapt to dynamic and noisy environments. Besides, they generally use task-specific reward functions that sacrifice generalization ability. We propose a generative inverse reinforcement learning for user behavioral preference modelling, to address the above issues. Instead of using predefined reward functions, our model can automatically learn the rewards from user's actions based on discriminative actor-critic network and Wasserstein GAN. Our model provides a general way of characterizing and explaining underlying behavioral tendencies, and our experiments show our method outperforms state-of-the-art methods in a variety of scenarios, namely traffic signal control, online recommender systems, and scanpath prediction.
翻訳日:2021-05-06 13:02:42 公開日:2021-05-05
# 言語モデルにおける性別偏差単語埋め込みの効果

Impact of Gender Debiased Word Embeddings in Language Modeling ( http://arxiv.org/abs/2105.00908v3 )

ライセンス: Link先を確認
Christine Basta and Marta R. Costa-juss\`a(参考訳) ジェンダー、人種、社会バイアスは、近年、自然言語処理の応用における不公平さの顕著な例として検出されている。 公平への鍵となる道は、データとアルゴリズムを理解し、分析し、解釈することです。 近年の研究では、トレーニングで使用される人為的なデータが偏見を生じさせる要因であることが示されている。 さらに、現在のアルゴリズムはデータからのバイアスを増幅することが証明されている。 これらの懸念にさらに対処するため,本論文では,既訓練の標準と偏りのある単語埋め込みを用いて,女性を下書きするデータに基づいて,最先端のリカレントニューラルネットワークモデルがどのように振る舞うかを考察する。 その結果、事前学習された組込みを使用する場合、言語モデルは、タスク内でトレーニングされた組込みを使用する場合と比較して、不均衡なデータでトレーニングされた場合、高いバイアスを継承することが示された。 さらに, 言語モデルでは, 標準の事前学習エンデディングに比べて, 偏りのあるプレトレーニングエンデディングを用いることで, バイアスの低減が図られている。

Gender, race and social biases have recently been detected as evident examples of unfairness in applications of Natural Language Processing. A key path towards fairness is to understand, analyse and interpret our data and algorithms. Recent studies have shown that the human-generated data used in training is an apparent factor of getting biases. In addition, current algorithms have also been proven to amplify biases from data. To further address these concerns, in this paper, we study how an state-of-the-art recurrent neural language model behaves when trained on data, which under-represents females, using pre-trained standard and debiased word embeddings. Results show that language models inherit higher bias when trained on unbalanced data when using pre-trained embeddings, in comparison with using embeddings trained within the task. Moreover, results show that, on the same data, language models inherit lower bias when using debiased pre-trained emdeddings, compared to using standard pre-trained embeddings.
翻訳日:2021-05-06 13:02:26 公開日:2021-05-05
# ベトナムの医療用テキストの会話機械読解

Conversational Machine Reading Comprehension for Vietnamese Healthcare Texts ( http://arxiv.org/abs/2105.01542v2 )

ライセンス: Link先を確認
Son T. Luu, Mao Nguyen Bui, Loi Duc Nguyen, Khiem Vinh Tran, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) machine reading comprehension (mrc) は自然言語処理や計算言語学におけるサブフィールドである。 MRCはコンピュータが構造化されていないテキストを理解し、それに関連する質問に答えることを目的としている。 本稿では,2000件以上の健康ニュース記事に関する質問に対する回答を1万件からなる対話機械読解のためのベトナム語コーパス(UIT-ViCoQA)を提案する。 UIT-ViCoQAを言語的側面によって詳細に分析する。 そして,UIT-ViCoQAコーパスを用いた対話と読み理解に関するベースラインモデルの評価を行った。 最良のモデルではF1スコアが45.27%であり、これは人間のパフォーマンス(76.18%)に30.91ポイント遅れている。

Machine reading comprehension (MRC) is a sub-field in natural language processing or computational linguistics. MRC aims to help computers understand unstructured texts and then answer questions related to them. In this paper, we present a new Vietnamese corpus for conversational machine reading comprehension (UIT-ViCoQA), consisting of 10,000 questions with answers over 2,000 conversations about health news articles. We analyze UIT-ViCoQA in depth with different linguistic aspects. Then, we evaluate several baseline models about dialogue and reading comprehension on the UIT-ViCoQA corpus. The best model obtains an F1 score of 45.27%, which is 30.91 points behind human performance (76.18%), indicating that there is ample room for improvement.
翻訳日:2021-05-06 13:02:07 公開日:2021-05-05
# 画像分類のための部分空間表現学習

Subspace Representation Learning for Few-shot Image Classification ( http://arxiv.org/abs/2105.00379v2 )

ライセンス: Link先を確認
Ting-Yao Hu, Zhi-Qi Cheng, Alexander G. Hauptmann(参考訳) 本稿では,少数の画像分類タスクに対処する部分空間表現学習(SRL)フレームワークを提案する。 局所CNN特徴空間内の部分空間を利用して画像を表現し、重み付き部分空間距離(WSD)に応じて2つの画像間の類似度を測定する。 K画像が各クラスで利用できる場合、Kショット情報を集約するテンプレート部分空間として、プロトタイプ部分空間(PS)と識別部分空間(DS)の2種類を開発する。 SRLフレームワークに基づいて,ベクトルから部分空間表現への距離学習手法を拡張した。 以前の作品では大域的なベクトル表現が採用されていたが、部分空間表現を用いることで、画像内の空間構造や多様性を効果的に保存することができる。 miniimagenet,tieredimagenet,caltech-ucsd birds-200-2011 (cub) の3つのベンチマークデータセットにおいて,srlフレームワークの有効性を実証し,本手法のこれまでの最新データと比較した性能と性能を実験的に示した。

In this paper, we propose a subspace representation learning (SRL) framework to tackle few-shot image classification tasks. It exploits a subspace in local CNN feature space to represent an image, and measures the similarity between two images according to a weighted subspace distance (WSD). When K images are available for each class, we develop two types of template subspaces to aggregate K-shot information: the prototypical subspace (PS) and the discriminative subspace (DS). Based on the SRL framework, we extend metric learning based techniques from vector to subspace representation. While most previous works adopted global vector representation, using subspace representation can effectively preserve the spatial structure, and diversity within an image. We demonstrate the effectiveness of the SRL framework on three public benchmark datasets: MiniImageNet, TieredImageNet and Caltech-UCSD Birds-200-2011 (CUB), and the experimental results illustrate competitive/superior performance of our method compared to the previous state-of-the-art.
翻訳日:2021-05-06 13:01:56 公開日:2021-05-05
# s3net: 深度誘導画像リライトのための単一ストリーム構造

S3Net: A Single Stream Structure for Depth Guided Image Relighting ( http://arxiv.org/abs/2105.00681v2 )

ライセンス: Link先を確認
Hao-Hsiang Yang and Wei-Ting Chen and and Sy-Yen Kuo(参考訳) depth guided any-to-any image relightingは、与えられたガイド画像とその深度マップの照明設定に合うように、元の画像と対応する深度マップからリライト画像を生成することを目的としている。 私たちの知る限りでは、このタスクは以前の文献では解決されていない新しい課題です。 この問題に対処するために,深層誘導画像リライトのための深層学習型ニューラルネットワークs3netを提案する。 このネットワークはエンコーダ-デコーダモデルである。 すべての画像と対応する深度マップを入力として結合し、それらをモデルに入力します。 デコーダ部は、注目モジュールと、ガイド画像中のリライト関連領域にフォーカスする強化モジュールとを含む。 NTIRE 2021 Depth Guided Any-to-any Relighting Challengeでは,提案モデルが3番目に高いSSIMを達成した。

Depth guided any-to-any image relighting aims to generate a relit image from the original image and corresponding depth maps to match the illumination setting of the given guided image and its depth map. To the best of our knowledge, this task is a new challenge that has not been addressed in the previous literature. To address this issue, we propose a deep learning-based neural Single Stream Structure network called S3Net for depth guided image relighting. This network is an encoder-decoder model. We concatenate all images and corresponding depth maps as the input and feed them into the model. The decoder part contains the attention module and the enhanced module to focus on the relighting-related regions in the guided images. Experiments performed on challenging benchmark show that the proposed model achieves the 3 rd highest SSIM in the NTIRE 2021 Depth Guided Any-to-any Relighting Challenge.
翻訳日:2021-05-06 13:01:38 公開日:2021-05-05
# 奥行き誘導画像リライトのためのマルチモーダル分岐ネットワーク

Multi-modal Bifurcated Network for Depth Guided Image Relighting ( http://arxiv.org/abs/2105.00690v2 )

ライセンス: Link先を確認
Hao-Hsiang Yang and Wei-Ting Chen and Hao-Lun Luo and Sy-Yen Kuo(参考訳) 画像照明は、画像内の照明設定を再調整することを目的としている。 本稿では,マルチモーダルバイファーケートネットワーク(mbnet)と呼ばれる,深度誘導画像のリライトのための深層学習に基づく手法を提案する。 すなわち、画像と対応する深度マップが与えられた場合、所定の輝度角と色温度を持つ新しい画像がネットワークによって生成される。 このモデルは、エンコーダ内の分岐ネットワークによる画像と深度の特徴を抽出する。 この2つの特徴を効果的に利用するために,デコーダの動的拡張ピラミッドモジュールを採用する。 さらに,トレーニングデータの種類を増やすために,トレーニングデータ数を増やすための新しいデータ処理パイプラインを提案する。 VIDITデータセットを用いて行った実験の結果,提案手法は NTIRE 2021 Depth Guide One-to-one Relighting Challenge において,SSIM と PMS の点において \textbf{1}$^{st}$ place が得られることがわかった。

Image relighting aims to recalibrate the illumination setting in an image. In this paper, we propose a deep learning-based method called multi-modal bifurcated network (MBNet) for depth guided image relighting. That is, given an image and the corresponding depth maps, a new image with the given illuminant angle and color temperature is generated by our network. This model extracts the image and the depth features by the bifurcated network in the encoder. To use the two features effectively, we adopt the dynamic dilated pyramid modules in the decoder. Moreover, to increase the variety of training data, we propose a novel data process pipeline to increase the number of the training data. Experiments conducted on the VIDIT dataset show that the proposed solution obtains the \textbf{1}$^{st}$ place in terms of SSIM and PMS in the NTIRE 2021 Depth Guide One-to-one Relighting Challenge.
翻訳日:2021-05-06 13:01:24 公開日:2021-05-05
# LAFFNet:水中画像強調のための軽量適応型特徴融合ネットワーク

LAFFNet: A Lightweight Adaptive Feature Fusion Network for Underwater Image Enhancement ( http://arxiv.org/abs/2105.01299v2 )

ライセンス: Link先を確認
Hao-Hsiang Yang and Kuan-Chih Huang and Wei-Ting Chen(参考訳) 水中画像の強化は、自律型水中車両および遠隔操作車両が水中環境を探索し理解するための重要な低レベルコンピュータビジョンタスクである。 近年,多くのコンピュータビジョン問題において深層畳み込みニューラルネットワーク(CNN)が成功しており,水中画像の強化も行われている。 水中画像強調に優れた性能を持つ深層学習手法は数多く存在するが、そのメモリとモデルパラメータのコストは実用上の障害となっている。 この問題に対処するために,軽量適応機能融合ネットワーク (LAFFNet) を提案する。 モデルは、複数の適応的特徴融合(AAF)モジュールを持つエンコーダ・デコーダモデルである。 AAFは、異なるカーネルサイズで複数のブランチを仮定し、マルチスケールの特徴マップを生成する。 さらに、チャネルアテンションはこれらの特徴マップを適応的にマージするために使用される。 提案手法はパラメータ数を2.5Mから0.15M(約94%削減)に削減するが,実験により最先端のアルゴリズムよりも優れる。 さらに,laffnetは,サリアンス物体検出や単一画像深度推定などの高レベル視覚タスクを効果的に改善することを示す。

Underwater image enhancement is an important low-level computer vision task for autonomous underwater vehicles and remotely operated vehicles to explore and understand the underwater environments. Recently, deep convolutional neural networks (CNNs) have been successfully used in many computer vision problems, and so does underwater image enhancement. There are many deep-learning-based methods with impressive performance for underwater image enhancement, but their memory and model parameter costs are hindrances in practical application. To address this issue, we propose a lightweight adaptive feature fusion network (LAFFNet). The model is the encoder-decoder model with multiple adaptive feature fusion (AAF) modules. AAF subsumes multiple branches with different kernel sizes to generate multi-scale feature maps. Furthermore, channel attention is used to merge these feature maps adaptively. Our method reduces the number of parameters from 2.5M to 0.15M (around 94% reduction) but outperforms state-of-the-art algorithms by extensive experiments. Furthermore, we demonstrate our LAFFNet effectively improves high-level vision tasks like salience object detection and single image depth estimation.
翻訳日:2021-05-06 13:01:11 公開日:2021-05-05
# スケルトンに基づく行動認識における3次特徴の活用

Leveraging Third-Order Features in Skeleton-Based Action Recognition ( http://arxiv.org/abs/2105.01563v2 )

ライセンス: Link先を確認
Zhenyue Qin and Yang Liu and Pan Ji and Dongwoo Kim and Lei Wang and Bob McKay and Saeed Anwar and Tom Gedeon(参考訳) スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。 最近のスケルトンに基づく行動認識法では, 3次元関節座標から特徴を空間-時間的手がかりとして抽出し, 特徴融合のためのグラフニューラルネットワークで表現し, 認識性能を向上させる。 一階と二階の特徴、すなわち関節と骨の表現は高い精度をもたらすが、多くのモデルはまだ類似の運動軌跡を持つ作用によって混乱している。 これらの課題に対処するため,現代建築におけるアングルの形での3次特徴の融合を提案し,関節と身体部分の関係をしっかりと把握する。 一般的な時空間グラフニューラルネットワークとのこの単純な融合は、NTU60とNTU120を含む2つの大きなベンチマークにおいて、パラメータが少なく、実行時間を短縮しながら、新しい最先端の精度を実現する。 私たちのソースコードは、https://github.com/ZhenyueQin/Angular-Skeleton-Encodingで公開されています。

Skeleton sequences are light-weight and compact, and thus ideal candidates for action recognition on edge devices. Recent skeleton-based action recognition methods extract features from 3D joint coordinates as spatial-temporal cues, using these representations in a graph neural network for feature fusion, to boost recognition performance. The use of first- and second-order features, i.e., joint and bone representations has led to high accuracy, but many models are still confused by actions that have similar motion trajectories. To address these issues, we propose fusing third-order features in the form of angles into modern architectures, to robustly capture the relationships between joints and body parts. This simple fusion with popular spatial-temporal graph neural networks achieves new state-of-the-art accuracy in two large benchmarks, including NTU60 and NTU120, while employing fewer parameters and reduced run time. Our sourcecode is publicly available at: https://github.com/ZhenyueQin/Angular-Skeleton-Encoding.
翻訳日:2021-05-06 13:00:51 公開日:2021-05-05
# 誰が敵の移動を怖がる?

Who's Afraid of Adversarial Transferability? ( http://arxiv.org/abs/2105.00433v2 )

ライセンス: Link先を確認
Ziv Katzir, Yuval Elovici(参考訳) 敵対的トランスファービリティ、すなわち、敵対的摂動が複数の学習モデルを同時に騙す能力は、長年、敵対的機械学習の「大きな悪い狼」であった。 攻撃モデルのパラメータやトレーニングデータに関する事前の知識を必要としないトランスファービリティベースの攻撃が成功したことは、機械学習モデルが現実のシステムに固有のセキュリティ脅威をもたらすことを暗示している。 しかし, この領域で実施した研究はすべて, 伝達可能性を確率的特性として考慮し, 予め定義された評価セットを前提として, 対象モデルを見誤る可能性のある敵例の割合を推定しようとした。 その結果、これらの研究は現実の敵がしばしば攻撃失敗のコストに非常に敏感であるという事実を無視した。 この感度を見越すと、実際には現実のトランスファービリティに基づく攻撃はあり得ないが、トランスファービリティの脅威に対する過大な認識がもたらされたと我々は論じる。 理論的推論と一連の経験的結果を組み合わせることで、ブラックボックス設定で特定のターゲットモデルに特定の敵のサンプルが転送可能であるかどうかを予測できないことを示し、攻撃失敗のコストに敏感な敵に対する実生活攻撃ツールとしての敵の移動可能性の有効性を疑問視する。

Adversarial transferability, namely the ability of adversarial perturbations to simultaneously fool multiple learning models, has long been the "big bad wolf" of adversarial machine learning. Successful transferability-based attacks requiring no prior knowledge of the attacked model's parameters or training data have been demonstrated numerous times in the past, implying that machine learning models pose an inherent security threat to real-life systems. However, all of the research performed in this area regarded transferability as a probabilistic property and attempted to estimate the percentage of adversarial examples that are likely to mislead a target model given some predefined evaluation set. As a result, those studies ignored the fact that real-life adversaries are often highly sensitive to the cost of a failed attack. We argue that overlooking this sensitivity has led to an exaggerated perception of the transferability threat, when in fact real-life transferability-based attacks are quite unlikely. By combining theoretical reasoning with a series of empirical results, we show that it is practically impossible to predict whether a given adversarial example is transferable to a specific target model in a black-box setting, hence questioning the validity of adversarial transferability as a real-life attack tool for adversaries that are sensitive to the cost of a failed attack.
翻訳日:2021-05-06 13:00:22 公開日:2021-05-05
# RepMLP: 画像認識のための畳み込みを完全連結層に再パラメータ化する

RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition ( http://arxiv.org/abs/2105.01883v1 )

ライセンス: Link先を確認
Xiaohan Ding, Xiangyu Zhang, Jungong Han, Guiguang Ding(参考訳) 本稿では,画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるrepmlpを提案する。 畳み込み層と比較すると、FC層はより効率的で、長距離依存や位置パターンのモデリングに優れるが、局所構造を捉えることには優れており、画像認識にはあまり好ましくない。 画像認識において,局所的な事前処理をFCに加える構造的再パラメータ化手法を提案する。 具体的には、トレーニング中にRepMLP内に畳み込み層を構築し、推論のためにそれらをFCにマージする。 CIFARでは、単純な純粋なMLPモデルがCNNに非常に近い性能を示している。 従来のcnnにrepmlpを挿入することで、imagenetでは1.8%、顔認識では2.9%、フラップが少ない都市景観では2.3%のmiouでresnetを改善した。 我々の興味深い発見は、fcのグローバル表現能力と畳み込み前の位置認識を組み合わせることで、翻訳不変性(意味セグメンテーションなど)とアライメントされた画像と位置パターン(例えば顔認識)の両方のタスクにおいて、より高速なスピードでニューラルネットワークの性能を向上させることができることを示しています。 コードとモデルはhttps://github.com/dingxiaoh/repmlpで入手できる。

We propose RepMLP, a multi-layer-perceptron-style neural network building block for image recognition, which is composed of a series of fully-connected (FC) layers. Compared to convolutional layers, FC layers are more efficient, better at modeling the long-range dependencies and positional patterns, but worse at capturing the local structures, hence usually less favored for image recognition. We propose a structural re-parameterization technique that adds local prior into an FC to make it powerful for image recognition. Specifically, we construct convolutional layers inside a RepMLP during training and merge them into the FC for inference. On CIFAR, a simple pure-MLP model shows performance very close to CNN. By inserting RepMLP in traditional CNN, we improve ResNets by 1.8% accuracy on ImageNet, 2.9% for face recognition, and 2.3% mIoU on Cityscapes with lower FLOPs. Our intriguing findings highlight that combining the global representational capacity and positional perception of FC with the local prior of convolution can improve the performance of neural network with faster speed on both the tasks with translation invariance (e.g., semantic segmentation) and those with aligned images and positional patterns (e.g., face recognition). The code and models are available at https://github.com/DingXiaoH/RepMLP.
翻訳日:2021-05-06 12:59:59 公開日:2021-05-05
# 自然言語の説明は論理的問題を表すか? 説明可能なNLIゴールド標準の検証

Do Natural Language Explanations Represent Valid Logical Arguments? Verifying Entailment in Explainable NLI Gold Standards ( http://arxiv.org/abs/2105.01974v1 )

ライセンス: Link先を確認
Marco Valentino, Ian Pratt-Hartman, Andr\'e Freitas(参考訳) Explainable NLPにおける新たな研究のラインは、ステップワイズ推論と説明生成機能を備えたモデルの構築と評価に使用される、人間のアノテーションによる説明と合理性に富んだデータセットの作成である。 人間の注釈による説明は推論の根拠として用いられるが、その一貫性と厳密さに関する体系的な評価が欠如している。 我々は,NLIにおける説明金基準(XGS)の批判的品質評価を行うため,人手による説明の論理的妥当性を定量化するために,説明細則検証(EEV)と呼ばれる体系的アノテーション手法を提案する。 主要な3つのデータセットへのeevの適用は、表面上で一貫性のある説明のほとんどが、不完全であることから明確に識別可能な論理エラーを含むことまで、論理的に無効な議論を表しているという驚くべき結論を示している。 この結論は、説明の推論的性質がいまだに十分に定式化され、理解されていないこと、また、説明金本位制の構築方法を改善するためには、この研究線に関する追加的な研究が必要であることを確認している。

An emerging line of research in Explainable NLP is the creation of datasets enriched with human-annotated explanations and rationales, used to build and evaluate models with step-wise inference and explanation generation capabilities. While human-annotated explanations are used as ground-truth for the inference, there is a lack of systematic assessment of their consistency and rigour. In an attempt to provide a critical quality assessment of Explanation Gold Standards (XGSs) for NLI, we propose a systematic annotation methodology, named Explanation Entailment Verification (EEV), to quantify the logical validity of human-annotated explanations. The application of EEV on three mainstream datasets reveals the surprising conclusion that a majority of the explanations, while appearing coherent on the surface, represent logically invalid arguments, ranging from being incomplete to containing clearly identifiable logical errors. This conclusion confirms that the inferential properties of explanations are still poorly formalised and understood, and that additional work on this line of research is necessary to improve the way Explanation Gold Standards are constructed.
翻訳日:2021-05-06 12:59:32 公開日:2021-05-05
# PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Table Image Recognition to Latex

PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Table Image Recognition to Latex ( http://arxiv.org/abs/2105.01846v1 )

ライセンス: Link先を確認
Yelin He and Xianbiao Qi and Jiaquan Ye and Peng Gao and Yihao Chen and Bingcong Li and Xin Tang and Rong Xiao(参考訳) 本稿では,ICDAR 2021コンペティション・オン・サイエント・テーブル画像認識のためのソリューションをLaTeXに提示する。 テーブル構造再構成(TSR)とテーブルコンテンツ再構成(TCR)の2つのサブタスクがある。 両サブタスクを2つの個別画像対シーケンス認識問題として扱う。 これまで提案してきたアルゴリズムマスタである \cite{lu2019master} をシーンテキスト認識に活用した。 ネットワーク構造,オプティマイザ,正規化法,事前学習モデル,入力画像の解像度,データ拡張,モデルアンサンブルなど,様々な観点からMASTERモデルを最適化する。 提案手法は,TSRタスクで0.7444 Exact Matchと0.8765 Exact Match @95\%を達成し,TRタスクで0.5586 Exact Matchと0.7386 Exact Match 95\%を得る。

This paper presents our solution for the ICDAR 2021 Competition on Scientific Table Image Recognition to LaTeX. This competition has two sub-tasks: Table Structure Reconstruction (TSR) and Table Content Reconstruction (TCR). We treat both sub-tasks as two individual image-to-sequence recognition problems. We leverage our previously proposed algorithm MASTER \cite{lu2019master}, which is originally proposed for scene text recognition. We optimize the MASTER model from several perspectives: network structure, optimizer, normalization method, pre-trained model, resolution of input image, data augmentation, and model ensemble. Our method achieves 0.7444 Exact Match and 0.8765 Exact Match @95\% on the TSR task, and obtains 0.5586 Exact Match and 0.7386 Exact Match 95\% on the TCR task.
翻訳日:2021-05-06 12:59:13 公開日:2021-05-05
# PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML

PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML ( http://arxiv.org/abs/2105.01848v1 )

ライセンス: Link先を確認
Jiaquan Ye and Xianbiao Qi and Yelin He and Yihao Chen and Dengyi Gu and Peng Gao and Rong Xiao(参考訳) 本稿では,ICDAR 2021コンペティションにおける課題B:テーブル認識のHTMLへの適用について述べる。 本手法では,テーブル構造認識タスクをテーブル構造認識,テキストライン検出,テキストライン認識,ボックス割り当てという4つのサブタスクに分割し,ロバストな画像テキスト認識アルゴリズムであるmaster [1]に基づいてテーブル構造認識アルゴリズムをカスタマイズする。 PSENet [2]は、テーブルイメージ内の各テキスト行を検出するために使用される。 テキストの行認識には、MASTERにもモデルが組み込まれています。 最後に、ボックス割り当てフェーズにおいて、psenet が検出したテキストボックスと、表構造予測により再構成された構造項目を関連付け、認識されたテキスト行の内容を対応する項目に埋める。 提案手法では,開発段階で9,115点,最終評価段階で96.84%のtedsスコアを,96.32%のtedsスコアを9,064点とした。

This paper presents our solution for ICDAR 2021 competition on scientific literature parsing taskB: table recognition to HTML. In our method, we divide the table content recognition task into foursub-tasks: table structure recognition, text line detection, text line recognition, and box assignment.Our table structure recognition algorithm is customized based on MASTER [1], a robust image textrecognition algorithm. PSENet [2] is used to detect each text line in the table image. For text linerecognition, our model is also built on MASTER. Finally, in the box assignment phase, we associatedthe text boxes detected by PSENet with the structure item reconstructed by table structure prediction,and fill the recognized content of the text line into the corresponding item. Our proposed methodachieves a 96.84% TEDS score on 9,115 validation samples in the development phase, and a 96.32%TEDS score on 9,064 samples in the final evaluation phase.
翻訳日:2021-05-06 12:58:58 公開日:2021-05-05
# セマンティックセグメンテーションにおける教師なしドメイン適応のためのコントラスト学習と自己学習

Contrastive Learning and Self-Training for Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2105.02001v1 )

ライセンス: Link先を確認
Robert A. Marsden, Alexander Bartler, Mario D\"obler, Bin Yang(参考訳) 深層畳み込みニューラルネットワークはセマンティックセグメンテーションの最先端の結果を大幅に改善した。 それにもかかわらず、現代のアーキテクチャでさえ、異なるドメインに由来するテストデータセットにうまく一般化する能力がない。 unsupervised domain adaptation(uda)は、未公開ドメインのトレーニングデータのコストのかかるアノテーションを避けるために、ラベル付きソースドメインからラベル付きターゲットドメインへの効率的な知識転送を提供する。 従来の研究は主に、敵対的な訓練や自己学習を用いて、二つのドメイン間の相違を最小限にすることに焦点を当ててきた。 敵対的訓練は、グローバル分布間の不一致を最小限に抑えるため、正しい意味カテゴリーを一致させることができないかもしれないが、自己訓練は、信頼できる擬似ラベルを提供する方法の問題を提起する。 ドメイン間の正しい意味カテゴリーを整合させるために,領域間のカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。 さらに,本手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。 時間的感覚伝達によるコントラスト学習と自己学習(clst)は、2つの領域間の知識伝達を可能にするが、それらの組み合わせは共生構造をもたらす。 GTA5 $\rightarrow$ CityscapesとSynTHIA $\rightarrow$ Cityscapesの2つのドメイン適応ベンチマークでアプローチを検証する。 我々の手法は最先端技術よりも優れた結果が得られる。 私たちはそのコードを公開します。

Deep convolutional neural networks have considerably improved state-of-the-art results for semantic segmentation. Nevertheless, even modern architectures lack the ability to generalize well to a test dataset that originates from a different domain. To avoid the costly annotation of training data for unseen domains, unsupervised domain adaptation (UDA) attempts to provide efficient knowledge transfer from a labeled source domain to an unlabeled target domain. Previous work has mainly focused on minimizing the discrepancy between the two domains by using adversarial training or self-training. While adversarial training may fail to align the correct semantic categories as it minimizes the discrepancy between the global distributions, self-training raises the question of how to provide reliable pseudo-labels. To align the correct semantic categories across domains, we propose a contrastive learning approach that adapts category-wise centroids across domains. Furthermore, we extend our method with self-training, where we use a memory-efficient temporal ensemble to generate consistent and reliable pseudo-labels. Although both contrastive learning and self-training (CLST) through temporal ensembling enable knowledge transfer between two domains, it is their combination that leads to a symbiotic structure. We validate our approach on two domain adaptation benchmarks: GTA5 $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes. Our method achieves better or comparable results than the state-of-the-art. We will make the code publicly available.
翻訳日:2021-05-06 12:58:40 公開日:2021-05-05
# ベイジアンロジスティック形状モデル推論:コチェリー画像セグメンテーションへの応用

Bayesian Logistic Shape Model Inference: application to cochlea image segmentation ( http://arxiv.org/abs/2105.02045v1 )

ライセンス: Link先を確認
Wang Zihao, Demarcy Thomas, Vandersteen Clair, Gnansia Dan, Raffaelli Charles, Guevara Nicolas, Delingette Herv\'e(参考訳) 形状情報を組み込むことは、多くの臓器や解剖学的構造を医療画像に記述するのに不可欠である。 本稿では, 医用画像のセグメンテーションのためのパラメトリック形状モデルのベイズ推定と, 解釈可能な結果の提供を目的として, 従来の研究は主に参照テンプレート形状に適用したパラメトリック空間変換に焦点をあてたものである。 提案フレームワークは,ロジスティック関数による一般的な形状関数に基づいて,出現確率と先行ラベル確率を定義する。 シグモノイドで定義された基準長パラメータは、形状と外観情報のトレードオフを制御する。 形状パラメータの推測は、gauss-newton最適化段階が形状パラメータの後方確率の近似を可能にする期待最大化アプローチにおいて行われる。 この枠組みは10パラメータ形状モデルで制約された臨床CT画像からコチェリー構造のセグメンテーションに適用される。 3つの異なるデータセットで評価され、1つは200以上の患者画像を含む。 その結果,従来の教師なしメソッドよりも優れた教師付きメソッドに匹敵するパフォーマンスが得られた。 また、パラメータ分布の解析や、形状モデルの影響を含むセグメンテーションの不確実性の定量化も可能である。

Incorporating shape information is essential for the delineation of many organs and anatomical structures in medical images. While previous work has mainly focused on parametric spatial transformations applied on reference template shapes, in this paper, we address the Bayesian inference of parametric shape models for segmenting medical images with the objective to provide interpretable results. The proposed framework defines a likelihood appearance probability and a prior label probability based on a generic shape function through a logistic function. A reference length parameter defined in the sigmoid controls the trade-off between shape and appearance information. The inference of shape parameters is performed within an Expectation-Maximisation approach where a Gauss-Newton optimization stage allows to provide an approximation of the posterior probability of shape parameters. This framework is applied to the segmentation of cochlea structures from clinical CT images constrained by a 10 parameter shape model. It is evaluated on three different datasets, one of which includes more than 200 patient images. The results show performances comparable to supervised methods and better than previously proposed unsupervised ones. It also enables an analysis of parameter distributions and the quantification of segmentation uncertainty including the effect of the shape model.
翻訳日:2021-05-06 12:58:16 公開日:2021-05-05
# 逆画像変換のための条件付き可逆ニューラルネットワーク

Conditional Invertible Neural Networks for Diverse Image-to-Image Translation ( http://arxiv.org/abs/2105.02104v1 )

ライセンス: Link先を確認
Lynton Ardizzone, Jakob Kruse, Carsten L\"uth, Niels Bracher, Carsten Rother, Ullrich K\"othe(参考訳) 我々は、条件付き可逆ニューラルネットワーク(cINN)と呼ばれる新しいアーキテクチャを導入し、自然画像に対する多様な画像間翻訳の課題に対処する。 これはいくつかの基本的な制限のため、既存の INN モデルでは容易ではない。 cINNは、純粋に生成したINNモデルと制約のないフィードフォワードネットワークを結合し、条件付け画像を最大情報的特徴に効率的に前処理する。 cINNの全てのパラメータは、安定な最大可能性ベースのトレーニング手順で共同最適化される。 INN ベースのモデルは GAN よりも文学にはあまり注目されていないが、例えば GAN には顕著な性質がないことが示されている。 モード崩壊に対する 明らかな免疫 当社のcinnはこれらの特性を画像から画像への変換に活用し、昼夜の翻訳と画像のカラー化を実証した。 さらに、我々の双方向cINNアーキテクチャを利用して、画像スタイルを直感的に変更するような潜在空間の創発的特性を探索し、操作する。

We introduce a new architecture called a conditional invertible neural network (cINN), and use it to address the task of diverse image-to-image translation for natural images. This is not easily possible with existing INN models due to some fundamental limitations. The cINN combines the purely generative INN model with an unconstrained feed-forward network, which efficiently preprocesses the conditioning image into maximally informative features. All parameters of a cINN are jointly optimized with a stable, maximum likelihood-based training procedure. Even though INN-based models have received far less attention in the literature than GANs, they have been shown to have some remarkable properties absent in GANs, e.g. apparent immunity to mode collapse. We find that our cINNs leverage these properties for image-to-image translation, demonstrated on day to night translation and image colorization. Furthermore, we take advantage of our bidirectional cINN architecture to explore and manipulate emergent properties of the latent space, such as changing the image style in an intuitive way.
翻訳日:2021-05-06 12:58:00 公開日:2021-05-05
# 物理的にインスパイアされた高密度核融合ネットワーク

Physically Inspired Dense Fusion Networks for Relighting ( http://arxiv.org/abs/2105.02209v1 )

ライセンス: Link先を確認
Amirsaeed Yazdani, Tiantong Guo, Vishal Monga(参考訳) 画像のリライトは、拡張現実の応用に触発された重要な研究の関心事である。 物理に基づく伝統的な手法やブラックボックス深層学習モデルが開発されている。 既存のディープネットワークは、新しい状態を達成するためにトレーニングを活用しているが、トレーニングが制限されている場合や、密集した影の追加や削除といった問題表現論を表現していない場合、うまく機能しない場合がある。 本稿では,ニューラルネットワークを物理的洞察で強化するモデルを提案する。 より正確には、2つの異なる戦略によって新しい照明設定の照明画像を生成し、その後重みマップ(w)を用いて融合する。 第1の戦略では,本手法はシーンの反射率パラメータ(アルベド)と被写体画像の照度パラメータ(シェーディング)を予測する(本手法を内在画像分解(IID)と呼ぶ)。 第2の戦略はブラックボックスのアプローチのみに基づいており、この手法では、トレーニング段階における地平線画像と損失項に基づいて重みを最適化し、信頼出力を直接生成する(この戦略を直接的に参照する)。 提案手法は1対1と任意のリライト問題の両方に適用できるが,それぞれの場合において,モデル性能を高める問題固有のコンポーネントを導入する: 1) 1対1リライトでは,シーン内の面の通常のベクトルを組み込んで,画像内の光沢と影を調整する。 2)任意のリライトに対して,特徴抽出を強化するために,アーキテクチャに追加のマルチスケールブロックを提案する。 VIDIT 2020とVIDIT 2021データセット(NETRE 2021リライティングチャレンジで使用される)の実験結果から、我々の提案は、よく知られた忠実度指標と知覚的損失の観点から、多くの最先端手法より優れていることが判明した。

Image relighting has emerged as a problem of significant research interest inspired by augmented reality applications. Physics-based traditional methods, as well as black box deep learning models, have been developed. The existing deep networks have exploited training to achieve a new state of the art; however, they may perform poorly when training is limited or does not represent problem phenomenology, such as the addition or removal of dense shadows. We propose a model which enriches neural networks with physical insight. More precisely, our method generates the relighted image with new illumination settings via two different strategies and subsequently fuses them using a weight map (w). In the first strategy, our model predicts the material reflectance parameters (albedo) and illumination/geometry parameters of the scene (shading) for the relit image (we refer to this strategy as intrinsic image decomposition (IID)). The second strategy is solely based on the black box approach, where the model optimizes its weights based on the ground-truth images and the loss terms in the training stage and generates the relit output directly (we refer to this strategy as direct). While our proposed method applies to both one-to-one and any-to-any relighting problems, for each case we introduce problem-specific components that enrich the model performance: 1) For one-to-one relighting we incorporate normal vectors of the surfaces in the scene to adjust gloss and shadows accordingly in the image. 2) For any-to-any relighting, we propose an additional multiscale block to the architecture to enhance feature extraction. Experimental results on the VIDIT 2020 and the VIDIT 2021 dataset (used in the NTIRE 2021 relighting challenge) reveals that our proposal can outperform many state-of-the-art methods in terms of well-known fidelity metrics and perceptual loss.
翻訳日:2021-05-06 12:57:43 公開日:2021-05-05
# 効率的な圧縮認識モデルトレーニングのための正則化周波数の変調

Modulating Regularization Frequency for Efficient Compression-Aware Model Training ( http://arxiv.org/abs/2105.01875v1 )

ライセンス: Link先を確認
Dongsoo Lee, Se Jung Kwon, Byeongwook Kim, Jeongin Yun, Baeseong Park, Yongkweon Jeon(参考訳) モデル圧縮は,大きなニューラルネットワークサイズのため,ますます重要になっているが,より洗練されたモデル修正と長いトレーニング時間を必要とするため,圧縮認識訓練は困難であり,本研究では,実用的で効率的な圧縮認識訓練手法のための新しい正規化手法として,正規化周波数(トレーニング中に圧縮がどれだけ頻繁に実行されるか)を導入する。 減量や減量といった多種多様な正則化技術では、Deep Neural Networks(DNN)における一般化を改善するために、正則化強度の最適化が不可欠である。 モデル圧縮も正則化の適切な量を要求するが、モデル圧縮による正則化強度は圧縮比でのみ制御されている。 各種実験を通して、正規化周波数がモデル圧縮の正規化強度に重大な影響を及ぼすことを示す。 正規化周波数と圧縮比を組み合わせることで、ミニバッチあたりのモデル圧縮による重みの更新量を最適化し、最適なモデル精度を達成することができる。 正規化周波数の変調は時折モデル圧縮によって行われるが、従来の圧縮認識訓練は通常、ミニバッチ毎に行われる。

While model compression is increasingly important because of large neural network size, compression-aware training is challenging as it needs sophisticated model modifications and longer training time.In this paper, we introduce regularization frequency (i.e., how often compression is performed during training) as a new regularization technique for a practical and efficient compression-aware training method. For various regularization techniques, such as weight decay and dropout, optimizing the regularization strength is crucial to improve generalization in Deep Neural Networks (DNNs). While model compression also demands the right amount of regularization, the regularization strength incurred by model compression has been controlled only by compression ratio. Throughout various experiments, we show that regularization frequency critically affects the regularization strength of model compression. Combining regularization frequency and compression ratio, the amount of weight updates by model compression per mini-batch can be optimized to achieve the best model accuracy. Modulating regularization frequency is implemented by occasional model compression while conventional compression-aware training is usually performed for every mini-batch.
翻訳日:2021-05-06 12:56:55 公開日:2021-05-05
# 複数の基準に沿った選好学習:ゲーム理論の視点から

Preference learning along multiple criteria: A game-theoretic perspective ( http://arxiv.org/abs/2105.01850v1 )

ライセンス: Link先を確認
Kush Bhatia, Ashwin Pananjady, Peter L. Bartlett, Anca D. Dragan, Martin J. Wainwright(参考訳) 順序データからのランク付けに関する文献は広く、オブジェクト間のペア比較から全体的な嗜好を集約する方法はいくつかある。 特に、選好行列によって引き起こされる零和ゲームのナッシュ均衡は、フォン・ノイマンの勝者として知られる自然解の概念(オブジェクト上の勝利分布)を定義することがよく知られている。 しかし、現実の多くの問題は必然的に多基準であり、異なるペアの選好が異なる基準を規定している。 本研究では、ブラックウェルのアプローチ性からインスピレーションを得て、フォン・ノイマンの勝者の概念を多条件設定に一般化する。 本フレームワークは,基準間の選好の非線形集約を可能にし,多目的最適化から線形化に基づくアプローチを一般化する。 理論的観点から、多重基準問題インスタンスのブラックウェルの勝者は凸最適化問題の解として計算可能であることを示す。 さらに、ペア比較のランダムなサンプルから、単純なプラグイン推定器は、ほぼ最適の最小値サンプル複雑性を実現する。 最後に、自動運転に関するユーザー研究において、我々のフレームワークの実用性を紹介し、ブラックウェルの勝者がフォン・ノイマンの受賞者よりも全体的な選好に勝っていることを示す。

The literature on ranking from ordinal data is vast, and there are several ways to aggregate overall preferences from pairwise comparisons between objects. In particular, it is well known that any Nash equilibrium of the zero sum game induced by the preference matrix defines a natural solution concept (winning distribution over objects) known as a von Neumann winner. Many real-world problems, however, are inevitably multi-criteria, with different pairwise preferences governing the different criteria. In this work, we generalize the notion of a von Neumann winner to the multi-criteria setting by taking inspiration from Blackwell's approachability. Our framework allows for non-linear aggregation of preferences across criteria, and generalizes the linearization-based approach from multi-objective optimization. From a theoretical standpoint, we show that the Blackwell winner of a multi-criteria problem instance can be computed as the solution to a convex optimization problem. Furthermore, given random samples of pairwise comparisons, we show that a simple plug-in estimator achieves near-optimal minimax sample complexity. Finally, we showcase the practical utility of our framework in a user study on autonomous driving, where we find that the Blackwell winner outperforms the von Neumann winner for the overall preferences.
翻訳日:2021-05-06 12:56:01 公開日:2021-05-05
# 深層ニューラルネットワークにおける長距離メモリ効果の理解

Understanding Long Range Memory Effects in Deep Neural Networks ( http://arxiv.org/abs/2105.02062v1 )

ライセンス: Link先を確認
Chengli Tan, Jiangshe Zhang, and Junmin Liu(参考訳) \textit{Stochastic gradient descent} (SGD) は、ディープラーニングにおいて基本的な重要性である。 その単純さにもかかわらず、その効果を解明することは依然として困難である。 従来, SGD の成功は, トレーニングプロセスで発生する textit{stochastic gradient noise} (SGN) に起因する。 この一般的なコンセンサスに基づいて、SGD はブラウンあるいはL\'evy の安定運動によって駆動される \textit{stochastic differential equation} (SDE) のオイラー・丸山離散化として頻繁に扱われ、解析される。 本研究では,SGNがガウス的でも安定的でもないことを論じる。 代わりに、SGN級数に現れる長期相関に着想を得て、SGD を \textit{fractional Brownian motion} (FBM) によって駆動される SDE の離散化と見なすことができる。 したがって、sgdダイナミクスの異なる収束挙動が十分に決定される。 さらに、FBMにより駆動されるSDEの第1通過時間はほぼ導出される。 これはより大きなハーストパラメータの脱出率が低いことを示し、したがってsgdは平坦なミニマムでより長く保たれる。 これは、SGDがよく一般化する平坦なミニマを好むよく知られた現象と一致する。 4つの実験グループを用いて予測を検証し,様々なモデルアーキテクチャ,データセット,トレーニング戦略において長期記憶効果が持続することが実証された。 我々の研究は新たな視点を開き、SGDのより深い理解に寄与するかもしれない。

\textit{Stochastic gradient descent} (SGD) is of fundamental importance in deep learning. Despite its simplicity, elucidating its efficacy remains challenging. Conventionally, the success of SGD is attributed to the \textit{stochastic gradient noise} (SGN) incurred in the training process. Based on this general consensus, SGD is frequently treated and analyzed as the Euler-Maruyama discretization of a \textit{stochastic differential equation} (SDE) driven by either Brownian or L\'evy stable motion. In this study, we argue that SGN is neither Gaussian nor stable. Instead, inspired by the long-time correlation emerging in SGN series, we propose that SGD can be viewed as a discretization of an SDE driven by \textit{fractional Brownian motion} (FBM). Accordingly, the different convergence behavior of SGD dynamics is well grounded. Moreover, the first passage time of an SDE driven by FBM is approximately derived. This indicates a lower escaping rate for a larger Hurst parameter, and thus SGD stays longer in flat minima. This happens to coincide with the well-known phenomenon that SGD favors flat minima that generalize well. Four groups of experiments are conducted to validate our conjecture, and it is demonstrated that long-range memory effects persist across various model architectures, datasets, and training strategies. Our study opens up a new perspective and may contribute to a better understanding of SGD.
翻訳日:2021-05-06 12:55:42 公開日:2021-05-05
# 効果的なメタラーニングのためのファインチューニング

How Fine-Tuning Allows for Effective Meta-Learning ( http://arxiv.org/abs/2105.02221v1 )

ライセンス: Link先を確認
Kurtland Chua, Qi Lei, Jason D. Lee(参考訳) 表現学習はメタ学習の文脈で広く研究されており、共有表現を通じて新しいタスクを素早く学習することができる。 MAMLなどの最近の研究は、微調整による指標を用いて、表現を得るプロキシとして、微調整が優れたパフォーマンスを達成するための容易さを計測している。 利用可能なタスクがほぼ同じ基礎的表現を使用すると仮定して,MAMLのようなアルゴリズムから導出される表現を解析するための理論的枠組みを提案する。 次に,勾配降下による微調整によって得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。 上界は一般的な関数クラスに適用され、ロジスティック回帰とニューラルネットワークの設定でフレームワークの保証をインスタンス化することで示します。 対照的に、タスク固有の微調整を考慮せずに訓練された表現を用い、最悪の場合、ソースタスクにアクセスできない学習者と同様に、任意のアルゴリズムが機能する設定が存在する。 この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。

Representation learning has been widely studied in the context of meta-learning, enabling rapid learning of new tasks through shared representations. Recent works such as MAML have explored using fine-tuning-based metrics, which measure the ease by which fine-tuning can achieve good performance, as proxies for obtaining representations. We present a theoretical framework for analyzing representations derived from a MAML-like algorithm, assuming the available tasks use approximately the same underlying representation. We then provide risk bounds on the best predictor found by fine-tuning via gradient descent, demonstrating that the algorithm can provably leverage the shared structure. The upper bound applies to general function classes, which we demonstrate by instantiating the guarantees of our framework in the logistic regression and neural network settings. In contrast, we establish the existence of settings where any algorithm, using a representation trained with no consideration for task-specific fine-tuning, performs as well as a learner with no access to source tasks in the worst case. This separation result underscores the benefit of fine-tuning-based methods, such as MAML, over methods with "frozen representation" objectives in few-shot learning.
翻訳日:2021-05-06 12:55:21 公開日:2021-05-05
# 視覚トランスフォーマによるトリプレットオートエンコーダの潜在空間における交通シナリオ基盤の新規検出と解析

Novelty Detection and Analysis of Traffic Scenario Infrastructures in the Latent Space of a Vision Transformer-Based Triplet Autoencoder ( http://arxiv.org/abs/2105.01924v1 )

ライセンス: Link先を確認
Jonas Wurst, Lakshman Balasubramanian, Michael Botsch and Wolfgang Utschick(参考訳) 未知および未テストのシナリオの検出は、シナリオベースのテストに不可欠である。 シナリオベースのテストは、自動運転車を検証するためのアプローチであると考えられている。 トラフィックシナリオは複数のコンポーネントで構成され、インフラストラクチャはその1つです。 本研究では,インフラストラクチャイメージに基づいて新たなトラフィックシナリオを検出する手法を提案する。 オートエンコーダ三重項ネットワークは、外乱検出に使用されるインフラストラクチャイメージの潜在表現を提供する。 ネットワークのトリプレットトレーニングは、インフラストラクチャの接続グラフに基づいている。 提案したアーキテクチャを用いて,オートエンコーダの近傍関係に予め定義された類似性を組み込んだ潜在空間を形成する。 アーキテクチャに関するアブレーション研究は、三重項オートエンコーダの組み合わせの重要性を強調している。 最高のアーキテクチャは、畳み込みのない注意に基づくネットワークであるビジョントランスフォーマーに基づいている。 提案手法は他の最先端の異常検出手法よりも優れている。

Detecting unknown and untested scenarios is crucial for scenario-based testing. Scenario-based testing is considered to be a possible approach to validate autonomous vehicles. A traffic scenario consists of multiple components, with infrastructure being one of it. In this work, a method to detect novel traffic scenarios based on their infrastructure images is presented. An autoencoder triplet network provides latent representations for infrastructure images which are used for outlier detection. The triplet training of the network is based on the connectivity graphs of the infrastructure. By using the proposed architecture, expert-knowledge is used to shape the latent space such that it incorporates a pre-defined similarity in the neighborhood relationships of an autoencoder. An ablation study on the architecture is highlighting the importance of the triplet autoencoder combination. The best performing architecture is based on vision transformers, a convolution-free attention-based network. The presented method outperforms other state-of-the-art outlier detection approaches.
翻訳日:2021-05-06 12:55:01 公開日:2021-05-05
# 知覚勾配ネットワーク

Perceptual Gradient Networks ( http://arxiv.org/abs/2105.01957v1 )

ライセンス: Link先を確認
Dmitry Nikulin, Roman Suvorov, Aleksei Ivakhnenko, Victor Lempitsky(参考訳) 画像生成のためのディープラーニングの多くの応用は、ジェネレータネットワークのトレーニングまたは微調整に知覚損失を使用する。 しかし知覚的損失の使用は、大きな画像分類ネットワークで前方に何度もパスするだけでなく、このネットワークのアクティベーションを保存するのに必要なかなりのメモリオーバーヘッドを引き起こす。 したがって、このようなオーバーヘッドを取り除くことは望ましいし、時には必要です。 本研究では,前向きのパスなしで計算される知覚損失の近似を用いて,ジェネレータネットワークを訓練する方法を提案する。 代わりに、知覚的損失の勾配場を直接合成する単純な知覚的勾配ネットワークを用いる。 予測勾配を安定化するプロキシターゲットの概念を導入することにより,学習が発散や振動を生じないことを示す。 さらに,本手法では,予測勾配の解釈が可能であり,知覚的損失の内在性を把握し,今後の作業で改善する可能性も示唆している。

Many applications of deep learning for image generation use perceptual losses for either training or fine-tuning of the generator networks. The use of perceptual loss however incurs repeated forward-backward passes in a large image classification network as well as a considerable memory overhead required to store the activations of this network. It is therefore desirable or sometimes even critical to get rid of these overheads. In this work, we propose a way to train generator networks using approximations of perceptual loss that are computed without forward-backward passes. Instead, we use a simpler perceptual gradient network that directly synthesizes the gradient field of a perceptual loss. We introduce the concept of proxy targets, which stabilize the predicted gradient, meaning that learning with it does not lead to divergence or oscillations. In addition, our method allows interpretation of the predicted gradient, providing insight into the internals of perceptual loss and suggesting potential ways to improve it in future work.
翻訳日:2021-05-06 12:54:48 公開日:2021-05-05
# mcgnet:メタアライメントとコンテキストゲート集約による部分的多視点少数ショット学習

MCGNet: Partial Multi-view Few-shot Learning via Meta-alignment and Context Gated-aggregation ( http://arxiv.org/abs/2105.02046v1 )

ライセンス: Link先を確認
Yuan Zhou, Yanrong Guo, Shijie Hao, Richang Hong, Meng Wang(参考訳) 本稿では,2つのタスク,すなわち2つのタスクを統一する「textbf{partial multi-view few-shot learning」という課題を提案する。 少数ショット学習と部分的多視点学習。 従来の数点学習とは違って,この課題は,現実のアプリケーションに適合する不完全な多視点事前知識を考えると,数点学習問題を解決することを目的としている。 しかし、この作業には2つの困難が伴う。 第一に、異なるビュー間のギャップは、特にサンプルの不足により、大きくて小さくなります。 第二に、不完全なビュー情報のため、ショット学習は従来のものよりも困難になる。 上記の問題に対処するため,メタアライメントとコンテキストゲートアグリゲーションを部分的マルチビューGNNに組み込むことにより,新しい「textbf{Meta-alignment and Context Gated-aggregation Network」を提案する。 具体的には、メタアレーメントは異なるビューの機能をよりコンパクトな潜在空間に効果的にマッピングし、ビューギャップを減少させる。 さらに、コンテクストのゲート・アグリゲーションは、クロスビューのコンテキストを活用することで、ビュー・アグリゲーションの影響を軽減する。 提案手法を評価するため,pieおよびorlデータセット上で広範な実験を行った。 提案手法は,他の数発の学習手法と比較することにより,特に難解な視点で最先端のパフォーマンスを得る。

In this paper, we propose a new challenging task named as \textbf{partial multi-view few-shot learning}, which unifies two tasks, i.e. few-shot learning and partial multi-view learning, together. Different from the traditional few-shot learning, this task aims to solve the few-shot learning problem given the incomplete multi-view prior knowledge, which conforms more with the real-world applications. However, this brings about two difficulties within this task. First, the gaps among different views can be large and hard to reduce, especially with sample scarcity. Second, due to the incomplete view information, few-shot learning becomes more challenging than the traditional one. To deal with the above issues, we propose a new \textbf{Meta-alignment and Context Gated-aggregation Network} by equipping meta-alignment and context gated-aggregation with partial multi-view GNNs. Specifically, the meta-alignment effectively maps the features from different views into a more compact latent space, thereby reducing the view gaps. Moreover, the context gated-aggregation alleviates the view-missing influence by leveraging the cross-view context. Extensive experiments are conducted on the PIE and ORL dataset for evaluating our proposed method. By comparing with other few-shot learning methods, our method obtains the state-of-the-art performance especially with heavily-missing views.
翻訳日:2021-05-06 12:54:34 公開日:2021-05-05
# 自然性交通データを用いた運転行動と嗜好の校正

Calibration of Human Driving Behavior and Preference Using Naturalistic Traffic Data ( http://arxiv.org/abs/2105.01820v1 )

ライセンス: Link先を確認
Qi Dai, Di Shen, Jinhong Wang, Suzhou Huang and Dimitar Filev(参考訳) 接続された自動運転車やスマートインフラストラクチャが普及している時代においても、人間の運転行動の定量的理解は極めて重要である。 これは特に、自動運転車と人間の運転する車両が共存する混成交通環境が、かなりの間続くことが期待されているためである。 現実的, 自然主義的な交通環境下での運転行動から, 人間の運転嗜好を統計的に推測できるような, 意思決定のための包括的モデリング・フレームワークが必要である。 マルチエージェントに基づくシミュレーションと最適化を用いたスマートワールドにおけるスマートカーのための最近提案された計算フレームワークを活用して,まず,運転意思決定の前方問題がどのように状態空間モデルとしてモデル化されるかを再定義する。 次に,標準カルマンフィルタを用いて,自然トラフィックデータからドライバの好みを推定するために,モデルをどのように反転させるかを示す。 杉山実験から得られた車両軌道データを用いて, 当初, ボトルネックを伴わずに着地衝撃波の自然発生を実証した。 推定状態フィルタは各車両によく適合するだけでなく、推定ユーティリティ関数は観測された集合行動の定量的に類似したパターンを再現することができる。 我々のアプローチの際立った利点は、計算負担を大幅に削減することである。 これは、フォワードモデルが、本質的にはマルチエージェント相互作用と動的である駆動決定過程を、有限の事前予測で状態に依存する独立した静的最適化問題の列として扱うためである。 したがって、より計算的に要求されるであろう相互作用する動的反転問題を、実際にサイドステップで解決することができる。

Understanding human driving behaviors quantitatively is critical even in the era when connected and autonomous vehicles and smart infrastructure are becoming ever more prevalent. This is particularly so as that mixed traffic settings, where autonomous vehicles and human driven vehicles co-exist, are expected to persist for quite some time. Towards this end it is necessary that we have a comprehensive modeling framework for decision-making within which human driving preferences can be inferred statistically from observed driving behaviors in realistic and naturalistic traffic settings. Leveraging a recently proposed computational framework for smart vehicles in a smart world using multi-agent based simulation and optimization, we first recapitulate how the forward problem of driving decision-making is modeled as a state space model. We then show how the model can be inverted to estimate driver preferences from naturalistic traffic data using the standard Kalman filter technique. We explicitly illustrate our approach using the vehicle trajectory data from Sugiyama experiment that was originally meant to demonstrate how stop-and-go shockwave can arise spontaneously without bottlenecks. Not only the estimated state filter can fit the observed data well for each individual vehicle, the inferred utility functions can also re-produce quantitatively similar pattern of the observed collective behaviors. One distinct advantage of our approach is the drastically reduced computational burden. This is possible because our forward model treats driving decision process, which is intrinsically dynamic with multi-agent interactions, as a sequence of independent static optimization problems contingent on the state with a finite look ahead anticipation. Consequently we can practically sidestep solving an interacting dynamic inversion problem that would have been much more computationally demanding.
翻訳日:2021-05-06 12:54:10 公開日:2021-05-05
# RDMSim:自己適応のための意思決定手法の評価と比較

RDMSim: An Exemplar for Evaluation and Comparison of Decision-Making Techniques for Self-Adaptation ( http://arxiv.org/abs/2105.01978v1 )

ライセンス: Link先を確認
Huma Samin (1), Luis H. Garcia Paucar (1), Nelly Bencomo (1), Cesar M. Carranza Hurtado (2), Erik M. Fredericks (3) ((1) SEA, Aston University, Birmingham, UK, (2) Universidad Pontificia Cat\'olica del Per\'u, Lima, Per\'u, (3) Grand Valley State University, Michigan, USA)(参考訳) 自己適応的アプローチの意思決定は、事前に予測できない事象の不確実性の定量化や、本質的に多目的意思決定(例えば、コスト対信頼性サービスの提供)を含む競合する目的への対処など、さまざまな課題に対処する必要がある。 自己適応のための意思決定技術の評価と比較を可能にするために,RDMSim exemplarを提案する。 RDMSimは、自己適応を支援する環境不確実性の下での意思決定技術の評価と比較を可能にする。 模範者の焦点はリモートデータミラーリングに関連するドメインの問題であり、上述した課題に直面する機会を与えている。 rdmsimは、意思決定技術に関連し、mape-kループに基づく外部適応マネージャと簡単に統合できるプローブおよびエフェクタコンポーネントを提供する。 具体的には,実世界の実験シミュレータである rdmsim (i) について述べる。 (ii) 実験と比較目的に使用できる現実的なシミュレーションシナリオのセット, (iii) 比較のためにのデータについて述べる。

Decision-making for self-adaptation approaches need to address different challenges, including the quantification of the uncertainty of events that cannot be foreseen in advance and their effects, and dealing with conflicting objectives that inherently involve multi-objective decision making (e.g., avoiding costs vs. providing reliable service). To enable researchers to evaluate and compare decision-making techniques for self-adaptation, we present the RDMSim exemplar. RDMSim enables researchers to evaluate and compare techniques for decision-making under environmental uncertainty that support self-adaptation. The focus of the exemplar is on the domain problem related to Remote Data Mirroring, which gives opportunity to face the challenges described above. RDMSim provides probe and effector components for easy integration with external adaptation managers, which are associated with decision-making techniques and based on the MAPE-K loop. Specifically, the paper presents (i) RDMSim, a simulator for real-world experimentation, (ii) a set of realistic simulation scenarios that can be used for experimentation and comparison purposes, (iii) data for the sake of comparison.
翻訳日:2021-05-06 12:53:41 公開日:2021-05-05
# AIベースのシステムのためのソフトウェアエンジニアリング: 調査

Software Engineering for AI-Based Systems: A Survey ( http://arxiv.org/abs/2105.01984v1 )

ライセンス: Link先を確認
Silverio Mart\'inez-Fern\'andez, Justus Bogner, Xavier Franch, Marc Oriol, Julien Siebert, Adam Trendowicz, Anna Maria Vollmer, Stefan Wagner(参考訳) AIベースのシステムは、少なくとも1つのAIコンポーネント(例えば、画像認識と音声認識、自律運転)で機能する機能を持つソフトウェアシステムである。 AIベースのシステムは、AIの進歩によって社会に広まりつつある。 しかし、AIベースのシステムの構築、運用、保守には、ソフトウェア工学(SE)アプローチに関する限られた知識がある。 AIに基づくシステムにおけるSEに関する最先端知識を収集・分析するために,系統地図研究を行った。 2010年1月から2020年3月までに発表された248の研究を考察した。 AIベースのシステムのためのSEは、2018年から2/3以上の研究が発行されている新興の研究分野である。 AIベースのシステムの最も研究されている特性は、信頼性と安全性である。 我々は,SWEBOK領域で分類した,AIベースのシステムに対する複数のSEアプローチを特定した。 ソフトウェアテストやソフトウェア品質に関する研究は非常に多いが、ソフトウェアメンテナンスのような分野は無視されているようだ。 データ関連の問題は最も繰り返される課題である。 研究者は、技術の現状を迅速に理解し、より多くの研究を必要とするトピックを学ぶこと、専門家は、SEがAIベースのシステムに必要とするアプローチと課題を学ぶこと、そして教育者は、カリキュラムにおけるSEとAIのギャップを埋めることである。

AI-based systems are software systems with functionalities enabled by at least one AI component (e.g., for image- and speech-recognition, and autonomous driving). AI-based systems are becoming pervasive in society due to advances in AI. However, there is limited synthesized knowledge on Software Engineering (SE) approaches for building, operating, and maintaining AI-based systems. To collect and analyze state-of-the-art knowledge about SE for AI-based systems, we conducted a systematic mapping study. We considered 248 studies published between January 2010 and March 2020. SE for AI-based systems is an emerging research area, where more than 2/3 of the studies have been published since 2018. The most studied properties of AI-based systems are dependability and safety. We identified multiple SE approaches for AI-based systems, which we classified according to the SWEBOK areas. Studies related to software testing and software quality are very prevalent, while areas like software maintenance seem neglected. Data-related issues are the most recurrent challenges. Our results are valuable for: researchers, to quickly understand the state of the art and learn which topics need more research; practitioners, to learn about the approaches and challenges that SE entails for AI-based systems; and, educators, to bridge the gap among SE and AI in their curricula.
翻訳日:2021-05-06 12:53:23 公開日:2021-05-05
# システム同定のための非自己回帰型対自己回帰型ニューラルネットワーク

Non-Autoregressive vs Autoregressive Neural Networks for System Identification ( http://arxiv.org/abs/2105.02027v1 )

ライセンス: Link先を確認
Daniel Weber and Clemens G\"uhmann(参考訳) 非線形動的システム同定タスクへのニューラルネットワークの適用には長い歴史があり、そのほとんどが自己回帰的アプローチである。 オートレグレッション(autoregression)は、前の時間ステップのモデル出力を使用することで、時間ステップ間のシステム状態の転送を行う方法であり、ゲートリカレントユニット(grus)や時間畳み込みネットワーク(tcns)などの現代のニューラルネットワーク構造との動的システムのモデリングには不要である。 本稿では,GRU と TCN の自己回帰的および非自己回帰的実装の3つのシステム識別ベンチマークのシミュレーションタスクにおける精度と実行性能を比較した。 その結果,非自己回帰型ニューラルネットワークは,自己回帰型ニューラルネットワークに比べて有意に高速で,少なくとも精度が高いことがわかった。 他の最先端のブラックボックスシステム識別手法と比較すると、非自己回帰型GRUの実装は、ニューラルネットワークベースのシステム識別法として最高のパフォーマンスを示し、外挿のないベンチマークでは、最も優れたパフォーマンスのブラックボックス法である。

The application of neural networks to non-linear dynamic system identification tasks has a long history, which consists mostly of autoregressive approaches. Autoregression, the usage of the model outputs of previous time steps, is a method of transferring a system state between time steps, which is not necessary for modeling dynamic systems with modern neural network structures, such as gated recurrent units (GRUs) and Temporal Convolutional Networks (TCNs). We compare the accuracy and execution performance of autoregressive and non-autoregressive implementations of a GRU and TCN on the simulation task of three publicly available system identification benchmarks. Our results show, that the non-autoregressive neural networks are significantly faster and at least as accurate as their autoregressive counterparts. Comparisons with other state-of-the-art black-box system identification methods show, that our implementation of the non-autoregressive GRU is the best performing neural network-based system identification method, and in the benchmarks without extrapolation, the best performing black-box method.
翻訳日:2021-05-06 12:53:04 公開日:2021-05-05
# flex:パラメータフリーのマルチビュー3dヒューマンモーションレコンストラクション

FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction ( http://arxiv.org/abs/2105.01937v1 )

ライセンス: Link先を確認
Brian Gordon, Sigal Raab, Guy Azov, Raja Giryes, Daniel Cohen-Or(参考訳) 複数のカメラで撮影されるビデオ録画の可利用性が高まり、ポーズやモーションリコンストラクションの手法において、咬合や奥行きの曖昧さを緩和する新しい手段が提供された。 しかし、マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対位置に大きく依存している。 このような依存関係は、制御されていない設定で動的キャプチャに移行するとハードルになる。 パラメータフリーのマルチビューモデルであるFLEX(Free muLti-view rEconstruXion)を紹介する。 FLEXはカメラパラメータを必要としないという意味ではパラメータフリーである。 私たちのキーとなるアイデアは、骨格部と骨の長さの間の3D角度は、カメラの位置と不変であるということです。 したがって、位置よりも3D回転と骨の長さを学習することで、すべてのカメラビューの共通値を予測することができる。 我々のネットワークは複数のビデオストリームを受け取り、新しいマルチビュー融合層を通して融合した深い特徴を学習し、時間的にコヒーレントな関節回転で単一の一貫した骨格を再構築する。 我々はHuman3.6MとKTH Multi-view Football IIデータセットの定量的および定性的な結果を示す。 モデルとパラメータフリーでない最先端の手法を比較し、カメラパラメータが存在しない場合、カメラパラメータが利用できる場合に比較結果を得ると同時に、大きなマージンで性能を向上することを示す。 コード、トレーニングされたモデル、ビデオデモ、その他の資料は、プロジェクトのページで利用可能です。

The increasing availability of video recordings made by multiple cameras has offered new means for mitigating occlusion and depth ambiguities in pose and motion reconstruction methods. Yet, multi-view algorithms strongly depend on camera parameters, in particular, the relative positions among the cameras. Such dependency becomes a hurdle once shifting to dynamic capture in uncontrolled settings. We introduce FLEX (Free muLti-view rEconstruXion), an end-to-end parameter-free multi-view model. FLEX is parameter-free in the sense that it does not require any camera parameters, neither intrinsic nor extrinsic. Our key idea is that the 3D angles between skeletal parts, as well as bone lengths, are invariant to the camera position. Hence, learning 3D rotations and bone lengths rather than locations allows predicting common values for all camera views. Our network takes multiple video streams, learns fused deep features through a novel multi-view fusion layer, and reconstructs a single consistent skeleton with temporally coherent joint rotations. We demonstrate quantitative and qualitative results on the Human3.6M and KTH Multi-view Football II datasets. We compare our model to state-of-the-art methods that are not parameter-free and show that in the absence of camera parameters, we outperform them by a large margin while obtaining comparable results when camera parameters are available. Code, trained models, video demonstration, and additional materials will be available on our project page.
翻訳日:2021-05-06 12:52:26 公開日:2021-05-05
# 自己監督型マルチフレーム単眼シーンフロー

Self-Supervised Multi-Frame Monocular Scene Flow ( http://arxiv.org/abs/2105.02216v1 )

ライセンス: Link先を確認
Junhwa Hur, Stefan Roth(参考訳) 単眼画像列からの3次元シーンフローの推定は,単純で経済的なキャプチャ設定により注目されている。 問題の深刻な不適切さのため、現在の手法の精度は、特に効率的なリアルタイムアプローチによって制限されている。 本稿では,実時間効率を維持しつつ,従来のネットワークよりも精度を向上し,自己教師付き学習に基づくマルチフレーム単眼シーンフローネットワークを提案する。 分割デコーダを設計した先進的な2フレームベースラインに基づいて, (i) トリプルフレーム入力と畳み込みLSTM接続を用いた多フレームモデル, (ii) より高精度なオクルージョン対応の国勢調査損失, (iii) トレーニング安定性を向上させるための勾配除去戦略を提案する。 KITTIデータセットでは,自己教師付き学習に基づく単眼シーンフロー手法の最先端の精度を観察する。

Estimating 3D scene flow from a sequence of monocular images has been gaining increased attention due to the simple, economical capture setup. Owing to the severe ill-posedness of the problem, the accuracy of current methods has been limited, especially that of efficient, real-time approaches. In this paper, we introduce a multi-frame monocular scene flow network based on self-supervised learning, improving the accuracy over previous networks while retaining real-time efficiency. Based on an advanced two-frame baseline with a split-decoder design, we propose (i) a multi-frame model using a triple frame input and convolutional LSTM connections, (ii) an occlusion-aware census loss for better accuracy, and (iii) a gradient detaching strategy to improve training stability. On the KITTI dataset, we observe state-of-the-art accuracy among monocular scene flow methods based on self-supervised learning.
翻訳日:2021-05-06 12:52:02 公開日:2021-05-05
# 変形計量を持つスティーフェル多様体の曲率

Curvatures of Stiefel manifolds with deformation metrics ( http://arxiv.org/abs/2105.01834v1 )

ライセンス: Link先を確認
Du Nguyen(参考訳) 我々は、最近 H{\"u}per と Markina と Silva Leite によって導入されたスティーフェル多様体上の抽出可能な計量の族(英語版)の曲率を計算する。 測定値は、チーガー変形測定値と同一視することができる。 ステフェル多様体をアインシュタイン多様体とするために、族内のパラメータ値を同定し、ステフェル多様体が常にアインシュタイン計量を持つことを示す。 断面曲率範囲を分析し,多様体が非負断面曲率を持つパラメータ範囲を同定する。 我々は,Stiefel行列の列数が2ドルである場合の正確な断面曲率範囲と,他の場合の対物的範囲を提供する。 式は,最近の研究で導かれた大域曲率公式と,左不変計量に対する曲率公式の2つの方法から導出する。 第二のアプローチは、通常の等質空間上のチーガー変形計量の曲率公式に導かれる。

We compute curvatures of a family of tractable metrics on Stiefel manifolds, introduced recently by H{\"u}per, Markina and Silva Leite, which includes the well-known embedded and canonical metrics on Stiefel manifolds as special cases. The metrics could be identified with the Cheeger deformation metrics. We identify parameter values in the family to make a Stiefel manifold an Einstein manifold and show Stiefel manifolds always carry an Einstein metric. We analyze the sectional curvature range and identify the parameter range where the manifold has non-negative sectional curvature. We provide the exact sectional curvature range when the number of columns in a Stiefel matrix is $2$, and a conjectural range for other cases. We derive the formulas from two approaches, one from a global curvature formula derived in our recent work, another using curvature formulas for left-invariant metrics. The second approach leads to curvature formulas for Cheeger deformation metrics on normal homogeneous spaces.
翻訳日:2021-05-06 12:51:21 公開日:2021-05-05
# 大規模フレンチウェブコンテンツからの単語埋め込みの評価

Evaluation Of Word Embeddings From Large-Scale French Web Content ( http://arxiv.org/abs/2105.01990v1 )

ライセンス: Link先を確認
Hadi Abdine (1), Christos Xypolopoulos (1), Moussa Kamal Eddine (1), Michalis Vazirgiannis (1 and 2) ((1) Ecole Polytechnique, (2) AUEB)(参考訳) 分散語表現は自然言語処理における多くのタスクで広く使われており、巨大なテキストコーパス上の事前訓練語ベクトルは多くの異なるNLPタスクで高い性能を達成した。 本稿では,複数の高品質な単語ベクトルをフランス語に導入し,その中の2つを巨大なクロールしたフランス語データで訓練し,他の2つを既存のフランス語コーパスで訓練する。 また、提案した単語ベクトルと既存のフランス語単語ベクトルの品質を、フランス語単語類似タスク上で評価する。 さらに,既存のものやランダムなものと比較して,事前学習した単語ベクトルの重要性能向上を示す複数の実NLPタスクの評価を行う。 最後に、得られた単語埋め込みをテストして視覚化するデモwebアプリケーションを作成しました。 生成されたフランス語の単語の埋め込みと、NLUタスクの微調整コード、デモコードも公開されている。

Distributed word representations are popularly used in many tasks in natural language processing, adding that pre-trained word vectors on huge text corpus achieved high performance in many different NLP tasks. This paper introduces multiple high quality word vectors for the French language where two of them are trained on huge crawled French data and the others are trained on an already existing French corpus. We also evaluate the quality of our proposed word vectors and the existing French word vectors on the French word analogy task. In addition, we do the evaluation on multiple real NLP tasks that show the important performance enhancement of the pre-trained word vectors compared to the existing and random ones. Finally, we created a demo web application to test and visualize the obtained word embeddings. The produced French word embeddings are available to the public, along with the fine-tuning code on the NLU tasks and the demo code.
翻訳日:2021-05-06 12:50:56 公開日:2021-05-05
# オントロジーと弱視を用いた臨床ノートからの希少疾患の同定

Rare Disease Identification from Clinical Notes with Ontologies and Weak Supervision ( http://arxiv.org/abs/2105.01995v1 )

ライセンス: Link先を確認
Hang Dong, V\'ictor Su\'arez-Paniagua, Huayu Zhang, Minhong Wang, Emma Whitfield, Honghan Wu(参考訳) 自然言語処理(NLP)による臨床ノートからのまれな疾患の同定は、機械学習で利用できる数少ない事例と、臨床専門家によるデータアノテーションの必要性から困難である。 オントロジーと弱監督を用いた手法を提案する。 i) 統一医療言語システム(UMLS)の概念とテキストの言及をリンクするテキスト-to-UMLSと、名前付きエンティティリンクツール(例)の2つのステップがある。 SemEHR)と、カスタマイズされたルールに基づく弱い監督と、変換器(BERT)による双方向エンコーダ表現、および(ii)UMLS-to-ORDOによるUMLS概念とOrphanet Rare Disease Ontology(ORDO)の稀な疾患とのマッチング。 MIMIC-III放電サマリーをケーススタディとして,テキスト-UMLSプロセスは,ドメインの専門家による注釈付きデータなしで,監督の弱さで大幅に改善可能であることを示す。 分析の結果, 病院入所時の手作業icdコードにほとんど含まれない稀な疾患の症例に対して, パイプライン処理総まとめが出現する可能性が示唆された。

The identification of rare diseases from clinical notes with Natural Language Processing (NLP) is challenging due to the few cases available for machine learning and the need of data annotation from clinical experts. We propose a method using ontologies and weak supervision. The approach includes two steps: (i) Text-to-UMLS, linking text mentions to concepts in Unified Medical Language System (UMLS), with a named entity linking tool (e.g. SemEHR) and weak supervision based on customised rules and Bidirectional Encoder Representations from Transformers (BERT) based contextual representations, and (ii) UMLS-to-ORDO, matching UMLS concepts to rare diseases in Orphanet Rare Disease Ontology (ORDO). Using MIMIC-III discharge summaries as a case study, we show that the Text-to-UMLS process can be greatly improved with weak supervision, without any annotated data from domain experts. Our analysis shows that the overall pipeline processing discharge summaries can surface rare disease cases, which are mostly uncaptured in manual ICD codes of the hospital admissions.
翻訳日:2021-05-06 12:50:43 公開日:2021-05-05
# XAI-KG:製造におけるXAIと意思決定を支援する知識グラフ

XAI-KG: knowledge graph to support XAI and decision-making in manufacturing ( http://arxiv.org/abs/2105.01929v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Patrik Zajec, Klemen Kenda, Inna Novalija, Bla\v{z} Fortuna, Dunja Mladeni\'c(参考訳) 人工知能の採用の増加は、その予測の背後にある人工知能モデルの推論を理解するための正確な予測と手段を必要とする。 説明可能な人工知能(XAI)は、モデルが特定の予測を発行した理由の手がかりを提供することを目的としている。 このような手がかりは、特定の予測に影響を及ぼす機能に関する洞察を提供し、予測が信頼できるかどうかをユーザーに判断させることから、意思決定において最も重要である。 ブラックボックスモデルを説明するために多くの技術が開発されたが、これらの説明の質とその意思決定への影響を評価する研究はほとんど行われなかった。 本稿では,予測,予測説明,推奨意思決定オプション,ユーザ行動に関するフィードバック収集を支援するオントロジーと知識グラフを提案する。 このように、予測モデル、説明、意思決定オプションの推奨を改善する手段を提供する。 我々は、需要予測領域の知識グラフを調整し、実世界のデータに基づいて検証する。

The increasing adoption of artificial intelligence requires accurate forecasts and means to understand the reasoning of artificial intelligence models behind such a forecast. Explainable Artificial Intelligence (XAI) aims to provide cues for why a model issued a certain prediction. Such cues are of utmost importance to decision-making since they provide insights on the features that influenced most certain forecasts and let the user decide if the forecast can be trusted. Though many techniques were developed to explain black-box models, little research was done on assessing the quality of those explanations and their influence on decision-making. We propose an ontology and knowledge graph to support collecting feedback regarding forecasts, forecast explanations, recommended decision-making options, and user actions. This way, we provide means to improve forecasting models, explanations, and recommendations of decision-making options. We tailor the knowledge graph for the domain of demand forecasting and validate it on real-world data.
翻訳日:2021-05-06 12:50:20 公開日:2021-05-05
# 自然・人工システムにおけるインテリジェンスの基礎:ワークショップ報告

Foundations of Intelligence in Natural and Artificial Systems: A Workshop Report ( http://arxiv.org/abs/2105.02198v1 )

ライセンス: Link先を確認
Tyler Millhouse, Melanie Moses, Melanie Mitchell(参考訳) 2021年3月、サンタフェ研究所は自然と人工のシステムにおける知性の基礎の一部としてワークショップを開催した。 このプロジェクトは、人工知能の性質に関する学際的な研究を促進することによって、人工知能の分野を推し進めようとしている。 ワークショップの間、様々な分野の講演者が集まり、知性についての独自の理解と彼らの研究がその理解をさらに深めたかを明確にした。 本報告では,各話者が提示する洞察を要約し,講演とその後の議論の間に生じたテーマを明らかにする。

In March of 2021, the Santa Fe Institute hosted a workshop as part of its Foundations of Intelligence in Natural and Artificial Systems project. This project seeks to advance the field of artificial intelligence by promoting interdisciplinary research on the nature of intelligence. During the workshop, speakers from diverse disciplines gathered to develop a taxonomy of intelligence, articulating their own understanding of intelligence and how their research has furthered that understanding. In this report, we summarize the insights offered by each speaker and identify the themes that emerged during the talks and subsequent discussions.
翻訳日:2021-05-06 12:50:05 公開日:2021-05-05
# 画像セグメンテーション参照のためのコアテンション埋め込みを用いたエンコーダ融合ネットワーク

Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation ( http://arxiv.org/abs/2105.01839v1 )

ライセンス: Link先を確認
Guang Feng, Zhiwei Hu, Lihe Zhang, Huchuan Lu(参考訳) 近年,画像のセグメンテーションが注目されている。 従来の手法では、ネットワークの復号側で言語と視覚のマルチモーダル融合を行う。 また,言語的特徴は各尺度の視覚的特徴と個別に相互作用し,多段階の視覚的特徴に対する言語指導を無視する。 本研究では,視覚的エンコーダをマルチモーダル特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 さらに、EFNにコアテンション機構を組み込んでマルチモーダル特徴の並列更新を実現し、セマンティック空間におけるクロスモーダル情報表現の一貫性を促進する。 最後に,境界拡張モジュール(BEM)を提案する。 4つのベンチマークデータセットによる実験結果から,提案手法はポストプロセッシングを伴わずに,異なる評価基準下での最先端性能を実現することを示した。

Recently, referring image segmentation has aroused widespread interest. Previous methods perform the multi-modal fusion between language and vision at the decoding side of the network. And, linguistic feature interacts with visual feature of each scale separately, which ignores the continuous guidance of language to multi-scale visual features. In this work, we propose an encoder fusion network (EFN), which transforms the visual encoder into a multi-modal feature learning network, and uses language to refine the multi-modal features progressively. Moreover, a co-attention mechanism is embedded in the EFN to realize the parallel update of multi-modal features, which can promote the consistent of the cross-modal information representation in the semantic space. Finally, we propose a boundary enhancement module (BEM) to make the network pay more attention to the fine structure. The experiment results on four benchmark datasets demonstrate that the proposed approach achieves the state-of-the-art performance under different evaluation metrics without any post-processing.
翻訳日:2021-05-06 12:49:28 公開日:2021-05-05
# function4d: ごく少ないrgbdセンサーから人間の体積をリアルタイムに捉える

Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors ( http://arxiv.org/abs/2105.01859v1 )

ライセンス: Link先を確認
Tao Yu, Zerong Zheng, Kaiwen Guo, Pengpeng Liu, Yebin Liu(参考訳) 人間のボリュームキャプチャは、コンピュータビジョンとコンピュータグラフィックスにおける長年のトピックである。 高度なオフラインシステムによって高品質な結果が得られるが、複雑なシナリオ、特に軽量なセットアップを使ったリアルタイムな人間のボリュームキャプチャは依然として困難である。 本稿では,時間的体積融合と深部暗黙関数を組み合わせた人間の体積キャプチャー手法を提案する。 高品質かつ時間的連続的な再構成を実現するために,近接深度観測と位相的一貫性を融合する動的すべり融合を提案する。 さらに, 詳細かつ完全な表面生成のために, 深度入力の幾何学的詳細を保存できるだけでなく, より妥当なテクスチャ結果を生成するRGBD入力の奥深い暗黙関数を提案する。 その結果,提案手法は,ビューの疎度,一般化能力,再構築品質,実行時の効率において,既存手法よりも優れていた。

Human volumetric capture is a long-standing topic in computer vision and computer graphics. Although high-quality results can be achieved using sophisticated off-line systems, real-time human volumetric capture of complex scenarios, especially using light-weight setups, remains challenging. In this paper, we propose a human volumetric capture method that combines temporal volumetric fusion and deep implicit functions. To achieve high-quality and temporal-continuous reconstruction, we propose dynamic sliding fusion to fuse neighboring depth observations together with topology consistency. Moreover, for detailed and complete surface generation, we propose detail-preserving deep implicit functions for RGBD input which can not only preserve the geometric details on the depth inputs but also generate more plausible texturing results. Results and experiments show that our method outperforms existing methods in terms of view sparsity, generalization capacity, reconstruction quality, and run-time efficiency.
翻訳日:2021-05-06 12:49:12 公開日:2021-05-05
# 4DComplete:観測可能な表面を超えた非デジタルモーション推定

4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface ( http://arxiv.org/abs/2105.01905v1 )

ライセンス: Link先を確認
Yang Li, Hikari Takehara, Takafumi Taketomi, Bo Zheng, Matthias Nie{\ss}ner(参考訳) レンジセンサーによる厳密な変形シーンの追跡には、コンピュータビジョン、AR/VR、ロボット工学など多くの応用がある。 しかし、オクルージョンや距離センサの物理的制限のため、既存の方法は可視面のみを扱うため、運動場の不連続や不完全性を引き起こす。 この目的のために,観測されていない幾何学の非剛性運動を推定する新しいデータ駆動手法である4DCompleteを導入する。 4dcomplete は部分的な形状と動きの観察を入力とし、4次元の時間空間埋め込みを抽出し、スパース完全畳み込みネットワークを用いて、失われた幾何学と動き場を共同で推定する。 ネットワークトレーニングのために、DeformingThings4Dと呼ばれる大規模な合成データセットを構築しました。 実験の結果, 4DComplete 1) は部分観察から高分解能な体積形状と運動場を再構成し, 2) 形状と運動推定の両方の利点を享受する絡み合った4D特徴表現を学習し, 3) 従来の非剛性物体である As-Rigid-As-Possible (ARAP) の変形よりも正確で自然な変形を生じ, 4) は実世界における未知の物体によく一般化した。

Tracking non-rigidly deforming scenes using range sensors has numerous applications including computer vision, AR/VR, and robotics. However, due to occlusions and physical limitations of range sensors, existing methods only handle the visible surface, thus causing discontinuities and incompleteness in the motion field. To this end, we introduce 4DComplete, a novel data-driven approach that estimates the non-rigid motion for the unobserved geometry. 4DComplete takes as input a partial shape and motion observation, extracts 4D time-space embedding, and jointly infers the missing geometry and motion field using a sparse fully-convolutional network. For network training, we constructed a large-scale synthetic dataset called DeformingThings4D, which consists of 1972 animation sequences spanning 31 different animals or humanoid categories with dense 4D annotation. Experiments show that 4DComplete 1) reconstructs high-resolution volumetric shape and motion field from a partial observation, 2) learns an entangled 4D feature representation that benefits both shape and motion estimation, 3) yields more accurate and natural deformation than classic non-rigid priors such as As-Rigid-As-Possible (ARAP) deformation, and 4) generalizes well to unseen objects in real-world sequences.
翻訳日:2021-05-06 12:48:57 公開日:2021-05-05
# QueryInst: インスタンスセグメンテーションのためのParallelly Supervised Mask Query

QueryInst: Parallelly Supervised Mask Query for Instance Segmentation ( http://arxiv.org/abs/2105.01928v1 )

ライセンス: Link先を確認
Yuxin Fang, Shusheng Yang, Xinggang Wang, Yu Li, Chen Fang, Ying Shan, Bin Feng, Wenyu Liu(参考訳) 近年,クエリベースのオブジェクト検出フレームワークは,従来の最先端オブジェクト検出フレームワークと同等のパフォーマンスを実現している。 しかし、そのようなフレームワークをフル活用してインスタンスセグメンテーションを実行するかは、まだ未解決の問題である。 本稿では,動的マスクヘッドの並列監視によって駆動されるクエリベースのインスタンスセグメンテーション手法であるQueryInstを提案する。 QueryInstの主な洞察は、異なるステージにわたるオブジェクトクエリにおける固有の1対1対応と、同じステージにおけるマスクRoI機能とオブジェクトクエリとの1対1対応を活用することである。 このアプローチは、明示的なマルチステージマスクヘッド接続と、非クエリベースのマルチステージインスタンスセグメンテーションメソッドに固有のプロポーザル分散の不整合問題を排除する。 我々は、インスタンスセグメンテーションとビデオインスタンスセグメンテーション(VIS)タスクにおけるQueryInstの有効性を評価するために、COCO、CityScapes、YouTube-VISの3つの挑戦的ベンチマークについて広範な実験を行った。 具体的には、resnet-101-fpnバックボーンを使用して、coco test-dev上で48.1 box apと42.8 mask apを取得している。 ビデオインスタンスのセグメンテーションでは、QueryInstはすべてのオンラインVISアプローチの中で最高のパフォーマンスを達成し、十分なスピード精度のトレードオフを打ち負かす。 コードは \url{https://github.com/hustvl/QueryInst} で入手できる。

Recently, query based object detection frameworks achieve comparable performance with previous state-of-the-art object detectors. However, how to fully leverage such frameworks to perform instance segmentation remains an open problem. In this paper, we present QueryInst, a query based instance segmentation method driven by parallel supervision on dynamic mask heads. The key insight of QueryInst is to leverage the intrinsic one-to-one correspondence in object queries across different stages, as well as one-to-one correspondence between mask RoI features and object queries in the same stage. This approach eliminates the explicit multi-stage mask head connection and the proposal distribution inconsistency issues inherent in non-query based multi-stage instance segmentation methods. We conduct extensive experiments on three challenging benchmarks, i.e., COCO, CityScapes, and YouTube-VIS to evaluate the effectiveness of QueryInst in instance segmentation and video instance segmentation (VIS) task. Specifically, using ResNet-101-FPN backbone, QueryInst obtains 48.1 box AP and 42.8 mask AP on COCO test-dev, which is 2 points higher than HTC in terms of both box AP and mask AP, while runs 2.4 times faster. For video instance segmentation, QueryInst achieves the best performance among all online VIS approaches and strikes a decent speed-accuracy trade-off. Code is available at \url{https://github.com/hustvl/QueryInst}.
翻訳日:2021-05-06 12:48:29 公開日:2021-05-05
# ホルスタイン・フリース牛の映像識別のためのセルフスーパービジョン:Cows2021データセット

Towards Self-Supervision for Video Identification of Individual Holstein-Friesian Cattle: The Cows2021 Dataset ( http://arxiv.org/abs/2105.01938v1 )

ライセンス: Link先を確認
Jing Gao, Tilo Burghardt, William Andrew, Andrew W. Dowsey, Neill W. Campbell(参考訳) 本稿では,ホルシュタイン・フリース種牛群集Cows2021と,動物のビデオ識別のための最初の自己監督フレームワークを公表する。 データセットには、ローカライゼーションとアイデンティティのためのラベル付き10,402のRGBイメージと、同じ群れからの301のビデオが含まれている。 データはトップダウンのインバーン画像を示し、品種の個々に特徴的な黒と白のコートパターンを捉えている。 視覚的牛の識別システム構築におけるラベル付けの負担に乗じて,ビデオ間の時間的コートパターンの出現を動物識別学習の自己超越信号として活用することを提案する。 向き付けられた境界ボックスを産出する個体非依存の牛検出器を用いて、個体の回転正規化トラックレットを追跡・検出によって形成し、増強によって濃縮する。 これはトラックレット毎の‘陽性’サンプルセットを生成し、他のビデオのランダムな牛からサンプリングされた‘負’セットとペアリングする。 フレーム三重項コントラスト学習は、計量的潜在空間を構成するために用いられる。 ガウス混合モデルのこの空間への適合は、牛の同一性分類器をもたらす。 その結果、top-1 57.0% と top-4: 76.9% と調整された rand 指数 0.53 の精度を示した。 教師付きトレーニングは、このベンチマークを大きなマージンで上回っているが、しかしながら、監督情報を構築する際のラベル付け作業のスピードアップにおいて、自己監督が極めて効果的な役割を果たすと結論づけている。 システムの解析と評価とともに,すべてのデータとソースコードを提供する。

In this paper we publish the largest identity-annotated Holstein-Friesian cattle dataset Cows2021 and a first self-supervision framework for video identification of individual animals. The dataset contains 10,402 RGB images with labels for localisation and identity as well as 301 videos from the same herd. The data shows top-down in-barn imagery, which captures the breed's individually distinctive black and white coat pattern. Motivated by the labelling burden involved in constructing visual cattle identification systems, we propose exploiting the temporal coat pattern appearance across videos as a self-supervision signal for animal identity learning. Using an individual-agnostic cattle detector that yields oriented bounding-boxes, rotation-normalised tracklets of individuals are formed via tracking-by-detection and enriched via augmentations. This produces a `positive' sample set per tracklet, which is paired against a `negative' set sampled from random cattle of other videos. Frame-triplet contrastive learning is then employed to construct a metric latent space. The fitting of a Gaussian Mixture Model to this space yields a cattle identity classifier. Results show an accuracy of Top-1 57.0% and Top-4: 76.9% and an Adjusted Rand Index: 0.53 compared to the ground truth. Whilst supervised training surpasses this benchmark by a large margin, we conclude that self-supervision can nevertheless play a highly effective role in speeding up labelling efforts when initially constructing supervision information. We provide all data and full source code alongside an analysis and evaluation of the system.
翻訳日:2021-05-06 12:48:04 公開日:2021-05-05
# AdaVQA: 適応型Margin Cosine損失による言語優先の克服

AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss ( http://arxiv.org/abs/2105.01993v1 )

ライセンス: Link先を確認
Yangyang Guo and Liqiang Nie and Zhiyong Cheng and Feng Ji and Ji Zhang and Alberto Del Bimbo(参考訳) 多くの研究は、現在の視覚質問応答(vqa)モデルは、言語ショートカットに基づいた予測を盲目的に行うことを指す言語先行問題によって深刻な影響を受けることを指摘している。 この問題を繊細なモデルで克服するために、いくつかの努力が注がれている。 しかし,既存のVQA手法がすべてVQAを分類タスクとしたにもかかわらず,回答特徴空間学習の角度から対処する研究は行われていない。 このことから着想を得た本研究では,特徴空間学習の観点から,言語先行問題への取り組みを試みる。 この目的のために、各質問タイプにおける頻繁かつスパースな回答特徴空間を適切に識別するように適応されたマージンコサイン損失を設計する。 その結果、言語モダリティの限られたパターンは大幅に削減され、そのため、我々の手法で導入される言語先行パターンは少なくなる。 この損失関数を複数のベースラインモデルに適用し、2つのVQA-CPベンチマーク上での有効性を評価する。 実験結果から,我々の適応余剰余剰余弦損失は平均15倍の絶対的な性能向上率でベースラインモデルを大幅に向上し,回答特徴空間学習の角度からVQAにおける言語先行問題に対処する可能性を強く検証した。

A number of studies point out that current Visual Question Answering (VQA) models are severely affected by the language prior problem, which refers to blindly making predictions based on the language shortcut. Some efforts have been devoted to overcoming this issue with delicate models. However, there is no research to address it from the angle of the answer feature space learning, despite of the fact that existing VQA methods all cast VQA as a classification task. Inspired by this, in this work, we attempt to tackle the language prior problem from the viewpoint of the feature space learning. To this end, an adapted margin cosine loss is designed to discriminate the frequent and the sparse answer feature space under each question type properly. As a result, the limited patterns within the language modality are largely reduced, thereby less language priors would be introduced by our method. We apply this loss function to several baseline models and evaluate its effectiveness on two VQA-CP benchmarks. Experimental results demonstrate that our adapted margin cosine loss can greatly enhance the baseline models with an absolute performance gain of 15\% on average, strongly verifying the potential of tackling the language prior problem in VQA from the angle of the answer feature space learning.
翻訳日:2021-05-06 12:47:35 公開日:2021-05-05
# グラフ画像からの効率的なデータ抽出フレームワークを目指して

Towards an efficient framework for Data Extraction from Chart Images ( http://arxiv.org/abs/2105.02039v1 )

ライセンス: Link先を確認
Weihong Ma, Hesuo Zhang, Shuang Yan, Guangshun Yao, Yichao Huang, Hui Li, Yaqiang Wu, Lianwen Jin(参考訳) 本稿では,データマイニングシステムにおけるデータ抽出段階に最先端のコンピュータビジョン技術を適用することで,研究のギャップを埋める。 図1に示すように、このステージはプロット要素の検出とデータ変換という2つのサブタスクを含む。 頑健な箱検出装置を構築するためには,様々な深層学習手法を総合的に比較し,高精度な箱検出に適した方法を見つける。 頑健な点検出器を構築するには、従来の手法と比較して近接点を区別できる特徴融合モジュールを備えた完全畳み込みネットワークを採用する。 提案システムは,ヒューリスティックな仮定を伴わずに,様々なチャートデータを効果的に処理できる。 データ変換では,検出した要素を意味値でデータに変換する。 伝説マッチングフェーズにおける伝説と検出要素の特徴的類似性を測定するネットワークを提案する。 さらに,インフォグラフィックから生のテーブルを収穫する競争のベースラインを提供する。 各ステージのパフォーマンス向上には,いくつかの重要な要因がある。 実験の結果,本システムの有効性が示された。

In this paper, we fill the research gap by adopting state-of-the-art computer vision techniques for the data extraction stage in a data mining system. As shown in Fig.1, this stage contains two subtasks, namely, plot element detection and data conversion. For building a robust box detector, we comprehensively compare different deep learning-based methods and find a suitable method to detect box with high precision. For building a robust point detector, a fully convolutional network with feature fusion module is adopted, which can distinguish close points compared to traditional methods. The proposed system can effectively handle various chart data without making heuristic assumptions. For data conversion, we translate the detected element into data with semantic value. A network is proposed to measure feature similarities between legends and detected elements in the legend matching phase. Furthermore, we provide a baseline on the competition of Harvesting raw tables from Infographics. Some key factors have been found to improve the performance of each stage. Experimental results demonstrate the effectiveness of the proposed system.
翻訳日:2021-05-06 12:47:10 公開日:2021-05-05
# 1枚のRGB画像のロバストな3D形状を学習する立方体

Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images ( http://arxiv.org/abs/2105.02047v1 )

ライセンス: Link先を確認
Florian Kluger, Hanno Ackermann, Eric Brachmann, Michael Ying Yang, Bodo Rosenhahn(参考訳) 人間は単純なパラメトリックモデルの配列として周囲の世界を理解し、構築する。 特に人為的な環境は、一般的にキュービドやシリンダーのような体積原始体から成り立っている。 これらのプリミティブを推測することは、高レベルで抽象的なシーン記述を実現するための重要なステップである。 従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できるが、より複雑な3Dシーンを正確に解析することはできない。 対照的に,cuboidsを用いて実環境を有意義に抽象化できる原始的適合のためのロバスト推定器を提案する。 ニューラルネットワークによって導かれるRANSAC推定器は、深度マップのようなこれらのプリミティブを3D特徴に適合させる。 ネットワークを予め検出したシーンの一部に条件付けし,それを1つずつ解析する。 単一のRGB画像から3D特徴量を得るため,特徴抽出CNNをエンドツーエンドに最適化する。 しかし、因果的に最大距離を最小化することは、背景のシーンの一部を包み込む大きな、または刺激的なキュービイドに繋がる。 そこで我々は,不透明なシーンを正確に扱えるオクルージョン・アウェア距離計を提案する。 提案アルゴリズムは、トレーニングのために、キュービドアノテーションのような労働集約的なラベルを必要としない。 挑戦的なNYU Depth v2データセットの結果、提案アルゴリズムは、乱雑な現実世界の3Dシーンレイアウトをうまく抽象化することを示した。

Humans perceive and construct the surrounding world as an arrangement of simple parametric models. In particular, man-made environments commonly consist of volumetric primitives such as cuboids or cylinders. Inferring these primitives is an important step to attain high-level, abstract scene descriptions. Previous approaches directly estimate shape parameters from a 2D or 3D input, and are only able to reproduce simple objects, yet unable to accurately parse more complex 3D scenes. In contrast, we propose a robust estimator for primitive fitting, which can meaningfully abstract real-world environments using cuboids. A RANSAC estimator guided by a neural network fits these primitives to 3D features, such as a depth map. We condition the network on previously detected parts of the scene, thus parsing it one-by-one. To obtain 3D features from a single RGB image, we additionally optimise a feature extraction CNN in an end-to-end manner. However, naively minimising point-to-primitive distances leads to large or spurious cuboids occluding parts of the scene behind. We thus propose an occlusion-aware distance metric correctly handling opaque scenes. The proposed algorithm does not require labour-intensive labels, such as cuboid annotations, for training. Results on the challenging NYU Depth v2 dataset demonstrate that the proposed algorithm successfully abstracts cluttered real-world 3D scene layouts.
翻訳日:2021-05-06 12:46:56 公開日:2021-05-05
# グリッドワードクロスアテンションによる一段階参照表現の提案

Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention ( http://arxiv.org/abs/2105.02061v1 )

ライセンス: Link先を確認
Wei Suo, Mengyang Sun, Peng Wang, Qi Wu(参考訳) 表現理解(rec)を参照することは、視覚的な推論において最も重要なタスクの1つとなっている。 しかし,1) 2段階の手法は計算コストと避けられないエラー蓄積が存在し,2) 1段階の手法はバウンディングボックスを生成するために多数のハイパーパラメータ(アンカーなど)に依存する必要があるため,下流タスクでは広く使われていない。 本稿では,テキストクエリに基づいて画像から関心領域を回帰させることができる提案不要の一段階(pfos)モデルを提案する。 主流のアンカー提案方式の代わりに,グリッドワード対応を学習するクロスアテンション変換器の入力として,画像の高密度グリッドを直接利用する。 最終バウンディングボックスは、以前の手法が苦しむ時間を要するアンカー選択プロセスなしで、画像から直接予測される。 従来の1段階および2段階の手法と比較して,4つの参照式データセットにおける最先端のパフォーマンスを高い効率で達成する。

Referring Expression Comprehension (REC) has become one of the most important tasks in visual reasoning, since it is an essential step for many vision-and-language tasks such as visual question answering. However, it has not been widely used in many downstream tasks because it suffers 1) two-stage methods exist heavy computation cost and inevitable error accumulation, and 2) one-stage methods have to depend on lots of hyper-parameters (such as anchors) to generate bounding box. In this paper, we present a proposal-free one-stage (PFOS) model that is able to regress the region-of-interest from the image, based on a textual query, in an end-to-end manner. Instead of using the dominant anchor proposal fashion, we directly take the dense-grid of an image as input for a cross-attention transformer that learns grid-word correspondences. The final bounding box is predicted directly from the image without the time-consuming anchor selection process that previous methods suffer. Our model achieves the state-of-the-art performance on four referring expression datasets with higher efficiency, comparing to previous best one-stage and two-stage methods.
翻訳日:2021-05-06 12:46:37 公開日:2021-05-05
# パーシャル・アンド・サム変換器を用いた視覚複合集合検出

Visual Composite Set Detection Using Part-and-Sum Transformers ( http://arxiv.org/abs/2105.02170v1 )

ライセンス: Link先を確認
Qi Dong, Zhuowen Tu, Haofu Liao, Yuting Zhang, Vijay Mahadevan, Stefano Soatto(参考訳) 視覚的関係検出や人-物体相互作用などのコンピュータビジョンアプリケーションは、部分(対象、対象、述語)と和(全体)の両方を階層的に検出する合成(構造化)セット検出問題として定式化することができる。 本稿では,エンド・ツー・エンド複合集合検出を行うための新しい手法であるpst(part-and-sum detection transformer)を提案する。 クエリが単一レベルにある既存のTransformerとは異なり、結合部を同時にモデル化し、複合クエリとアテンションモジュールで仮説/相互作用を和算する。 標準トランスフォーマーにないpart-and-sum関係のモデリングを改善するために、sumクエリを明示的に組み込んでいます。 また,新しいテンソル型部分問合せとベクトル型和問合せを用い,それらの相互作用をモデル化する。 視覚関連検出と人間と物体の相互作用という2つの視覚課題の実験を報告し,pstが単段モデルにおいて最先端の成果を得られることを実証した。

Computer vision applications such as visual relationship detection and human-object interaction can be formulated as a composite (structured) set detection problem in which both the parts (subject, object, and predicate) and the sum (triplet as a whole) are to be detected in a hierarchical fashion. In this paper, we present a new approach, denoted Part-and-Sum detection Transformer (PST), to perform end-to-end composite set detection. Different from existing Transformers in which queries are at a single level, we simultaneously model the joint part and sum hypotheses/interactions with composite queries and attention modules. We explicitly incorporate sum queries to enable better modeling of the part-and-sum relations that are absent in the standard Transformers. Our approach also uses novel tensor-based part queries and vector-based sum queries, and models their joint interaction. We report experiments on two vision tasks, visual relationship detection, and human-object interaction, and demonstrate that PST achieves state-of-the-art results among single-stage models, while nearly matching the results of custom-designed two-stage models.
翻訳日:2021-05-06 12:46:16 公開日:2021-05-05
# 深部3次元モーファブルモデルのための学習機能アグリゲーション

Learning Feature Aggregation for Deep 3D Morphable Models ( http://arxiv.org/abs/2105.02173v1 )

ライセンス: Link先を確認
Zhixiang Chen and Tae-Kyun Kim(参考訳) 3Dフォーマブルモデルはコンピュータビジョンやグラフィックスアプリケーションにおけるオブジェクトクラスの形状表現に広く用いられている。 本研究では,階層構造を持つ3dメッシュデータにディープラーニングを直接適用し,複数のスケールで情報をキャプチャする,深層3次元モーファブルモデルに注目した。 畳み込み演算子の設計には多大な努力が払われているが、階層レベルで頂点機能をベストに集約する方法は、さらに注目に値する。 メッシュデシメーションを利用するのとは対照的に,階層レベルの機能集約を改善するために,マッピング行列を学習するためのアテンションベースモジュールを提案する。 具体的には、マッピング行列はキーとクエリの互換性関数によって生成される。 キーとクエリはトレーニング可能な変数で、ターゲットの目的を最適化して学習し、同じオブジェクトクラスのすべてのデータサンプルで共有される。 提案モジュールは,既存アーキテクチャの機能集約の列車のみのドロップイン代替として,ダウンサンプリングとアップサンプリングの両方に使用することができる。 実験により, マッピング行列のエンドツーエンドトレーニングにより, 既存の変形可能なモデルと比較して, 様々な3次元形状データセットの最先端結果が得られることがわかった。

3D morphable models are widely used for the shape representation of an object class in computer vision and graphics applications. In this work, we focus on deep 3D morphable models that directly apply deep learning on 3D mesh data with a hierarchical structure to capture information at multiple scales. While great efforts have been made to design the convolution operator, how to best aggregate vertex features across hierarchical levels deserves further attention. In contrast to resorting to mesh decimation, we propose an attention based module to learn mapping matrices for better feature aggregation across hierarchical levels. Specifically, the mapping matrices are generated by a compatibility function of the keys and queries. The keys and queries are trainable variables, learned by optimizing the target objective, and shared by all data samples of the same object class. Our proposed module can be used as a train-only drop-in replacement for the feature aggregation in existing architectures for both downsampling and upsampling. Our experiments show that through the end-to-end training of the mapping matrices, we achieve state-of-the-art results on a variety of 3D shape datasets in comparison to existing morphable models.
翻訳日:2021-05-06 12:45:53 公開日:2021-05-05
# PolarMask++:シングルショットインスタンスセグメンテーションのための強化されたPolar表現

PolarMask++: Enhanced Polar Representation for Single-Shot Instance Segmentation and Beyond ( http://arxiv.org/abs/2105.02184v1 )

ライセンス: Link先を確認
Enze Xie, Wenhai Wang, Mingyu Ding, Ruimao Zhang, Ping Luo(参考訳) 実世界のアプリケーションでは、インスタンスセグメンテーションのパイプラインの複雑さを低減することが重要です。 この研究は、極座標内のオブジェクトの輪郭を予測し、いくつかの魅力的な利点と共にインスタンス分割問題を再構成する、polarmaskと呼ばれるアンカーボックスフリーかつシングルショットインスタンスセグメンテーションフレームワークを導入することで、この問題に対処する。 1) 極性表現は、インスタンスセグメンテーション(mask)とオブジェクト検出(バウンディングボックス)を単一のフレームワークに統合し、設計と計算の複雑さを低減します。 2)2つのモジュールを慎重に設計する(すなわち)。 ソフト極性中心性と極性IoU損失)を用いて高品質中心サンプルをサンプリングし、極性輪郭回帰を最適化することにより、PolarMaskの性能はバウンディングボックス予測結果に依存せず、訓練の効率が向上する。 (3)PolarMaskは完全に畳み込み型であり、ほとんどのオフザシェルフ検出方法に簡単に組み込むことができる。 フレームワークの精度をさらに向上するため、PolaMask++と呼ばれるさまざまなスケールの機能表現を改善するために、Refined Feature Pyramidが導入されている。 単一のモデルとシングルスケールのトレーニングとテストで挑戦的なcocoデータセットのインスタンスセグメンテーションにおける競合結果を達成するpolarmaskとpolarmask++の両方の有効性と、回転テキスト検出とセルセグメンテーションに関する新たな最先端結果が実証された。 提案した極性表現は、シングルショットのインスタンスセグメンテーションを解決するアルゴリズムを設計するための新しい視点を提供することを期待する。 コードとモデルは、github.com/xieenze/PolarMaskで入手できる。

Reducing the complexity of the pipeline of instance segmentation is crucial for real-world applications. This work addresses this issue by introducing an anchor-box free and single-shot instance segmentation framework, termed PolarMask, which reformulates the instance segmentation problem as predicting the contours of objects in the polar coordinate, with several appealing benefits. (1) The polar representation unifies instance segmentation (masks) and object detection (bounding boxes) into a single framework, reducing the design and computational complexity. (2) Two modules are carefully designed (i.e. soft polar centerness and polar IoU loss) to sample high-quality center examples and optimize polar contour regression, making the performance of PolarMask does not depend on the bounding box prediction results and thus becomes more efficient in training. (3) PolarMask is fully convolutional and can be easily embedded into most off-the-shelf detection methods. To further improve the accuracy of the framework, a Refined Feature Pyramid is introduced to further improve the feature representation at different scales, termed PolarMask++. Extensive experiments demonstrate the effectiveness of both PolarMask and PolarMask++, which achieve competitive results on instance segmentation in the challenging COCO dataset with single-model and single-scale training and testing, as well as new state-of-the-art results on rotate text detection and cell segmentation. We hope the proposed polar representation can provide a new perspective for designing algorithms to solve single-shot instance segmentation. The codes and models are available at: github.com/xieenze/PolarMask.
翻訳日:2021-05-06 12:45:35 公開日:2021-05-05
# RandCrowns Index を用いた樹冠ディラインの表記精度の検討

Addressing Annotation Imprecision for Tree Crown Delineation Using the RandCrowns Index ( http://arxiv.org/abs/2105.02186v1 )

ライセンス: Link先を確認
Dylan Stewart, Alina Zare, Sergio Marconi, Ben Weinstein, Ethan White, Sarah Graves, Stephanie Bohlman, Aditya Singh(参考訳) リモートセンシングにおけるオブジェクトのデライン化の監視方法は、ラベル付き地上データを必要とする。 特にターゲットが不規則な形状であったり、背景や隣り合う物体との区別が難しい場合、十分な高品質な地中データの収集は困難である。 樹冠の配置は、森林、生態、管理のためのリモートセンシング画像から重要な情報を提供する。 しかし、リモートセンシング画像の樹冠は、不規則な形状、重なり合う天蓋、影、不明瞭な縁のために、しばしばラベル付けや注釈付けが困難である。 この分野にはアノテーションに対する複数のアプローチ(例えば、矩形箱対凸多角形)があり、さらにアノテーションの精度に寄与する。 しかし、現在の評価手法ではこの不確実性は考慮されておらず、評価のための定量的指標は複数の注釈者によって異なる可能性がある。 我々はRandCrownsと呼ばれる弱いラベル付きクラウンデライン化に対してRandインデックスの適応を用いてこれらの制限に対処する。 RandCrownsメトリックは、インデックスの各項が計算される領域を調整し、不確実で不正確なオブジェクト記述ラベルを考慮し、Randインデックスを再構成する。 共役和の共通交叉法(jaccard similarity)との定量的比較は、複数のアノテーション間の差異によって生じる分散の低下を示している。 定性的な例と組み合わせて,このRandCrowns測度は,木冠起点に固有のアノテーションに不確実性や不正確性が存在する場合に,目的の起点を評価する上でより堅牢であることが示唆された。 本論文の焦点は樹冠の起伏を評価することにあるが、アノテーションの精度は環境のリモートセンシング(および多くのコンピュータビジョン問題)に共通する課題である。

Supervised methods for object delineation in remote sensing require labeled ground-truth data. Gathering sufficient high quality ground-truth data is difficult, especially when the targets are of irregular shape or difficult to distinguish from the background or neighboring objects. Tree crown delineation provides key information from remote sensing images for forestry, ecology, and management. However, tree crowns in remote sensing imagery are often difficult to label and annotate due to irregular shape, overlapping canopies, shadowing, and indistinct edges. There are also multiple approaches to annotation in this field (e.g., rectangular boxes vs. convex polygons) that further contribute to annotation imprecision. However, current evaluation methods do not account for this uncertainty in annotations, and quantitative metrics for evaluation can vary across multiple annotators. We address these limitations using an adaptation of the Rand index for weakly-labeled crown delineation that we call RandCrowns. The RandCrowns metric reformulates the Rand index by adjusting the areas over which each term of the index is computed to account for uncertain and imprecise object delineation labels. Quantitative comparisons to the commonly used intersection over union (Jaccard similarity) method shows a decrease in the variance generated by differences among multiple annotators. Combined with qualitative examples, our results suggest that this RandCrowns metric is more robust for scoring target delineations in the presence of uncertainty and imprecision in annotations that are inherent to tree crown delineation. Although the focus of this paper is on evaluation of tree crown delineations, annotation imprecision is a challenge that is common across remote sensing of the environment (and many computer vision problems in general).
翻訳日:2021-05-06 12:45:02 公開日:2021-05-05
# move slam: 非厳格なシーンで完全に教師なしのディープラーニング

Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes ( http://arxiv.org/abs/2105.02195v1 )

ライセンス: Link先を確認
Dan Xu, Andrea Vedaldi, Joao F. Henriques(参考訳) 本研究では,映像を3次元形状(カメラと奥行き)に分解する深層ネットワークを訓練する手法を提案する。 従来のカメラ形状を用いて異なる視点からソースイメージを再レンダリングするビュー合成のアイデアを,予測した相対的なポーズと深度マップを用いて構築する。 映像中の合成画像と対応する実画像との誤差を最小化することにより、ポーズや深さを予測するディープネットワークを完全に教師なしで訓練することができる。 しかし、ビュー合成方程式は、オブジェクトが動かないという強い仮定に依存している。 この厳密な世界仮説は予測力を制限し、自動的にオブジェクトの学習を除外する。 画像の小さな領域でエラーを最小限に抑えるという簡単な解決策を提案する。 全体は厳密でないかもしれないが、動く物体の内部など、ほぼ剛体な小さな領域を見つけることは常に可能である。 ネットワークはスライディングウィンドウ内で、各領域の異なるポーズを予測できます。 これは6Dオブジェクトの動きを含む、はるかにリッチなモデルであり、さらに複雑さがほとんどない。 我々は,KITTIにおける教師なし計測と深度予測に関する最新の結果を確立した。 また,屋内ビデオのデータセットであるEPIC-Kitchensには,深度,計測,物体のセグメンテーション,動きなどの根拠となる真実情報がない。 しかし、すべては我々の方法で自動的に回収される。

We propose a method to train deep networks to decompose videos into 3D geometry (camera and depth), moving objects, and their motions, with no supervision. We build on the idea of view synthesis, which uses classical camera geometry to re-render a source image from a different point-of-view, specified by a predicted relative pose and depth map. By minimizing the error between the synthetic image and the corresponding real image in a video, the deep network that predicts pose and depth can be trained completely unsupervised. However, the view synthesis equations rely on a strong assumption: that objects do not move. This rigid-world assumption limits the predictive power, and rules out learning about objects automatically. We propose a simple solution: minimize the error on small regions of the image instead. While the scene as a whole may be non-rigid, it is always possible to find small regions that are approximately rigid, such as inside a moving object. Our network can then predict different poses for each region, in a sliding window. This represents a significantly richer model, including 6D object motions, with little additional complexity. We establish new state-of-the-art results on unsupervised odometry and depth prediction on KITTI. We also demonstrate new capabilities on EPIC-Kitchens, a challenging dataset of indoor videos, where there is no ground truth information for depth, odometry, object segmentation or motion. Yet all are recovered automatically by our method.
翻訳日:2021-05-06 12:44:31 公開日:2021-05-05
# PD-GAN:画像塗布のための確率的逆GAN

PD-GAN: Probabilistic Diverse GAN for Image Inpainting ( http://arxiv.org/abs/2105.02201v1 )

ライセンス: Link先を確認
Hongyu Liu and Ziyu Wan and Wei Huang and Yibing Song and Xintong Han and Jing Liao(参考訳) 画像塗布の確率的多彩なGANであるPD-GANを提案する。 任意の穴領域を持つ入力画像が与えられると、pd-ganは多様で視覚的なコンテンツを含む複数のインペインティング結果を生成する。 我々のPD-GANは、ランダムノイズに基づいて画像を生成するバニラGAN上に構築されている。 画像生成中、初期復元された画像とホール領域を複数スケールで注入することにより、入力ランダムノイズの深い特徴を粗度から細度まで変調する。 ホールフィリングの間、ホール境界近傍のピクセルはより決定論的(すなわち、コンテキストを信頼し、最初に復元された画像が自然の塗布境界を作る確率が高い)であり、一方、ホールの中心にあるピクセルはより自由度(つまり、多様性を高めるためにランダムノイズに依存する可能性が高い)を享受するべきである。 そこで本研究では,空間的確率的多様性正規化(SPDNorm)を提案し,文脈情報に基づく画素生成の確率をモデル化する。 SPDNormは、ホール領域内のリアリズムと多様性を動的にバランスさせ、生成されたコンテンツはホール中心に向かってより多様性を増し、近隣の画像コンテンツと穴の境界に向かって類似させる。 一方,多様なコンテンツ生成のためのPD-GANをさらに強化するために,知覚的多様性損失を提案する。 CelebA-HQ、Places2、Paris Street Viewといったベンチマークデータセットの実験は、PD-GANが多種多様な視覚的イメージ復元に有効であることを示している。

We propose PD-GAN, a probabilistic diverse GAN for image inpainting. Given an input image with arbitrary hole regions, PD-GAN produces multiple inpainting results with diverse and visually realistic content. Our PD-GAN is built upon a vanilla GAN which generates images based on random noise. During image generation, we modulate deep features of input random noise from coarse-to-fine by injecting an initially restored image and the hole regions in multiple scales. We argue that during hole filling, the pixels near the hole boundary should be more deterministic (i.e., with higher probability trusting the context and initially restored image to create natural inpainting boundary), while those pixels lie in the center of the hole should enjoy more degrees of freedom (i.e., more likely to depend on the random noise for enhancing diversity). To this end, we propose spatially probabilistic diversity normalization (SPDNorm) inside the modulation to model the probability of generating a pixel conditioned on the context information. SPDNorm dynamically balances the realism and diversity inside the hole region, making the generated content more diverse towards the hole center and resemble neighboring image content more towards the hole boundary. Meanwhile, we propose a perceptual diversity loss to further empower PD-GAN for diverse content generation. Experiments on benchmark datasets including CelebA-HQ, Places2 and Paris Street View indicate that PD-GAN is effective for diverse and visually realistic image restoration.
翻訳日:2021-05-06 12:44:10 公開日:2021-05-05
# 効率良くロバストな連続学習のためのスキーマ記憶持続性と超越性

Schematic Memory Persistence and Transience for Efficient and Robust Continual Learning ( http://arxiv.org/abs/2105.02085v1 )

ライセンス: Link先を確認
Yuyang Gao, Giorgio A. Ascoli, Liang Zhao(参考訳) 継続的学習は、深層ニューラルネットワーク(dnn)が人間の学習プロセスに似たさまざまなタスクのシーケンスを継続的に学習することによって意思決定を行う、次世代人工知能(ai)への有望なステップだと考えられている。 まだ非常に原始的であり、既存の作品は主に(破滅的な)忘れの回避に焦点が当てられている。 しかし、境界メモリと無拘束なタスク負荷では、忘れは避けられないため、1)記憶効率、2)一般化性、3)ノイズデータを扱う際の堅牢性という観点から、aiと人間のパフォーマンスギャップを減らすために、連続学習は対処しなければならない問題である。 そこで我々は,近年の神経科学の進歩を基盤として,外部記憶を用いた連続学習のための新しいSchematic memory peRsistence and Transience(SMART)フレームワークを提案する。 効率性と一般化性は、誤差境界の理論的保証を伴う空間性と「後方正の転送」制約を用いて、新しい長期記憶機構とスキーマ記憶によって向上される。 強固な強化は、背景情報ゲーテッド学習にインスパイアされた新しい短期記憶機構を用いて達成される。 最後に、ベンチマークと実世界の両方のデータセットに関する広範な実験分析により、我々のモデルの有効性と効率を示す。

Continual learning is considered a promising step towards next-generation Artificial Intelligence (AI), where deep neural networks (DNNs) make decisions by continuously learning a sequence of different tasks akin to human learning processes. It is still quite primitive, with existing works focusing primarily on avoiding (catastrophic) forgetting. However, since forgetting is inevitable given bounded memory and unbounded task loads, 'how to reasonably forget' is a problem continual learning must address in order to reduce the performance gap between AIs and humans, in terms of 1) memory efficiency, 2) generalizability, and 3) robustness when dealing with noisy data. To address this, we propose a novel ScheMAtic memory peRsistence and Transience (SMART) framework for continual learning with external memory that builds on recent advances in neuroscience. The efficiency and generalizability are enhanced by a novel long-term forgetting mechanism and schematic memory, using sparsity and 'backward positive transfer' constraints with theoretical guarantees on the error bound. Robust enhancement is achieved using a novel short-term forgetting mechanism inspired by background information-gated learning. Finally, an extensive experimental analysis on both benchmark and real-world datasets demonstrates the effectiveness and efficiency of our model.
翻訳日:2021-05-06 12:43:34 公開日:2021-05-05
# LEGOEval: クラウドソーシングによる対話システム評価のためのオープンソースツールキット

LEGOEval: An Open-Source Toolkit for Dialogue System Evaluation via Crowdsourcing ( http://arxiv.org/abs/2105.01992v1 )

ライセンス: Link先を確認
Yu Li, Josh Arnold, Feifan Yan, Weiyan Shi and Zhou Yu(参考訳) オンラインクラウドソースプラットフォームであるamazon mechanical turkを使って、研究者が対話システムを数行のコードで簡単に評価できるオープンソースツールキットであるlegoevalを提案する。 既存のツールキットと比較してlegoevalは、一般的なreact.jsインターフェースコンポーネントにマップするpython apiを提供することで、柔軟なタスク設計を特徴としている。 LEGOブロックで遊ぶときのように、内蔵のページで評価手順を簡単にパーソナライズできます。 このようにLEGOEvalは、人間の評価結果を高速で一貫した再現方法を提供する。 柔軟なタスクデザインに加えて、LEGOEvalは収集したデータを簡単にレビューできるAPIも提供する。

We present LEGOEval, an open-source toolkit that enables researchers to easily evaluate dialogue systems in a few lines of code using the online crowdsource platform, Amazon Mechanical Turk. Compared to existing toolkits, LEGOEval features a flexible task design by providing a Python API that maps to commonly used React.js interface components. Researchers can personalize their evaluation procedures easily with our built-in pages as if playing with LEGO blocks. Thus, LEGOEval provides a fast, consistent method for reproducing human evaluation results. Besides the flexible task design, LEGOEval also offers an easy API to review collected data.
翻訳日:2021-05-06 12:42:56 公開日:2021-05-05
# 非構造的再帰を伴う多項式グラフ解析

Polynomial Graph Parsing with Non-Structural Reentrancies ( http://arxiv.org/abs/2105.02033v1 )

ライセンス: Link先を確認
Johanna Bj\"orklund, Frank Drewes, and Anna Jonsson(参考訳) グラフに基づく意味表現は自然言語処理において有用であり、言語概念をノードとして表現することは単純で効果的であることが多い。 セマンティックグラフの言語を表現できるほど強力で効率的な解析が可能な生成デバイスを見つけるために、いくつかの試みがなされている。 グラフ拡張文法(graph extension grammar)は、グラフ上の代数と、その代数の演算上で式を生成する正規木文法からなる。 操作の設計により、これらの文法は非構造的な相互関係を持つグラフを生成することができ、抽象的意味表現のような形式的手法では過剰に一般的であるが、既存の装置がほとんどサポートしていないノード共有の一種である。 グラフ拡張文法の構文解析アルゴリズムを提案し、多項式時間で正しいことが証明された。

Graph-based semantic representations are valuable in natural language processing, where it is often simple and effective to represent linguistic concepts as nodes, and relations as edges between them. Several attempts has been made to find a generative device that is sufficiently powerful to represent languages of semantic graphs, while at the same allowing efficient parsing. We add to this line of work by introducing graph extension grammar, which consists of an algebra over graphs together with a regular tree grammar that generates expressions over the operations of the algebra. Due to the design of the operations, these grammars can generate graphs with non-structural reentrancies; a type of node-sharing that is excessively common in formalisms such as abstract meaning representation, but for which existing devices offer little support. We provide a parsing algorithm for graph extension grammars, which is proved to be correct and run in polynomial time.
翻訳日:2021-05-06 12:42:32 公開日:2021-05-05
# DeepRT:エッジ上のコンピュータビジョンアプリケーションのためのソフトリアルタイムスケジューリング

DeepRT: A Soft Real Time Scheduler for Computer Vision Applications on the Edge ( http://arxiv.org/abs/2105.01803v1 )

ライセンス: Link先を確認
Zhe Yang, Klara Nahrstedt, Hongpeng Guo, Qian Zhou(参考訳) スマートフォンカメラとIoTカメラの普及と、近年のディープラーニングとディープニューラルネットワークのブームにより、さまざまなコンピュータビジョン駆動のモバイルおよびIoTアプリケーションがエッジにデプロイされている。 本稿では,与えられた期限内に迅速な応答を希望するデータに対して,ソフトリアルタイム要求を行うアプリケーションについて検討する。 エッジサーバの限られたgpuコンピューティングリソースを共有する要求が相互に干渉するため、マルチテナントエッジサーバでソフトリアルタイムアプリケーションをサポートするのは容易ではない。 この問題に対処するため,GPU実行計画の異なる待ち時間とスループットを総合的に評価した。 そこで本研究では,gpuスケジューラであるdeeprtを提案する。 DeepRTのキーコンポーネントであるDisBatcherは、さまざまなリクエストからデータを可能な限りバッチし、Admission Control Moduleによって承認されたリクエストに対して遅延保証を提供することが証明されている。 DeepRTには、オーバーランに取り組むAdaptation Moduleも含まれている。 評価の結果,DeepRTは納期ミス数やスループットにおいて最先端の作業よりも優れていた。

The ubiquity of smartphone cameras and IoT cameras, together with the recent boom of deep learning and deep neural networks, proliferate various computer vision driven mobile and IoT applications deployed on the edge. This paper focuses on applications which make soft real time requests to perform inference on their data - they desire prompt responses within designated deadlines, but occasional deadline misses are acceptable. Supporting soft real time applications on a multi-tenant edge server is not easy, since the requests sharing the limited GPU computing resources of an edge server interfere with each other. In order to tackle this problem, we comprehensively evaluate how latency and throughput respond to different GPU execution plans. Based on this analysis, we propose a GPU scheduler, DeepRT, which provides latency guarantee to the requests while maintaining high overall system throughput. The key component of DeepRT, DisBatcher, batches data from different requests as much as possible while it is proven to provide latency guarantee for requests admitted by an Admission Control Module. DeepRT also includes an Adaptation Module which tackles overruns. Our evaluation results show that DeepRT outperforms state-of-the-art works in terms of the number of deadline misses and throughput.
翻訳日:2021-05-06 12:41:07 公開日:2021-05-05
# クリック駆動型注意とデュアルパス接続による病変分節と直腸径予測

Lesion Segmentation and RECIST Diameter Prediction via Click-driven Attention and Dual-path Connection ( http://arxiv.org/abs/2105.01828v1 )

ライセンス: Link先を確認
Youbao Tang, Ke Yan, Jinzheng Cai, Lingyun Huang, Guotong Xie, Jing Xiao, Jingjing Lu, Gigin Lin, and Le Lu(参考訳) 腫瘍径の計測は腫瘍の成長を評価する重要なステップであり,腫瘍画像解析における疾患進展と治療反応のモニタリングである。 退屈で時間を要するが、放射線技師はRECIST基準(Response Evaluation Criteria In Solid tumors)を日常的かつ手動で使用することにより、この課題に取り組む必要がある。 病変のセグメンテーションがより正確で臨床的に価値のある手段であるとしても、医師はより重い労働を必要とするため、手動で病変のセグメンテーションを行うことはできない。 本稿では,全身に共通する病変を分割し,そのRECIST径を正確に自動予測する,事前誘導型デュアルパスネットワーク(PDNet)を提案する。 [1]と同様、放射線技師によるクリックガイダンスが唯一の要件である。 PDNetには2つの重要な特徴がある: 1) 提案した先行エンコーダによるクリック先行情報から並列に病変特異的な注意行列を学習する; クリック駆動型注意; 2) 提案するデコーダにトップダウンおよびボトムアップ接続を導入することにより、抽出されたマルチスケール特徴を包括的に集約する。 DeepLesionデータセットと外部テストセットを用いて,病変分割とRECIST径予測におけるPDNetの優位性を示す実験を行った。 PDNetは我々のタスクの包括的かつ代表的な深部画像の特徴を学習し、病変分割とRECIST径予測のどちらにおいてもより正確な結果が得られる。

Measuring lesion size is an important step to assess tumor growth and monitor disease progression and therapy response in oncology image analysis. Although it is tedious and highly time-consuming, radiologists have to work on this task by using RECIST criteria (Response Evaluation Criteria In Solid Tumors) routinely and manually. Even though lesion segmentation may be the more accurate and clinically more valuable means, physicians can not manually segment lesions as now since much more heavy laboring will be required. In this paper, we present a prior-guided dual-path network (PDNet) to segment common types of lesions throughout the whole body and predict their RECIST diameters accurately and automatically. Similar to [1], a click guidance from radiologists is the only requirement. There are two key characteristics in PDNet: 1) Learning lesion-specific attention matrices in parallel from the click prior information by the proposed prior encoder, named click-driven attention; 2) Aggregating the extracted multi-scale features comprehensively by introducing top-down and bottom-up connections in the proposed decoder, named dual-path connection. Experiments show the superiority of our proposed PDNet in lesion segmentation and RECIST diameter prediction using the DeepLesion dataset and an external test set. PDNet learns comprehensive and representative deep image features for our tasks and produces more accurate results on both lesion segmentation and RECIST diameter prediction.
翻訳日:2021-05-06 12:40:48 公開日:2021-05-05
# 連続時間軌道最適化を用いた実時間マルチアダプティブ・リゾリューション・サーフェル6次元LiDARオドメトリー

Real-time Multi-Adaptive-Resolution-Surfel 6D LiDAR Odometry using Continuous-time Trajectory Optimization ( http://arxiv.org/abs/2105.02010v1 )

ライセンス: Link先を確認
Jan Quenzel and Sven Behnke(参考訳) 同時ローカライゼーションとマッピング(slam)は自律ロボットにとって必須の機能だが、3dlidarのリアルタイムslamの高データレートのために難しい。 6次元LiDARオードメトリーのリアルタイム手法を提案する。 本手法は,連続時間b-スプライン軌道表現とガウス混合モデル(gmm)を組み合わせることで,局所多解像度サーフェル写像を協調的に整列する。 スパースボクセルグリッドとペルムトヘドラル格子はマップサーフィンルへの高速アクセスを保証し、適応分解能選択スキームは登録を効果的に高速化する。 実験結果から,2つのデータセットと実ロボット実験におけるアプローチの有効性が示された。

Simultaneous Localization and Mapping (SLAM) is an essential capability for autonomous robots, but due to high data rates of 3D LiDARs real-time SLAM is challenging. We propose a real-time method for 6D LiDAR odometry. Our approach combines a continuous-time B-Spline trajectory representation with a Gaussian Mixture Model (GMM) formulation to jointly align local multi-resolution surfel maps. Sparse voxel grids and permutohedral lattices ensure fast access to map surfels, and an adaptive resolution selection scheme effectively speeds up registration. A thorough experimental evaluation shows the performance of our approach on two datasets and during real-robot experiments.
翻訳日:2021-05-06 12:40:20 公開日:2021-05-05
# VoxelContext-Net: ポイントクラウド圧縮のためのOctreeベースのフレームワーク

VoxelContext-Net: An Octree based Framework for Point Cloud Compression ( http://arxiv.org/abs/2105.02158v1 )

ライセンス: Link先を確認
Zizheng Que, Guo Lu, Dong Xu(参考訳) 本稿では,静的および動的ポイントクラウド圧縮のための2段階のディープラーニングフレームワークvoxelcontext-netを提案する。 提案手法は,オクツリー法とボクセル法の両方の利点を生かして,オクツリー構造データの圧縮にボクセルコンテキストを用いる。 具体的には,構築したオクツリーの各ノードの空間近傍コンテキスト情報を符号化した局所ボクセル表現を抽出する。 そして、エントロピー符号化段階において、非リーフノードのシンボルを損失のない方法で圧縮するボクセルコンテキストに基づくディープエントロピーモデルを提案する。 さらに, 動的点雲圧縮には, 時間的依存を生かすために, 時間的近傍の点雲から局所的なボクセル表現を導入する。 さらに,octree構築手順からの歪みを軽減するため,デコーダ側でより正確な再構成点雲を生成するために,voxelコンテキストに基づく3次元座標補正法を提案する。 静的および動的クラウドベンチマークデータセット(ScanNetやSemantic KITTIなど)の総合的な実験により,新たに提案したVoxelContext-Netによる3次元ポイントクラウド幾何圧縮の有効性が明らかに示された。

In this paper, we propose a two-stage deep learning framework called VoxelContext-Net for both static and dynamic point cloud compression. Taking advantages of both octree based methods and voxel based schemes, our approach employs the voxel context to compress the octree structured data. Specifically, we first extract the local voxel representation that encodes the spatial neighbouring context information for each node in the constructed octree. Then, in the entropy coding stage, we propose a voxel context based deep entropy model to compress the symbols of non-leaf nodes in a lossless way. Furthermore, for dynamic point cloud compression, we additionally introduce the local voxel representations from the temporal neighbouring point clouds to exploit temporal dependency. More importantly, to alleviate the distortion from the octree construction procedure, we propose a voxel context based 3D coordinate refinement method to produce more accurate reconstructed point cloud at the decoder side, which is applicable to both static and dynamic point cloud compression. The comprehensive experiments on both static and dynamic point cloud benchmark datasets(e.g., ScanNet and Semantic KITTI) clearly demonstrate the effectiveness of our newly proposed method VoxelContext-Net for 3D point cloud geometry compression.
翻訳日:2021-05-06 12:40:07 公開日:2021-05-05
# 超音波増幅の再考:物理に着想を得たアプローチ

Rethinking Ultrasound Augmentation: A Physics-Inspired Approach ( http://arxiv.org/abs/2105.02188v1 )

ライセンス: Link先を確認
Maria Tirindelli, Christine Eilers, Walter Simson, Magdalini Paschali, Mohammad Farid Azampour, Nassir Navab(参考訳) 医用超音波(US)は広く使われているが、人工物とオペレーターの依存関係が特徴である。 これらの属性は、コンピュータ支援インターベンションシステムで使用されるディープニューラルネットワークのトレーニングに米国データセットの収集と利用を妨げる。 データ拡張はモデル一般化と性能を高めるために一般的に使用される。 しかし、アフィン変換のような一般的なデータ拡張技術はアメリカの物理学と一致せず、不注意に使用すると非現実的なアメリカの画像に繋がる可能性がある。 そこで本研究では,データ拡張のためのbモード画像に適用する,変形,残響,信号対雑音比など,物理にインスパイアされた変換のセットを提案する。 骨分節と分類のタスクのための新しい脊椎USデータセットについて評価を行った。

Medical Ultrasound (US), despite its wide use, is characterized by artifacts and operator dependency. Those attributes hinder the gathering and utilization of US datasets for the training of Deep Neural Networks used for Computer-Assisted Intervention Systems. Data augmentation is commonly used to enhance model generalization and performance. However, common data augmentation techniques, such as affine transformations do not align with the physics of US and, when used carelessly can lead to unrealistic US images. To this end, we propose a set of physics-inspired transformations, including deformation, reverb and Signal-to-Noise Ratio, that we apply on US B-mode images for data augmentation. We evaluate our method on a new spine US dataset for the tasks of bone segmentation and classification.
翻訳日:2021-05-06 12:39:41 公開日:2021-05-05
# 医療画像セグメンテーションにおける個人レーダスタイルが深層学習の不確実性に及ぼす影響

Impact of individual rater style on deep learning uncertainty in medical imaging segmentation ( http://arxiv.org/abs/2105.02197v1 )

ライセンス: Link先を確認
Olivier Vincent, Charley Gros, Julien Cohen-Adad(参考訳) 複数の研究が医学的セグメンテーションタスクにおけるラター間変動と深層学習モデルの不確実性の関係について検討しているが、個々のレーダスタイルの影響についてはほとんど分かっていない。 本研究では,バイアスと一貫性という形でraterスタイルを定量化し,ディープラーニングモデルのトレーニングに使用する場合の影響について検討する。 脳多発性硬化症と脊髄灰白質セグメンテーションからなる2つの多層公共データセットが用いられた。 どちらのデータセットでも、レーダバイアスとディープラーニングの不確実性との間に相関(R^2 = 0.60$, $0.93$)がある。 この関係に対するレートラーのアノテーション間のラベルの融合の影響についても検討し,マルチセンターのコンセンサスが不確実性を低減するために単一センターのコンセンサスよりも効果的であることを示した。

While multiple studies have explored the relation between inter-rater variability and deep learning model uncertainty in medical segmentation tasks, little is known about the impact of individual rater style. This study quantifies rater style in the form of bias and consistency and explores their impacts when used to train deep learning models. Two multi-rater public datasets were used, consisting of brain multiple sclerosis lesion and spinal cord grey matter segmentation. On both datasets, results show a correlation ($R^2 = 0.60$ and $0.93$) between rater bias and deep learning uncertainty. The impact of label fusion between raters' annotations on this relationship is also explored, and we show that multi-center consensuses are more effective than single-center consensuses to reduce uncertainty, since rater style is mostly center-specific.
翻訳日:2021-05-06 12:39:30 公開日:2021-05-05
# Q-Rater: 後の均一量子化のための非凸最適化

Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization ( http://arxiv.org/abs/2105.01868v1 )

ライセンス: Link先を確認
Byeongwook Kim, Dongsoo Lee, Yeonju Ro, Yongkweon Jeon, Se Jung Kwon, Baeseong Park, Daehwan Oh(参考訳) 様々な訓練後の均一量子化法は、通常凸最適化に基づいて研究されている。 その結果、従来は量子化誤差の最小化や二次近似に頼っていた。 このようなアプローチは、多くの量子化ビットが使われる場合、計算効率が良く合理的である。 しかし、量子化ビット数が比較的低い場合、非凸最適化はモデル精度を向上させるために避けられない。 本稿では,非凸性を考慮した新しいトレーニング後一様量子化手法を提案する。 重みとアクティベーションの切断と丸めのためのハイパーパラメータをタスク損失の監視によって探索できることを実証的に示す。 そして、最適に探索されたハイパーパラメータのセットを凍結して次の層へ進み、トレーニング後の量子化にインクリメンタルな非凸最適化を有効にする。 様々なモデルを用いた広範囲な実験結果を通して,提案手法は,特に低ビット量子化において,高い精度を示す。

Various post-training uniform quantization methods have usually been studied based on convex optimization. As a result, most previous ones rely on the quantization error minimization and/or quadratic approximations. Such approaches are computationally efficient and reasonable when a large number of quantization bits are employed. When the number of quantization bits is relatively low, however, non-convex optimization is unavoidable to improve model accuracy. In this paper, we propose a new post-training uniform quantization technique considering non-convexity. We empirically show that hyper-parameters for clipping and rounding of weights and activations can be explored by monitoring task loss. Then, an optimally searched set of hyper-parameters is frozen to proceed to the next layer such that an incremental non-convex optimization is enabled for post-training quantization. Throughout extensive experimental results using various models, our proposed technique presents higher model accuracy, especially for a low-bit quantization.
翻訳日:2021-05-06 12:38:53 公開日:2021-05-05
# 高次元TS潜時空間における感情的プロトタイプの探索

Exploring emotional prototypes in a high dimensional TTS latent space ( http://arxiv.org/abs/2105.01891v1 )

ライセンス: Link先を確認
Pol van Rijn, Silvan Mertes, Dominik Schiller, Peter M. C. Harrison, Pauline Larrouy-Maestri, Elisabeth Andr\'e, Nori Jacoby(参考訳) 最近のTSシステムは、韻律的に変化し、現実的な音声を生成することができる。 しかし、この韻律的変化が話者の感情状態の知覚にどのように寄与するかは不明である。 本稿では,最近の心理学的パラダイムであるgibbs sampling with peopleを用いて,訓練されたgstタコトロンモデルにおける韻律的潜在空間を探索し,感情的韻律のプロトタイプを探索する。 参加者をオンラインで募集し、生成音声モデルの潜伏空間を逐次適応的に操作することにより、1つのグループに提示された刺激が前のグループの反応によって決定される。 本研究では,(1)モデルの潜伏空間の特定の領域が,特定の感情に確実に関連していること,(2)結果の感情的プロトタイプは,別個のレイパー群によって認識され,(3)これらの感情的プロトタイプは,新しい文章に効果的に転送可能であることを実証する。 これらの実験は、生成モデルの潜在空間と人間の意味論との関係を探求するツールを提供することにより、感情音声を理解するための新しいアプローチを示す。

Recent TTS systems are able to generate prosodically varied and realistic speech. However, it is unclear how this prosodic variation contributes to the perception of speakers' emotional states. Here we use the recent psychological paradigm 'Gibbs Sampling with People' to search the prosodic latent space in a trained GST Tacotron model to explore prototypes of emotional prosody. Participants are recruited online and collectively manipulate the latent space of the generative speech model in a sequentially adaptive way so that the stimulus presented to one group of participants is determined by the response of the previous groups. We demonstrate that (1) particular regions of the model's latent space are reliably associated with particular emotions, (2) the resulting emotional prototypes are well-recognized by a separate group of human raters, and (3) these emotional prototypes can be effectively transferred to new sentences. Collectively, these experiments demonstrate a novel approach to the understanding of emotional speech by providing a tool to explore the relation between the latent space of generative models and human semantics.
翻訳日:2021-05-06 12:38:40 公開日:2021-05-05
# CoSA:空間加速器の制約付き最適化によるスケジューリング

CoSA: Scheduling by Constrained Optimization for Spatial Accelerators ( http://arxiv.org/abs/2105.01898v1 )

ライセンス: Link先を確認
Qijing Huang, Minwoo Kang, Grace Dinh, Thomas Norell, Aravind Kalaiah, James Demmel, John Wawrzynek, Yakun Sophia Shao(参考訳) 近年のディープニューラルネットワーク(DNN)の進歩により、専門的なDNNアクセラレータが活発に開発され、多くの処理要素が空間的にレイアウトされ、マルチレベルメモリ階層とフレキシブルな相互接続が実現されている。 DNNアクセラレータはデータの再利用と高いスループットを実現することができるが、空間的にも時間的にも計算のスケジュールを明示的に管理する必要があるプログラマには、多数のランタイムパラメータを公開することもできる。 実際、異なるスケジューリング選択は、広範囲なスケジューリング空間をナビゲートする高速で効率的な検索戦略の必要性を動機として、パフォーマンスと効率の幅広いバリエーションをもたらす可能性がある。 この課題に対処するために、DNNアクセラレーターをスケジューリングするための制約最適化に基づくアプローチであるCoSAを提案する。 設計者のヒューリスティックや反復的な方法で探索空間をナビゲートする既存のアプローチとは対照的に、CoSAはスケジューリング決定を、数学的最適化手法を用いて決定的に解決できる制約最適化問題として表現している。 特に、CoSAはDNN演算子とハードウェアの規則性を活用して、DNNスケジューリング空間をアルゴリズムとアーキテクチャの制約を伴う混合整数プログラミング(MIP)問題に定式化し、1ショットで高効率なスケジュールを自動的に生成することができる。 我々は,CoSAが生成するスケジュールが,幅広いDNNネットワークにおいて最大2.5倍の幾何平均で最先端のアプローチを著しく上回り,解法時間も90倍向上することを示した。

Recent advances in Deep Neural Networks (DNNs) have led to active development of specialized DNN accelerators, many of which feature a large number of processing elements laid out spatially, together with a multi-level memory hierarchy and flexible interconnect. While DNN accelerators can take advantage of data reuse and achieve high peak throughput, they also expose a large number of runtime parameters to the programmers who need to explicitly manage how computation is scheduled both spatially and temporally. In fact, different scheduling choices can lead to wide variations in performance and efficiency, motivating the need for a fast and efficient search strategy to navigate the vast scheduling space. To address this challenge, we present CoSA, a constrained-optimization-based approach for scheduling DNN accelerators. As opposed to existing approaches that either rely on designers' heuristics or iterative methods to navigate the search space, CoSA expresses scheduling decisions as a constrained-optimization problem that can be deterministically solved using mathematical optimization techniques. Specifically, CoSA leverages the regularities in DNN operators and hardware to formulate the DNN scheduling space into a mixed-integer programming (MIP) problem with algorithmic and architectural constraints, which can be solved to automatically generate a highly efficient schedule in one shot. We demonstrate that CoSA-generated schedules significantly outperform state-of-the-art approaches by a geometric mean of up to 2.5x across a wide range of DNN networks while improving the time-to-solution by 90x.
翻訳日:2021-05-06 12:38:20 公開日:2021-05-05
# 指紋による局所化の精度を高めるための合成データの利用-深層学習アプローチ

Using Synthetic Data to Enhance the Accuracy of Fingerprint-Based Localization: A Deep Learning Approach ( http://arxiv.org/abs/2105.01903v1 )

ライセンス: Link先を確認
Mohammad Nabati, Hojjat Navidan, Reza Shahbazian, Seyed Ali Ghorashi and David Windridge(参考訳) 人間中心のデータ収集は一般的にコストがかかり、プライバシーの問題を引き起こす。 クラウドソースデータ収集や半教師付きアルゴリズムの使用など,このコスト削減のためのさまざまなソリューションが文献で提案されている。 しかし、半教師付きアルゴリズムはラベルのないデータのソースを必要とし、クラウドソーシング手法はアクティブな参加者の数を必要とする。 もう一つの受動的データ収集モダリティは指紋ベースのローカライゼーションである。 このような方法は、無線センサネットワークにおける受信信号強度(RSS)またはチャネル状態情報(CSI)を用いて、利用者を屋内/屋外環境にローカライズする。 本稿では,指紋による位置推定におけるトレーニングデータ収集コストを,合成データを用いて削減する手法を提案する。 GAN(Generative Adversarial Network)は、収集されたデータの限られたサンプルの分布を学習するために使用され、それに続いて、実際の収集データを増大させ、全体の位置決め精度を高めるために使用できる合成データを生成する。 ベンチマークデータセットにおける実験結果から,提案手法を適用し,10%の収集データと90%の合成データの組み合わせを用いることで,収集した全データを用いて得られる測位精度と本質的に類似した測位精度が得られることがわかった。 つまり、GAN生成合成データを使用することで、90%少ない実データを使用することで、許容精度を達成しつつ、データ収集コストを削減できる。

Human-centered data collection is typically costly and implicates issues of privacy. Various solutions have been proposed in the literature to reduce this cost, such as crowdsourced data collection, or the use of semi-supervised algorithms. However, semi-supervised algorithms require a source of unlabeled data, and crowd-sourcing methods require numbers of active participants. An alternative passive data collection modality is fingerprint-based localization. Such methods use received signal strength (RSS) or channel state information (CSI) in wireless sensor networks to localize users in indoor/outdoor environments. In this paper, we introduce a novel approach to reduce training data collection costs in fingerprint-based localization by using synthetic data. Generative adversarial networks (GANs) are used to learn the distribution of a limited sample of collected data and, following this, to produce synthetic data that can be used to augment the real collected data in order to increase overall positioning accuracy. Experimental results on a benchmark dataset show that by applying the proposed method and using a combination of 10% collected data and 90% synthetic data, we can obtain essentially similar positioning accuracy to that which would be obtained by using the full set of collected data. This means that by employing GAN-generated synthetic data, we can use 90% less real data, thereby reduce data-collection costs while achieving acceptable accuracy.
翻訳日:2021-05-06 12:37:53 公開日:2021-05-05
# 深層学習マウスにおけるREM前睡眠の自動評価

Automated scoring of pre-REM sleep in mice with deep learning ( http://arxiv.org/abs/2105.01933v1 )

ライセンス: Link先を確認
Niklas Grieger, Justus T. C. Schwabedal, Stefanie Wendel, Yvonne Ritze, Stephan Bialonski(参考訳) 動物睡眠を評価するための労働集約マニュアルの信頼性の高い自動化は、長期睡眠研究の分析を容易にする。 近年、データから最適な特徴を学習するディープラーニングベースのシステムは、Wake、REM、Non-REMの古典的な睡眠ステージにおける評価精度を高めている。 一方、Non-REMとREMの間に見られるREMのような移行段階の統計は、睡眠の生理学に関するさらなる洞察を与えており、現在、活発な調査が行われていると認識されている。 本稿では,古典期とマウスのレム前睡眠をスコア付けする,単純なニューラルネットワークアーキテクチャに基づく分類システムを提案する。 古典的な段階に限定されると、最適化されたネットワークは最先端の分類性能を示し、サンプル外F1スコアは0.95である。 制限のない場合、ネットワークは従来のステージに比べて、プレREM(0.5)で低いF1スコアを示した。 この結果は、ラットの移行睡眠やヒトのN1睡眠など、他の種の移行段階を測る以前の試みに匹敵する。 いずれにせよ, プレREMを含む予測の順序は, 人間のスコアラーが観察した睡眠動態を反映する非REMからREMへ移行した。 以上の結果から、典型的なデータセットでは睡眠の段階が過小評価されているか、ストーラー間変動が大きいことが示唆された。 さらに、トレーニングされたネットワークで予測を実行するためのソースコードとオンラインプラットフォームも提供します。

Reliable automation of the labor-intensive manual task of scoring animal sleep can facilitate the analysis of long-term sleep studies. In recent years, deep-learning-based systems, which learn optimal features from the data, increased scoring accuracies for the classical sleep stages of Wake, REM, and Non-REM. Meanwhile, it has been recognized that the statistics of transitional stages such as pre-REM, found between Non-REM and REM, may hold additional insight into the physiology of sleep and are now under vivid investigation. We propose a classification system based on a simple neural network architecture that scores the classical stages as well as pre-REM sleep in mice. When restricted to the classical stages, the optimized network showed state-of-the-art classification performance with an out-of-sample F1 score of 0.95. When unrestricted, the network showed lower F1 scores on pre-REM (0.5) compared to the classical stages. The result is comparable to previous attempts to score transitional stages in other species such as transition sleep in rats or N1 sleep in humans. Nevertheless, we observed that the sequence of predictions including pre-REM typically transitioned from Non-REM to REM reflecting sleep dynamics observed by human scorers. Our findings provide further evidence for the difficulty of scoring transitional sleep stages, likely because such stages of sleep are under-represented in typical data sets or show large inter-scorer variability. We further provide our source code and an online platform to run predictions with our trained network.
翻訳日:2021-05-06 12:37:31 公開日:2021-05-05
# 説明可能な機械学習を用いた医療データに対する攻撃非依存の逆検出

Attack-agnostic Adversarial Detection on Medical Data Using Explainable Machine Learning ( http://arxiv.org/abs/2105.01959v1 )

ライセンス: Link先を確認
Matthew Watson (1) and Noura Al Moubayed (1) ((1) Durham University, Durham, UK)(参考訳) 特に、倫理的かつ信頼できる自動意思決定に説明可能なモデルが不可欠である医療において、説明可能な機械学習が普及している。 敵の攻撃に対するディープラーニングモデルの感受性に関する研究は、モデルを見誤って誤った予測を行うためのサンプル設計の容易さを示している。 本研究では,電子健康記録 (EHR) と胸部X線データ (CXR) の2つのデータから, 敵検体を正確に検出するためのモデル非依存的説明可能性に基づく手法を提案する。 MIMIC-IIIとHenan-Renmin EHRデータセットでは,縦方向逆襲に対する検出精度が77%であった。 MIMIC-CXRデータセットでは88%の精度を実現し、すべての設定において、両方のデータセットにおける敵検出技術の現状を10%以上改善した。 そこで本研究では,異なる攻撃手法に一般化可能な逆検体を,再訓練を必要とせずに検出する手法を提案する。

Explainable machine learning has become increasingly prevalent, especially in healthcare where explainable models are vital for ethical and trusted automated decision making. Work on the susceptibility of deep learning models to adversarial attacks has shown the ease of designing samples to mislead a model into making incorrect predictions. In this work, we propose a model agnostic explainability-based method for the accurate detection of adversarial samples on two datasets with different complexity and properties: Electronic Health Record (EHR) and chest X-ray (CXR) data. On the MIMIC-III and Henan-Renmin EHR datasets, we report a detection accuracy of 77% against the Longitudinal Adversarial Attack. On the MIMIC-CXR dataset, we achieve an accuracy of 88%; significantly improving on the state of the art of adversarial detection in both datasets by over 10% in all settings. We propose an anomaly detection based method using explainability techniques to detect adversarial samples which is able to generalise to different attack methods without a need for retraining.
翻訳日:2021-05-06 12:37:10 公開日:2021-05-05
# プライマル・ダイアル分解とディープアンロールによる2段階確率最適化

Two-Stage Stochastic Optimization via Primal-Dual Decomposition and Deep Unrolling ( http://arxiv.org/abs/2105.01853v1 )

ライセンス: Link先を確認
An Liu, Rui Yang, Tony Q. S. Quek and Min-Jian Zhao(参考訳) 目的関数と制約関数の両方において、長期最適化変数と短期最適化変数のセットを結合した2段階確率最適化問題を考える。 2段階確率最適化は様々な工学や科学的応用において重要な役割を担っているが、特に長期変数と短期変数が制約に組み合わさった場合、効率的アルゴリズムが欠けている。 密結合型確率論的制約によって引き起こされる課題を克服するため,まず2段階の原始双対分解法(PDD)を構築し,2段階の問題を長期問題と短期サブプロブレム群に分解する。 次に,2段階確率最適化問題に対するKKT解を求めるために,PDD-SSCAアルゴリズムフレームワークを提案する。 各イテレーションにおいて、PDD-SSCAはまず短期的なサブアルゴリズムを実行し、状態サンプルのミニバッチに関連する短期的なサブプロブレムの定常点を見つける。 次に,短期的部分アルゴリズムの深部展開と後方伝播法に基づいて,長期的問題に対する凸代理を構築する。 最後に、凸代理問題の最適解を解いて次の繰り返しを生成する。 PDD-SSCAのほぼ確実に収束を確立し、2つの重要なアプリケーション問題を解決するためにアルゴリズムフレームワークをカスタマイズする。 シミュレーションにより、PDD-SSCAは既存のソリューションよりも優れた性能が得られることが示された。

We consider a two-stage stochastic optimization problem, in which a long-term optimization variable is coupled with a set of short-term optimization variables in both objective and constraint functions. Despite that two-stage stochastic optimization plays a critical role in various engineering and scientific applications, there still lack efficient algorithms, especially when the long-term and short-term variables are coupled in the constraints. To overcome the challenge caused by tightly coupled stochastic constraints, we first establish a two-stage primal-dual decomposition (PDD) method to decompose the two-stage problem into a long-term problem and a family of short-term subproblems. Then we propose a PDD-based stochastic successive convex approximation (PDD-SSCA) algorithmic framework to find KKT solutions for two-stage stochastic optimization problems. At each iteration, PDD-SSCA first runs a short-term sub-algorithm to find stationary points of the short-term subproblems associated with a mini-batch of the state samples. Then it constructs a convex surrogate for the long-term problem based on the deep unrolling of the short-term sub-algorithm and the back propagation method. Finally, the optimal solution of the convex surrogate problem is solved to generate the next iterate. We establish the almost sure convergence of PDD-SSCA and customize the algorithmic framework to solve two important application problems. Simulations show that PDD-SSCA can achieve superior performance over existing solutions.
翻訳日:2021-05-06 12:35:23 公開日:2021-05-05
# 不規則空間の最適表現に向けたスパースニューラルネットワークの逐次暗号化

Sequential Encryption of Sparse Neural Networks Toward Optimum Representation of Irregular Sparsity ( http://arxiv.org/abs/2105.01869v1 )

ライセンス: Link先を確認
Baeseong Park, Se Jung Kwon, Dongsoo Lee, Daehwan Oh, Byeongwook Kim, Yongkweon Jeon, Yeonju Ro(参考訳) 微細プルーニング技術は高い圧縮比を達成するが、従来のスペーシティ表現(CSRなど)は不規則スペーシティの並列性を著しく低下させる。 したがって、実際のプルーニング法は(構造的プルーニングによる)より低いプルーニング率で並列性を改善する。 本稿では,sparseニューラルネットワークを高規則な構造に格納できる細粒度プルーニング法をサポートするため,固定固定型(損失なし)暗号アーキテクチャ/アルゴリズムについて検討する。 まずエントロピーを用いた暗号ベースの圧縮の最大圧縮比を推定する。 そこで,(エントロピーによる)圧縮比を理論的な最大値に押し上げるため,逐次固定対固定暗号方式を提案する。 提案する圧縮方式は, 様々な細粒度プルーニング法により, トランスおよびresnet-50プルーニングの最大圧縮比をほぼ達成できることを実証する。

Even though fine-grained pruning techniques achieve a high compression ratio, conventional sparsity representations (such as CSR) associated with irregular sparsity degrade parallelism significantly. Practical pruning methods, thus, usually lower pruning rates (by structured pruning) to improve parallelism. In this paper, we study fixed-to-fixed (lossless) encryption architecture/algorithm to support fine-grained pruning methods such that sparse neural networks can be stored in a highly regular structure. We first estimate the maximum compression ratio of encryption-based compression using entropy. Then, as an effort to push the compression ratio to the theoretical maximum (by entropy), we propose a sequential fixed-to-fixed encryption scheme. We demonstrate that our proposed compression scheme achieves almost the maximum compression ratio for the Transformer and ResNet-50 pruned by various fine-grained pruning methods.
翻訳日:2021-05-06 12:35:00 公開日:2021-05-05
# フェアランキングが不確実な推論に出会ったとき

When Fair Ranking Meets Uncertain Inference ( http://arxiv.org/abs/2105.02091v1 )

ライセンス: Link先を確認
Avijit Ghosh, Ritam Dutt, Christo Wilson(参考訳) 既存の公正ランキングシステム、特に人口統計学的に公平であるように設計されたシステムは、個人に関する正確な人口統計情報をランキングアルゴリズムで利用できると仮定する。 しかし実際には、この仮定は -- 求職者や信用求職者のような現実世界の文脈では、社会的および法的障壁は、アルゴリズムオペレーターが人々の人口統計情報を収集することを妨げる可能性がある。 この場合、アルゴリズムオペレータは、人々の人口動態を推測し、これらの推論をランキングアルゴリズムの入力として提供しようとする。 本研究では,人口統計学における不確実性と誤りが,公正ランキングアルゴリズムによって提供される公平性にどのように影響するかを検討する。 実データを用いたシミュレーションと3つのケーススタディを用いて、実システムから引き出された人口統計学的推論が不公平なランキングにどのようにつながるかを示す。 以上の結果から,推測が極めて正確でない限り,推定された人口統計データを公平なランキングアルゴリズムの入力として使用するべきではないことが示唆された。

Existing fair ranking systems, especially those designed to be demographically fair, assume that accurate demographic information about individuals is available to the ranking algorithm. In practice, however, this assumption may not hold -- in real-world contexts like ranking job applicants or credit seekers, social and legal barriers may prevent algorithm operators from collecting peoples' demographic information. In these cases, algorithm operators may attempt to infer peoples' demographics and then supply these inferences as inputs to the ranking algorithm. In this study, we investigate how uncertainty and errors in demographic inference impact the fairness offered by fair ranking algorithms. Using simulations and three case studies with real datasets, we show how demographic inferences drawn from real systems can lead to unfair rankings. Our results suggest that developers should not use inferred demographic data as input to fair ranking algorithms, unless the inferences are extremely accurate.
翻訳日:2021-05-06 12:34:43 公開日:2021-05-05
# 局所的グローバルネットワークと識別的話者埋め込みを持つ可変数の話者に対するエンドツーエンドダイアリゼーション

End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings ( http://arxiv.org/abs/2105.02096v1 )

ライセンス: Link先を確認
Soumi Maiti, Hakan Erdogan, Kevin Wilson, Scott Wisdom, Shinji Watanabe and John R. Hershey(参考訳) 本稿では,シングルチャネル音声録音から会議ダイアリゼーションを行うエンド・ツー・エンドのディープ・ネットワークモデルを提案する。 エンドツーエンドダイアリゼーションモデルは、従来のクラスタリングベースのダイアリゼーション法とは異なり、話者重複の処理と識別訓練の簡単な処理を可能にする利点がある。 提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。 本稿では,ローカルな畳み込みネットワークとグローバルな自己認識モジュール,話者識別コンポーネントを用いたマルチタスク転送学習,第2ステージでモデルの改良を行うシーケンシャルアプローチなど,ダイアリゼーションのパフォーマンス向上に寄与するいくつかのコンポーネントを紹介する。 これらは、librispeechとlibrittsデータセットに基づくシミュレーションミーティングデータに基づいてトレーニングおよび検証され、最終的な評価は、スピーカー再生による実際の音響を用いて記録されたシミュレーション会議からなるlibricsを使用して行われる。 提案手法は,従来提案していたエンドツーエンドダイアリゼーションモデルよりも高性能である。

We present an end-to-end deep network model that performs meeting diarization from single-channel audio recordings. End-to-end diarization models have the advantage of handling speaker overlap and enabling straightforward handling of discriminative training, unlike traditional clustering-based diarization methods. The proposed system is designed to handle meetings with unknown numbers of speakers, using variable-number permutation-invariant cross-entropy based loss functions. We introduce several components that appear to help with diarization performance, including a local convolutional network followed by a global self-attention module, multi-task transfer learning using a speaker identification component, and a sequential approach where the model is refined with a second stage. These are trained and validated on simulated meeting data based on LibriSpeech and LibriTTS datasets; final evaluations are done using LibriCSS, which consists of simulated meetings recorded using real acoustics via loudspeaker playback. The proposed model performs better than previously proposed end-to-end diarization models on these data.
翻訳日:2021-05-06 12:34:25 公開日:2021-05-05
# H-TD2:適応型都市タクシーディスパッチのためのハイブリッド時間差学習

H-TD2: Hybrid Temporal Difference Learning for Adaptive Urban Taxi Dispatch ( http://arxiv.org/abs/2105.02138v1 )

ライセンス: Link先を確認
Benjamin Rivi\`ere and Soon-Jo Chung(参考訳) h-td2: hybrid temporal difference learning for taxi dispatch, a model-free, adaptive decision-making algorithm for a large fleet of automated taxis in an dynamic urban environment (h-td2: hybrid temporal difference learning for taxi dispatch)。 我々のスケーラブルなアルゴリズムは、各タクシーでローカルに計算された時間差分学習と、ディスパッチセンターで計算された頻度の低いベルマン更新の2つの挙動を切り替えることで、自然輸送ネットワーク企業のトポロジを利用する。 本研究では,計算複雑性と個別タクシー政策の有界準最適性との間のトレードオフを明示的に制御する2つの動作間のトリガ条件を導出し,その制御条件を設計する。 さらに、最近の強化学習ディスパッチ法とは異なり、このポリシー推定はトレーニング外ドメインイベントに適応し、堅牢である。 ポリシーはエージェントに依存しない細胞ベースのマルコフ決定プロセスで学習され、個々のタクシーは分散ゲーム理論タスク割り当てにおいて学習されたポリシーを使用して調整される。 シミュレーションされた顧客データセットを用いて,Gridworld環境における水平方向制御ベースラインの後退に対するアルゴリズムの有効性を検証し,提案手法により,幅広いパラメータに対して平均顧客待ち時間を50%削減する。 また,2016年のメジャーリーグ・ワールドシリーズにおける不規則な顧客分布に対して,提案手法が平均的な顧客待機時間を26%削減するシカゴ・タクシー・パブリック・データセットからの実際の顧客要求をシカゴ市環境で検証した。

We present H-TD2: Hybrid Temporal Difference Learning for Taxi Dispatch, a model-free, adaptive decision-making algorithm to coordinate a large fleet of automated taxis in a dynamic urban environment to minimize expected customer waiting times. Our scalable algorithm exploits the natural transportation network company topology by switching between two behaviors: distributed temporal-difference learning computed locally at each taxi and infrequent centralized Bellman updates computed at the dispatch center. We derive a regret bound and design the trigger condition between the two behaviors to explicitly control the trade-off between computational complexity and the individual taxi policy's bounded sub-optimality; this advances the state of the art by enabling distributed operation with bounded-suboptimality. Additionally, unlike recent reinforcement learning dispatch methods, this policy estimation is adaptive and robust to out-of-training domain events. This result is enabled by a two-step modelling approach: the policy is learned on an agent-agnostic, cell-based Markov Decision Process and individual taxis are coordinated using the learned policy in a distributed game-theoretic task assignment. We validate our algorithm against a receding horizon control baseline in a Gridworld environment with a simulated customer dataset, where the proposed solution decreases average customer waiting time by 50% over a wide range of parameters. We also validate in a Chicago city environment with real customer requests from the Chicago taxi public dataset where the proposed solution decreases average customer waiting time by 26% over irregular customer distributions during a 2016 Major League Baseball World Series game.
翻訳日:2021-05-06 12:34:06 公開日:2021-05-05