このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210223となっている論文です。

PDF登録状況(公開日: 20210223)

TitleAuthorsAbstract論文公表日・翻訳日
# 相互に偏りのない基底の研究から生じる乗法関数

Multiplicative functions arising from the study of mutually unbiased bases ( http://arxiv.org/abs/2003.03733v4 )

ライセンス: Link先を確認
Heng Huat Chan and Berthold-Georg Englert(参考訳) 量子物理学のヒルベルト空間における相互に偏りのない基底の研究中に2010年にセレンディピタブルに発見された幾分珍しい乗法函数を、その特定の例の一般化として構成する2つの乗法函数の族に埋め込む。 さらに、さらに別の乗法関数を報告し、これはその例によっても示唆される:指数和の観点から整数の平方自由部分を表現するのに使うことができる。

We embed the somewhat unusual multiplicative function, which was serendipitously discovered in 2010 during a study of mutually unbiased bases in the Hilbert space of quantum physics, into two families of multiplicative functions that we construct as generalizations of that particular example. In addition, we report yet another multiplicative function, which is also suggested by that example; it can be used to express the squarefree part of an integer in terms of an exponential sum.
翻訳日:2023-05-30 05:09:02 公開日:2021-02-23
# リンドブラッド方程式を持つPT対称非エルミートハミルトン多様体の密度行列形式

Density Matrix Formalism for PT-Symmetric Non-Hermitian Hamiltonians with the Lindblad Equation ( http://arxiv.org/abs/2006.02445v2 )

ライセンス: Link先を確認
Tommy Ohlsson, Shun Zhou(参考訳) リンドブラッド・デコヒーレンス(Lindblad decoherence)、すなわち環境との相互作用による開量子系における散逸効果の存在下で、非エルミート的ハミルトニアンとリンドブラッド方程式によって記述される2レベル量子系における固有状態間の遷移確率について検討する。 まず, pt対称非エルミートハミルトン系の密度行列形式化法を開発した。 リンドブラッド作用素 $L^{}_j$ は擬エルミート的であり、つまり、$\eta L^{}_j \eta^{-1} = L^\dagger_j$ で、$\eta$ は線型かつ正定値な計量であり、PT対称性も尊重する。 一般化された密度行列 $\rho^{}_{\rm g}(t) \equiv \rho(t) \eta$ は正規化密度行列 $\rho^{}_{\rm n}(t) \equiv \rho(t)/{\rm tr}\left[\rho(t)\right]$ の代わりに線形性要求に応じて遷移確率を計算するために実装されるべきである。 第二に、密度行列形式論は、pt対称非エルミートハミルトニアンの一般の場合の遷移確率を導出するために用いられる。 いくつかの具体例では、遷移確率のコンパクトな解析式を計算し、その主な特徴を数値図解を用いて探索する。 また,lindbladデコヒーレンスのない状態ベクトルを用いて,これまでの結果との比較を行った。

In the presence of Lindblad decoherence, i.e. dissipative effects in an open quantum system due to interaction with an environment, we examine the transition probabilities between the eigenstates in the two-level quantum system described by non-Hermitian Hamiltonians with the Lindblad equation, for which the parity-time-reversal (PT) symmetry is conserved. First, the density matrix formalism for PT-symmetric non-Hermitian Hamiltonian systems is developed. It is shown that the Lindblad operators $L^{}_j$ are pseudo-Hermitian, namely, $\eta L^{}_j \eta^{-1} = L^\dagger_j$ with $\eta$ being a linear and positive-definite metric, and respect the PT symmetry as well. We demonstrate that the generalized density matrix $\rho^{}_{\rm G}(t) \equiv \rho(t) \eta$, instead of the normalized density matrix $\rho^{}_{\rm N}(t) \equiv \rho(t)/{\rm tr}\left[\rho(t)\right]$, should be implemented for the calculation of the transition probabilities in accordance with the linearity requirement. Second, the density matrix formalism is used to derive the transition probabilities in general cases of PT-symmetric non-Hermitian Hamiltonians. In some concrete examples, we calculate compact analytical formulas for the transition probabilities and explore their main features with numerical illustrations. We also make a comparison between our present results and our previous ones using state vectors in the absence of Lindblad decoherence.
翻訳日:2023-05-17 06:33:11 公開日:2021-02-23
# 拡張不確かさ原理をもつ3次元空間におけるDKPオシレータの厳密解

Exact Solutions of the DKP Oscillator in 3D Spaces with Extended Uncertainty Principle ( http://arxiv.org/abs/2006.15593v2 )

ライセンス: Link先を確認
Mokhtar Falek, Mustafa Moumni and Mahmoud Merad(参考訳) スピン0およびスピン1の場合の3次元ダフィン-ケムマー-ペティオウ発振器の正確な解を、反ド・ジッターモデルにおける運動量の不確かさの最小の存在下で提示する。ベクトル球面高調波とニキフォロフ-ウバロフ法を用いて、全ての場合におけるエネルギー固有値と固有関数を正確に決定する。 エネルギースペクトルの研究により、ベクトル粒子の自然なパリティ状態と不自然なパリティ状態の新しい解釈が定義でき、このパリティ間の微分においてスピン軌道結合が果たす重要な役割が示されている。

We present the exact solution of the three-dimensional Duffin--Kemmer--Petiau oscillator for both spin 0 and spin 1 cases, with the presence of minimal uncertainty in momentum in anti--de Sitter model. We use the representation of vector spherical harmonics and the Nikiforov--Uvarov method to determine exactly the energy eigenvalues and the eigenfunctions in all cases. Our study of the energy spectrum allows us to define a new interpretation of natural and unnatural parity states of the vector particle and we show the crucial role played by the spin--orbit coupling in this differentiation between the parities.
翻訳日:2023-05-12 05:41:53 公開日:2021-02-23
# 複数のシーケンシャルオブザーバによる3量子状態の真のアインシュタイン・ポドルスキー・ローゼンステアリング

Genuine Einstein-Podolsky-Rosen steering of three-qubit states by multiple sequential observers ( http://arxiv.org/abs/2007.03552v3 )

ライセンス: Link先を確認
Shashank Gupta, Ananda G. Maity, Debarshi Das, Arup Roy and A. S. Majumdar(参考訳) アインシュタイン・ポドルスキー・ローゼン (epr) 操舵における3量子ビット状態の1コピーの複数使用の可能性について検討した。 グリーンバーガー・ホーネ・ザイリンガー型(GHZ)またはW型(W型)の純粋な3ビット状態は、2つの翼の固定された観測者と、非シャープまたは非プロジェクティブな測定を行う第3翼の複数の観測者の間で共有される。 第3翼の複数の観測者のそれぞれに対する測定設定の選択は独立であり、以前の観測者の測定設定と結果とは無関係である。 以上のセットアップにおいて, (2->1) および (1->2) の真の三部体操舵の可能性について検討した。 いずれの場合においても,三成分ステアリングの不等式に違反して本物のeprステアリングを実演できる第3翼のオブザーバー数の上限を得る。 我々は、GHZ状態が、W状態よりも多くのオブザーバを許容していることを示す。 さらに, (1->2) ステアリングは, (2->1) ステアリングケースに比べてシャープネスパラメータの範囲が広い場合にも可能である。

We investigate the possibility of multiple use of a single copy of three-qubit states for genuine tripartite Einstein-Podolsky-Rosen (EPR) steering. A pure three-qubit state of either the Greenberger-Horne-Zeilinger (GHZ)-type or W-type is shared between two fixed observers in two wings and a sequence of multiple observers in the third wing who perform unsharp or non-projective measurements. The choice of measurement settings for each of the multiple observers in the third wing is independent and uncorrelated with the measurement settings and outcomes of the previous observers. We investigate all possible types of (2->1) and (1->2) genuine tripartite steering in the above set-up. For each case, we obtain an upper limit on the number of observers on the third wing who can demonstrate genuine EPR steering through violation of a tripartite steering inequality. We show that the GHZ state allows for a higher number of observers compared to that for W state. Additionally, (1->2) steering is possible for a larger range of the sharpness parameter compared to that for the (2->1) steering cases.
翻訳日:2023-05-11 01:39:43 公開日:2021-02-23
# 波長可変ナノフォトニック環境を用いた六方晶窒化ホウ素量子エミッタのナノスケール軸位置と配向測定

Nanoscale axial position and orientation measurement of hexagonal boron nitride quantum emitters using a tunable nanophotonic environment ( http://arxiv.org/abs/2007.07811v2 )

ライセンス: Link先を確認
Pankaj K. Jha, Hamidreza Akbari, Yonghwi Kim, Souvik Biswas, Harry A. Atwater(参考訳) 六方晶窒化ホウ素(hBN)の発色中心は室温での発光特性から単光子エミッタ(SPE)の候補として期待されている。 単層および少数層hBNとは対照的に、多層フレークの色中心は、飽和数やスペクトル安定性などの優れた発光特性を示す。 本稿では, 相変化材料である二酸化バナジウム(vo2)を用いて, 状態の光子局所密度を調整し, 厚いhbnフレーク中のspeの軸位置と3次元双極子配向を判定する方法を提案する。 研究中のエミッタは強い表面正規双極子配向を示し、厚い結晶に深く埋め込まれたhBN SPEの原子構造に関する洞察を与える。 我々は、hBNのフレークをVO2からSiO2/Si基板に再現的に転写し、同じエミッタを移動させるホットピックアップ手法を最適化した。 本手法は,量子フォトニクスシステムに統合される前に,hBNにおけるSPEを体系的に特徴付けるための実用的な手法として機能する。

Color centers in hexagonal boron nitride (hBN) have emerged as promising candidates for single-photon emitters (SPEs) due to their bright emission characteristics at room temperature. In contrast to mono- and few-layered hBN, color centers in multi-layered flakes show superior emission characteristics such as higher saturation counts and spectral stability. Here, we report a method for determining both the axial position and three-dimensional dipole orientation of SPEs in thick hBN flakes by tuning the photonic local density of states using vanadium dioxide (VO2), a phase change material. Emitters under study exhibit a strong surface-normal dipole orientation, providing some insight on the atomic structure of hBN SPEs, deeply embedded in thick crystals. We have optimized a hot pickup technique to reproducibly transfer flakes of hBN from VO2 onto SiO2/Si substrate and relocated the same emitters. Our approach serves as a practical method to systematically characterize SPEs in hBN prior to integration in quantum photonics systems.
翻訳日:2023-05-09 09:14:58 公開日:2021-02-23
# 量子線形系問題における量子状態検証の複雑さ

Complexity of quantum state verification in the quantum linear systems problem ( http://arxiv.org/abs/2007.15698v2 )

ライセンス: Link先を確認
Rolando D. Somma and Yigit Subasi(参考訳) A \vec x = \vec b$ という形の線形方程式の系を解く文脈における量子状態検証の複雑さを解析する。 与えられた量子状態が量子線型系の問題の解から一定の距離内にあるかどうかを検証する量子演算は、$q=\Omega(\kappa)$ 量子状態 $\left| b \right>$ を準備するユニタリの使用が必要であり、その逆は$\vec b$ に比例する。 ここで、$\kappa$ は行列 $a$ の条件数である。 典型的な場合、$q=\Omega(\sqrt \kappa)$ は高い確率で表される。 これらの下限は、量子線形系問題に対する既知の量子アルゴリズムを用いて量子状態検証を行うとほぼ達成される。 また、準備および測定型の検証手順によって必要となる$\left| b \right>$のコピー数を分析する。 この場合、下界は2次に悪化し、最悪の場合は$\Omega(\kappa^2)$、確率の高い典型的な場合$\Omega(\kappa)$である。 我々は,この問題に対する既知の変分的および関連するアプローチに対する結果の影響について論じる。状態準備,ゲートおよび測定誤差は,最悪の場合や,エラー訂正が使用されていない場合の典型的なインスタンスに対して$\kappa$ で急速に減少しなければならず,いくつかの未解決な問題を示す。

We analyze the complexity of quantum state verification in the context of solving systems of linear equations of the form $A \vec x = \vec b$. We show that any quantum operation that verifies whether a given quantum state is within a constant distance from the solution of the quantum linear systems problem requires $q=\Omega(\kappa)$ uses of a unitary that prepares a quantum state $\left| b \right>$, proportional to $\vec b$, and its inverse in the worst case. Here, $\kappa$ is the condition number of the matrix $A$. For typical instances, we show that $q=\Omega(\sqrt \kappa)$ with high probability. These lower bounds are almost achieved if quantum state verification is performed using known quantum algorithms for the quantum linear systems problem. We also analyze the number of copies of $\left| b \right>$ required by verification procedures of the prepare and measure type. In this case, the lower bounds are quadratically worse, being $\Omega(\kappa^2)$ in the worst case and $\Omega(\kappa)$ in typical instances with high probability. We discuss the implications of our results to known variational and related approaches to this problem, where state preparation, gate, and measurement errors will need to decrease rapidly with $\kappa$ for worst-case and typical instances if error correction is not used, and present some open problems.
翻訳日:2023-05-07 18:11:39 公開日:2021-02-23
# 累積投票における位置重み付けアグリゲーション法

Positionality-Weighted Aggregation Methods for Cumulative Voting ( http://arxiv.org/abs/2008.08759v2 )

ライセンス: Link先を確認
Takeshi Kato, Yasuhiro Asa, Misa Owa(参考訳) 少数派意見の尊重は社会問題の解決に不可欠である。 しかし、少数派の意見は概ね多数派ルールで無視されることが多い。 少数意見を考慮した多元的価値観のコンセンサスを構築し,社会的選択を行うために,予備投票における少数者の立場を重みづけるアグリゲーション手法を提案する。 本研究では,2次投票と線形投票の3つの重み付け集計法を定式化し,総和点と総和点との比と総和に対するマイノリティの重み付けを行い,その分布が正規分布に従うと仮定して,集計結果の周波数分布を算出した。 以上の3つの方法のうち,分布平均に比例して少数意見が反映される可能性が示唆された。 これは、福利厚生経済学における不運な人々の社会的地位を考えるというセンとゴドーの考えが、少数派が枢機卿投票で立場を重ねることによって示されていたことを示している。 また、集計結果の分析から少数者の数と位置を可視化することが可能である。 これらの結果は,コンセンサス構築プロセスにおいて提案手法の内容をインタラクティブに可視化することにより,多数派と少数派の相互理解を促進する上で有用である。 情報技術のさらなる発展には,ビッグデータに基づくコンセンサス構築が必要である。 我々は,社会,環境,経済といった多元的価値の社会的選択に,提案手法を用いることを推奨する。

Respecting minority opinions is vital in solving social problems. However, minority opinions are often ignored in general majority rules. To build consensus on pluralistic values and make social choices that consider minority opinions, we propose aggregation methods that give weighting to the minority's positionality on cardinal cumulative voting. Based on quadratic and linear voting, we formulated three weighted aggregation methods that differ in the ratio of votes to cumulative points and the weighting of the minority to all members, and assuming that the distributions of votes follow normal distributions, we calculated the frequency distributions of the aggregation results. We found that minority opinions are more likely to be reflected proportionately to the average of the distribution in two of the above three methods. This implies that Sen and Gotoh's idea of considering the social position of unfortunate people on ordinal ranking in the welfare economics, was illustrated by weighting the minority's positionality on cardinal voting. In addition, it is possible to visualize the number and positionality of the minority from the analysis of the aggregation results. These results will be useful to promote mutual understanding between the majority and minority by interactively visualizing the contents of the proposed aggregation methods in the consensus-building process. With the further development of information technology, the consensus building based on big data will be necessary. We recommend the use of our proposed aggregation methods to make social choices for pluralistic values such as social, environmental, and economic.
翻訳日:2023-05-05 12:31:47 公開日:2021-02-23
# ランダム不純物を有する3次元ディラック半金属の普遍性の崩壊

Breakdown of universality in three-dimensional Dirac semimetals with random impurities ( http://arxiv.org/abs/2010.04998v3 )

ライセンス: Link先を確認
J. P. Santos Pires, B. Amorim, Aires Ferreira, \.Inan\c{c} Adagideli, Eduardo R. Mucciolo, J. M. Viana Parente Lopes(参考訳) ディラック・ワイル半金属は、隙間のない電子を持つ物質の3次元(3次元)相であり、弱い摂動に対して堅牢であると考えられる新しい電気力学特性である。 ここでは3次元半金属中の非圧縮性電子の安定性に対する障害統計と不純物多様性の重要な影響を明らかにする。 希少な不純物構成によってもたらされる重要な役割に着目し,希薄なランダムポテンシャル井戸の存在下での低エネルギー共鳴の存在は,統計的に有意な局部的なゼロエネルギーモードを付与し,定常密度を上昇させることを示した。 ここで報告される強い非摂動効果は、3次元ディラック・ワイル半金属を最低不純物密度でも圧縮可能な金属に変換する。 解析結果は,最大536 000 000の軌道を持つ3次元格子の高分解能実空間シミュレーションにより検証された。

Dirac-Weyl semimetals are unique three-dimensional (3D) phases of matter with gapless electrons and novel electrodynamic properties believed to be robust against weak perturbations. Here, we unveil the crucial influence of the disorder statistics and impurity diversity in the stability of incompressible electrons in 3D semimetals. Focusing on the critical role played by rare impurity configurations, we show that the abundance of low-energy resonances in the presence of diluted random potential wells endows rare localized zero-energy modes with statistical significance, thus lifting the nodal density of states. The strong nonperturbative effect here reported converts the 3D Dirac-Weyl semimetal into a compressible metal even at the lowest impurity densities. Our analytical results are validated by high-resolution real-space simulations in record-large 3D lattices with up to 536 000 000 orbitals.
翻訳日:2023-04-29 11:23:47 公開日:2021-02-23
# unbiased diffusion monte carlo : 異なるジオメトリに閉じ込められた2電子系のための多用途ツール

The unbiased Diffusion Monte Carlo: a versatile tool for two-electron systems confined in different geometries ( http://arxiv.org/abs/2012.01151v2 )

ライセンス: Link先を確認
Gaia Micca Longo, Carla Maria Coppola, Domenico Giordano, Savino Longo(参考訳) 拡散モンテカルロ法に基づく計算符号は、様々な性質と幾何学の外部ポテンシャルに制限された2電子系の量子状態を決定するために用いられる。 そこで本研究では,複雑な解析的推測関数を用いない,最も単純な形式におけるこの手法の適用により,満足な結果が得られると同時に,ある種類の閉じ込めから他のものに容易に適応可能なプログラムを書けることを示す。 この適応性は、システムの幾何と構造の両方の観点から、多くの可能性を簡単に探求できる。 これらの結果を説明するために,二電子水素系種 (h$_2$およびh$_3^+$) とナノチューブ様および八面体結晶フィールドの2種類の閉じ込めを計算した。

Computational codes based on the Diffusion Monte Carlo method can be used to determine the quantum state of two-electron systems confined by external potentials of various nature and geometry. In this work, we show how the application of this technique in its simplest form, that does not employ complex analytic guess functions, allows to obtain satisfactory results and, at the same time, to write programs that are readily adaptable from one type of confinement to another. This adaptability allows an easy exploration of the many possibilities in terms of both geometry and structure of the system. To illustrate these results, we present calculations in the case of two-electron hydrogen-based species (H$_2$ and H$_3^+$) and two different types of confinement, nanotube-like and octahedral crystal-field.
翻訳日:2023-04-22 08:08:23 公開日:2021-02-23
# Birdspotter: Twitterユーザーの分析とラベル付けのためのツール

Birdspotter: A Tool for Analyzing and Labeling Twitter Users ( http://arxiv.org/abs/2012.02370v2 )

ライセンス: Link先を確認
Rohit Ram, Quyu Kong, Marian-Andrei Rizoiu(参考訳) オンラインソーシャルメディアが社会的な出来事や制度に与える影響は深刻であり、ユーザー獲得の急速な増加に伴い、私たちはその影響を理解し始めています。 オンライン言論を現実の行動のプロキシとしてモデル化する社会科学者や実践者は、しばしば大規模なソーシャルメディアデータセットをキュレートする。 非データサイエンスの専門家を対象とするツールが不足しているため、このデータ(およびそれが保持する洞察)は利用されていないことが多い。 ここでは,twitterユーザの分析とラベル付けを行うツールであるbirdspotterと,算出されたメトリクスの探索可視化ツールであるbirdspotter.mlを提案する。 birdspotterは、事前に収集したtwitterデータの処理から、ユーザの汎用的なラベル付け、そして数行のコード内でその社会的影響を見積もる、エンドツーエンドの分析パイプラインを提供する。 このパッケージにはチュートリアルと詳細なドキュメントがある。 また、TwitterのAPIをオンライン呼び出しすることなく、最先端のパフォーマンスよりも優れた、本格的なボット検出装置に鳥のポッターをトレーニングする方法についても説明し、その使用法をトピックのCOVID-19データセットの探索分析で示す。

The impact of online social media on societal events and institutions is profound; and with the rapid increases in user uptake, we are just starting to understand its ramifications. Social scientists and practitioners who model online discourse as a proxy for real-world behavior, often curate large social media datasets. A lack of available tooling aimed at non-data science experts frequently leaves this data (and the insights it holds) underutilized. Here, we propose birdspotter -- a tool to analyze and label Twitter users --, and birdspotter.ml -- an exploratory visualizer for the computed metrics. birdspotter provides an end-to-end analysis pipeline, from the processing of pre-collected Twitter data, to general-purpose labeling of users, and estimating their social influence, within a few lines of code. The package features tutorials and detailed documentation. We also illustrate how to train birdspotter into a fully-fledged bot detector that achieves better than state-of-the-art performances without making any Twitter API online calls, and we showcase its usage in an exploratory analysis of a topical COVID-19 dataset.
翻訳日:2023-04-22 03:12:14 公開日:2021-02-23
# tf.data: 機械学習データ処理フレームワーク

tf.data: A Machine Learning Data Processing Framework ( http://arxiv.org/abs/2101.12127v2 )

ライセンス: Link先を確認
Derek G. Murray, Jiri Simsa, Ana Klimovic, Ihor Indyk(参考訳) 機械学習モデルのトレーニングには、取り込むモデルに入力データを供給する必要がある。 機械学習ジョブの入力パイプラインは、大量のデータを読み、複雑な変換を適用し、データをハードウェアアクセラレータに転送すると同時に、計算と通信を重複させて最適なパフォーマンスを達成する必要があるため、効率的な実装が難しいことが多い。 機械学習ジョブのための効率的な入力パイプラインの構築と実行のためのフレームワークであるtf.dataを提案する。 tf.data apiは、さまざまな機械学習ドメインにわたって、ユーザ定義の計算、構成、再利用によってパラメータ化できるオペレータを提供する。 これらの抽象化により、ユーザはデータ処理のアプリケーションロジックに集中でき、tf.dataのランタイムはパイプラインの効率的な実行を保証する。 最先端機械学習モデルのエンドツーエンドトレーニングには,入力パイプラインのパフォーマンスが不可欠であることを実証する。 tf.dataは高いパフォーマンスを実現すると同時に、パフォーマンスノブの手動チューニングの必要性を回避する。 並列性、キャッシング、静的最適化、非決定論的実行といったtf.data機能は、ハイパフォーマンスには不可欠である。 最後に、Googleのフリートで実行されている数百万のジョブに対して、マシンラーニングの入力パイプラインを特徴付け、入力データ処理が極めて多様性があり、かなりのジョブリソースを消費していることを示す。 我々の分析は、ジョブ間で計算を共有し、データプロジェクションをストレージ層にプッシュするといった将来の研究方向性を動機付けている。

Training machine learning models requires feeding input data for models to ingest. Input pipelines for machine learning jobs are often challenging to implement efficiently as they require reading large volumes of data, applying complex transformations, and transferring data to hardware accelerators while overlapping computation and communication to achieve optimal performance. We present tf.data, a framework for building and executing efficient input pipelines for machine learning jobs. The tf.data API provides operators which can be parameterized with user-defined computation, composed, and reused across different machine learning domains. These abstractions allow users to focus on the application logic of data processing, while tf.data's runtime ensures that pipelines run efficiently. We demonstrate that input pipeline performance is critical to the end-to-end training time of state-of-the-art machine learning models. tf.data delivers the high performance required, while avoiding the need for manual tuning of performance knobs. We show that tf.data features, such as parallelism, caching, static optimizations, and non-deterministic execution are essential for high performance. Finally, we characterize machine learning input pipelines for millions of jobs that ran in Google's fleet, showing that input data processing is highly diverse and consumes a significant fraction of job resources. Our analysis motivates future research directions, such as sharing computation across jobs and pushing data projection to the storage layer.
翻訳日:2023-04-13 11:30:52 公開日:2021-02-23
# SYKスペクトル形成因子の後期近似

A late times approximation for the SYK spectral form factor ( http://arxiv.org/abs/2102.01653v2 )

ライセンス: Link先を確認
Matteo A. Cardella(参考訳) 2つのレプリカ集合体上での経路積分の最も急勾配の大きい$N$からSYKスペクトルの時間的近似を求める。 主な材料は、2つの複製運動作用素の適切なuv正規化、フーリエ変換の特性、および4点関数2つのレプリカはしごカーネルのスペクトル解析である。

We find a late times approximation for the SYK spectral form factor from a large $N$ steepest descent version of the path integral over two replica collective fields. Main ingredients are a suitable uv regularization of the two replica kinetic operator, the property of its Fourier transform and some spectral analysis of the four point function two replica ladder kernel.
翻訳日:2023-04-13 00:29:32 公開日:2021-02-23
# 核磁気共鳴を用いた1ビットと2ビットの量子ゲートの実験的実装

Experimental implementation of quantum gates with one and two qubits using Nuclear Magnetic Resonance ( http://arxiv.org/abs/2102.11213v2 )

ライセンス: Link先を確認
Jos\'e L. Figueiredo(参考訳) 核磁気共鳴(NMR、英: Nuclear Magnetic Ressonance)は、化学、医学、材料科学における長い歴史を持つ、広く使われている技術である。 20年前、Coryの仕事以来、量子コンピューティングの信頼できる情報源として登場した。 その大きな利点の1つは、任意のユニタリ変換を実装できることの容易さであり、実験的な単純さとともに、これまで広く使われていた非常に単純なNMRルーチンに遡ることができる。 しかし、いくつかの欠点は、初期化と測定プロセスの実験的取り組みとスケーラビリティに大きく関係している。 本研究では、NMR実験で実現した1および2量子ビット系における単純な量子ゲート(Pauli-Z, Pauli-X, Hadamard)の探索に成功した。 この研究は擬似純粋状態の準備とゲートの応用、密度行列の再構築に必要な量子トモグラフィー法から構成された。 実験は、300MHzのBruker Avance II分光器に7T磁場の超伝導磁石を備えたクロロホルム試料を用いて行われた。

Nuclear Magnetic Ressonance (NMR) is a widely used technique, with a long history of applications in chemestry, medicine, and material science. Twenty years ago, it emerged as a reliable source for quantum computing too, since the work of Cory. One of its major advantage is the ease with which arbitrary unitary transformations can be implemented, together with its experimental simplicity, that can be traced back to very simple NMR routines, which were being extensively used long before. However, some disadvantages came along, mostly related to experimental effort in the initialisation and measure processes, and scalability. In this work, we have successfully probed some simple quantum gates (Pauli-Z, Pauli-X and Hadamard) in one and two-qubit systems, realised in a NMR experiment. The work comprised a pseudo-pure state preparation, followed by the application of the gates, and a quantum tomography method, necessary to reconstruct the density matrix. The experiments were conducted with a chloroform sample, placed in a 300 MHz Bruker Avance II spectrometer, equipped with a superconducting magnet with a 7 T magnetic field.
翻訳日:2023-04-10 05:42:02 公開日:2021-02-23
# 進化アルゴリズムの実行時間制限のためのモンテカルロシミュレーションと動的プログラミングのブレンド

Blending Dynamic Programming with Monte Carlo Simulation for Bounding the Running Time of Evolutionary Algorithms ( http://arxiv.org/abs/2102.11461v1 )

ライセンス: Link先を確認
Kirill Antonov, Maxim Buzdalov, Arina Buzdalova, Carola Doerr(参考訳) 共通ベンチマーク問題に対する$(1+\lambda)$-type検索ヒューリスティックによって達成可能な最良実行時間に対して絶対下限を提供することを目的として,我々は最近,最適実行時間と最適パラメータ選択から逸脱した場合に推定される後悔値を計算する動的プログラミング手法を提案した。 我々の以前の研究は、異なる状態間の遷移確率が比較的単純な数学的表現で表現できる問題に限定されている。 本研究では、より広い問題集合をカバーすることを目的として、遷移確率を必ずしも正確に計算することはできないが、モンテカルロサンプリングにより任意の精度まで数値的に近似できる設定への動的プログラミングアプローチの拡張を提案する。 ハイブリッドなモンテカルロ動的プログラミング手法を連結ジャンプ関数に適用し,パラメータ制御スキームをより深く理解するために得られた境界をどのように利用できるかを示す。

With the goal to provide absolute lower bounds for the best possible running times that can be achieved by $(1+\lambda)$-type search heuristics on common benchmark problems, we recently suggested a dynamic programming approach that computes optimal expected running times and the regret values inferred when deviating from the optimal parameter choice. Our previous work is restricted to problems for which transition probabilities between different states can be expressed by relatively simple mathematical expressions. With the goal to cover broader sets of problems, we suggest in this work an extension of the dynamic programming approach to settings in which the transition probabilities cannot necessarily be computed exactly, but in which they can be approximated numerically, up to arbitrary precision, by Monte Carlo sampling. We apply our hybrid Monte Carlo dynamic programming approach to a concatenated jump function and demonstrate how the obtained bounds can be used to gain a deeper understanding into parameter control schemes.
翻訳日:2023-04-10 03:48:15 公開日:2021-02-23
# j. xu, y. qin, y. shi, y. yang, x. zhang, nanoscale advによる「ナノスケール真空チャネルトランジスタの設計と回路シミュレーション」へのコメント 2020, 2, 3582

Comment on 'Design and circuit simulation of nanoscale vacuum channel transistors' by J. Xu, Y. Qin, Y. Shi, Y. Yang and X. Zhang, Nanoscale Adv. 2020, 2, 3582 ( http://arxiv.org/abs/2102.11453v1 )

ライセンス: Link先を確認
Richard G. Forbes(参考訳) これらのコメントは、ナノスケール真空チャネルトランジスタに関する最近の論文で示された電界電子放出理論の明らかな弱点を修正し、この理論の提示を改善することを目的としている。 特に、この式は大きな因子(典型的には局所作業関数4.5eVの発光面に対して300前後)によって放出電流密度を過小評価することが知られているので、論文で述べた「単純化された」公式は使用すべきではないと論じられている。 したがって、「単純化された」公式はナノスケール真空チャネルトランジスタの実用性能を著しく過小評価することができる。

These comments aim to correct some apparent weaknesses in the theory of field electron emission given in a recent paper about nanoscale vacuum channel transistors, and to improve the presentation of this theory. In particular, it is argued that a "simplified" formula stated in the paper should not be used, because this formula is known to under-predict emission current densities by a large factor (typically around 300 for an emitting surface with local work function 4.5 eV). Thus, the "simplified" formula may significantly under-predict the practical performance of a nanoscale vacuum channel transistor.
翻訳日:2023-04-10 03:47:58 公開日:2021-02-23
# 多くの電子と光子場 --非相対論的量子電磁力学の多体構造

Many Electrons and the Photon Field -- The many-body structure of nonrelativistic quantum electrodynamics ( http://arxiv.org/abs/2102.11624v1 )

ライセンス: Link先を確認
Florian Buchholz(参考訳) キャビティ量子力学の分野における最近の実験的進歩は、量子化された光と複雑な物質系の強い相互作用の機構を研究することができる。 光子と物質自由度の間のコヒーレントな結合のため、ポラリトン -- ハイブリッド光マッター準粒子 -- は物質の性質や化学反応(強結合)のような複雑な過程に大きな影響を与える可能性がある。 この論文では、電子と光子がもはや基本的な物理的実体ではなく偏光子であるヒルベルト空間において、結合された電子-光子問題を正確に再構成することで、これらの問題を克服する方法を提案する。 N-ポラリトン波動関数とハイブリッドフェルミ・ボース統計関数を用いてN-電子-Mモード系を表現し、電子構造法を弱い状態から強い結合状態へ正確な分極構造法に変換する方法を明確に示す。 我々は,光・物質結合の包括的レビューと,異なる電子構造法と量子光学モデルとの接続を強調することで,このパラダイムシフトを解明する。 この広範な議論は、ポラリトンの記述が数学的トリックであるだけでなく、単純で直感的な物理的議論にも根ざしている: システムの励起がハイブリッドエンティティであるとき、これらの新しい実体の観点で理論の定式化は自然である。 最後に、電子構造手法の標準アルゴリズムを新しいハイブリッドFermi-Bose統計に適合させる方法について、詳細に検討する。 実際に対応する非線形不等式制約を保証するには、数値アルゴリズムの開発、実装、検証が必要である。 この余分な数値的複雑さは、第一原理法で結合された物質-光子問題を実現するための費用である。

Recent experimental progress in the field of cavity quantum electrodynamics allows to study the regime of strong interaction between quantized light and complex matter systems. Due to the coherent coupling between photons and matter-degrees of freedom, polaritons -- hybrid light-matter quasiparticles -- emerge, which can significantly influence matter properties and complex processes such as chemical reactions (strong coupling). In this thesis we propose a way to overcome these problems by reformulating the coupled electron-photon problem in an exact way in a different, purpose-build Hilbert space, where no longer electrons and photons are the basic physical entities but the polaritons. Representing an N-electron-M-mode system by an N-polariton wave function with hybrid Fermi-Bose statistics, we show explicitly how to turn electronic-structure methods into polaritonic-structure methods that are accurate from the weak to the strong-coupling regime. We elucidate this paradigmatic shift by a comprehensive review of light-matter coupling, as well as by highlighting the connection between different electronic-structure methods and quantum-optical models. This extensive discussion accentuates that the polariton description is not only a mathematical trick, but it is grounded in a simple and intuitive physical argument: when the excitations of a system are hybrid entities a formulation of the theory in terms of these new entities is natural. Finally, we discuss in great detail how to adopt standard algorithms of electronic-structure methods to adhere to the new hybrid Fermi-Bose statistics. Guaranteeing the corresponding nonlinear inequality constraints in practice requires a careful development, implementation and validation of numerical algorithms. This extra numerical complexity is the price we pay for making the coupled matter-photon problem feasible for first-principle methods.
翻訳日:2023-04-10 03:45:12 公開日:2021-02-23
# 量子制御のない修正量子遅延選択実験

Modified quantum delayed-choice experiment without quantum control ( http://arxiv.org/abs/2102.11562v1 )

ライセンス: Link先を確認
Qi Guo, Wen-Jie Zhang, Gang Li, Tiancai Zhang, Hong-Fu Wang, Shou Zhang(参考訳) ウィーラーの遅延チョイス実験は、干渉計に入るまで光子の波動または粒子の挙動を観測する決定を遅らせ、量子遅延チョイス実験は、量子制御装置を導入して波動と粒子の挙動を同時に観測する可能性を与える。 本稿では,量子制御や絡み合い支援を必要とせず,光子を波-粒子重ね合わせ状態で生成し,波-粒子間遷移のモーフィング挙動を容易に観察できる修正量子遅延回路実験を提案する。 提案手法により, 古典的隠れ変数モデルに対して, デバイスに依存しない方法で, 次元証人に対する違反行為を排除できることが実証された。 また,この手法を2自由度に拡張し,まず,光子の波動と粒子の挙動を異なる自由度で同時観測可能なハイブリッド量子遅延速度実験を構築し,次に単一光子波-粒子の絡み合いを準備するためのスキームを提案する。 この研究は光子の波動特性や粒子の性質を探求するだけでなく、波動-粒子自由度の観点から単一粒子非局所性の研究の可能性をもたらしている。

Wheeler's delayed-choice experiment delays the decision to observe either the wave or particle behavior of a photon until after it has entered the interferometer, and the quantum delayed-choice experiment provides the possibility of observing the wave and particle behavior simultaneously by introducing quantum control device. We here propose a modified quantum delayed-choice experiment without quantum control or entanglement assistance, in which a photon can be prepared in a wave-particle superposition state and the morphing behavior of wave-to-particle transition can be observed easily. It is demonstrated that the presented scheme can allow us to rule out classical hidden variable models in a device-independent manner via violating dimension witness. We also extend the scheme to the situation of two degrees of freedom, first constructing a hybrid quantum delayed-choice experiment which enables simultaneous observation of a photon's wave and particle behaviors in different degrees of freedom, and then proposing a scheme to prepare the single-photon wave-particle entanglement. This study is not only meaningful to explore the wave and particle properties of photons, but also provides potential for the research of the single-particle nonlocality from the perspective of the wave-particle degree of freedom.
翻訳日:2023-04-10 03:43:31 公開日:2021-02-23
# マルチキュービット不拡張積ベースの構成と局所的識別性

The construction and local distinguishability of multiqubit unextendible product bases ( http://arxiv.org/abs/2102.11553v1 )

ライセンス: Link先を確認
Yize Sun, Lin Chen(参考訳) 量子情報における重要な問題は、多ビット無拡張製品ベース(UPB)を構築することである。 拡張不能直交行列を用いて、サイズ11の7-qubit UPBを構築する。 量子情報処理19:185 (2020) におけるオープンな問題を解決する。 次に,UPBは2量子ビットと5量子ビットのバイパルタイト系においてそれぞれ局所的に区別できないことを示す。 UPB は 3 つの非同型グラフによって構成された 11 個の頂点を持つ完備グラフに対応することが判明した。 グラフを積ベクトルとして考えると、それらは局所ユニタリ同値まで3つの異なる軌道にあることが分かる。 さらに、いくつかの既知のupbとその軌道の完全グラフの非同型グラフの種類の数も提示する。

An important problem in quantum information is to construct multiqubit unextendible product bases (UPBs). By using the unextendible orthogonal matrices, we construct a 7-qubit UPB of size 11. It solves an open problem in [Quantum Information Processing 19:185 (2020)]. Next, we graph-theoretically show that the UPB is locally indistinguishable in the bipartite systems of two qubits and five qubits, respectively. It turns out that the UPB corresponds to a complete graph with 11 vertices constructed by three sorts of nonisomorphic graphs. Taking the graphs as product vectors, we show that they are in three different orbits up to local unitary equivalence. Moreover, we also present the number of sorts of nonisomorphic graphs of complete graphs of some known UPBs and their orbits.
翻訳日:2023-04-10 03:43:08 公開日:2021-02-23
# 結合susy, pseudo-bosons, a deformed $\mathfrak{su}(1,1)$リー代数

Coupled Susy, pseudo-bosons and a deformed $\mathfrak{su}(1,1)$ Lie algebra ( http://arxiv.org/abs/2102.11738v1 )

ライセンス: Link先を確認
Fabio Bagarello(参考訳) 最近の論文では、a^\dagger a=bb^\dagger+\gamma\1$ と $aa^\dagger=b^\dagger b+\delta\1$ を満たす作用素の対 $a$ と $b$ が検討され、はしご作用素の性質が推論され分析されている。 ここで、量子力学における非自己共役作用素に対する関心の高まりに動機付けられ、この状況を4つの演算子、$c$, $d$, $r$, $s$ に拡張し、$ dc=rs+\gamma\1$ と $cd=sr+\delta\1$ を満たす。 ベクトルの生物の直交族や、いわゆる$\d$-pseudoボソンとの関係を示す。 いくつか例を挙げる。

In a recent paper a pair of operators $a$ and $b$ satisfying the equations $a^\dagger a=bb^\dagger+\gamma\1$ and $aa^\dagger=b^\dagger b+\delta\1$, has been considered, and their nature of ladder operators has been deduced and analysed. Here, motivated by the spreading interest in non self-adjoint operators in Quantum Mechanics, we extend this situation to a set of four operators, $c$, $d$, $r$ and $s$, satisfying $ dc=rs+\gamma\1$ and $cd=sr+\delta\1$, and we show that they are also ladder operators. We show their connection with biorthogonal families of vectors and with the so-called $\D$-pseudo bosons. Some examples are discussed.
翻訳日:2023-04-10 03:25:09 公開日:2021-02-23
# 反デシッター空間における一様磁場を持つ2次元相対論的振動子

2D Relativistic Oscillators with a Uniform Magnetic Field in Anti-deSitter Space ( http://arxiv.org/abs/2102.11718v1 )

ライセンス: Link先を確認
Lakhdar Sek, Mokhtar Falek and Mustafa Moumni(参考訳) 荷電粒子(スピン0およびスピン1粒子)に対する2次元変形ボソニック振動子方程式を均一磁場の影響下で解析的に検討した。 反デシッターモデルによる運動量における最小不確実性の存在を考慮し、ニキフォロフ・ウバロフ法を用いてシステムを解く。 Klein-Gordon および scalar Duffin-Kemmer-Petiau の場合の正確なエネルギー固有値と対応する波動関数は解析的に得られる。 スピン 1 DKP の場合、DKP 方程式の挙動を導出し、この場合スピンの基本的な役割を示す非相対論的エネルギーを記述する。 最後に,システムの熱力学特性について検討する。

We study analytically the two dimensional deformed bosonic oscillator equations for charged particles (both spin 0 and spin 1 particles) subject to the effect of a uniform magnetic field. We consider the presence of a minimal uncertainty in momentum caused by the Anti-deSitter model and we use the Nikiforov-Uvarov method to solve the system. The exact energy eigenvalues and the corresponding wave functions are analytically obtained for both Klein-Gordon and scalar Duffin-Kemmer-Petiau cases. For spin 1 DKP case, we deduce the behaviour of the DKP equation and write the non-relativistic energies where we show the fundamental role of the spin in this case. Finally, we study the thermodynamic properties of the system.
翻訳日:2023-04-10 03:24:46 公開日:2021-02-23
# マクロ量子特徴生成のための結合干渉系における量子重ね合わせの役割

The role of quantum superposition in a coupled interferometric system for macroscopic quantum feature generations ( http://arxiv.org/abs/2102.11682v1 )

ライセンス: Link先を確認
Byoung S. Ham(参考訳) 量子エンタングルメント(quantum entanglement)は、量子情報処理のクインテッセンスであり、主にハイゼンベルクの不確実性原理によって支配される顕微鏡的構造に制限される。 しかし、実用上は、マクロな絡み合いは光子損失と感度の両方に大きな利点をもたらす。 近年,従来のレーザー光を用いた連成干渉計システムにおいて,各干渉計系における二元間重ね合わせが重要な役割を担っているマクロエンタングルメント生成法が提案され,実証されている。 ここで、独立二成分古典系に適用される経路重ね合わせ関数を解析し、量子特徴の秘密を明らかにし、量子力学に違反することなく古典系を量子系に変換する。

Quantum entanglement is the quintessence of quantum information processing mostly limited to the microscopic regime governed by Heisenberg uncertainty principle. For practical applications, however, macroscopic entanglement gives great benefits in both photon loss and sensitivity. Recently, a novel method of macroscopic entanglement generation has been proposed and demonstrated in a coupled interferometric system using classical laser light, where superposition between binary bases in each interferometric system plays a key role. Here, the function of path superposition applied to independent bipartite classical systems is analyzed to unveil secrets of quantum features and to convert a classical system into a quantum system without violating quantum mechanics.
翻訳日:2023-04-10 03:24:32 公開日:2021-02-23
# 絡み合った光子を用いた分散量子位相推定

Distributed quantum phase estimation with entangled photons ( http://arxiv.org/abs/2102.11679v1 )

ライセンス: Link先を確認
Li-Zheng Liu, Yu-Zhe Zhang, Zheng-Da Li, Rui Zhang, Xu-Fei Yin, Yue-Yang Fei, Li Li, Nai-Le Liu, Feihu Xu, Yu-Ao Chen, Jian-Wei Pan(参考訳) 分散量子気象学は古典的限界を超えた空間分布パラメータの感度を高めることができる。 ここでは,離散変数を用いた分散量子位相推定を行い,ハイゼンベルク極限位相測定を行う。 モードと粒子の並列な絡み合いに基づいて、ショットノイズの限界以下で1.4dbと2.7dbまで誤差を低減し、個々の位相シフトと平均位相シフトの両方に対する分散量子センシングを実証する。 さらに,各モードにおける並列モードの絡み合いと位相シフタの複数パスを組み合わせた戦略を示す。 特に, 位相シフト器を最大6回通過する光子を6個の絡み合った光子を用いて, ショットノイズ限界以下で4.7dBの誤差低減でN=21の光子の総数を達成する実験を行った。 本研究は、一般量子ネットワークにおける分散量子センシングにおける絡み合いとコヒーレンスの利点を忠実に検証する。

Distributed quantum metrology can enhance the sensitivity for sensing spatially distributed parameters beyond the classical limits. Here we demonstrate distributed quantum phase estimation with discrete variables to achieve Heisenberg limit phase measurements. Based on parallel entanglement in modes and particles, we demonstrate distributed quantum sensing for both individual phase shifts and an averaged phase shift, with an error reduction up to 1.4 dB and 2.7 dB below the shot-noise limit. Furthermore, we demonstrate a combined strategy with parallel mode entanglement and multiple passes of the phase shifter in each mode. In particular, our experiment uses six entangled photons with each photon passing the phase shifter up to six times, and achieves a total number of photon passes N=21 at an error reduction up to 4.7 dB below the shot-noise limit. Our research provides a faithful verification of the benefit of entanglement and coherence for distributed quantum sensing in general quantum networks.
翻訳日:2023-04-10 03:24:19 公開日:2021-02-23
# 性選択について

On Sexual Selection ( http://arxiv.org/abs/2102.11667v1 )

ライセンス: Link先を確認
Larry Bull(参考訳) 性選択は交配型を持つすべての真核生物にとって進化の基本的な側面である。 異性間選択は、異性愛と出現する性間の共進化の避けられないダイナミクスを補うメカニズムとして、最もよく考えられている。 フィットネスランドスケープのNKモデルを用いて、アロソームが出現する条件を最初に探求する。 これは、ボールドウィン効果の基本的な形を平滑化するフィットネスの風景が根本的な原因として示唆されるセックスの進化に関する以前の研究を拡張している。 共進化のnkcsモデルは、フィットネスのランドスケープサイズ、頑丈さ、接続性が、非常に単純な性選択メカニズムが有益であることを示す条件をいかに変化させるかを示すために用いられる。 これは、男女が性選択を利用するかどうかを問うものである。

Sexual selection is a fundamental aspect of evolution for all eukaryotic organisms with mating types. This paper suggests intersexual selection is best viewed as a mechanism to compensate for the unavoidable dynamics of coevolution between sexes that emerge with isogamy. Using the NK model of fitness landscapes, the conditions under which allosomes emerge are first explored. This extends previous work on the evolution of sex where the fitness landscape smoothing of a rudimentary form of the Baldwin effect is suggested as the underlying cause. The NKCS model of coevolution is then used to show how varying fitness landscape size, ruggedness, and connectedness can vary the conditions under which a very simple sexual selection mechanism proves beneficial. This is found to be the case whether one or both sexes exploit sexual selection.
翻訳日:2023-04-10 03:24:01 公開日:2021-02-23
# 位相感応領域におけるマルチモード光パラメトリック増幅

Multimode optical parametric amplification in the phase-sensitive regime ( http://arxiv.org/abs/2102.11659v1 )

ライセンス: Link先を確認
Gaetano Frascella, Roman V. Zakharov, Olga V. Tikhonova, and Maria V. Chekhova(参考訳) 圧縮状態の位相感度光パラメトリック増幅は、検出損失とノイズを克服し、サブショットノイズセンシングの堅牢性を高める。 このような技術、例えばイメージングや分光はマルチモード光で動作するため、マルチモード増幅が必要である。 ここでは, 2次非線形結晶をガウスコヒーレントビームでシードする実験において, 多モード位相感応増幅の最適手法を見つけ, 検証する。 位相感応増幅は、近接面波によるシードではなく、結晶に種を密集させることによって得られる。 これは、サブショットノイズ画像の位相感応増幅を近距離場で行うべきであることを示唆している。 同様のレシピは時間と周波数で定式化できるため、量子エンハンス分光法に関係がある。

Phase-sensitive optical parametric amplification of squeezed states helps to overcome detection loss and noise and thus increase the robustness of sub-shot-noise sensing. Because such techniques, e.g., imaging and spectroscopy, operate with multimode light, multimode amplification is required. Here we find the optimal methods for multimode phase-sensitive amplification and verify them in an experiment where a pumped second-order nonlinear crystal is seeded with a Gaussian coherent beam. Phase-sensitive amplification is obtained by tightly focusing the seed into the crystal, rather than seeding with close-to-plane waves. This suggests that phase-sensitive amplification of sub-shot-noise images should be performed in the near field. Similar recipe can be formulated for the time and frequency, which makes this work relevant for quantum-enhanced spectroscopy.
翻訳日:2023-04-10 03:23:46 公開日:2021-02-23
# 没入型バーチャルリアリティを用いたイベントベースおよび時間ベースの予測記憶の生態学的検証--実世界の予測記憶に及ぼす注意・記憶・実行機能プロセスの影響

An ecologically valid examination of event-based and time-based prospective memory using immersive virtual reality: the influence of attention, memory, and executive function processes on real-world prospective memory ( http://arxiv.org/abs/2102.11652v1 )

ライセンス: Link先を確認
Panagiotis Kourtesis and Sarah E. MacPherson(参考訳) 予見記憶(PM)に関する研究は、主に、イベントベースまたは時間ベースのPMを非生態的な実験室ベースのタスクによって評価する。 これらのパラダイムから得られた結果は、日々のタスクの複雑さと認知的要求に収束する生態学的に有効な研究パラダイムと相違する結果をもたらした。 没入型バーチャルリアリティ(VR)神経心理学的バッテリであるVR-EAL(Virtual Reality Everyday Assessment Lab)は,日常の事象と時間に基づくPMを評価するとともに,他の認知機能が日常のPM機能に与える影響を評価するために実装された。 その結果,日常のPMに対する認識,計画,空間的注意の遅延の重要性が示された。 遅延認識と計画能力はそれぞれイベントベースと時間ベースpmの中心であることが判明した。 重要度では, 遅延認識, 空間的注意速度, 計画能力がイベントベースPM機能に関与していることがわかった。 時間的PM機能には, 計画, 空間的注意精度, 遅延認識, マルチタスク/タスクシフト能力が関与していた。 これらの結果は,没入型VRパラダイムを用いて達成できるPM研究における生態学的妥当性の重要性を示唆している。

Studies on prospective memory (PM) predominantly assess either event- or time-based PM by implementing non-ecological laboratory-based tasks. The results deriving from these paradigms have provided findings that are discrepant with ecologically valid research paradigms that converge on the complexity and cognitive demands of everyday tasks. The Virtual Reality Everyday Assessment Lab (VR-EAL), an immersive virtual reality (VR) neuropsychological battery with enhanced ecological validity, was implemented to assess everyday event- and time-based PM, as well as the influence of other cognitive functions on everyday PM functioning. The results demonstrated the importance of delayed recognition, planning, and visuospatial attention on everyday PM. Delayed recognition and planning ability were found to be central in event- and time-based PM respectively. In order of importance, delayed recognition, visuospatial attention speed, and planning ability were found to be involved in event-based PM functioning. Comparably, planning, visuospatial attention accuracy, delayed recognition, and multitasking/task-shifting ability were found to be involved in time-based PM functioning. These findings further suggest the importance of ecological validity in the study of PM, which may be achieved using immersive VR paradigms.
翻訳日:2023-04-10 03:23:13 公開日:2021-02-23
# ダイヤモンド中のスズ空孔中心の量子フォトニックインタフェース

A Quantum Photonic Interface for Tin-Vacancy Centers in Diamond ( http://arxiv.org/abs/2102.11852v1 )

ライセンス: Link先を確認
Alison E. Rugar, Shahriar Aghaeimeibodi, Daniel Riedel, Constantin Dory, Haiyu Lu, Patrick J. McQuade, Zhi-Xun Shen, Nicholas A. Melosh, and Jelena Vu\v{c}kovi\'c(参考訳) 量子ネットワークの実現は、効率的でコヒーレントな光物質界面の確立に大きく依存する。 ダイヤモンドの光学活性スピンは、スピン選択光学遷移、長寿命スピン基底状態、ナノフォトニクスと統合する可能性に基づいて、有望な量子ノードとして出現した。 ダイヤモンド中のスズ空孔(SnV$^{\,\textrm{-}}$)中心は、ナノ構造において細い線幅の放出を示し、1K以上の温度で長いスピンコヒーレンス時間を持つため特に興味深いが、SnV$^{\,\textrm{-}}$中心に対するナノフォトニック界面はまだ実現されていない。 ここでは,ダイヤモンドにおけるSnV$^{\,\textrm{-}}$centerの放出の空洞化について報告する。 我々はSnV$^{\,\textrm{-}}$ Centerを1次元フォトニック結晶共振器に統合し、発光強度の40倍の増大を観測する。 結合系のパーセル因子は25であり、その結果、ほとんどの光子(90 %$)がキャビティモードにチャネル化される。 我々の結果は、ダイヤモンドのSnV$^{\,\textrm{-}}$centerをベースとした、効率的でスケーラブルなスピン光子インターフェースを作るための道を開いた。

The realization of quantum networks critically depends on establishing efficient, coherent light-matter interfaces. Optically active spins in diamond have emerged as promising quantum nodes based on their spin-selective optical transitions, long-lived spin ground states, and potential for integration with nanophotonics. Tin-vacancy (SnV$^{\,\textrm{-}}$) centers in diamond are of particular interest because they exhibit narrow-linewidth emission in nanostructures and possess long spin coherence times at temperatures above 1 K. However, a nanophotonic interface for SnV$^{\,\textrm{-}}$ centers has not yet been realized. Here, we report cavity enhancement of the emission of SnV$^{\,\textrm{-}}$ centers in diamond. We integrate SnV$^{\,\textrm{-}}$ centers into one-dimensional photonic crystal resonators and observe a 40-fold increase in emission intensity. The Purcell factor of the coupled system is 25, resulting in channeling of the majority of photons ($90\%$) into the cavity mode. Our results pave the way for the creation of efficient, scalable spin-photon interfaces based on SnV$^{\,\textrm{-}}$ centers in diamond.
翻訳日:2023-04-10 03:16:43 公開日:2021-02-23
# 突発的にスイッチングされたアライメント・オリエンテーション相互作用による平面ロータの量子力学

Quantum dynamics of a planar rotor driven by suddenly switched combined aligning and orienting interactions ( http://arxiv.org/abs/2102.11851v1 )

ライセンス: Link先を確認
Marjan Mirahmadi, Burkhard Schmidt, and Bretislav Friedrich(参考訳) 本研究では, 平面(2次元)剛体ロータの量子力学を解析的および数値的に解析し, 突然切替あるいは切替切替同時配向および整列相互作用について検討する。 従来の研究で確立された平面振子固有プロブレム(Frontiers in Physics 2, 37 (2014), Eur. Phys. J. D 71, 149 (2017)) のスペクトル特性と固有表面トポロジーを反映している。 この発見は、固有表面のトポロジカルな性質を実験的に調べる可能性を開くとともに、実験室のローター力学を制御するためにこれらの特性を利用する手段を提供する。

We investigate, both analytically and numerically, the quantum dynamics of a planar (2D) rigid rotor subject to suddenly switched-on or switched-off concurrent orienting and aligning interactions. We find that the time-evolution of the post-switch populations as well as of the expectation values of orientation and alignment reflects the spectral properties and the eigensurface topology of the planar pendulum eigenproblem established in our earlier work [Frontiers in Physics 2, 37 (2014); Eur. Phys. J. D 71, 149 (2017)]. This finding opens the possibility to examine the topological properties of the eigensurfaces experimentally as well as provides the means to make use of these properties for controlling the rotor dynamics in the laboratory.
翻訳日:2023-04-10 03:16:20 公開日:2021-02-23
# 光機械システムとしての「膜外」

"Membrane-outside" as an optomechanical system ( http://arxiv.org/abs/2102.11842v1 )

ライセンス: Link先を確認
A.K. Tagantsev and E.S. Polzik(参考訳) 理論的には,2面キャビティと,その外側に配置されるメカニカル膜からなるオプトメカニカルシステムについて検討する。 膜はその鏡の1つの近くに位置し、空洞は他の鏡を通して外部の光場に結合する。 本研究は,システム内の分散光学的カップリングが消滅する体制に焦点をあてる。 このような状態は、膜が隣接するミラーよりも反射が小さい場合に起こり、非常に強い散逸性光学的カップリングをもたらす可能性がある。 具体的には、膜とミラーの振幅伝達係数の絶対値$t$と$t_m$が条件$t_m^2< t\ll t_m\ll 1$に従えば、セットアップの散逸結合定数は、同じ長さの光学的空洞の分散結合定数を超える。 提案系における散逸結合定数とそれに対応するオプトメカニカル協調性は, 強いオプトメニカルな散逸相互作用で知られているミッチェルソン・サニャック干渉計やいわゆる「メムブレーン・アット・ザ・エッジ」システムと比較される。 以上の条件下では,本手法は両面において有利であることが示されている。 これはまた、2ポート構成の効率的な実現を可能にし、これは先進的なオプトメカニカルシステムとして最近提案され、その他の利点として、オプトメカニカル不安定性に悩まされないシステムにおいて量子制限オプトメカニカル測定の可能性を提供する。

We theoretically study an optomechanical system, which consists of a two-sided cavity and a mechanical membrane that is placed outside of it. The membrane is positioned close to one of its mirrors, and the cavity is coupled to the external light field through the other mirror. Our study is focused on the regime where the dispersive optomechanical coupling in the system vanishes. Such a regime is found to be possible if the membrane is less reflecting than the adjacent mirror, yielding a potentially very strong dissipative optomechanical coupling. Specifically, if the absolute values of amplitude transmission coefficients of the membrane and the mirror, $t$ and $t_m$ respectively, obey the condition $ t_m^2< t\ll t_m\ll 1$, the dissipative coupling constant of the setup exceeds the dispersive coupling constant for an optomechanical cavity of the same length. The dissipative coupling constant and the corresponding optomechanical cooperativity of the proposed system are also compared with those of the Michelson-Sagnac interferometer and the so-called "membrane-at-the-edge" system, which are known for a strong optomechanical dissipative interaction. It is shown that under the above condition, the system proposed here is advantageous in both aspects. It also enables an efficient realization of the two-port configuration, which was recently proposed as a promising optomechanical system, providing, among other benefits, a possibility of quantum limited optomechanical measurements in a system, which does not suffer from any optomechanical instability.
翻訳日:2023-04-10 03:15:41 公開日:2021-02-23
# 電荷保存ユニタリは一般に最適な共変量子誤り訂正符号を生成する

Charge-conserving unitaries typically generate optimal covariant quantum error-correcting codes ( http://arxiv.org/abs/2102.11835v1 )

ライセンス: Link先を確認
Linghang Kong, Zi-Wen Liu(参考訳) 量子エラー補正と対称性は、量子情報科学と物理学において中心的な役割を果たす。 連続対称性に関して共変する量子誤り訂正符号は、対称性の制約のない場合とは対照的に、完全に消去誤差を補正できないことが知られている(重要なケースはイーサン・クニールの定理である)。 さらに、近似量子誤差補正のための共変符号の精度には基本的な限界がある。 本稿では、ランダム共変符号の量子誤差補正能力について考察する。 特に、Haar random $U(1)$-symmetric unitary によって生成される$U(1)$-covariant codes、すなわち、電荷演算子と通勤するユニタリ(または電荷を保存する)は、通常、消去ノイズに対する平均および最悪のケースの純粋距離において、先頭の順序に対する基本的な限界を飽和させる。 この結果がユニタリ2-デザインの対称変種に対して有意であり、電荷保存ランダム回路の収束問題に留意する。 我々の結果は、最適な$U(1)$-共変符号の(潜在的に効率的な)ランダムな構成を示すだけでなく、ブラックホールや多体スピン系のような保存則が存在する広い物理的シナリオにおいて、複雑な量子系の重要なモデルを満たすランダムな電荷保存ユニタリの基本的性質も示している。

Quantum error correction and symmetries play central roles in quantum information science and physics. It is known that quantum error-correcting codes covariant with respect to continuous symmetries cannot correct erasure errors perfectly (an important case being the Eastin-Knill theorem), in contrast to the case without symmetry constraints. Furthermore, there are fundamental limits on the accuracy of such covariant codes for approximate quantum error correction. Here, we consider the quantum error correction capability of random covariant codes. In particular, we show that $U(1)$-covariant codes generated by Haar random $U(1)$-symmetric unitaries, i.e. unitaries that commute with the charge operator (or conserve the charge), typically saturate the fundamental limits to leading order in terms of both the average- and worst-case purified distances against erasure noise. We note that the results hold for symmetric variants of unitary 2-designs, and comment on the convergence problem of charge-conserving random circuits. Our results not only indicate (potentially efficient) randomized constructions of optimal $U(1)$-covariant codes, but also reveal fundamental properties of random charge-conserving unitaries, which may underlie important models of complex quantum systems in wide-ranging physical scenarios where conservation laws are present, such as black holes and many-body spin systems.
翻訳日:2023-04-10 03:15:11 公開日:2021-02-23
# 入力・パラメータの不確かさ下における量子力学のロバスト制御

Robust Control of Quantum Dynamics under Input and Parameter Uncertainty ( http://arxiv.org/abs/2102.11813v1 )

ライセンス: Link先を確認
Andrew Koswara, Vaibhav Bhutoria and Raj Chakrabarti(参考訳) 理論的および実験的な量子制御の著しい進歩にもかかわらず、工学的な量子系は、磁場とハミルトンパラメータに関連するノイズや不確実性の顕在化により、主に困難である。 本稿では, 量子制御目標モーメントの高精度な推定法である漸近的量子制御ロバスト性解析法を, 様々な量子可観測器, ゲート, モーメントに拡張・一般化し, 量子ロバスト性制御のためのポントリャーギン最大原理を導入する。 さらに、漸近量子制御ロバストネス分析を用いて、ロバストネスと収束のメカニズムを用いて、進化的オープンループ(モデルベース)と閉ループ(モデルフリー)アプローチによるロバスト制御を実現するためのパレート最適化フレームワークを提案する。 オープンループ法では、ハミルトニアンパラメータの不確かさの下で遷移確率の期待と分散の観点からパレート解を得るために多目的遺伝的アルゴリズムが用いられる。 数値的に決定された解の集合は、フィードバックループにおけるモデルなし学習制御の開始集団として使用できる。 クローズドループアプローチは、実符号遺伝的アルゴリズムと適応探索と搾取演算子を用いて、解の多様性を保ち、フィールドノイズの存在下で遷移確率を動的に最適化する。 これらの手法は、閉ループ実験のデータに基づいて開ループ制御予測を反復的に改善する量子システムの高忠実度適応フィードバック制御の基礎を提供する。

Despite significant progress in theoretical and laboratory quantum control, engineering quantum systems remains principally challenging due to manifestation of noise and uncertainties associated with the field and Hamiltonian parameters. In this paper, we extend and generalize the asymptotic quantum control robustness analysis method -- which provides more accurate estimates of quantum control objective moments than standard leading order techniques -- to diverse quantum observables, gates and moments thereof, and also introduce the Pontryagin Maximum Principle for quantum robust control. In addition, we present a Pareto optimization framework for achieving robust control via evolutionary open loop (model-based) and closed loop (model-free) approaches with the mechanisms of robustness and convergence described using asymptotic quantum control robustness analysis. In the open loop approach, a multiobjective genetic algorithm is used to obtain Pareto solutions in terms of the expectation and variance of the transition probability under Hamiltonian parameter uncertainty. The set of numerically determined solutions can then be used as a starting population for model-free learning control in a feedback loop. The closed loop approach utilizes real-coded genetic algorithm with adaptive exploration and exploitation operators in order to preserve solution diversity and dynamically optimize the transition probability in the presence of field noise. Together, these methods provide a foundation for high fidelity adaptive feedback control of quantum systems wherein open loop control predictions are iteratively improved based on data from closed loop experiments.
翻訳日:2023-04-10 03:13:54 公開日:2021-02-23
# 検証可能性の概念:アルゴリズム決定の検証

Conceptualising Contestability: Perspectives on Contesting Algorithmic Decisions ( http://arxiv.org/abs/2103.01774v1 )

ライセンス: Link先を確認
Henrietta Lyons, Eduardo Velloso and Tim Miller(参考訳) 高度な意思決定におけるアルゴリズムシステムの利用が増加するにつれ、アルゴリズム決定に異議を唱える能力は個人にとって重要な保護対象と認識されている。 しかし,「テスト可能性」とは何か,すなわち,アルゴリズム的意思決定に関連する決定を競う能力についてはほとんど指導されていない。 近年,アルゴリズム的意思決定における競争可能性の異なる概念化が研究されている。 我々は、オーストラリアが提唱した「AI倫理フレームワーク」に反応して提出した人々や組織の視点を記述し分析することで、この成長する仕事の組織に貢献する。 以上の結果から, 競争性の性質は議論されているものの, 個人を保護する方法と見なされ, 人間の意思決定に類似していることが判明した。 我々はこれらの発見の意義を考察し議論する。

As the use of algorithmic systems in high-stakes decision-making increases, the ability to contest algorithmic decisions is being recognised as an important safeguard for individuals. Yet, there is little guidance on what `contestability'--the ability to contest decisions--in relation to algorithmic decision-making requires. Recent research presents different conceptualisations of contestability in algorithmic decision-making. We contribute to this growing body of work by describing and analysing the perspectives of people and organisations who made submissions in response to Australia's proposed `AI Ethics Framework', the first framework of its kind to include `contestability' as a core ethical principle. Our findings reveal that while the nature of contestability is disputed, it is seen as a way to protect individuals, and it resembles contestability in relation to human decision-making. We reflect on and discuss the implications of these findings.
翻訳日:2023-04-10 03:07:09 公開日:2021-02-23
# コンピュータ構成とアーキテクチャのための概念モデリング

Conceptual Modeling for Computer Organization and Architecture ( http://arxiv.org/abs/2103.01773v1 )

ライセンス: Link先を確認
Sabah Al-Fedaghi(参考訳) コンピュータシステムのハードウェアを理解することは、コンピュータ工学と科学の学部生にとって不可欠である。 文学は、学生がコンピュータの組織とアセンブリ言語を学ぶと、しばしばトピック資料の中で理解しにくい基本的な概念が見つかることを示している。 コンピュータアーキテクチャ、アセンブリ言語、オペレーティングシステム間の相互作用を学生に理解させるツールが導入された。 そのようなツールの1つは、Little Man Computer (LMC)モデルであり、コンピュータと似た方法で動作するが、理解しやすい。 LMCは複数のコアを持つ現代的なCPUを持っておらず、複数の命令を実行していないが、それでもフォン・ノイマンアーキテクチャの基本原理を示している。 LMCは、学生にコードや命令セットなどの概念を導入することを目的としている。 本稿では,コンピュータ組織やアーキテクチャにおいて,複雑度を伴わずに新しいモデリング言語(すなわち,物作り機械,tm)を用いて実験を行うためのツールであるlmcについて述べる。 すなわち、LCCの単純さは、コンピュータ組織やアーキテクチャ材料に深く入り込むことなく、TMの応用を促進する。 そのため紙は (a) LMCモデルをあらゆる目的(例えば教育)に利用するための新しい方法(例えば、教育) b) tm が組織/アーキテクチャ分野における抽象的な記述レベルを構築するのに使用できることを実証する。 lmcのtmモデルから得られた図式は、コンピュータ組織とアーキテクト分野におけるハードウェア/ソフトウェアに依存しない記述のための実行可能な方法である、という私たちの論文を支持する最初のケーススタディを提供します。

Understanding computer system hardware, including how computers operate, is essential for undergraduate students in computer engineering and science. Literature shows students learning computer organization and assembly language often find fundamental concepts difficult to comprehend within the topic materials. Tools have been introduced to improve students comprehension of the interaction between computer architecture, assembly language, and the operating system. One such tool is the Little Man Computer (LMC) model that operates in a way similar to a computer but that is easier to understand. Even though LMC does not have modern CPUs with multiple cores nor executes multiple instructions, it nevertheless shows the basic principles of the von Neumann architecture. LMC aims to introduce students to such concepts as code and instruction sets. In this paper, LMC is used for an additional purpose: a tool with which to experiment using a new modeling language (i.e., a thinging machine; TM) in the area of computer organization and architecture without involving complexity in the subject. That is, the simplicity of LMC facilitates the application of TM without going deep into computer organization/architecture materials. Accordingly, the paper (a) provides a new way for using the LMC model for whatever purpose (e.g., education) and (b) demonstrates that TM can be used to build an abstract level of description in the organization/architect field. The resultant schematics from the TM model of LMC offer an initial case study that supports our thesis that TM is a viable method for hardware/software-independent descriptions in the computer organization and architect field of study.
翻訳日:2023-04-10 03:06:54 公開日:2021-02-23
# 真空誘起集合量子ビートの観測

Observation of vacuum-induced collective quantum beats ( http://arxiv.org/abs/2102.11982v1 )

ライセンス: Link先を確認
Hyok Sang Han, Ahreum Lee, Kanupriya Sinha, Fredrik K. Fatemi, Steven L. Rolston(参考訳) 3レベルV型原子系の真空誘起量子ビートダイナミクスを総合的に拡張した。 磁気光学的に閉じ込められた$^{85}$Rb原子の希薄な原子ガスが遷移の1つに弱い駆動共鳴を持つので、レーザが突然停止した後、前方散乱場を観察する。 その後の放射力学は、原子雲の様々な光学的深さで測定され、超ラジアント崩壊率と集合的な量子ビートを示す。 私たちの研究は、励起レベル間の真空誘起カップリングの結果、最初は1つの励起レベルで準備された原子から生じる量子ビートに関する最初の実験例でもある。

We demonstrate collectively enhanced vacuum-induced quantum beat dynamics from a three-level V-type atomic system. Exciting a dilute atomic gas of magneto-optically trapped $^{85}$Rb atoms with a weak drive resonant on one of the transitions, we observe the forward-scattered field after a sudden shut-off of the laser. The subsequent radiative dynamics, measured for various optical depths of the atomic cloud, exhibits superradiant decay rates, as well as collectively enhanced quantum beats. Our work is also the first experimental illustration of quantum beats arising from atoms initially prepared in a single excited level as a result of the vacuum-induced coupling between excited levels.
翻訳日:2023-04-10 03:06:17 公開日:2021-02-23
# 孤立磁化率の実験的測定

Experimental measurement of the isolated magnetic susceptibility ( http://arxiv.org/abs/2102.11969v1 )

ライセンス: Link先を確認
D. Billington, C. Paulsen, E. Lhotel, J. Cannon, E. Riordan, M. Salman, G. Klemencic, C. Cafolla-Ward, D. Prabhakaran, S. R. Giblin, S. T. Bramwell(参考訳) 孤立感受性 $\chi_{\rm i}$ は正準アンサンブル上の(非熱力学的)平均と定義できるが、文献でしばしば議論されているが、明確な測定はされていない。 ここでは、希薄なスピン氷系における核-電子レベルの交差を避けるために、よく分離されたホルミウムイオンを含む、$\chi_{\rm I}$の曖昧な測定を実証する。 この点における準古典スピン状態の重ね合わせを$\chi_{\rm I}$で定量化し、状態の収束と人口の直接測度であることを示す。

The isolated susceptibility $\chi_{\rm I}$ may be defined as a (non-thermodynamic) average over the canonical ensemble, but while it has often been discussed in the literature, it has not been clearly measured. Here, we demonstrate an unambiguous measurement of $\chi_{\rm I}$ at avoided nuclear-electronic level crossings in a dilute spin ice system, containing well-separated holmium ions. We show that $\chi_{\rm I}$ quantifies the superposition of quasi-classical spin states at these points, and is a direct measure of state concurrence and populations.
翻訳日:2023-04-10 03:06:06 公開日:2021-02-23
# ジェネレーティブアートにおけるコンバウンディングバイアスの定量化 : 症例研究

Quantifying Confounding Bias in Generative Art: A Case Study ( http://arxiv.org/abs/2102.11957v1 )

ライセンス: Link先を確認
Ramya Srinivasan, Kanji Uchino(参考訳) 近年、aiが生み出す芸術は非常に人気が高まっている。 ポール・セザンヌやクロード・モネのような有名な芸術家のスタイルでアート作品を生成することから、浮世絵のような芸術運動のスタイルをシミュレートすることまで、aiを使って様々な創造的な応用が研究されてきた。 美術史的な視点から見ると、これらの応用は倫理的な疑問を提起する。 AIはアーティストのスタイルをステレオタイプなしでモデル化できるのか? AIは芸術運動の社会文化的ニュアンスに公正か? 本研究では,これらの問題を分析するための第一歩を踏み出す。 本研究では,アーティストのスタイル学習における芸術運動の影響のモデル化が欠如していることから,芸術創造の潜在的過程を表現するために有向非循環グラフを活用することを提案する。 ケーススタディとして,一般的なサイクルGANモデルを検討し,様々なジャンルにまたがる共起バイアスを分析した。 提案手法は,芸術作品における芸術運動の影響を理解する上で,最先端の外れ値検出法よりも有効である。 我々の研究は、アーティストのスタイルを計算的にモデル化することの重要な欠点を解明し、AI生成したアートのアカウンタビリティに関する議論を引き起こすことを願っている。

In recent years, AI generated art has become very popular. From generating art works in the style of famous artists like Paul Cezanne and Claude Monet to simulating styles of art movements like Ukiyo-e, a variety of creative applications have been explored using AI. Looking from an art historical perspective, these applications raise some ethical questions. Can AI model artists' styles without stereotyping them? Does AI do justice to the socio-cultural nuances of art movements? In this work, we take a first step towards analyzing these issues. Leveraging directed acyclic graphs to represent potential process of art creation, we propose a simple metric to quantify confounding bias due to the lack of modeling the influence of art movements in learning artists' styles. As a case study, we consider the popular cycleGAN model and analyze confounding bias across various genres. The proposed metric is more effective than state-of-the-art outlier detection method in understanding the influence of art movements in artworks. We hope our work will elucidate important shortcomings of computationally modeling artists' styles and trigger discussions related to accountability of AI generated art.
翻訳日:2023-04-10 03:05:55 公開日:2021-02-23
# 部分否定と弱測定による量子状態判別のための量子アルゴリズム

Quantum Algorithm for Quantum State Discrimination via Partial Negation and Weak Measurement ( http://arxiv.org/abs/2102.11945v1 )

ライセンス: Link先を確認
Doha A. Rizk, Ahmed Younes(参考訳) 量子状態判別問題は、非直交量子状態の区別である。 この問題は量子情報理論、量子通信、量子暗号に多くの応用がある。 本稿では、未知の量子ビットの単一コピーを用いて量子状態判別問題を解くために、弱い測定と部分否定を用いた量子アルゴリズムを提案する。 弱測定を用いることで、重ね合わせは測定によって破壊されないため、測定後にキュービットを再構築することができる。 提案アルゴリズムは、成功の確率が高く、未知の量子ビットの状態がアダマールで符号化されているか、あるいは補助量子ビット上で連続した測定結果を数えて計算ベースで符号化されているかを決定することができる。

The quantum state discrimination problem is to distinguish between non-orthogonal quantum states. This problem has many applications in quantum information theory, quantum communication and quantum cryptography. In this paper a quantum algorithm using weak measurement and partial negation will be proposed to solve the quantum state discrimination problem using a single copy of an unknown qubit. The usage of weak measurement makes it possible to reconstruct the qubit after measurement since the superposition will not be destroyed due to measurement. The proposed algorithm will be able to determine, with high probability of success, the state of the unknown qubit and whether it is encoded in the Hadamard or the computational basis by counting the outcome of the successive measurements on an auxiliary qubit.
翻訳日:2023-04-10 03:05:34 公開日:2021-02-23
# 周期駆動 aubry-andr\'{e} モデルにおけるモビリティエッジとマルチフラクタリティ

Mobility edge and multifractality in a periodically driven Aubry-Andr\'{e} model ( http://arxiv.org/abs/2102.11889v1 )

ライセンス: Link先を確認
Madhumita Sarkar, Roopayan Ghosh, Arnab Sen, and K. Sengupta(参考訳) 本研究では, フラケット固有状態の局所化-非局在化遷移を, 周期的に変化する不規則なオーブリー・アンドルーマインポテンシャルとホッピング振幅を持つ駆動フェルミオン鎖で検討した。 Floquetスペクトルの局在状態と多フラクタル状態から単一粒子非局在状態を分離する移動端の存在を解析した。 そのようなモビリティ・エッジは静的なオーブリー-アンドル-'{e}モデルには対応するものがなく、遷移が起こる臨界周波数に近い範囲の駆動周波数が存在する。 モビリティエッジの存在は、駆動鎖のフェルミオン輸送に異なるインプリントを残していることが示され、また、シャノンエントロピーや長時間のフェルミオンの生存確率にも影響を及ぼす。 さらに、FloquetスペクトルにおけるCAT状態の存在は、鎖の近傍のいくつかの部位を中心にしている。 これは、準エネルギーの範囲でのフロッケバンドの平坦化と結びつくことが示されている。 我々は,Floquet摂動理論で計算されたFloquet Hamiltonian(H_F$)の半解析式を用いて数値研究を支援する。 得られた摂動$H_F$の固有スペクトルは、数値的に得られた$H_F$の正確な固有状態と質的に同一な性質を示す。 したがって、スペクトルが多重フラクタル状態とCAT状態をサポートする$H_F$の解析式を構成する。 我々の理論を検証できる実験を提案する。

We study the localization-delocalization transition of Floquet eigenstates in a driven fermionic chain with an incommensurate Aubry-Andr\'{e} potential and a hopping amplitude which is varied periodically in time. Our analysis shows the presence of a mobility edge separating single-particle delocalized states from localized and multifractal states in the Floquet spectrum. Such a mobility edge does not have any counterpart in the static Aubry-Andr\'{e} model and exists for a range of drive frequencies near the critical frequency at which the transition occurs. The presence of the mobility edge is shown to leave a distinct imprint on fermion transport in the driven chain; it also influences the Shannon entropy and the survival probability of the fermions at long times. In addition, we find the presence of CAT states in the Floquet spectrum with weights centered around a few nearby sites of the chain. This is shown to be tied to the flattening of Floquet bands over a range of quasienergies. We support our numerical studies with a semi-analytic expression for the Floquet Hamiltonian ($H_F$) computed within a Floquet perturbation theory. The eigenspectra of the perturbative $H_F$ so obtained exhibit qualitatively identical properties to the exact eigenstates of $H_F$ obtained numerically. Our results thus constitute an analytic expression of a $H_F$ whose spectrum supports multifractal and CAT states. We suggest experiments which can test our theory.
翻訳日:2023-04-10 03:05:09 公開日:2021-02-23
# 深層イノベーション保護:異種ニューラルアーキテクチャのトレーニングにおけるクレジット割り当て問題に直面する

Deep Innovation Protection: Confronting the Credit Assignment Problem in Training Heterogeneous Neural Architectures ( http://arxiv.org/abs/2001.01683v2 )

ライセンス: Link先を確認
Sebastian Risi and Kenneth O. Stanley(参考訳) 深層強化学習アプローチは、さまざまなドメインで印象的な結果を示しているが、世界モデルのようなより複雑な異種アーキテクチャでは、エンドツーエンドではなく、異なるニューラルネットワークを個別にトレーニングする必要がある。 単純な遺伝的アルゴリズムが最近、エンドツーエンドのトレーニングが可能であることを示したが、より複雑な3dタスクは解決できなかった。 本稿では,複雑な異種ニューラルネットワークモデルのエンド・ツー・エンドトレーニングにおける信用割当問題に対処するDeep Innovation Protection(DIP)を提案する。 このアプローチの背後にある主要なアイデアは、多成分ネットワークにおける特定のコンポーネントの選択プレッシャーを時間的に減らすために、多目的最適化を採用することである。 本稿では,エージェントの生存に重要な特性を,特定の前方予測損失を伴わずに予測するネットワークの創発的表現について検討する。

Deep reinforcement learning approaches have shown impressive results in a variety of different domains, however, more complex heterogeneous architectures such as world models require the different neural components to be trained separately instead of end-to-end. While a simple genetic algorithm recently showed end-to-end training is possible, it failed to solve a more complex 3D task. This paper presents a method called Deep Innovation Protection (DIP) that addresses the credit assignment problem in training complex heterogenous neural network models end-to-end for such environments. The main idea behind the approach is to employ multiobjective optimization to temporally reduce the selection pressure on specific components in multi-component network, allowing other components to adapt. We investigate the emergent representations of these evolved networks, which learn to predict properties important for the survival of the agent, without the need for a specific forward-prediction loss.
翻訳日:2023-01-17 07:28:56 公開日:2021-02-23
# 高分解能電子顕微鏡データからのセグメンテーションと欠陥同定のための機械学習パイプライン

Machine Learning Pipeline for Segmentation and Defect Identification from High Resolution Transmission Electron Microscopy Data ( http://arxiv.org/abs/2001.05022v2 )

ライセンス: Link先を確認
C.K. Groschner, Christina Choi, and M.C. Scott(参考訳) 透過電子顕微鏡の分野では、画像処理法は個々のデータセットに手動で調整する必要があるため、データ解釈は取得方法より遅れることが多い。 機械学習は、電子顕微鏡データの高速で正確な分析に有望なアプローチを提供する。 本稿では,u-netをセグメンテーションに,ランダムフォレストをスタックング障害検出に用いた高分解能透過型電子顕微鏡データ解析のための柔軟な2ステップパイプラインを示す。 訓練されたu-netは、ディス係数0.8のアモルファス背景からナノ粒子領域をセグメンテーションすることができ、従来の画像セグメンテーション法を大きく上回っている。 これらのセグメンテーション領域を用いて、ナノ粒子が86%の精度で可視的な積み重ね欠陥を含むかどうかを分類することができる。 私たちはこの適応可能なパイプラインをオープンソースツールとしてコミュニティに提供しています。 セグメンテーションネットワークと分類器の組み合わせ出力は、サイズ、形状、欠陥の有無などの特徴の統計的分布を決定する手段を提供し、これらの特徴間の相関を検出する。

In the field of transmission electron microscopy, data interpretation often lags behind acquisition methods, as image processing methods often have to be manually tailored to individual datasets. Machine learning offers a promising approach for fast, accurate analysis of electron microscopy data. Here, we demonstrate a flexible two step pipeline for analysis of high resolution transmission electron microscopy data, which uses a U-Net for segmentation followed by a random forest for detection of stacking faults. Our trained U-Net is able to segment nanoparticle regions from amorphous background with a Dice coefficient of 0.8 and significantly outperforms traditional image segmentation methods. Using these segmented regions, we are then able to classify whether nanoparticles contain a visible stacking fault with 86% accuracy. We provide this adaptable pipeline as an open source tool for the community. The combined output of the segmentation network and classifier offer a way to determine statistical distributions of features of interest, such as size, shape and defect presence, enabling detection of correlations between these features.
翻訳日:2023-01-11 13:17:31 公開日:2021-02-23
# ランゲヴィン DQN

Langevin DQN ( http://arxiv.org/abs/2002.07282v2 )

ライセンス: Link先を確認
Vikranth Dwaracherla, Benjamin Van Roy(参考訳) 深層探査に取り組むアルゴリズムは、強化学習の重要な課題であり、アンサンブルや他のハイパーモデル、探索ボーナス、訪問数分布を通じて認識の不確実性表現に依存している。 オープンな疑問は、一点推定を追跡するインクリメンタル強化学習アルゴリズムによって、認識の不確かさを考慮せずに、深い探索が可能になるかどうかである。 私たちはこの質問を肯定的に答える。 特に,ガウス雑音を伴うパラメータ更新の摂動においてのみ異なるdqnの変動であるlangevin dqnを開発した。 また、Langevin DQNの深層探査の方法についても直感的です。 さらに,計算効率を向上させるためにlangevin dqnアルゴリズムの修正を行った。

Algorithms that tackle deep exploration -- an important challenge in reinforcement learning -- have relied on epistemic uncertainty representation through ensembles or other hypermodels, exploration bonuses, or visitation count distributions. An open question is whether deep exploration can be achieved by an incremental reinforcement learning algorithm that tracks a single point estimate, without additional complexity required to account for epistemic uncertainty. We answer this question in the affirmative. In particular, we develop Langevin DQN, a variation of DQN that differs only in perturbing parameter updates with Gaussian noise and demonstrate through a computational study that the presented algorithm achieves deep exploration. We also offer some intuition to how Langevin DQN achieves deep exploration. In addition, we present a modification of the Langevin DQN algorithm to improve the computational efficiency.
翻訳日:2022-12-31 11:51:34 公開日:2021-02-23
# 機械学習モデルからの近似データ削除

Approximate Data Deletion from Machine Learning Models ( http://arxiv.org/abs/2002.10077v2 )

ライセンス: Link先を確認
Zachary Izzo, Mary Anne Smart, Kamalika Chaudhuri, James Zou(参考訳) トレーニングされた機械学習(ML)モデルからデータを削除することは、多くのアプリケーションにおいて重要なタスクである。 例えば、古いものや異常値の可能性のあるトレーニングポイントの影響を取り除こうとするかもしれません。 EUの一般データ保護規則(General Data Protection Regulation)などの規則では、個人がデータを削除するよう要求することも規定されている。 データ削除に対する単純なアプローチは、残りのデータでMLモデルをトレーニングすることだが、これは時間がかかりすぎる。 本研究では,特徴次元$d$ において計算コストが線形であり,訓練データ $n$ の個数に依存しない線形・ロジスティックモデルに対する近似削除法を提案する。 これは、全て次元に超線形時間依存を持つすべての既存の方法よりも顕著な利得である。 また,MLモデルからのデータ削除の完全性を評価するための機能注入テストも開発した。

Deleting data from a trained machine learning (ML) model is a critical task in many applications. For example, we may want to remove the influence of training points that might be out of date or outliers. Regulations such as EU's General Data Protection Regulation also stipulate that individuals can request to have their data deleted. The naive approach to data deletion is to retrain the ML model on the remaining data, but this is too time consuming. In this work, we propose a new approximate deletion method for linear and logistic models whose computational cost is linear in the the feature dimension $d$ and independent of the number of training data $n$. This is a significant gain over all existing methods, which all have superlinear time dependence on the dimension. We also develop a new feature-injection test to evaluate the thoroughness of data deletion from ML models.
翻訳日:2022-12-29 03:03:41 公開日:2021-02-23
# マルチエージェント深部強化学習のためのビジュアルコミュニケーションマップ

A Visual Communication Map for Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2002.11882v2 )

ライセンス: Link先を確認
Ngoc Duy Nguyen, Thanh Thi Nguyen, Doug Creighton, Saeid Nahavandi(参考訳) 深層強化学習は様々な現実世界の問題を解決するためにうまく適用され、マルチエージェント設定におけるそのアプリケーションの数は増加している。 マルチエージェント学習は、隠されたコミュニケーション媒体を割り当てる作業において、明らかに重大な課題をもたらす。 エージェントは媒体から詳細な知識を受け取り、その後の動作を分散した性質で決定する。 目標は、複数のエージェントの協力を利用して、指定された目的を効率的に達成することだ。 最近の研究は一般的に、エージェント間の通信を可能にするために、特殊なニューラルネットワークと強化学習を組み合わせる。 しかし、このアプローチはエージェントの数を制限するか、システムの均質性を必要とする。 本稿では,多数のエージェントを扱うだけでなく,異なる機能エージェント間のコラボレーションを可能にし,任意の深層強化学習手法と組み合わせることで,よりスケーラブルなアプローチを提案する。 具体的には,システム内の各エージェントの状態を視覚的に表現するためのグローバルコミュニケーションマップを作成する。 視覚地図と環境状態は共有パラメータネットワークに供給され、複数のエージェントを同時に訓練する。 最後に, Asynchronous Advantage Actor-Critic (A3C) アルゴリズムを選択し,提案手法,すなわちマルチエージェント A3C (VMA3C) のためのビジュアル通信マップを提案する。 シミュレーションの結果,視覚的コミュニケーションマップを用いることで,学習速度,報奨達成度,マルチエージェント問題におけるロバスト性に関するA3Cの性能が向上することがわかった。

Deep reinforcement learning has been applied successfully to solve various real-world problems and the number of its applications in the multi-agent settings has been increasing. Multi-agent learning distinctly poses significant challenges in the effort to allocate a concealed communication medium. Agents receive thorough knowledge from the medium to determine subsequent actions in a distributed nature. Apparently, the goal is to leverage the cooperation of multiple agents to achieve a designated objective efficiently. Recent studies typically combine a specialized neural network with reinforcement learning to enable communication between agents. This approach, however, limits the number of agents or necessitates the homogeneity of the system. In this paper, we have proposed a more scalable approach that not only deals with a great number of agents but also enables collaboration between dissimilar functional agents and compatibly combined with any deep reinforcement learning methods. Specifically, we create a global communication map to represent the status of each agent in the system visually. The visual map and the environmental state are fed to a shared-parameter network to train multiple agents concurrently. Finally, we select the Asynchronous Advantage Actor-Critic (A3C) algorithm to demonstrate our proposed scheme, namely Visual communication map for Multi-agent A3C (VMA3C). Simulation results show that the use of visual communication map improves the performance of A3C regarding learning speed, reward achievement, and robustness in multi-agent problems.
翻訳日:2022-12-28 08:32:42 公開日:2021-02-23
# 総合的な深層強化学習フレームワークのレビュー・分析・設計

Review, Analysis and Design of a Comprehensive Deep Reinforcement Learning Framework ( http://arxiv.org/abs/2002.11883v2 )

ライセンス: Link先を確認
Ngoc Duy Nguyen, Thanh Thi Nguyen, Hai Nguyen, Doug Creighton, Saeid Nahavandi(参考訳) 深層学習と強化学習(RL)の統合により,RLは高次元環境下で効率的に動作できるようになった。 近年、複雑な実世界の問題を解決するために深いrl法が適用されている。 しかし、適切な深部RLアルゴリズムの選択、ネットワーク構成、トレーニング時間、トレーニング方法など、様々な問題により、深部RLベースのシステムの開発は困難である。 本稿では,コネクテッド・ザ・ドット・ディープRLアーキテクチャの設計において重要な役割を果たすだけでなく,リアルタイムRLアプリケーションを短時間で開発するためのガイドラインを提供する包括的ソフトウェアフレームワークを提案する。 我々は、柔軟性、堅牢性、スケーラビリティを厳密に保証する深いRLベースのソフトウェアフレームワークを設計、開発しました。 提案されたアーキテクチャを継承することで、ソフトウェアマネージャは、深いRLベースのシステムを設計する際の課題を予測できる。 結果として、設計プロセスの迅速化と、特にアジャイル開発環境において重要なソフトウェア開発のすべてのステージを積極的にコントロールすることが可能になります。 一般化を実現するために提案されたアーキテクチャは、特定のrlアルゴリズム、ネットワーク構成、エージェント数、エージェントの種類に依存しない。 このフレームワークを使用すると、ソフトウェア開発者は新しいrlアルゴリズムや新しい種類のエージェントを開発し統合でき、ネットワーク構成やエージェントの数を柔軟に変更することができます。

The integration of deep learning to reinforcement learning (RL) has enabled RL to perform efficiently in high-dimensional environments. Deep RL methods have been applied to solve many complex real-world problems in recent years. However, development of a deep RL-based system is challenging because of various issues such as the selection of a suitable deep RL algorithm, its network configuration, training time, training methods, and so on. This paper proposes a comprehensive software framework that not only plays a vital role in designing a connect-the-dots deep RL architecture but also provides a guideline to develop a realistic RL application in a short time span. We have designed and developed a deep RL-based software framework that strictly ensures flexibility, robustness, and scalability. By inheriting the proposed architecture, software managers can foresee any challenges when designing a deep RL-based system. As a result, they can expedite the design process and actively control every stage of software development, which is especially critical in agile development environments. To enforce generalization, the proposed architecture does not depend on a specific RL algorithm, a network configuration, the number of agents, or the type of agents. Using our framework, software developers can develop and integrate new RL algorithms or new types of agents, and can flexibly change network configuration or the number of agents.
翻訳日:2022-12-28 08:06:47 公開日:2021-02-23
# 最適コンテキスト価格と拡張

Optimal Contextual Pricing and Extensions ( http://arxiv.org/abs/2003.01703v3 )

ライセンス: Link先を確認
Allen Liu, Renato Paes Leme, Jon Schneider(参考訳) 文脈価格問題において、売り手は、逆選択された特徴ベクトルによって記述された商品を$\mathbb{R}^d$で繰り返し取得し、その商品に対して固定だが未知の線形評価を持つ買い手の購入決定を観察する。 この後悔は、売り手が購入者の評価を知るために得た収入と、学習アルゴリズムによって得られるものとの差を測定する。 o(d \log \log t + d \log d)$ regret は$\omega(d \log \log t)$ で、$d \log d$ 加法係数まで下限する。 価格損失を対称損失で置き換えるならば、$O(d \log d)$ のほぼ最適な後悔を伴うアルゴリズムが、$\Omega(d)$ の低い境界を $\log d$ に一致する。 これらのアルゴリズムは、凸領域のシュタイナー多項式の値を様々なスケールで境界付ける新しい手法に基づいている。 シュタイナー多項式は内在体積を係数とする次数$d$多項式である。 また、ユークリッド空間上の隠れ線型函数は、ある仮説クラス $\mathcal{H}$ において隠れ関数 $f : \mathcal{X} \rightarrow \mathcal{Y}$ に置き換えられるような一般化された文脈探索についても検討する。 我々は、このクラスの被覆次元が$d$である場合、$o(d^2)$ regret のジェネリックアルゴリズムを提供する。 これにより、線形文脈探索のための$\tilde{o}(s^2)$ regretアルゴリズムは、線形関数が$s$-sparseであることが保証される。 最後に、結果はノイズの多いフィードバックモデルにも拡張し、各ラウンドのフィードバックは固定確率$p < 1/2$で反転します。

In the contextual pricing problem a seller repeatedly obtains products described by an adversarially chosen feature vector in $\mathbb{R}^d$ and only observes the purchasing decisions of a buyer with a fixed but unknown linear valuation over the products. The regret measures the difference between the revenue the seller could have obtained knowing the buyer valuation and what can be obtained by the learning algorithm. We give a poly-time algorithm for contextual pricing with $O(d \log \log T + d \log d)$ regret which matches the $\Omega(d \log \log T)$ lower bound up to the $d \log d$ additive factor. If we replace pricing loss by the symmetric loss, we obtain an algorithm with nearly optimal regret of $O(d \log d)$ matching the $\Omega(d)$ lower bound up to $\log d$. These algorithms are based on a novel technique of bounding the value of the Steiner polynomial of a convex region at various scales. The Steiner polynomial is a degree $d$ polynomial with intrinsic volumes as the coefficients. We also study a generalized version of contextual search where the hidden linear function over the Euclidean space is replaced by a hidden function $f : \mathcal{X} \rightarrow \mathcal{Y}$ in a certain hypothesis class $\mathcal{H}$. We provide a generic algorithm with $O(d^2)$ regret where $d$ is the covering dimension of this class. This leads in particular to a $\tilde{O}(s^2)$ regret algorithm for linear contextual search if the linear function is guaranteed to be $s$-sparse. Finally we also extend our results to the noisy feedback model, where each round our feedback is flipped with a fixed probability $p < 1/2$.
翻訳日:2022-12-26 23:26:54 公開日:2021-02-23
# 疎ガウス過程の再検討--変量近似を誘導するベイズ的アプローチ

Sparse Gaussian Processes Revisited: Bayesian Approaches to Inducing-Variable Approximations ( http://arxiv.org/abs/2003.03080v4 )

ライセンス: Link先を確認
Simone Rossi and Markus Heinonen and Edwin V. Bonilla and Zheyang Shen and Maurizio Filippone(参考訳) 変数の誘導に基づく変分推論手法はガウス過程(GP)モデルにおいてスケーラブルな後続推定のためのエレガントなフレームワークを提供する。 スケーラビリティの実現に加えて、直接限界極大化を用いたスパース近似よりも大きな利点の1つは、誘導入力の点推定、すなわち誘導変数の位置に対する堅牢な代替手段を提供することである。 本研究では,変動フレームワークにおけるインプットの最適化が最適なパフォーマンスをもたらすという共通認識に挑戦する。 ベイジアン方式では, 強力なサンプリングベース推論手法により, 完全独立トレーニング条件などの古いモデル近似を再検討することにより, 誘導位置とGPハイパーパラメータの両方を処理することで, 性能を著しく向上できることを示す。 確率勾配ハミルトニアンモンテカルロに基づき,スケーラブルなgpモデルとディープgpモデルへの完全ベイズ的アプローチを開発し,いくつかの回帰問題と分類問題に対する広範な実験を通じて,その最新性能を実証する。

Variational inference techniques based on inducing variables provide an elegant framework for scalable posterior estimation in Gaussian process (GP) models. Besides enabling scalability, one of their main advantages over sparse approximations using direct marginal likelihood maximization is that they provide a robust alternative for point estimation of the inducing inputs, i.e. the location of the inducing variables. In this work we challenge the common wisdom that optimizing the inducing inputs in the variational framework yields optimal performance. We show that, by revisiting old model approximations such as the fully-independent training conditionals endowed with powerful sampling-based inference methods, treating both inducing locations and GP hyper-parameters in a Bayesian way can improve performance significantly. Based on stochastic gradient Hamiltonian Monte Carlo, we develop a fully Bayesian approach to scalable GP and deep GP models, and demonstrate its state-of-the-art performance through an extensive experimental campaign across several regression and classification problems.
翻訳日:2022-12-26 00:45:29 公開日:2021-02-23
# ShadowSync: 高度にスケーラブルな分散トレーニングの背景において同期を実行する

ShadowSync: Performing Synchronization in the Background for Highly Scalable Distributed Training ( http://arxiv.org/abs/2003.03477v3 )

ライセンス: Link先を確認
Qinqing Zheng, Bor-Yiing Su, Jiyan Yang, Alisson Azzolini, Qiang Wu, Ou Jin, Shri Karandikar, Hagay Lupesko, Liang Xiong, Eric Zhou(参考訳) 推奨システムは膨大な量のデータでトレーニングされることが多く、分散トレーニングはトレーニング時間を短縮する作業場である。 トレーニングのスループットは、単に労働者を増やすだけで向上できるが、モデルの品質を維持することはますます難しくなっている。 本稿では,現代的なレコメンデーションシステムトレーニングに特化した分散フレームワークである \shadowsync を提案する。 トレーニングプロセスの一部として同期が発生する以前の作業とは対照的に、 \shadowsyncは同期をトレーニングから分離し、バックグラウンドで実行する。 このような分離により、同期オーバーヘッドが大幅に減少し、同期周波数が増大し、スケールトレーニング時に高いスループットと優れたモデル品質が得られる。 提案手法の優位性は,クリックスルーレート予測タスクのためのディープニューラルネットワークのトレーニング実験によって確認される。 我々のフレームワークはデータ並列性やモデル並列性を表現でき、様々な種類の同期アルゴリズムをホストし、他の領域の大規模問題にも容易に適用できます。

Recommendation systems are often trained with a tremendous amount of data, and distributed training is the workhorse to shorten the training time. While the training throughput can be increased by simply adding more workers, it is also increasingly challenging to preserve the model quality. In this paper, we present \shadowsync, a distributed framework specifically tailored to modern scale recommendation system training. In contrast to previous works where synchronization happens as part of the training process, \shadowsync separates the synchronization from training and runs it in the background. Such isolation significantly reduces the synchronization overhead and increases the synchronization frequency, so that we are able to obtain both high throughput and excellent model quality when training at scale. The superiority of our procedure is confirmed by experiments on training deep neural networks for click-through-rate prediction tasks. Our framework is capable to express data parallelism and/or model parallelism, generic to host various types of synchronization algorithms, and readily applicable to large scale problems in other areas.
翻訳日:2022-12-25 19:20:39 公開日:2021-02-23
# 分散非凸最適化について:ネットワークの弱凸問題に対する計画次法

On Distributed Non-convex Optimization: Projected Subgradient Method For Weakly Convex Problems in Networks ( http://arxiv.org/abs/2004.13233v2 )

ライセンス: Link先を確認
Shixiang Chen, Alfredo Garcia and Shahin Shahrampour(参考訳) 確率勾配法は機械学習における大規模最適化問題の解法として広く用いられているアルゴリズムである。 これらの問題はスムーズでも凸でもないことが多い。 最近、デイビスら。 1-2] は, 多くの重要な応用(ロバスト相検索, ブラインドデコンボリューション, 双凸圧縮センシング, 辞書学習など)を包含する弱凸の場合の確率的劣勾配法の収束を特徴とした。 実際に、リスク最小化を高速化するために、投射確率勾配法(stoDPSM)の分散実装を用いる。 本稿では,確率的下位勾配法を理論的に保証した分散実装を提案する。 具体的には,モロー封筒定常度尺度を用いて,StoDPSMのグローバル収束を示す。 さらに, いわゆるシャープネス条件下では, 決定論的DPSM(適切な初期化)は, 形状的に小さくなるステップサイズを用いて, シャープミニマに線形に収束することを示す。 理論解析を支援するために数値実験を行う。

The stochastic subgradient method is a widely-used algorithm for solving large-scale optimization problems arising in machine learning. Often these problems are neither smooth nor convex. Recently, Davis et al. [1-2] characterized the convergence of the stochastic subgradient method for the weakly convex case, which encompasses many important applications (e.g., robust phase retrieval, blind deconvolution, biconvex compressive sensing, and dictionary learning). In practice, distributed implementations of the projected stochastic subgradient method (stoDPSM) are used to speed-up risk minimization. In this paper, we propose a distributed implementation of the stochastic subgradient method with a theoretical guarantee. Specifically, we show the global convergence of stoDPSM using the Moreau envelope stationarity measure. Furthermore, under a so-called sharpness condition, we show that deterministic DPSM (with a proper initialization) converges linearly to the sharp minima, using geometrically diminishing step-size. We provide numerical experiments to support our theoretical analysis.
翻訳日:2022-12-08 22:33:31 公開日:2021-02-23
# センサー操作室における手術データ科学のためのHeidelberg大腸データセット

Heidelberg Colorectal Data Set for Surgical Data Science in the Sensor Operating Room ( http://arxiv.org/abs/2005.03501v5 )

ライセンス: Link先を確認
Lena Maier-Hein, Martin Wagner, Tobias Ross, Annika Reinke, Sebastian Bodenstedt, Peter M. Full, Hellena Hempe, Diana Mindroc-Filimon, Patrick Scholz, Thuy Nuong Tran, Pierangela Bruno, Anna Kisilenko, Benjamin M\"uller, Tornike Davitashvili, Manuela Capek, Minu Tizabi, Matthias Eisenmann, Tim J. Adler, Janek Gr\"ohl, Melanie Schellenberg, Silvia Seidlitz, T. Y. Emmy Lai, B\"unyamin Pekdemir, Veith Roethlingshoefer, Fabian Both, Sebastian Bittel, Marc Mengler, Lars M\"undermann, Martin Apitz, Annette Kopp-Schneider, Stefanie Speidel, Hannes G. Kenngott, Beat P. M\"uller-Stich(参考訳) 画像に基づく医療機器の追跡は、外科データ科学応用の不可欠な部分である。 これまでの研究では、腹腔鏡映像データに基づく医療機器の検出、セグメンテーション、追跡の課題に取り組んできた。 しかし、提案手法は、挑戦的な画像に適用してもまだ失敗する傾向にあり、訓練されていないデータによく当てはまらない。 本稿では,Heidelberg Colorectal (HeiCo)データセットを紹介し,医療機器検出とセグメンテーションアルゴリズムの総合的なベンチマークを可能にする最初の公開データセットである。 手術室の医療機器からの30種類の腹腔鏡映像と対応するセンサデータとを3種類の異なる腹腔鏡手術用データセットとした。 注釈には、全てのビデオフレームの手術段階のラベル、および10,000フレーム以上の手術用機器(もしあれば)の機器の存在に関する情報が含まれる。 このデータは、2017年と2019年の内視鏡的ビジョンチャレンジにおける国際コンペティションの開催に成功している。

Image-based tracking of medical instruments is an integral part of surgical data science applications. Previous research has addressed the tasks of detecting, segmenting and tracking medical instruments based on laparoscopic video data. However, the proposed methods still tend to fail when applied to challenging images and do not generalize well to data they have not been trained on. This paper introduces the Heidelberg Colorectal (HeiCo) data set - the first publicly available data set enabling comprehensive benchmarking of medical instrument detection and segmentation algorithms with a specific emphasis on method robustness and generalization capabilities. Our data set comprises 30 laparoscopic videos and corresponding sensor data from medical devices in the operating room for three different types of laparoscopic surgery. Annotations include surgical phase labels for all video frames as well as information on instrument presence and corresponding instance-wise segmentation masks for surgical instruments (if any) in more than 10,000 individual frames. The data has successfully been used to organize international competitions within the Endoscopic Vision Challenges 2017 and 2019.
翻訳日:2022-12-05 23:43:51 公開日:2021-02-23
# 計算制約のあるエージェントの計画のための情報理論的抽象化

Information-Theoretic Abstractions for Planning in Agents with Computational Constraints ( http://arxiv.org/abs/2005.09611v2 )

ライセンス: Link先を確認
Daniel T. Larsson and Dipankar Maity and Panagiotis Tsiotras(参考訳) 本稿では,エージェントaに前もって提供されず,その代わりに利用可能な計算資源の関数として出現する抽象化のパスプランニングのためのフレームワークを開発した。 本稿では,元空間の抽象化に関する問題を解くことで,環境内の経路計画問題を体系的に近似する方法を示す。 問題の性質を解析し, 理論的な結果をいくつか提示し, 考察した。 このアプローチの有用性を示し,理論的な知見を裏付ける数値的な例を示す。 結論として,提案手法の任意の時間アルゴリズムと有界合理性との関係を詳述した議論を行った。

In this paper, we develop a framework for path-planning on abstractions that are not provided to the agent a priori but instead emerge as a function of the available computational resources. We show how a path-planning problem in an environment can be systematically approximated by solving a sequence of easier to solve problems on abstractions of the original space. The properties of the problem are analyzed, and a number of theoretical results are presented and discussed. A numerical example is presented to show the utility of the approach and to corroborate the theoretical findings. We conclude by providing a discussion detailing the connections of the proposed approach to anytime algorithms and bounded rationality.
翻訳日:2022-12-01 14:33:08 公開日:2021-02-23
# Smoothed Weighted Ensemblingによる認証ロバストネスの向上

Enhancing Certified Robustness via Smoothed Weighted Ensembling ( http://arxiv.org/abs/2005.09363v3 )

ライセンス: Link先を確認
Chizhou Liu, Yunzhen Feng, Ranran Wang, Bin Dong(参考訳) ランダム化平滑化は、$l_2$-normの敵攻撃に対して最先端の認証堅牢性を達成している。 しかし,ランダム化平滑化のための最適ベース分類器の探索方法については,完全には解決されていない。 本研究では,スムーズなスムーズな分類器の性能向上のために,Smoothed Weighted ENsembling (SWEEN) 方式を用いる。 SWEENが最適な証明された堅牢性を達成するのに有効であることを示す。 さらに,理論解析により,軽度仮定下でのトレーニングから最適スウェンモデルが得られることを証明した。 また,SWEENモデルの予測と認証コストを削減するための適応予測アルゴリズムを開発した。 広範な実験により、スウェンモデルが対応する候補モデルの上限を大きなマージンで上回っていることが示されている。 さらに、少数の小さなモデルを用いて構築されたSWEENモデルは、トレーニング時間を大幅に短縮した1つの大きなモデルに匹敵する性能を達成することができる。

Randomized smoothing has achieved state-of-the-art certified robustness against $l_2$-norm adversarial attacks. However, it is not wholly resolved on how to find the optimal base classifier for randomized smoothing. In this work, we employ a Smoothed WEighted ENsembling (SWEEN) scheme to improve the performance of randomized smoothed classifiers. We show the ensembling generality that SWEEN can help achieve optimal certified robustness. Furthermore, theoretical analysis proves that the optimal SWEEN model can be obtained from training under mild assumptions. We also develop an adaptive prediction algorithm to reduce the prediction and certification cost of SWEEN models. Extensive experiments show that SWEEN models outperform the upper envelope of their corresponding candidate models by a large margin. Moreover, SWEEN models constructed using a few small models can achieve comparable performance to a single large model with a notable reduction in training time.
翻訳日:2022-12-01 13:39:16 公開日:2021-02-23
# 実験室と野生における不確かさを意識したブラインド画像品質評価

Uncertainty-Aware Blind Image Quality Assessment in the Laboratory and Wild ( http://arxiv.org/abs/2005.13983v6 )

ライセンス: Link先を確認
Weixia Zhang and Kede Ma and Guangtao Zhai and Xiaokang Yang(参考訳) ブラインド画像品質評価(BIQA)モデルの性能は、特徴工学と品質回帰のエンドツーエンド最適化によって大幅に向上した。 しかし、実験室でシミュレートされた画像と野生で撮影される画像の分布の変化により、合成歪みのあるデータベースで訓練されたモデルは、現実的な歪みを扱うのに特に弱い(逆もまた)。 クロス・ディストリション・scenarioの課題に直面するために,BIQAモデルと,それを合成的および現実的な歪みの両方で訓練するアプローチを開発する。 まず、個々のIQAデータベースから画像のペアをサンプリングし、各ペアの最初の画像が高品質である確率を計算する。 次に、多数の画像対に対してBIQAのディープニューラルネットワークを最適化するために、忠実度損失を用いる。 また、最適化中に不確実性推定を規則化するヒンジ制約を明示的に実施する。 6つのIQAデータベースに対する大規模な実験は、実験室と野生動物の画像品質を盲目的に評価する学習手法の可能性を示唆している。 さらに、既存のBIQAモデルを改善するために、提案したトレーニング戦略の普遍性を実証する。

Performance of blind image quality assessment (BIQA) models has been significantly boosted by end-to-end optimization of feature engineering and quality regression. Nevertheless, due to the distributional shift between images simulated in the laboratory and captured in the wild, models trained on databases with synthetic distortions remain particularly weak at handling realistic distortions (and vice versa). To confront the cross-distortion-scenario challenge, we develop a \textit{unified} BIQA model and an approach of training it for both synthetic and realistic distortions. We first sample pairs of images from individual IQA databases, and compute a probability that the first image of each pair is of higher quality. We then employ the fidelity loss to optimize a deep neural network for BIQA over a large number of such image pairs. We also explicitly enforce a hinge constraint to regularize uncertainty estimation during optimization. Extensive experiments on six IQA databases show the promise of the learned method in blindly assessing image quality in the laboratory and wild. In addition, we demonstrate the universality of the proposed training strategy by using it to improve existing BIQA models.
翻訳日:2022-11-27 05:03:35 公開日:2021-02-23
# リンク予測における正規化の指標としてのコルモゴロフ複雑性の検討

Investigating Estimated Kolmogorov Complexity as a Means of Regularization for Link Prediction ( http://arxiv.org/abs/2006.04258v2 )

ライセンス: Link先を確認
Paris D. L. Flood, Ramon Vi\~nas, Pietro Li\`o(参考訳) グラフにおけるリンク予測は、ネットワーク科学と機械学習の分野で重要なタスクである。 リンク予測アルゴリズムの最近の進歩と相性のあるグラフのコルモゴロフ複雑性の近似に基づいて,リンク予測のための柔軟な正規化手法について検討した。 直観的には、オブジェクトのコルモゴロフ複雑性はオブジェクトを生成する最も短いコンピュータプログラムの長さである。 例えば、多くの引用ネットワークやソーシャルネットワークは、大まかにスケールフリーであり、優先的なアタッチメントによって説明できる。 単純な生成メカニズムでグラフを予測することを好むことは、正規化項としてのコルモゴロフ複雑性の選択を動機付ける。 実験では,多種多様な実世界のネットワークにおいて,正規化手法は良好な性能を示すが,コルモゴロフ複雑性の実際の推定よりも,集約法によるものと考えられる。

Link prediction in graphs is an important task in the fields of network science and machine learning. We investigate a flexible means of regularization for link prediction based on an approximation of the Kolmogorov complexity of graphs that is differentiable and compatible with recent advances in link prediction algorithms. Informally, the Kolmogorov complexity of an object is the length of the shortest computer program that produces the object. Complex networks are often generated, in part, by simple mechanisms; for example, many citation networks and social networks are approximately scale-free and can be explained by preferential attachment. A preference for predicting graphs with simpler generating mechanisms motivates our choice of Kolmogorov complexity as a regularization term. In our experiments the regularization method shows good performance on many diverse real-world networks, however we determine that this is likely due to an aggregation method rather than any actual estimation of Kolmogorov complexity.
翻訳日:2022-11-24 07:48:01 公開日:2021-02-23
# 対数的後悔を伴うq$-learning

$Q$-learning with Logarithmic Regret ( http://arxiv.org/abs/2006.09118v2 )

ライセンス: Link先を確認
Kunhe Yang, Lin F. Yang, Simon S. Du(参考訳) 本稿では,モデルのないアルゴリズムが,最適$Q$関数に正の正の準最適差がある場合,表層表層強化学習における対数的累積後悔を達成できることを示す最初の非漸近的結果を示す。 jin et al. 2018] で研究された楽観的な $q$-learning は${\mathcal{o}}\left(\frac{sa\cdot \mathrm{poly}\left(h\right)}{\delta_{\min}}\log\left(sat\right)\right)$ cumulative regretbound であり、ここで$s$ は州の数、$a$ はアクションの数、$h$ は計画の地平線、$t$ はステップの総数、$\delta_{\min}$ は最小のサブ最適化ギャップである。 この境界は、$s,a,t$ から $\log\left(sa\right)$ factor までの情報理論的下限に一致する。 さらに,本分析を割引設定に拡張し,同様の対数累積後悔値を求める。

This paper presents the first non-asymptotic result showing that a model-free algorithm can achieve a logarithmic cumulative regret for episodic tabular reinforcement learning if there exists a strictly positive sub-optimality gap in the optimal $Q$-function. We prove that the optimistic $Q$-learning studied in [Jin et al. 2018] enjoys a ${\mathcal{O}}\left(\frac{SA\cdot \mathrm{poly}\left(H\right)}{\Delta_{\min}}\log\left(SAT\right)\right)$ cumulative regret bound, where $S$ is the number of states, $A$ is the number of actions, $H$ is the planning horizon, $T$ is the total number of steps, and $\Delta_{\min}$ is the minimum sub-optimality gap. This bound matches the information theoretical lower bound in terms of $S,A,T$ up to a $\log\left(SA\right)$ factor. We further extend our analysis to the discounted setting and obtain a similar logarithmic cumulative regret bound.
翻訳日:2022-11-20 20:13:37 公開日:2021-02-23
# 形状制約がしきい値化バンディット問題に及ぼす影響

The Influence of Shape Constraints on the Thresholding Bandit Problem ( http://arxiv.org/abs/2006.10006v3 )

ライセンス: Link先を確認
James Cheshire, Pierre Menard, Alexandra Carpentier(参考訳) 本稿では,いくつかの形状制約の下で,確率的閾値帯域問題(TBP)について検討する。 上に (i) バニラ型非構造型tbpの場合 (ii) arm 平均 $(\mu_k)_k$ のシーケンスは単調に mtbp を増加させる。 (iii)$(\mu_k)_k$ がユニモーダルな utbp である場合 (iv)$(\mu_k)_k$がconcave CTBPである場合。 TBP問題において、目的は、シーケンシャルゲームの終わりに、所定のしきい値を超える手段を持つアームセットを出力することである。 後悔は、誤分類された腕と閾値の間の最も高いギャップである。 固定予算設定では、全ての設定において期待される後悔に対する問題独立ミニマックスレートと関連するアルゴリズムを提供する。 私たちは後悔のミニマックスレートが正しいことを証明します。 (i)$\sqrt{\log(K)K/T}$ for TBP, (ii) mtbpに対して$\sqrt{\log(k)/t}$ (iii)$\sqrt{K/T}$ for UTBP and (iv)$\sqrt{\log\log k/t}$ for ctbp ここで$k$は腕の数、$t$は予算である。 これらのレートは、ミニマックスの後悔の$k$への依存が形状の制約によって大きく異なることを示している。 これは、形状制約がtbpの性質を根本的に変えるという事実を強調している。

We investigate the stochastic Thresholding Bandit problem (TBP) under several shape constraints. On top of (i) the vanilla, unstructured TBP, we consider the case where (ii) the sequence of arm's means $(\mu_k)_k$ is monotonically increasing MTBP, (iii) the case where $(\mu_k)_k$ is unimodal UTBP and (iv) the case where $(\mu_k)_k$ is concave CTBP. In the TBP problem the aim is to output, at the end of the sequential game, the set of arms whose means are above a given threshold. The regret is the highest gap between a misclassified arm and the threshold. In the fixed budget setting, we provide problem independent minimax rates for the expected regret in all settings, as well as associated algorithms. We prove that the minimax rates for the regret are (i) $\sqrt{\log(K)K/T}$ for TBP, (ii) $\sqrt{\log(K)/T}$ for MTBP, (iii) $\sqrt{K/T}$ for UTBP and (iv) $\sqrt{\log\log K/T}$ for CTBP, where $K$ is the number of arms and $T$ is the budget. These rates demonstrate that the dependence on $K$ of the minimax regret varies significantly depending on the shape constraint. This highlights the fact that the shape constraints modify fundamentally the nature of the TBP.
翻訳日:2022-11-19 19:42:04 公開日:2021-02-23
# AMIGoで学ぶ: 先天的な目標を逆転的に動機づける

Learning with AMIGo: Adversarially Motivated Intrinsic Goals ( http://arxiv.org/abs/2006.12122v2 )

ライセンス: Link先を確認
Andres Campero, Roberta Raileanu, Heinrich K\"uttler, Joshua B. Tenenbaum, Tim Rockt\"aschel, Edward Grefenstette(参考訳) 強化学習(RL)の重要な課題は、疎外報酬のある環境での学習である。 現在のRL法とは対照的に、人間は様々な種類の本質的なモチベーションを用いて、報酬をほとんど、あるいは全く与えない新しいスキルを学ぶことができる。 本稿では,「メタラーニング」の形式を取り入れた新しいエージェントAMIGoを提案する。これは,環境報酬の欠如(あるいは同伴)において,目標条件の「学生」政策を訓練するために,適応的動機づけ目標を提案する目標生成教師である。 具体的には、シンプルだが効果的な「構成的敵意」の目的を通じて、教師は、解決すべき課題とは無関係に、新しい環境で行動するための一般的なスキルを学ぶことができる、ますます挑戦的かつ達成可能な目標を提案することを学ぶ。 提案手法は,自己提供目標の自然なカリキュラムを生成し,最終的にエージェントが,他の形態の本質的動機づけや最先端のrlメソッドが失敗するような手続き的生成課題を解決できることを示す。

A key challenge for reinforcement learning (RL) consists of learning in environments with sparse extrinsic rewards. In contrast to current RL methods, humans are able to learn new skills with little or no reward by using various forms of intrinsic motivation. We propose AMIGo, a novel agent incorporating -- as form of meta-learning -- a goal-generating teacher that proposes Adversarially Motivated Intrinsic Goals to train a goal-conditioned "student" policy in the absence of (or alongside) environment reward. Specifically, through a simple but effective "constructively adversarial" objective, the teacher learns to propose increasingly challenging -- yet achievable -- goals that allow the student to learn general skills for acting in a new environment, independent of the task to be solved. We show that our method generates a natural curriculum of self-proposed goals which ultimately allows the agent to solve challenging procedurally-generated tasks where other forms of intrinsic motivation and state-of-the-art RL methods fail.
翻訳日:2022-11-18 04:28:41 公開日:2021-02-23
# 多項近似による確率的エピデミックモデルの推論

Inference in Stochastic Epidemic Models via Multinomial Approximations ( http://arxiv.org/abs/2006.13700v2 )

ライセンス: Link先を確認
Nick Whiteley, Lorenzo Rimella(参考訳) 本稿では,帰納的多項近似を用いた確率的流行モデルにおける新しい推論法を提案する。 この方法は、部分的、無作為的に報告されていない、または欠落した数列の観測を持つ離散時間有限人口区画モデルのクラスに適用できる。 近似ベイズ計算のような最先端の代替手法とは対照的に、モデルの前方シミュレーションは不要であり、チューニングパラメータは存在しない。 モデルパラメータの近似限界確率の評価は、計算学的に単純なフィルタリング再帰によって達成される。 この近似の精度は、1995年のコンゴ民主共和国におけるエボラ出血熱のモデルを用いて、実データおよびシミュレーションデータの解析によって実証される。 本稿は、中国武漢で最近公開された新型コロナウイルスの再現数を推定するために、シークエンシャルモンテカルロ(Sequential Monte Carlo)アプローチにどのように組み込むことができるかを示す。

We introduce a new method for inference in stochastic epidemic models which uses recursive multinomial approximations to integrate over unobserved variables and thus circumvent likelihood intractability. The method is applicable to a class of discrete-time, finite-population compartmental models with partial, randomly under-reported or missing count observations. In contrast to state-of-the-art alternatives such as Approximate Bayesian Computation techniques, no forward simulation of the model is required and there are no tuning parameters. Evaluating the approximate marginal likelihood of model parameters is achieved through a computationally simple filtering recursion. The accuracy of the approximation is demonstrated through analysis of real and simulated data using a model of the 1995 Ebola outbreak in the Democratic Republic of Congo. We show how the method can be embedded within a Sequential Monte Carlo approach to estimating the time-varying reproduction number of COVID-19 in Wuhan, China, recently published by Kucharski et al. 2020.
翻訳日:2022-11-17 09:59:32 公開日:2021-02-23
# 深海ロボットイメージングシミュレータ

Deep Sea Robotic Imaging Simulator ( http://arxiv.org/abs/2006.15398v3 )

ライセンス: Link先を確認
Yifan Song, David Nakath, Mengkun She, Furkan Elibol and Kevin K\"oser(参考訳) 現在、水中視覚システムは海洋研究に広く応用されている。 しかし、海洋の最大の部分である深海はいまだにほとんど探検されていないままである。 技術的課題と膨大なコストによって引き起こされる物理的制限のために、深海から撮影された画像は比較的少ない。 深海画像は浅い海域で撮影された画像とは大きく異なり、この地域はコミュニティからはあまり注目されなかった。 深海画像の不足と評価・訓練のための地上真実データの不足は,水中コンピュータビジョンの手法開発におけるボトルネックとなっている。 そこで本研究では,水中のテクスチャと深度情報を入力として,深海シナリオにおけるロボットによる水中画像シーケンスを生成する物理モデルに基づく画像シミュレーション手法を提案する。 浅い水条件と異なり、人工照明はシーンの外観に強く影響するため、深海画像形成において重要な役割を果たす。 放射能画像形成モデルでは、暗黒光の共動点光による減衰と散乱の影響が考慮されている。 水中画像形成モデルの詳細な解析と評価により,新しいレンダリング手法と組み合わせて3次元ルックアップテーブル構造を提案し,シミュレーション性能を向上させる。 これにより、無人水中車両シミュレーターに対話型深海ロボットビジョンシミュレーションを統合することができる。 コミュニティによる深海ビジョン研究をさらに刺激するために、深海画像変換器のソースコードを一般公開します。

Nowadays underwater vision systems are being widely applied in ocean research. However, the largest portion of the ocean - the deep sea - still remains mostly unexplored. Only relatively few image sets have been taken from the deep sea due to the physical limitations caused by technical challenges and enormous costs. Deep sea images are very different from the images taken in shallow waters and this area did not get much attention from the community. The shortage of deep sea images and the corresponding ground truth data for evaluation and training is becoming a bottleneck for the development of underwater computer vision methods. Thus, this paper presents a physical model-based image simulation solution, which uses an in-air texture and depth information as inputs, to generate underwater image sequences taken by robots in deep ocean scenarios. Different from shallow water conditions, artificial illumination plays a vital role in deep sea image formation as it strongly affects the scene appearance. Our radiometric image formation model considers both attenuation and scattering effects with co-moving spotlights in the dark. By detailed analysis and evaluation of the underwater image formation model, we propose a 3D lookup table structure in combination with a novel rendering strategy to improve simulation performance. This enables us to integrate an interactive deep sea robotic vision simulation in the Unmanned Underwater Vehicles simulator. To inspire further deep sea vision research by the community, we will release the source code of our deep sea image converter to the public.
翻訳日:2022-11-16 08:08:02 公開日:2021-02-23
# 推薦のためのホックな因果説明の学習

Learning Post-Hoc Causal Explanations for Recommendation ( http://arxiv.org/abs/2006.16977v2 )

ライセンス: Link先を確認
Shuyuan Xu, Yunqi Li, Shuchang Liu, Zuohui Fu, Xu Chen, Yongfeng Zhang(参考訳) 最先端のレコメンデーションシステムは高品質なレコメンデーションを生成する能力を持っているが、ブラックボックス予測モデルの使用により人間に直感的な説明を与えることはできない。 透明性の欠如は、レコメンダシステムの説明可能性を改善することの重要性を強調している。 本稿では,ブラックボックスの逐次レコメンデーション機構に対するポストホックな説明として,レコメンデーションモデルの予測精度を維持しつつ,ユーザインタラクション履歴から因果ルールを抽出することを提案する。 提案手法はまず摂動モデルを用いて反実例を導出し,その後因果ルールマイニングアルゴリズムを用いて推薦モデルに対するパーソナライズされた因果関係を抽出する。 いくつかの最先端のレコメンデーションモデルと実世界のデータセットを用いて実験を行い、因果的説明を生成する際のモデルの性能を検証する。 一方, 因果ルールは, 従来の連想規則と比較して, ブラックボックスレコメンデーションモデルの行動に対して, パーソナライズされ, より効果的に説明できることを示す。

State-of-the-art recommender systems have the ability to generate high-quality recommendations, but usually cannot provide intuitive explanations to humans due to the usage of black-box prediction models. The lack of transparency has highlighted the critical importance of improving the explainability of recommender systems. In this paper, we propose to extract causal rules from the user interaction history as post-hoc explanations for the black-box sequential recommendation mechanisms, whilst maintain the predictive accuracy of the recommendation model. Our approach firstly achieves counterfactual examples with the aid of a perturbation model, and then extracts personalized causal relationships for the recommendation model through a causal rule mining algorithm. Experiments are conducted on several state-of-the-art sequential recommendation models and real-world datasets to verify the performance of our model on generating causal explanations. Meanwhile, We evaluate the discovered causal explanations in terms of quality and fidelity, which show that compared with conventional association rules, causal rules can provide personalized and more effective explanations for the behavior of black-box recommendation models.
翻訳日:2022-11-15 05:11:40 公開日:2021-02-23
# 共進化による並列アルゴリズムポートフォリオ構築

Few-shots Parallel Algorithm Portfolio Construction via Co-evolution ( http://arxiv.org/abs/2007.00501v2 )

ライセンス: Link先を確認
Ke Tang, Shengcai Liu, Peng Yang, Xin Yao(参考訳) 一般化、すなわち、システム設計と開発フェーズで利用できない問題インスタンスを解決できる能力は、インテリジェントシステムにとって重要な目標である。 よい一般化を達成する典型的な方法は、巨大なデータからモデルを学ぶことである。 ヒューリスティック探索の文脈において、そのようなパラダイムは、pap構築と呼ばれる一連のトレーニング問題インスタンスに基づいて、並列アルゴリズムポートフォリオ(pap)のパラメータを設定するために実装することができる。 しかし、従来の機械学習と比較して、PAPの構築はトレーニングインスタンスの欠如に悩まされ、得られたPAPはうまく一般化できない。 本稿では,この課題に対する対策として,CEPS(Co-Evolution of Parameterized Search)という新たな競合的共進化手法を提案する。 構成人口とインスタンス人口の共進化により、CEPSは、少数のトレーニングインスタンスで一般化可能なPAPを得ることができる。 一般化におけるCEPSの利点を解析的に示す。 CEPS-TSP と CEPS-VRPSPDTW という2つの具体的なアルゴリズムが,TSP (Traveing Salesman Problem) とVRPSPDTW (Vine Routing Problem with Simultaneous Pickup-Delivery and Time Windows) に対してそれぞれ提示される。 実験の結果、CEPSはより一般化され、いくつかのインスタンスでよく知られた新しいソリューションを見つけることができた。

Generalization, i.e., the ability of solving problem instances that are not available during the system design and development phase, is a critical goal for intelligent systems. A typical way to achieve good generalization is to learn a model from vast data. In the context of heuristic search, such a paradigm could be implemented as configuring the parameters of a parallel algorithm portfolio (PAP) based on a set of training problem instances, which is often referred to as PAP construction. However, compared to traditional machine learning, PAP construction often suffers from the lack of training instances, and the obtained PAPs may fail to generalize well. This paper proposes a novel competitive co-evolution scheme, named Co-Evolution of Parameterized Search (CEPS), as a remedy to this challenge. By co-evolving a configuration population and an instance population, CEPS is capable of obtaining generalizable PAPs with few training instances. The advantage of CEPS in improving generalization is analytically shown in this paper. Two concrete algorithms, namely CEPS-TSP and CEPS-VRPSPDTW, are presented for the Traveling Salesman Problem (TSP) and the Vehicle Routing Problem with Simultaneous Pickup-Delivery and Time Windows (VRPSPDTW), respectively. Experimental results show that CEPS has led to better generalization, and even managed to find new best-known solutions for some instances.
翻訳日:2022-11-14 22:25:38 公開日:2021-02-23
# 野生の単眼メトロロジー

Single View Metrology in the Wild ( http://arxiv.org/abs/2007.09529v3 )

ライセンス: Link先を確認
Rui Zhu, Xingyi Yang, Yannick Hold-Geoffroy, Federico Perazzi, Jonathan Eisenmann, Kalyan Sunkavalli, Manmohan Chandraker(参考訳) 大部分の3次元再構成手法は、世界規模の曖昧さまでしかシーン特性を回復できない。 本研究では,物体の3次元の高さやカメラの高さで表されるシーンの絶対スケールを,無拘束条件で取得した単眼画像のみを用いて,方位や視野のカメラパラメータとともに復元する,新しい手法を提案する。 提案手法は,未知のカメラと物体の高さなどの3dエンティティとの相互作用から,境界ボックス投影の推定を通じて,弱い制約を補うように設計された深層ネットワークによって学習されるデータ駆動前処理に依存する。 我々は、自然画像によく現れる人間や車などの物体の分類的先行を、スケール推定の基準として活用する。 いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。 さらに,ユーザ調査により,出力の知覚的品質を検証した。

Most 3D reconstruction methods may only recover scene properties up to a global scale ambiguity. We present a novel approach to single view metrology that can recover the absolute scale of a scene represented by 3D heights of objects or camera height above the ground as well as camera parameters of orientation and field of view, using just a monocular image acquired in unconstrained condition. Our method relies on data-driven priors learned by a deep network specifically designed to imbibe weakly supervised constraints from the interplay of the unknown camera with 3D entities such as object heights, through estimation of bounding box projections. We leverage categorical priors for objects such as humans or cars that commonly occur in natural images, as references for scale estimation. We demonstrate state-of-the-art qualitative and quantitative results on several datasets as well as applications including virtual object insertion. Furthermore, the perceptual quality of our outputs is validated by a user study.
翻訳日:2022-11-09 06:02:18 公開日:2021-02-23
# 機能進化可能なストリームによるストレージフィット学習

Storage Fit Learning with Feature Evolvable Streams ( http://arxiv.org/abs/2007.11280v3 )

ライセンス: Link先を確認
Bo-Jian Hou, Yu-Hu Yan, Peng Zhao and Zhi-Hua Zhou(参考訳) 機能進化可能な学習は、古い機能が消え、ストリームで学ぶと新機能が出現する近年、広く研究されている。 従来の方法は、ラベルが各時間ステップで予測された後に現れると仮定する。 しかし、実際にはこの仮定は成り立たないが、ほとんどの時間ステップではラベルは与えられない。 良い解決策は、多様体の正則化のテクニックを利用して、以前の類似データを利用してオンラインモデルの改良を支援することである。 それにもかかわらず、このアプローチでは、大量のストリームを逐次到着させることで学習できないすべての過去のデータを格納する必要がある。 したがって、その一部を保存するバッファが必要です。 異なるデバイスが異なるストレージ予算を持つ可能性を考えると、学習アプローチはストレージ予算の制限に対して柔軟であるべきです。 本稿では,稀に提供されないラベルの問題を特徴進化に取り入れた,storage-fit feature-evolvable streaming learning (sf$^2$el)を提案する。 当社のフレームワークは,ラベルのないデータで進化可能なストリームを学習する場合,さまざまなストレージ予算にその動作を適合させることができます。 さらに、理論的および実証的な結果は、我々のアプローチが元の特徴進化学習のメリットを維持できること、すなわち、常に最高のベースラインを追跡でき、任意のステップでうまく機能できることを証明している。

Feature evolvable learning has been widely studied in recent years where old features will vanish and new features will emerge when learning with streams. Conventional methods usually assume that a label will be revealed after prediction at each time step. However, in practice, this assumption may not hold whereas no label will be given at most time steps. A good solution is to leverage the technique of manifold regularization to utilize the previous similar data to assist the refinement of the online model. Nevertheless, this approach needs to store all previous data which is impossible in learning with streams that arrive sequentially in large volume. Thus we need a buffer to store part of them. Considering that different devices may have different storage budgets, the learning approaches should be flexible subject to the storage budget limit. In this paper, we propose a new setting: Storage-Fit Feature-Evolvable streaming Learning (SF$^2$EL) which incorporates the issue of rarely-provided labels into feature evolution. Our framework is able to fit its behavior to different storage budgets when learning with feature evolvable streams with unlabeled data. Besides, both theoretical and empirical results validate that our approach can preserve the merit of the original feature evolvable learning i.e., can always track the best baseline and thus perform well at any time step.
翻訳日:2022-11-07 22:12:15 公開日:2021-02-23
# 食品:迅速な流通検知装置

FOOD: Fast Out-Of-Distribution Detector ( http://arxiv.org/abs/2008.06856v4 )

ライセンス: Link先を確認
Guy Amit, Moshe Levy, Ishai Rosenberg, Asaf Shabtai, Yuval Elovici(参考訳) ディープニューラルネットワーク(DNN)は、トレーニングされたクラスに関連する入力の分類において、よく機能する。 しかし、アウト・オブ・ディストリビューション(OOD)インプットはDNNにとって大きな課題となり、DNNが安全クリティカルなシステムで実装される場合の大きなリスクとなる。 OOD検出の分野では大規模な研究が行われている。 しかし、現在のOOD検出の最先端手法は、(1)推論時間の増加 - 既存のメソッドの多くの実世界のアプリケーションへの適用性を制限し、(2) OODトレーニングデータの必要性 - 取得が困難であり、十分に代表できない可能性があるため、OOD検出器の一般化能力の制限がある。 本稿では,oodサンプルを効率的に検出できる拡張dnn分類器であるfood-fast out-of-distribution detectorを提案する。 我々のアーキテクチャは、最終ガウス層を持つDNNと、OOD検出のための出力ニューロンの対数確率比統計テストを組み合わせたものである。 我々は、実際のOODデータの代わりに、OOD検出ニューロンをトレーニングするために使用される、分布内データから人工OODサンプルを作成する新しい方法を用いています。 SVHN, CIFAR-10, CIFAR-100データセット上でFOODの検出性能を評価する。 その結果,最先端のパフォーマンスを達成することに加えて,食品は速く,現実世界のアプリケーションに適用できることがわかった。

Deep neural networks (DNNs) perform well at classifying inputs associated with the classes they have been trained on, which are known as in distribution inputs. However, out-of-distribution (OOD) inputs pose a great challenge to DNNs and consequently represent a major risk when DNNs are implemented in safety-critical systems. Extensive research has been performed in the domain of OOD detection. However, current state-of-the-art methods for OOD detection suffer from at least one of the following limitations: (1) increased inference time - this limits existing methods' applicability to many real-world applications, and (2) the need for OOD training data - such data can be difficult to acquire and may not be representative enough, thus limiting the ability of the OOD detector to generalize. In this paper, we propose FOOD -- Fast Out-Of-Distribution detector -- an extended DNN classifier capable of efficiently detecting OOD samples with minimal inference time overhead. Our architecture features a DNN with a final Gaussian layer combined with the log likelihood ratio statistical test and an additional output neuron for OOD detection. Instead of using real OOD data, we use a novel method to craft artificial OOD samples from in-distribution data, which are used to train our OOD detector neuron. We evaluate FOOD's detection performance on the SVHN, CIFAR-10, and CIFAR-100 datasets. Our results demonstrate that in addition to achieving state-of-the-art performance, FOOD is fast and applicable to real-world applications.
翻訳日:2022-10-28 08:56:14 公開日:2021-02-23
# SOAR: 肯定クラスと否定クラスの分類を同時に行うためのルール

SOAR: Simultaneous Or of And Rules for Classification of Positive & Negative Classes ( http://arxiv.org/abs/2008.11249v2 )

ライセンス: Link先を確認
Elena Khusainova, Emily Dodwell, Ritwik Mitra(参考訳) アルゴリズムによる意思決定が増加し、日常の生活に日常的かつ連続的に影響を与えています。 機械学習の実践者は、映画レコメンデーション、診断、仮釈放レコメンデーションのような多様な応用における予測モデルのための無数のアルゴリズムを使って、特定の予測決定を導く理由を解明する。 このようなアプリケーションの機械学習アルゴリズムは、優れたパフォーマンスのために選択されることが多いが、ランダムフォレストやディープニューラルネットワークのような一般的な選択は、予測モデルに対する解釈可能な理解を提供しない。 近年ではルールベースのアルゴリズムがこの問題に対処している。 wang et al. (2017) は、バイナリ分類において単一のクラスの分類規則マイニングを可能にするor-of-and (disjunctive normal form) ベースの分類手法を提示した。 本研究では,この概念を拡張し,両クラスの分類規則を同時に提供する。 すなわち、ポジティブクラスとネガティブクラスの両方に対して異なるルールセットを提供します。 このアプローチを説明するにあたり, 実世界における雑音二分分類の固有曖昧性を明確に把握し, 定量化する分類の, 新規かつ完全分類法を提案する。 提案手法は,確率モデルのよりきめ細かい定式化につながり,シミュレート・アニーリングに基づく最適化により,比較手法と競合する分類性能が得られることを示す。 本手法を合成および実世界のデータセットに適用し,提案手法の有用性を示す他の関連手法との比較を行った。

Algorithmic decision making has proliferated and now impacts our daily lives in both mundane and consequential ways. Machine learning practitioners make use of a myriad of algorithms for predictive models in applications as diverse as movie recommendations, medical diagnoses, and parole recommendations without delving into the reasons driving specific predictive decisions. Machine learning algorithms in such applications are often chosen for their superior performance, however popular choices such as random forest and deep neural networks fail to provide an interpretable understanding of the predictive model. In recent years, rule-based algorithms have been used to address this issue. Wang et al. (2017) presented an or-of-and (disjunctive normal form) based classification technique that allows for classification rule mining of a single class in a binary classification; this method is also shown to perform comparably to other modern algorithms. In this work, we extend this idea to provide classification rules for both classes simultaneously. That is, we provide a distinct set of rules for both positive and negative classes. In describing this approach, we also present a novel and complete taxonomy of classifications that clearly capture and quantify the inherent ambiguity in noisy binary classifications in the real world. We show that this approach leads to a more granular formulation of the likelihood model and a simulated-annealing based optimization achieves classification performance competitive with comparable techniques. We apply our method to synthetic as well as real world data sets to compare with other related methods that demonstrate the utility of our proposal.
翻訳日:2022-10-25 03:17:12 公開日:2021-02-23
# epointda:lidarポイントクラウドセグメンテーションのためのエンド・ツー・エンドシミュレーション・トゥ・リアルドメイン適応フレームワーク

ePointDA: An End-to-End Simulation-to-Real Domain Adaptation Framework for LiDAR Point Cloud Segmentation ( http://arxiv.org/abs/2009.03456v2 )

ライセンス: Link先を確認
Sicheng Zhao, Yezhen Wang, Bo Li, Bichen Wu, Yang Gao, Pengfei Xu, Trevor Darrell, Kurt Keutzer(参考訳) その頑丈で正確な距離測定のため、LiDARは自動運転のシーン理解において重要な役割を果たす。 LiDARデータ上でディープニューラルネットワーク(DNN)をトレーニングするには、大規模なポイントワイズアノテーションが必要である。 代わりに、シミュレーション・トゥ・リアル・ドメイン適応(SRDA)は、無制限の合成データを使ってDNNを訓練し、ラベルを自動的に生成し、学習したモデルを実際のシナリオに転送する。 LiDARポイントクラウドセグメンテーションのための既存のSRDAメソッドは主にマルチステージパイプラインを使用し、機能レベルのアライメントに重点を置いている。 それらは実世界の統計に関する事前知識を必要とし、画素レベルのドロップアウトノイズギャップと異なる領域間の空間的特徴ギャップを無視する。 本稿では,上記の問題に対処するため,ePointDAという新しいエンドツーエンドフレームワークを提案する。 具体的には、ePointDAは、自己教師付きドロップアウトノイズレンダリング、統計不変および空間適応的特徴アライメント、転送可能なセグメンテーション学習の3つのモジュールから構成される。 共同最適化により、ePointDAは、実世界の統計を必要とせず、異なる領域間の特徴を空間的に整列することで、合成LiDARのドロップアウトノイズを明示的に描画し、画素レベルでのドメインシフトをブリッジすることができる。 合成GTA-LiDARから実際のKITTIおよびSemanticKITTIへの適応実験は、LiDAR点雲セグメンテーションにおけるePointDAの優位性を実証している。

Due to its robust and precise distance measurements, LiDAR plays an important role in scene understanding for autonomous driving. Training deep neural networks (DNNs) on LiDAR data requires large-scale point-wise annotations, which are time-consuming and expensive to obtain. Instead, simulation-to-real domain adaptation (SRDA) trains a DNN using unlimited synthetic data with automatically generated labels and transfers the learned model to real scenarios. Existing SRDA methods for LiDAR point cloud segmentation mainly employ a multi-stage pipeline and focus on feature-level alignment. They require prior knowledge of real-world statistics and ignore the pixel-level dropout noise gap and the spatial feature gap between different domains. In this paper, we propose a novel end-to-end framework, named ePointDA, to address the above issues. Specifically, ePointDA consists of three modules: self-supervised dropout noise rendering, statistics-invariant and spatially-adaptive feature alignment, and transferable segmentation learning. The joint optimization enables ePointDA to bridge the domain shift at the pixel-level by explicitly rendering dropout noise for synthetic LiDAR and at the feature-level by spatially aligning the features between different domains, without requiring the real-world statistics. Extensive experiments adapting from synthetic GTA-LiDAR to real KITTI and SemanticKITTI demonstrate the superiority of ePointDA for LiDAR point cloud segmentation.
翻訳日:2022-10-21 02:11:19 公開日:2021-02-23
# QR-MIX:協調型マルチエージェント強化学習のための分布値関数係数化

QR-MIX: Distributional Value Function Factorisation for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2009.04197v5 )

ライセンス: Link先を確認
Jian Hu, Seth Austin Harding, Haibin Wu, Siyue Hu, Shih-wei Liao(参考訳) MARL(Cooperative Multi-Agent Reinforcement Learning)やCTDE(Centralized Training with Decentralized Execution)の設定の下では、エージェントはローカルかつ独立して環境を観察し、相互作用する。 局所的な観察とランダムなサンプリングでは、報酬と観察のランダム性は長期的なリターンのランダム性につながる。 価値分解ネットワーク(VDN)やQMIXといった既存の手法は、乱数性の情報を含まないスカラーとして長期的なリターンの値を推定する。 提案モデルであるQR-MIXは、QMIXとImplicit Quantile Network(IQN)を組み合わせた量子回帰を導入し、結合状態-動作値を分布としてモデル化する。 しかし、QMIXの単調性は結合状態-作用値分布の表現を制限し、非単調な場合の誤った推定結果につながる可能性がある。 そこで本研究では,QMIXの単調性に近似するフレキシブルな損失関数を提案する。 我々のモデルはリターンのランダム性に寛容であるだけでなく、単調な制約のランダム性にも寛容である。 実験の結果, QR-MIXはStarCraft Multi-Agent Challenge (SMAC)環境において, 従来の最先端QMIXよりも優れていた。

In Cooperative Multi-Agent Reinforcement Learning (MARL) and under the setting of Centralized Training with Decentralized Execution (CTDE), agents observe and interact with their environment locally and independently. With local observation and random sampling, the randomness in rewards and observations leads to randomness in long-term returns. Existing methods such as Value Decomposition Network (VDN) and QMIX estimate the value of long-term returns as a scalar that does not contain the information of randomness. Our proposed model QR-MIX introduces quantile regression, modeling joint state-action values as a distribution, combining QMIX with Implicit Quantile Network (IQN). However, the monotonicity in QMIX limits the expression of joint state-action value distribution and may lead to incorrect estimation results in non-monotonic cases. Therefore, we proposed a flexible loss function to approximate the monotonicity found in QMIX. Our model is not only more tolerant of the randomness of returns, but also more tolerant of the randomness of monotonic constraints. The experimental results demonstrate that QR-MIX outperforms the previous state-of-the-art method QMIX in the StarCraft Multi-Agent Challenge (SMAC) environment.
翻訳日:2022-10-20 09:03:25 公開日:2021-02-23
# 人工樹状突起は神経進化に有用か?

Are Artificial Dendrites useful in NeuroEvolution? ( http://arxiv.org/abs/2010.00918v2 )

ライセンス: Link先を確認
Larry Bull(参考訳) 神経ネットワークにおける樹状突起処理の役割はますます明確になっている。 この手紙は、単純なデンドライトにインスパイアされたメカニズムを神経進化に組み込む効果を探求している。 接続上のデンドライトの活性化しきい値が分離される現象は、進化過程下で生じる。 このような処理は,特に隠蔽層と出力層との間の接続に対して肯定的に選択され,性能が向上することを示す。

The significant role of dendritic processing within neuronal networks has become increasingly clear. This letter explores the effects of including a simple dendrite-inspired mechanism into neuroevolution. The phenomenon of separate dendrite activation thresholds on connections is allowed to emerge under an evolutionary process. It is shown how such processing can be positively selected for, particularly for connections between the hidden and output layer, and increases performance.
翻訳日:2022-10-12 01:05:50 公開日:2021-02-23
# black-box optimization revisited - 大規模ベンチマークによるアルゴリズム選択ウィザードの改善

Black-Box Optimization Revisited: Improving Algorithm Selection Wizards through Massive Benchmarking ( http://arxiv.org/abs/2010.04542v3 )

ライセンス: Link先を確認
Laurent Meunier, Herilalaina Rakotoarison, Pak Kan Wong, Baptiste Roziere, Jeremy Rapin, Olivier Teytaud, Antoine Moreau, Carola Doerr(参考訳) 機械学習のブラックボックス最適化に関する既存の研究は、さまざまな最適化アルゴリズムのトレーニングとテストに一般的に使用される問題インスタンスの選択によって引き起こされる、低い一般化性に苦しむ。 このプラクティスは、オーバーフィットとパフォーマンスの悪いユーザガイドラインを促進する。 この欠点に対処するために、我々はベンチマークスイートOptimSuiteを提案する。これは、学術ベンチマークから実世界のアプリケーションまで、離散的なオーバー数値から混合整数問題まで、そして、小さなから非常に大規模な問題まで、動的から静的な問題まで、幅広いブラックボックス最適化問題をカバーしている。 汎用アルゴリズム選択ウィザードであるautomated black box optimizer (abbo) から派生した,このような広範なコレクションの利点を実証する。 ABBOは3種類のアルゴリズム選択技術を用いて、全てのベンチマークスイートで競合性能を達成する。 YABBOBやLSGOなど、過去の作品よりもはるかに優れています。 ABBOは多くの高品質のベースコンポーネントに依存している。 その優れた性能はタスク固有のパラメトリゼーションなしで得られる。 OptimSuiteベンチマークコレクション、ABBOウィザードとそのベースソルバは、すべてオープンソースのNevergradプラットフォームに統合され、再現可能な研究が可能である。

Existing studies in black-box optimization for machine learning suffer from low generalizability, caused by a typically selective choice of problem instances used for training and testing different optimization algorithms. Among other issues, this practice promotes overfitting and poor-performing user guidelines. To address this shortcoming, we propose in this work a benchmark suite, OptimSuite, which covers a broad range of black-box optimization problems, ranging from academic benchmarks to real-world applications, from discrete over numerical to mixed-integer problems, from small to very large-scale problems, from noisy over dynamic to static problems, etc. We demonstrate the advantages of such a broad collection by deriving from it Automated Black Box Optimizer (ABBO), a general-purpose algorithm selection wizard. Using three different types of algorithm selection techniques, ABBO achieves competitive performance on all benchmark suites. It significantly outperforms previous state of the art on some of them, including YABBOB and LSGO. ABBO relies on many high-quality base components. Its excellent performance is obtained without any task-specific parametrization. The OptimSuite benchmark collection, the ABBO wizard and its base solvers have all been merged into the open-source Nevergrad platform, where they are available for reproducible research.
翻訳日:2022-10-09 12:42:27 公開日:2021-02-23
# 深層学習の拡張による予測一貫性と粒界微細化を用いたカメラ応答関数の推定

Estimation of Camera Response Function using Prediction Consistency and Gradual Refinement with an Extension to Deep Learning ( http://arxiv.org/abs/2010.04009v2 )

ライセンス: Link先を確認
Aashish Sharma, Robby T. Tan, and Loong-Fah Cheong(参考訳) 一つの画像からCRFを推定するための既存の手法は、一般的な実画像を扱うのに失敗する。 例えば、エッジから抽出されたカラーパッチに基づくEdgeCRFは、ノイズの存在が重要でない場合にのみ効果的に機能するが、これは多くの実画像には当てはまらない。 これらの問題に対処するために,予測一貫性と段階的改善を用いた非深層学習手法を提案する。 まず、より一貫性のある予測を提供する入力画像のパッチに依存する。 パッチからの予測がより一貫性がある場合、ノイズや劣った色の組み合わせによる影響が少なくなる可能性があり、したがってcrfの推定に信頼性が高くなる。 第二に、我々は単純なCRFモデルから始めてノイズに対してより堅牢で精度の低い結果を生成する段階的な改善手法を採用し、その結果を改善するためにモデルの複雑さを徐々に増加させます。 これは、単純なモデルは精度が低いが、複雑なモデルよりもノイズに過度に適合しないためである。 提案手法は,日中および夜間の実画像に対して,既存の単一画像手法よりも優れることを示す。 さらに,テスト入力画像上で(教師なし損失に基づく)テストタイムトレーニングを行う,より効率的なディープラーニング拡張を提案する。 これにより、CRFNetよりも優れた一般化性能が得られ、一般的な実画像のCRF推定に実用的に適用できる。

Most existing methods for CRF estimation from a single image fail to handle general real images. For instance, EdgeCRF based on colour patches extracted from edges works effectively only when the presence of noise is insignificant, which is not the case for many real images; and, CRFNet, a recent method based on fully supervised deep learning works only for the CRFs that are in the training data, and hence fail to deal with other possible CRFs beyond the training data. To address these problems, we introduce a non-deep-learning method using prediction consistency and gradual refinement. First, we rely more on the patches of the input image that provide more consistent predictions. If the predictions from a patch are more consistent, it means that the patch is likely to be less affected by noise or any inferior colour combinations, and hence, it can be more reliable for CRF estimation. Second, we employ a gradual refinement scheme in which we start from a simple CRF model to generate a result which is more robust to noise but less accurate, and then we gradually increase the model's complexity to improve the result. This is because a simple model, while being less accurate, overfits less to noise than a complex model does. Our experiments show that our method outperforms the existing single-image methods for daytime and nighttime real images. We further propose a more efficient deep learning extension that performs test-time training (based on unsupervised losses) on the test input image. This provides our method better generalization performance than CRFNet making it more practically applicable for CRF estimation for general real images.
翻訳日:2022-10-09 12:24:09 公開日:2021-02-23
# プロジェクションフリーオンライン学習の再検討: 強い凸の場合

Revisiting Projection-free Online Learning: the Strongly Convex Case ( http://arxiv.org/abs/2010.07572v2 )

ライセンス: Link先を確認
Dan Garber and Ben Kretzu(参考訳) 従来のFrank-Wolfe法に基づくプロジェクションフリー最適化アルゴリズムは、多くのアプリケーションで広く使われている凸制約を扱う能力から、近年、機械学習コミュニティにおいて大きな関心を集めている。 特に、オンライン学習のためのプロジェクションフリー手法の研究が盛んに行われた。 本稿では、Hazan と Kale \cite{Hazan12} によって提案された Online Frank-Wolfe (OFW) 法を再検討し、数年の間気付かれていないギャップを埋める: OFW は強凸関数に対して$O(T^{2/3})$ の高速な速度を達成する(標準の$O(T^{3/4})$ は凸関数に対して$O(T^{3/4})$ に対して、$T$ は列長ではない)。 オフライン最適化では、一般的に強い凸性はフランク=ウルフの速度を速くしないことが知られているので、これは少々驚きである。 また、強い凸性の下でバンディットの設定を再検討し、同じ境界の$\tilde O(T^{2/3})$(強い凸性を持たない$O(T^{3/4})$)を証明する。 したがって、現在の状況下では、強い凸関数と非滑らか関数を持つ全情報および帯域設定のための最良のプロジェクションフリー上のバウンドは、$T$の対数係数に一致する。

Projection-free optimization algorithms, which are mostly based on the classical Frank-Wolfe method, have gained significant interest in the machine learning community in recent years due to their ability to handle convex constraints that are popular in many applications, but for which computing projections is often computationally impractical in high-dimensional settings, and hence prohibit the use of most standard projection-based methods. In particular, a significant research effort was put on projection-free methods for online learning. In this paper we revisit the Online Frank-Wolfe (OFW) method suggested by Hazan and Kale \cite{Hazan12} and fill a gap that has been left unnoticed for several years: OFW achieves a faster rate of $O(T^{2/3})$ on strongly convex functions (as opposed to the standard $O(T^{3/4})$ for convex but not strongly convex functions), where $T$ is the sequence length. This is somewhat surprising since it is known that for offline optimization, in general, strong convexity does not lead to faster rates for Frank-Wolfe. We also revisit the bandit setting under strong convexity and prove a similar bound of $\tilde O(T^{2/3})$ (instead of $O(T^{3/4})$ without strong convexity). Hence, in the current state-of-affairs, the best projection-free upper-bounds for the full-information and bandit settings with strongly convex and nonsmooth functions match up to logarithmic factors in $T$.
翻訳日:2022-10-07 05:21:47 公開日:2021-02-23
# 非対数サンプリングのための確率勾配ランジュバンダイナミクスの高速収束

Faster Convergence of Stochastic Gradient Langevin Dynamics for Non-Log-Concave Sampling ( http://arxiv.org/abs/2010.09597v2 )

ライセンス: Link先を確認
Difan Zou and Pan Xu and Quanquan Gu(参考訳) 確率勾配ランゲヴィンダイナミクス(SGLD)の新たな収束解析を行い、非log-concaveとなる分布のクラスからサンプリングする。 我々のアプローチの核心は、時間反転可能なマルコフ連鎖を用いたSGLDの新しいコンダクタンス解析である。 対象分布の特定の条件下では、$\tilde O(d^4\epsilon^{-2})$ stochastic gradient evaluations は、$d$が問題次元であるような全変動距離の点で$\epsilon$-sampling誤差を保証するのに十分である。 これにより、SGLD(Raginsky et al., 2017; Xu et al., 2018)の収束率に関する既存の結果が改善される。 さらに、ログ密度関数にヘッセン・リプシッツ条件を付加すると、SGLDは$\tilde O(d^{15/4}\epsilon^{-3/2})$確率勾配評価において$\epsilon$-sampling誤差を達成することが保証される。 本手法は,ランジュバンに基づくアルゴリズムの収束を研究する新しい方法を提供し,高速確率的勾配に基づくサンプリングアルゴリズムの設計に光を当てる。

We provide a new convergence analysis of stochastic gradient Langevin dynamics (SGLD) for sampling from a class of distributions that can be non-log-concave. At the core of our approach is a novel conductance analysis of SGLD using an auxiliary time-reversible Markov Chain. Under certain conditions on the target distribution, we prove that $\tilde O(d^4\epsilon^{-2})$ stochastic gradient evaluations suffice to guarantee $\epsilon$-sampling error in terms of the total variation distance, where $d$ is the problem dimension. This improves existing results on the convergence rate of SGLD (Raginsky et al., 2017; Xu et al., 2018). We further show that provided an additional Hessian Lipschitz condition on the log-density function, SGLD is guaranteed to achieve $\epsilon$-sampling error within $\tilde O(d^{15/4}\epsilon^{-3/2})$ stochastic gradient evaluations. Our proof technique provides a new way to study the convergence of Langevin-based algorithms and sheds some light on the design of fast stochastic gradient-based sampling algorithms.
翻訳日:2022-10-05 21:21:42 公開日:2021-02-23
# adacrowd: 群衆カウントのためのラベルなしシーン適応

AdaCrowd: Unlabeled Scene Adaptation for Crowd Counting ( http://arxiv.org/abs/2010.12141v2 )

ライセンス: Link先を確認
Mahesh Kumar Krishna Reddy, Mrigank Rochan, Yiwei Lu, Yang Wang(参考訳) 我々は,画像に基づく群衆数量の問題に対処する。 特に,無ラベルシーン適応型群衆カウントという新しい問題を提案する。 新しいターゲットシーンを前提として,新たなシーンに関する情報を収集するターゲットデータに基づいて,この特定のシーンに特異的に適応した群衆カウントモデルを構築したい。 本稿では,対象シーンからの1つ以上の未ラベル画像を用いて適応を行うことを提案する。 既存の問題設定(例えば、完全な教師付き)と比較して、提案する問題設定は、クラウドカウントシステムの実世界のアプリケーションに近いものです。 我々は,この問題を解決するための新しい枠組みを提案する。 本フレームワークは,クラウドカウントネットワークとガイドネットワークから構成される。 案内ネットワークは、特定のシーンからのラベルなし画像に基づいて、群衆カウントネットワーク内のいくつかのパラメータを予測する。 これにより、モデルは異なるターゲットシーンに適応できます。 いくつかの挑戦的なベンチマークデータセットの実験結果から,提案手法の有効性を他の手法と比較した。 コードはhttps://github.com/maheshkkumar/adacrowdで入手できる。

We address the problem of image-based crowd counting. In particular, we propose a new problem called unlabeled scene-adaptive crowd counting. Given a new target scene, we would like to have a crowd counting model specifically adapted to this particular scene based on the target data that capture some information about the new scene. In this paper, we propose to use one or more unlabeled images from the target scene to perform the adaptation. In comparison with the existing problem setups (e.g. fully supervised), our proposed problem setup is closer to the real-world applications of crowd counting systems. We introduce a novel AdaCrowd framework to solve this problem. Our framework consists of a crowd counting network and a guiding network. The guiding network predicts some parameters in the crowd counting network based on the unlabeled images from a particular scene. This allows our model to adapt to different target scenes. The experimental results on several challenging benchmark datasets demonstrate the effectiveness of our proposed approach compared with other alternative methods. Code is available at https://github.com/maheshkkumar/adacrowd.
翻訳日:2022-10-03 23:11:27 公開日:2021-02-23
# レベル集合近似のサンプル複雑性

The sample complexity of level set approximation ( http://arxiv.org/abs/2010.13405v2 )

ライセンス: Link先を確認
Fran\c{c}ois Bachoc (IMT), Tommaso Cesari (TSE), S\'ebastien Gerchinovitz (IMT)(参考訳) 本研究では,未知関数のレベル集合を逐次クエリすることで近似する問題について検討する。 そこで我々は,局所関数近似問題に対するレベルセット近似問題を減らし,Bisect と Approximate というアルゴリズム群を導入する。 次に、この手法がh{\"o}lder関数のレート最適サンプル複雑性の保証にどのようにつながるかを示し、追加の滑らかさや他の構造的仮定が正しい場合に、その割合がどのように改善されるかを調べる。

We study the problem of approximating the level set of an unknown function by sequentially querying its values. We introduce a family of algorithms called Bisect and Approximate through which we reduce the level set approximation problem to a local function approximation problem. We then show how this approach leads to rate-optimal sample complexity guarantees for H{\"o}lder functions, and we investigate how such rates improve when additional smoothness or other structural assumptions hold true.
翻訳日:2022-10-02 19:58:39 公開日:2021-02-23
# 近似的影響に基づく抽象のための損失境界

Loss Bounds for Approximate Influence-Based Abstraction ( http://arxiv.org/abs/2011.01788v3 )

ライセンス: Link先を確認
Elena Congeduti, Alexander Mey, Frans A. Oliehoek(参考訳) 逐次意思決定技術は多くの実世界のシステムの性能向上を大いに約束するが、計算複雑性は彼らの原理的な応用を妨げている。 影響に基づく抽象化は、システムの残りの部分が与える「影響」とともに、局所的なサブプロブレムをモデル化することでレバレッジを得ることを目的としている。 このような影響の正確な表現を計算することは難解かもしれないが、学習近似表現はスケーラブルなソリューションを実現するための有望なアプローチを提供する。 本稿では,そのような手法の性能を理論的に検討する。 主な貢献は、小さな値損失の解を保証できる近似的影響表現に関する十分な条件の導出である。 特に、クロスエントロピーで訓練されたニューラルネットワークは、近似的な影響表現を学ぶのに適している。 さらに,境界をサンプルベースで定式化し,アプリケーション間のギャップを低減した。 最後に, 近似誤差推定器を提案し, 値損失と相関関係を実証的に明らかにした。

Sequential decision making techniques hold great promise to improve the performance of many real-world systems, but computational complexity hampers their principled application. Influence-based abstraction aims to gain leverage by modeling local subproblems together with the 'influence' that the rest of the system exerts on them. While computing exact representations of such influence might be intractable, learning approximate representations offers a promising approach to enable scalable solutions. This paper investigates the performance of such approaches from a theoretical perspective. The primary contribution is the derivation of sufficient conditions on approximate influence representations that can guarantee solutions with small value loss. In particular we show that neural networks trained with cross entropy are well suited to learn approximate influence representations. Moreover, we provide a sample based formulation of the bounds, which reduces the gap to applications. Finally, driven by our theoretical insights, we propose approximation error estimators, which empirically reveal to correlate well with the value loss.
翻訳日:2022-09-30 05:01:08 公開日:2021-02-23
# 高速メモリを用いた連想推論の学習

Learning Associative Inference Using Fast Weight Memory ( http://arxiv.org/abs/2011.07831v2 )

ライセンス: Link先を確認
Imanol Schlag, Tsendsuren Munkhdalai, J\"urgen Schmidhuber(参考訳) 人間は刺激を素早く関連付け、新しい文脈で問題を解決することができる。 提案するニューラルネットワークモデルは,そのような連想推論を行うために構成できる事実の状態表現を学習する。 この目的のために我々は,FWM(Fast Weight Memory)と呼ばれる連想メモリでLSTMモデルを拡張した。 LSTMは、与えられた入力シーケンスの各ステップにおける微分可能な操作を通じて、急速に変化するFWM重みに格納された構成関連を更新し、維持する。 我々のモデルは、勾配降下によりエンドツーエンドに訓練され、構成言語推論問題、POMDPのためのメタ強化学習、小規模言語モデリングにおいて優れた性能が得られる。

Humans can quickly associate stimuli to solve problems in novel contexts. Our novel neural network model learns state representations of facts that can be composed to perform such associative inference. To this end, we augment the LSTM model with an associative memory, dubbed Fast Weight Memory (FWM). Through differentiable operations at every step of a given input sequence, the LSTM updates and maintains compositional associations stored in the rapidly changing FWM weights. Our model is trained end-to-end by gradient descent and yields excellent performance on compositional language reasoning problems, meta-reinforcement-learning for POMDPs, and small-scale word-level language modelling.
翻訳日:2022-09-24 23:30:56 公開日:2021-02-23
# アメリカ手話数字の分類のための新しいデータセットと畳み込みニューラルネットワークアーキテクチャの提案

A New Dataset and Proposed Convolutional Neural Network Architecture for Classification of American Sign Language Digits ( http://arxiv.org/abs/2011.08927v2 )

ライセンス: Link先を確認
Arda Mavi(参考訳) 言語障害のある人とのインタビューによると、言語障害のある人は手話を知っている人の周りの人とコミュニケーションが困難であり、この状況により社会から孤立し、自立感を失ってしまう可能性がある。 With this paper, to increase the quality of life of individuals with facilitating communication between individuals who use sign language and who do not know this language, a new American Sign Language (ASL) digits dataset that can help to create machine learning algorithms which need to large and varied data to be successful created and published as Sign Language Digits Dataset on Kaggle Datasets web page, a proposal Convolutional Neural Network (CNN) architecture that can get 98% test accuracy on our dataset presented, and compared with the existing popular CNN models.

According to interviews with people who work with speech impaired persons, speech impaired people have difficulties in communicating with other people around them who do not know the sign language, and this situation may cause them to isolate themselves from society and lose their sense of independence. With this paper, to increase the quality of life of individuals with facilitating communication between individuals who use sign language and who do not know this language, a new American Sign Language (ASL) digits dataset that can help to create machine learning algorithms which need to large and varied data to be successful created and published as Sign Language Digits Dataset on Kaggle Datasets web page, a proposal Convolutional Neural Network (CNN) architecture that can get 98% test accuracy on our dataset presented, and compared with the existing popular CNN models.
翻訳日:2022-09-24 23:29:26 公開日:2021-02-23
# 近似ベイズ計算における一般化後処理

Generalized Posteriors in Approximate Bayesian Computation ( http://arxiv.org/abs/2011.08644v2 )

ライセンス: Link先を確認
Sebastian M Schmon, Patrick W Cannon, Jeremias Knoblauch(参考訳) 複雑なシミュレータは多くの科学分野においてユビキタスなツールとなり、自然現象と社会現象の忠実さと暗黙の確率モデルを提供している。 残念ながら、それらは通常、従来の統計分析に必要なトラクタビリティを欠いている。 近似ベイズ計算(ABC)はシミュレーションベースの推論において重要な手法として登場し、真のモデル確率と後部確率はシミュレータのサンプルを用いて近似される。 本稿では,ABCと一般化ベイズ推論(GBI)の関連性について述べる。 まず、abcのaccept/rejectステップを暗黙的に定義されたエラーモデルとして再解釈する。 次に、これらの暗黙のエラーモデルは必ず不特定化されると論じる。 abc後方は標準的なベイズ後方を近似するために必要な悪として扱われることが多いが、これはabcを潜在的な強固化戦略として再解釈することができる。 これにより、abc内でgbiの使用を推奨するようになりました。

Complex simulators have become a ubiquitous tool in many scientific disciplines, providing high-fidelity, implicit probabilistic models of natural and social phenomena. Unfortunately, they typically lack the tractability required for conventional statistical analysis. Approximate Bayesian computation (ABC) has emerged as a key method in simulation-based inference, wherein the true model likelihood and posterior are approximated using samples from the simulator. In this paper, we draw connections between ABC and generalized Bayesian inference (GBI). First, we re-interpret the accept/reject step in ABC as an implicitly defined error model. We then argue that these implicit error models will invariably be misspecified. While ABC posteriors are often treated as a necessary evil for approximating the standard Bayesian posterior, this allows us to re-interpret ABC as a potential robustification strategy. This leads us to suggest the use of GBI within ABC, a use case we explore empirically.
翻訳日:2022-09-24 17:41:24 公開日:2021-02-23
# (参考訳) 浅層サブグラフサンプラーを用いたディープグラフニューラルネットワーク

Deep Graph Neural Networks with Shallow Subgraph Samplers ( http://arxiv.org/abs/2012.01380v2 )

ライセンス: CC BY 4.0
Hanqing Zeng, Muhan Zhang, Yinglong Xia, Ajitesh Srivastava, Andrey Malevich, Rajgopal Kannan, Viktor Prasanna, Long Jin, Ren Chen(参考訳) グラフニューラルネットワーク(GNN)はグラフ上で表現を学習する強力なモデルだが、最先端のモデルでは2~3層以上の精度が向上していない。 ディープGNNは基本的に対処する必要がある。 過剰な動作による表現力の挑戦,および 2) 近所の爆発による 計算課題。 我々は,GNNの精度と効率を両立させるため,GNNの深部表現を用いて,浅部部分グラフのみにメッセージを送るという,シンプルな「深部GNN,浅部サンプル」設計原理を提案する。 適切にサンプリングされた部分グラフは、無関係またはノイズの多いノードを除外し、重要な隣り合う特徴やグラフ構造を保持する。 ディープGNNは、グローバルグラフ信号を単に「ホワイトノイズ」に過度にスムースにするのではなく、情報的局所信号を滑らかにして特徴学習を強化する。 深層gnnと浅層サンプラーの組み合わせが最良の学習性能をもたらす理由を理論的に正当化する。 次に, 様々なサンプリングアルゴリズムとニューラルアーキテクチャ拡張を提案し, 良好な実験結果を得た。 最大の公開グラフデータセットであるogbn-papers100Mでは、ハードウェアコストを大幅に削減して最先端の精度を実現する。

While Graph Neural Networks (GNNs) are powerful models for learning representations on graphs, most state-of-the-art models do not have significant accuracy gain beyond two to three layers. Deep GNNs fundamentally need to address: 1). expressivity challenge due to oversmoothing, and 2). computation challenge due to neighborhood explosion. We propose a simple "deep GNN, shallow sampler" design principle to improve both the GNN accuracy and efficiency -- to generate representation of a target node, we use a deep GNN to pass messages only within a shallow, localized subgraph. A properly sampled subgraph may exclude irrelevant or even noisy nodes, and still preserve the critical neighbor features and graph structures. The deep GNN then smooths the informative local signals to enhance feature learning, rather than oversmoothing the global graph signals into just "white noise". We theoretically justify why the combination of deep GNNs with shallow samplers yields the best learning performance. We then propose various sampling algorithms and neural architecture extensions to achieve good empirical results. On the largest public graph dataset, ogbn-papers100M, we achieve state-of-the-art accuracy with an order of magnitude reduction in hardware cost.
翻訳日:2021-05-30 04:52:56 公開日:2021-02-23
# ニューラルネットワークの活性化における隠れた不確かさ

The Hidden Uncertainty in a Neural Networks Activations ( http://arxiv.org/abs/2012.03082v2 )

ライセンス: Link先を確認
Janis Postels, Hermann Blum, Yannick Str\"umpler, Cesar Cadena, Roland Siegwart, Luc Van Gool, Federico Tombari(参考訳) ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。 本研究は, この分布がモデルの不確実性と相関するかどうかを考察し, 新規入力に一般化する能力を示す。 まず,特定の潜在表現を観察することで,認識的不確かさと驚き,すなわち負のログ様相を識別できることを実証的に検証した。 さらに,隠れ表現の出力条件分布は,予測分布のエントロピーを通したアレタリック不確かさの定量化にも有効であることを示す。 我々は,異なる階層の表現から推定される認識論的不確実性を解析し,より深い層が定式化されているが計算コストが高い手法(例えば,計算量が多い)と類似した振る舞いを持つ不確実性をもたらすと結論づける。 深いアンサンブル)。 我々のアプローチではトレーニングプロセスを変更する必要はないが、事前の作業に従い、潜在表現の情報を増加させる追加の正規化損失を実験する。 その結果, データ分布に近い不明瞭なキャリブレーションを犠牲にして, OODの検出精度が向上することが判明した。 分類モデルと回帰モデルの両方について検討を行った。

The distribution of a neural network's latent representations has been successfully used to detect out-of-distribution (OOD) data. This work investigates whether this distribution moreover correlates with a model's epistemic uncertainty, thus indicates its ability to generalise to novel inputs. We first empirically verify that epistemic uncertainty can be identified with the surprise, thus the negative log-likelihood, of observing a particular latent representation. Moreover, we demonstrate that the output-conditional distribution of hidden representations also allows quantifying aleatoric uncertainty via the entropy of the predictive distribution. We analyse epistemic and aleatoric uncertainty inferred from the representations of different layers and conclude that deeper layers lead to uncertainty with similar behaviour as established - but computationally more expensive - methods (e.g. deep ensembles). While our approach does not require modifying the training process, we follow prior work and experiment with an additional regularising loss that increases the information in the latent representations. We find that this leads to improved OOD detection of epistemic uncertainty at the cost of ambiguous calibration close to the data distribution. We verify our findings on both classification and regression models.
翻訳日:2021-05-22 12:12:34 公開日:2021-02-23
# ニューラルネットワークの表現解析を用いた人的活動認識のための伝達学習

Transfer Learning for Human Activity Recognition using Representational Analysis of Neural Networks ( http://arxiv.org/abs/2012.04479v2 )

ライセンス: Link先を確認
Sizhe An, Ganapati Bhat, Suat Gumussoy, Umit Ogras(参考訳) HAR(Human Activity Recognition)の研究は、モバイルの健康モニタリング、活動認識、患者のリハビリテーションに応用されているため、近年増加している。 一般的なアプローチは、既知のユーザとオフラインでhar分類器をトレーニングし、新しいユーザのために同じ分類器を使用する。 しかし、このアプローチでは、トレーニングデータ内のアクティビティパターンが異なる場合、新規ユーザの精度が低下する可能性がある。 同時に、新しいユーザのためのスクラッチからのトレーニングは、高い計算コストとトレーニング時間のために、モバイルアプリケーションでは実現できない。 この問題に対処するために,2つのコンポーネントを持つHAR転送学習フレームワークを提案する。 まず、表現分析によって、ユーザ間で転送可能な共通機能と、カスタマイズが必要なユーザ固有の機能を明らかにする。 この知見を用いて、オフライン分類器の再利用部分を新規ユーザへ転送し、残りのユーザのみを微調整する。 5つのデータセットによる実験では,転送学習を使わずに,ベースラインと比較して43%の精度向上と66%のトレーニング時間短縮が得られた。 さらに、Nvidia Jetson Xavier-NXハードウェアプラットフォームでの計測では、スクラッチからトレーニングと同じまたはより高い精度で、消費電力とエネルギー消費がそれぞれ43%と68%減少していることが明らかになった。

Human activity recognition (HAR) research has increased in recent years due to its applications in mobile health monitoring, activity recognition, and patient rehabilitation. The typical approach is training a HAR classifier offline with known users and then using the same classifier for new users. However, the accuracy for new users can be low with this approach if their activity patterns are different than those in the training data. At the same time, training from scratch for new users is not feasible for mobile applications due to the high computational cost and training time. To address this issue, we propose a HAR transfer learning framework with two components. First, a representational analysis reveals common features that can transfer across users and user-specific features that need to be customized. Using this insight, we transfer the reusable portion of the offline classifier to new users and fine-tune only the rest. Our experiments with five datasets show up to 43% accuracy improvement and 66% training time reduction when compared to the baseline without using transfer learning. Furthermore, measurements on the Nvidia Jetson Xavier-NX hardware platform reveal that the power and energy consumption decrease by 43% and 68%, respectively, while achieving the same or higher accuracy as training from scratch.
翻訳日:2021-05-22 11:59:11 公開日:2021-02-23
# 完全密度モデルは異常検出を保証できない

Perfect density models cannot guarantee anomaly detection ( http://arxiv.org/abs/2012.03808v2 )

ライセンス: Link先を確認
Charline Le Lan, Laurent Dinh(参考訳) その可能性のトラクタビリティのおかげで、いくつかの深い生成モデルは、異常検出、不確実性推定、アクティブラーニングといった一見単純だが重要な応用を約束する。 しかしながら、これらの応用が示唆する期待と矛盾する異常に起因する可能性値が実証的に示される。 本稿では,分布密度の挙動を詳細に検討し,推定問題や次元の呪いを超えて,従来考えられていたよりも有意義な情報が少ないことを示す。 分布外検出におけるこれらの可能性の使用は強い仮説と暗黙の仮説に依存しており、信頼性の高い異常検出のためにこれらの仮定を明示的に定式化する必要があることを強調する。

Thanks to the tractability of their likelihood, some deep generative models show promise for seemingly straightforward but important applications like anomaly detection, uncertainty estimation, and active learning. However, the likelihood values empirically attributed to anomalies conflict with the expectations these proposed applications suggest. In this paper, we take a closer look at the behavior of distribution densities and show that these quantities carry less meaningful information than previously thought, beyond estimation issues or the curse of dimensionality. We conclude that the use of these likelihoods for out-of-distribution detection relies on strong and implicit hypotheses, and highlight the necessity of explicitly formulating these assumptions for reliable anomaly detection.
翻訳日:2021-05-16 21:46:16 公開日:2021-02-23
# (参考訳) 政策強化学習の半監督

Semi-Supervised Off Policy Reinforcement Learning ( http://arxiv.org/abs/2012.04809v5 )

ライセンス: CC BY 4.0
Aaron Sonabend-W, Nilanjana Laha, Ashwin N. Ananthakrishnan, Tianxi Cai, Rajarshi Mukherjee(参考訳) 強化学習 (rl) は, 患者の不均一性を考慮した逐次的治療戦略を推定することに成功した。 しかし、強化学習の報奨として用いられる健康情報はしばしばよくコード化されておらず、むしろ臨床ノートに埋め込まれている。 正確な結果情報を抽出することは資源集約的な作業であり、利用可能な注釈付きコホートのほとんどは小さい。 この問題に対処するために,実測結果を持つ小さなラベル付きデータを効率よく活用する半教師付き学習(SSL)手法と,結果サロゲートを持つ大規模ラベル付きデータを提案する。 特に,Q-ラーニングに対する半教師付き,効率的なアプローチを提案する。 SSLをシーケンシャルな治療体制に一般化することは、次のような興味深い課題をもたらす。 2)修正SSLフレームワークで活用する代用変数は、結果を予測するが、最適ポリシーや値関数には影響しない。 Q関数と値関数推定器の理論的結果を提供し、SSLからどれだけの効率が得られるかを理解する。 提案手法は,少なくとも教師付きアプローチと同じくらい効率的であり,またインプテーションモデルの誤特定にも頑健である。

Reinforcement learning (RL) has shown great success in estimating sequential treatment strategies which take into account patient heterogeneity. However, health-outcome information, which is used as the reward for reinforcement learning methods, is often not well coded but rather embedded in clinical notes. Extracting precise outcome information is a resource intensive task, so most of the available well-annotated cohorts are small. To address this issue, we propose a semi-supervised learning (SSL) approach that efficiently leverages a small sized labeled data with true outcome observed, and a large unlabeled data with outcome surrogates. In particular, we propose a semi-supervised, efficient approach to Q-learning and doubly robust off policy value estimation. Generalizing SSL to sequential treatment regimes brings interesting challenges: 1) Feature distribution for Q-learning is unknown as it includes previous outcomes. 2) The surrogate variables we leverage in the modified SSL framework are predictive of the outcome but not informative to the optimal policy or value function. We provide theoretical results for our Q-function and value function estimators to understand to what degree efficiency can be gained from SSL. Our method is at least as efficient as the supervised approach, and moreover safe as it robust to mis-specification of the imputation models.
翻訳日:2021-05-16 15:21:31 公開日:2021-02-23
# (参考訳) 凸ポテンシャル流:最適輸送と凸最適化を伴う普遍確率分布

Convex Potential Flows: Universal Probability Distributions with Optimal Transport and Convex Optimization ( http://arxiv.org/abs/2012.05942v2 )

ライセンス: CC BY 4.0
Chin-Wei Huang, Ricky T. Q. Chen, Christos Tsirigotis, Aaron Courville(参考訳) フローベースモデルは、トラクタブル密度の確率モデルを設計するための強力なツールである。 本稿では、最適輸送(OT)理論にインスパイアされた可逆モデルの自然かつ効率的なパラメータ化であるConvex Potential Flows (CP-Flow)を紹介する。 CP-フローは強凸神経電位関数の勾配写像である。 凸性は可逆性を含み、効率的な反転のために凸共役を解くために凸最適化に頼ることができる。 最大確率トレーニングを可能にするために、共役勾配法を用いて逆ヘッセンベクトル積を解くジャコビアンの対決定式の新たな勾配推定器を導出する。 勾配推定器は、一定メモリコストを有し、凸最適化ルーチンの誤差許容レベルを低減し、効果的に非バイアス化することができる。 理論的には、cp-フローは普遍密度近似であり、ot の意味で最適であることが証明される。 実験の結果,CP-Flowは密度推定と変分推定の標準ベンチマークで競合的に動作することがわかった。

Flow-based models are powerful tools for designing probabilistic models with tractable density. This paper introduces Convex Potential Flows (CP-Flow), a natural and efficient parameterization of invertible models inspired by the optimal transport (OT) theory. CP-Flows are the gradient map of a strongly convex neural potential function. The convexity implies invertibility and allows us to resort to convex optimization to solve the convex conjugate for efficient inversion. To enable maximum likelihood training, we derive a new gradient estimator of the log-determinant of the Jacobian, which involves solving an inverse-Hessian vector product using the conjugate gradient method. The gradient estimator has constant-memory cost, and can be made effectively unbiased by reducing the error tolerance level of the convex optimization routine. Theoretically, we prove that CP-Flows are universal density approximators and are optimal in the OT sense. Our empirical results show that CP-Flow performs competitively on standard benchmarks of density estimation and variational inference.
翻訳日:2021-05-15 09:41:07 公開日:2021-02-23
# (参考訳) 微分プライベート分散決定木学習のためのスケーラブルで確率的精度の高いアルゴリズム

Scalable and Provably Accurate Algorithms for Differentially Private Distributed Decision Tree Learning ( http://arxiv.org/abs/2012.10602v3 )

ライセンス: CC BY 4.0
Kaiwen Wang, Travis Dick, Maria-Florina Balcan(参考訳) 本稿では,分散環境での個人的,トップダウンの意思決定木学習に有効なアルゴリズムを初めて紹介する(Balcan et al., 2012)。 本稿では,プライバシ保存型決定木学習アルゴリズムdp-topdownを提案し,2つの分散実装を提案する。 最初の方法であるNoisyCountsはLaplaceメカニズムを用いて自然に単一マシンアルゴリズムを拡張します。 第2の手法であるlocalrnmは,各データホルダで局所最適化を行うことで,通信やノイズの増加を大幅に削減する。 我々は、単一マシンと分散設定の両方において、差分的にプライベートなトップダウン決定木学習のための最初のユーティリティ保証を提供する。 これらの保証は、データセットが十分に大きい場合、プライベートに学習した決定ツリーのエラーがすぐにゼロになることを示している。 実際のデータセットに関する広範な実験は、分散環境でプライベートな決定木を学習する際のプライバシー、正確性、一般化のトレードオフを示している。

This paper introduces the first provably accurate algorithms for differentially private, top-down decision tree learning in the distributed setting (Balcan et al., 2012). We propose DP-TopDown, a general privacy preserving decision tree learning algorithm, and present two distributed implementations. Our first method NoisyCounts naturally extends the single machine algorithm by using the Laplace mechanism. Our second method LocalRNM significantly reduces communication and added noise by performing local optimization at each data holder. We provide the first utility guarantees for differentially private top-down decision tree learning in both the single machine and distributed settings. These guarantees show that the error of the privately-learned decision tree quickly goes to zero provided that the dataset is sufficiently large. Our extensive experiments on real datasets illustrate the trade-offs of privacy, accuracy and generalization when learning private decision trees in the distributed setting.
翻訳日:2021-05-01 16:38:00 公開日:2021-02-23
# (参考訳) オンライン広告におけるユーザ応答予測

User Response Prediction in Online Advertising ( http://arxiv.org/abs/2101.02342v2 )

ライセンス: CC BY 4.0
Zhabiz Gharibshah, Xingquan Zhu(参考訳) 巨大な市場であるオンライン広告は、検索エンジン、サードパーティーのウェブサイト、ソーシャルメディア、モバイルアプリなど、さまざまなプラットフォームで大きな注目を集めている。 オンラインキャンペーンの繁栄はオンラインマーケティングにおける課題であり、広告(ad)クリエイティビティへのクリック、製品へのサブスクリプション、アイテムの購入、オンライン調査による明示的なユーザーフィードバックなど、さまざまな指標を通じてユーザーの反応によって評価される。 近年,ユーザ応答予測のための機械学習手法を含む計算手法を用いた研究の数が大幅に増加していることが報告されている。 しかし、既存の文献は主に特定の課題を解決するためにアルゴリズム駆動設計に焦点を当てており、多くの重要な質問に答えるために包括的なレビューは存在しない。 オンラインデジタル広告エコシステムに関わる当事者は何か? ユーザ応答予測に利用可能なデータの種類は? 信頼性のある/または透明な方法でユーザ応答を予測するには? 本稿では,オンライン広告および関連するレコメンデーションアプリケーションにおけるユーザ応答予測の総合的なレビューを行う。 私たちの重要なゴールは、オンライン広告プラットフォーム、利害関係者、データ可用性、および典型的なユーザ応答予測方法について、徹底的に理解することです。 本稿では,さまざまなオンラインプラットフォームで使用されている機械学習手法の進歩を中心に,最先端のユーザ応答予測手法を分類する分類法を提案する。 さらに,この分野におけるユーザ応答予測,ベンチマークデータセット,オープンソースコードのアプリケーションについても検討する。

Online advertising, as the vast market, has gained significant attention in various platforms ranging from search engines, third-party websites, social media, and mobile apps. The prosperity of online campaigns is a challenge in online marketing and is usually evaluated by user response through different metrics, such as clicks on advertisement (ad) creatives, subscriptions to products, purchases of items, or explicit user feedback through online surveys. Recent years have witnessed a significant increase in the number of studies using computational approaches, including machine learning methods, for user response prediction. However, existing literature mainly focuses on algorithmic-driven designs to solve specific challenges, and no comprehensive review exists to answer many important questions. What are the parties involved in the online digital advertising eco-systems? What type of data are available for user response prediction? How to predict user response in a reliable and/or transparent way? In this survey, we provide a comprehensive review of user response prediction in online advertising and related recommender applications. Our essential goal is to provide a thorough understanding of online advertising platforms, stakeholders, data availability, and typical ways of user response prediction. We propose a taxonomy to categorize state-of-the-art user response prediction methods, primarily focus on the current progress of machine learning methods used in different online platforms. In addition, we also review applications of user response prediction, benchmark datasets, and open-source codes in the field.
翻訳日:2021-04-10 21:36:29 公開日:2021-02-23
# グラフを用いたモビリティトラジェクタからの大規模位置埋め込み学習

Learning Large-scale Location Embedding From Human Mobility Trajectories with Graphs ( http://arxiv.org/abs/2103.00483v1 )

ライセンス: Link先を確認
Chenyu Tian, Yuchun Zhang, Zefeng Weng(参考訳) GPS座標やその他の位置インジケータは詳細な位置インジケータであり、Geo-Awareアプリケーションで機械学習モデルによって効果的に活用することが難しい。 従来の位置埋め込み方式は、主に関心のある領域で発生した特定の問題に適したものである。 都市全体の規模に関しては、既存のアプローチは常に膨大な計算コストと情報損失に悩まされる。 位置情報サービス(lbs)データの蓄積と公開が増加し,都市動態と人的移動性の研究が可能となった。 本研究では,大規模LBSデータを用いて位置のベクトル表現を学習する。 既存の研究とは違って,空間接続と人間の移動性の両方を考慮し,GCN-L2VというGCN支援スキップグラムモデルを用いて,フローグラフと空間グラフから共同で表現を学習することを提案する。 このモデルは、人間のモビリティと空間情報にコンテキスト情報を組み込む。 これにより、GCN-L2Vは位置間の関係を捉え、空間環境における意味的類似性をよりよく理解することができる。 定量的実験やケーススタディを通じて,GCN-L2Vで学習した表現が有効であることを示す。 GCN-L2Vは他の場所埋め込み法や下流のGeo-Awareアプリケーションと相補的に適用することができる。

GPS coordinates and other location indicators are fine-grained location indicators that are difficult to be effectively utilized by machine learning models in Geo-aware applications. Previous location embedding methods are mostly tailored for specific problems that are taken place within areas of interest. When it comes to the scale of the entire cities, existing approaches always suffer from extensive computational cost and signigicant information loss. An increasing amount of location-based service (LBS) data are being accumulated and released to the public and enables us to study urban dynamics and human mobility. This study learns vector representations for locations using the large-scale LBS data. Different from existing studies, we propose to consider both spatial connection and human mobility, and jointly learn the representations from a flow graph and a spatial graph through a GCN-aided skip-gram model named GCN-L2V. This model embeds context information in human mobility and spatial information. By doing so, GCN-L2V is able to capture relationships among locations and provide a better notion of semantic similarity in a spatial environment. Across quantitative experiments and case studies, we empirically demonstrate that the representations learned by GCN-L2V are effective. GCN-L2V can be applied in a complementary manner to other place embedding methods and down-streaming Geo-aware applications.
翻訳日:2021-04-05 00:47:37 公開日:2021-02-23
# 深層学習によるガスタービンブレードの自動ボアスコープ損傷評価

Automatic Borescope Damage Assessments for Gas Turbine Blades via Deep Learning ( http://arxiv.org/abs/2103.05430v1 )

ライセンス: Link先を確認
Chun Yui Wong, Pranay Seshadri, Geoffrey T. Parks(参考訳) 燃費を最大化するため、エアロエンジンのブレード部品は材料限界に近い動作をする。 厳しい運転環境は、圧縮機とタービンブレードにサービス内損傷を生じさせ、エンジンの性能に重大な影響を及ぼした。 ブレード視覚検査の現在の方法は、主にボアスコープイメージングに基づいている。 これらの検査の間、検査対象のコンポーネントのセンテンシングは、人間のバイアスを避けるための体系的なアプローチが欠如しているため、かなりの手作業を必要とする。 高速かつ高精度なセンテンシングを実現するため,ボアスコープビデオを用いた深層学習によるローターブレードの損傷検出のための自動ワークフローを提案する。 コンピュータビジョンによる最先端の手法に基づいて,ブレード列の各ブレードの損傷統計を別々に提示し,2つのボアスコープビデオでワークフローを実演する。

To maximise fuel economy, bladed components in aero-engines operate close to material limits. The severe operating environment leads to in-service damage on compressor and turbine blades, having a profound and immediate impact on the performance of the engine. Current methods of blade visual inspection are mainly based on borescope imaging. During these inspections, the sentencing of components under inspection requires significant manual effort, with a lack of systematic approaches to avoid human biases. To perform fast and accurate sentencing, we propose an automatic workflow based on deep learning for detecting damage present on rotor blades using borescope videos. Building upon state-of-the-art methods from computer vision, we show that damage statistics can be presented for each blade in a blade row separately, and demonstrate the workflow on two borescope videos.
翻訳日:2021-04-05 00:47:12 公開日:2021-02-23
# (参考訳) 変圧器を用いた野生の透明物体のセグメンテーション

Segmenting Transparent Object in the Wild with Transformer ( http://arxiv.org/abs/2101.08461v3 )

ライセンス: CC BY 4.0
Enze Xie, Wenjia Wang, Wenhai Wang, Peize Sun, Hang Xu, Ding Liang, Ping Luo(参考訳) この研究は、最初の大規模な透明オブジェクトセグメンテーションデータセットであるtrans10k-v2と呼ばれる新しい細粒度透明オブジェクトセグメンテーションデータセットを提案する。 カテゴリが2つしかないTrans10K-v1とは異なり、新しいデータセットにはいくつかの魅力的なメリットがあります。 1) 人間の家庭環境において一般的に発生する透明な物体の微細なカテゴリが11個あり, 現実の応用に有効である。 2) Trans10K-v2は、現在の高度なセグメンテーション手法に、以前のバージョンよりも多くの課題をもたらす。 さらに,Trans2Segと呼ばれるトランスフォーマーベースセグメンテーションパイプラインを提案する。 第一に、Trans2Segのトランスフォーマーエンコーダは、純粋なCNNアーキテクチャよりも優れた利点を示すCNNのローカルレセプティブフィールドとは対照的に、グローバルレセプティブフィールドを提供する。 次に、辞書検索の課題としてセマンティックセグメンテーションを定式化することにより、Trans2Segのトランスフォーマーデコーダのクエリとして学習可能なプロトタイプを設計し、各プロトタイプがデータセット全体の1つのカテゴリの統計を学習する。 最近の20以上のセマンティクスセグメンテーション法をベンチマークし、trans2segがcnnベースの手法を圧倒的に上回り、提案アルゴリズムが透明なオブジェクトセグメンテーションを解決できる可能性を示した。

This work presents a new fine-grained transparent object segmentation dataset, termed Trans10K-v2, extending Trans10K-v1, the first large-scale transparent object segmentation dataset. Unlike Trans10K-v1 that only has two limited categories, our new dataset has several appealing benefits. (1) It has 11 fine-grained categories of transparent objects, commonly occurring in the human domestic environment, making it more practical for real-world application. (2) Trans10K-v2 brings more challenges for the current advanced segmentation methods than its former version. Furthermore, a novel transformer-based segmentation pipeline termed Trans2Seg is proposed. Firstly, the transformer encoder of Trans2Seg provides the global receptive field in contrast to CNN's local receptive field, which shows excellent advantages over pure CNN architectures. Secondly, by formulating semantic segmentation as a problem of dictionary look-up, we design a set of learnable prototypes as the query of Trans2Seg's transformer decoder, where each prototype learns the statistics of one category in the whole dataset. We benchmark more than 20 recent semantic segmentation methods, demonstrating that Trans2Seg significantly outperforms all the CNN-based methods, showing the proposed algorithm's potential ability to solve transparent object segmentation.
翻訳日:2021-03-21 19:14:14 公開日:2021-02-23
# (参考訳) パワーローグラフのマッチングにおける$d$-hopsのパワー

The Power of $D$-hops in Matching Power-Law Graphs ( http://arxiv.org/abs/2102.12975v1 )

ライセンス: CC BY 4.0
Liren Yu, Jiaming Xu, Xiaojun Lin(参考訳) 本稿では,パワーローグラフに対するシードグラフマッチングについて検討する。 2つのエッジ関連グラフが、有理次数分布を持つ共通親グラフから独立にエッジサンプリングされることを仮定する。 正しく一致した頂点ペアのセットをランダムに選択し、初期種子として明らかにする。 我々のゴールは、2つのグラフ間の残りの潜在頂点対応を回復するために種を用いることである。 既存の1ドルホップ地区での高次種子の使用に焦点を当てたアプローチを出発し、適度に定義された$D$ホップ地区で低次種子を利用する効率的なアルゴリズムを開発しました。 具体的には、まず頂点ペアのセットと適切な度数(第1のスライスと呼ばれる)をマッチングし、ドルドル=ホップの近所の低次種子の数を計算します。 これにより、他のグラフと一致するカスケードプロセスをトリガーするために必要な初期種子の数を大幅に削減できます。 n$頂点, max degree $\Theta(\sqrt{n})$, and the power-law exponent $2<\beta<3$ のChung-Luランダムグラフモデルでは,$D> \frac{4-\beta}{3-\beta}$として,最初のスライスを最適に選択することによって,アルゴリズムは,$\Omega((\log n)^{4-\beta})$初期シーズのみで提供される,誤りのない真のペアの定数を正しく一致させることができることを示した。 この結果はシードサイズ要件を指数関数的に減少させ、最もよく知られた結果には$n^{1/2+\epsilon}$種(小さな定数$\epsilon>0$)が必要となる。 合成データと実データによる性能評価は,アルゴリズムの性能向上をさらに裏付ける。

This paper studies seeded graph matching for power-law graphs. Assume that two edge-correlated graphs are independently edge-sampled from a common parent graph with a power-law degree distribution. A set of correctly matched vertex-pairs is chosen at random and revealed as initial seeds. Our goal is to use the seeds to recover the remaining latent vertex correspondence between the two graphs. Departing from the existing approaches that focus on the use of high-degree seeds in $1$-hop neighborhoods, we develop an efficient algorithm that exploits the low-degree seeds in suitably-defined $D$-hop neighborhoods. Specifically, we first match a set of vertex-pairs with appropriate degrees (which we refer to as the first slice) based on the number of low-degree seeds in their $D$-hop neighborhoods. This significantly reduces the number of initial seeds needed to trigger a cascading process to match the rest of the graphs. Under the Chung-Lu random graph model with $n$ vertices, max degree $\Theta(\sqrt{n})$, and the power-law exponent $2<\beta<3$, we show that as soon as $D> \frac{4-\beta}{3-\beta}$, by optimally choosing the first slice, with high probability our algorithm can correctly match a constant fraction of the true pairs without any error, provided with only $\Omega((\log n)^{4-\beta})$ initial seeds. Our result achieves an exponential reduction in the seed size requirement, as the best previously known result requires $n^{1/2+\epsilon}$ seeds (for any small constant $\epsilon>0$). Performance evaluation with synthetic and real data further corroborates the improved performance of our algorithm.
翻訳日:2021-02-27 00:48:32 公開日:2021-02-23
# 機械学習による非線形力学系の任意の状態への制御

Controlling nonlinear dynamical systems into arbitrary states using machine learning ( http://arxiv.org/abs/2102.12969v1 )

ライセンス: Link先を確認
Alexander Haluszczynski, Christoph R\"ath(参考訳) 本稿では,機械学習(ML)に依存した,新しい完全データ駆動型制御方式を提案する。 最近開発されたMLに基づく複雑なシステムの予測機能により、非線形系は任意の初期状態から来る任意の動的対象状態に留まることが証明された。 Lorenz と R\"ossler システムの例を用いて、我々のアプローチを概説し、これらのシステムが周期だけでなく、例えば、いかに正確に周期的にもたらされるかを示す。 断続的かつ異なるカオス的行動。 必要なデータ量が少なく,柔軟性の高いコントロールスキームを備えることで,工学から医学まで幅広い応用の可能性について簡単に議論する。

We propose a novel and fully data driven control scheme which relies on machine learning (ML). Exploiting recently developed ML-based prediction capabilities of complex systems, we demonstrate that nonlinear systems can be forced to stay in arbitrary dynamical target states coming from any initial state. We outline our approach using the examples of the Lorenz and the R\"ossler system and show how these systems can very accurately be brought not only to periodic but also to e.g. intermittent and different chaotic behavior. Having this highly flexible control scheme with little demands on the amount of required data on hand, we briefly discuss possible applications that range from engineering to medicine.
翻訳日:2021-02-26 13:46:53 公開日:2021-02-23
# ターゲットパターン検索による高次インタラクションの学習

Learning High-Order Interactions via Targeted Pattern Search ( http://arxiv.org/abs/2102.12974v1 )

ライセンス: Link先を確認
Michela C. Massi, Nicola R. Franco, Francesca Ieva, Andrea Manzoni, Anna Maria Paganoni, Paolo Zunino(参考訳) ロジスティック回帰(英: Logistic Regression、LR)は、経験的二項分類研究において広く用いられる統計的手法である。 しかし、現実のシナリオは、しばしば、as-is LRモデルの使用を妨げる複雑さを共有し、代わりにデータのばらつきを捉えるために高次相互作用を含める必要性を強調します。 これはさらに難しくなる: (i) データセットがますます多くの変数で拡大する; (ii) 一般的に強く不均衡な設定で実行される; (iii) サンプルが非常に大きいから非常に小さい; (iv) 予測モデルと解釈可能な結果の両方を提供する必要性。 本稿では,ターゲットパターン探索(LIPS)による高次相互作用の学習アルゴリズムを提案する。入力データが分類された場合に,不均衡な二項分類タスクに対するLRモデルに含まれる様々な順序の相互作用条件を選択する。 LIPSの論理は、アイテムセットとカテゴリー的相互作用の双対性に由来する。 このアルゴリズムは、よく知られた頻繁なアイテムセットマイニングアルゴリズムに基づくインタラクション学習ステップと、ユーザがLRモデルに含まれるインタラクションの数を指定することのできる、新しい異種性に基づくインタラクション選択ステップに依存している。 さらに、より具体的なニーズに対処できる2つの変種(Scores LIPSとClusters LIPS)を特化しています。 一連の実験を通じて,本アルゴリズムの妥当性を検証し,実生活研究シナリオに適用可能であることを証明した。

Logistic Regression (LR) is a widely used statistical method in empirical binary classification studies. However, real-life scenarios oftentimes share complexities that prevent from the use of the as-is LR model, and instead highlight the need to include high-order interactions to capture data variability. This becomes even more challenging because of: (i) datasets growing wider, with more and more variables; (ii) studies being typically conducted in strongly imbalanced settings; (iii) samples going from very large to extremely small; (iv) the need of providing both predictive models and interpretable results. In this paper we present a novel algorithm, Learning high-order Interactions via targeted Pattern Search (LIPS), to select interaction terms of varying order to include in a LR model for an imbalanced binary classification task when input data are categorical. LIPS's rationale stems from the duality between item sets and categorical interactions. The algorithm relies on an interaction learning step based on a well-known frequent item set mining algorithm, and a novel dissimilarity-based interaction selection step that allows the user to specify the number of interactions to be included in the LR model. In addition, we particularize two variants (Scores LIPS and Clusters LIPS), that can address even more specific needs. Through a set of experiments we validate our algorithm and prove its wide applicability to real-life research scenarios, showing that it outperforms a benchmark state-of-the-art algorithm.
翻訳日:2021-02-26 13:46:42 公開日:2021-02-23
# クロスビルディング知識転送におけるデータ選択を探求するマイクロサービスベースのフレームワーク

A microservice-based framework for exploring data selection in cross-building knowledge transfer ( http://arxiv.org/abs/2102.12970v1 )

ライセンス: Link先を確認
Mouna Labiadh (SOC, LIRIS, CETHIL), Christian Obrecht (CETHIL), Catarina Ferreira da Silva (ISCTE-IUL), Parisa Ghodous (SOC, LIRIS)(参考訳) 改良されたディープラーニングは、様々なアプリケーションで顕著な成功を収めた。 しかし、成功した機械学習アプリケーションは、十分な量のデータの可用性に依存する。 対象ドメインからのデータがない場合、複数のソースからの代表的データ収集がしばしば必要となる。 しかしながら、既存のマルチソースデータでトレーニングされたモデルでは、ターゲットドメインの認識が不十分な場合があります。 この問題はドメインシフトと呼ばれる。 本稿では,マルチソーストレーニングデータ選択の妥当性について検討し,ドメイン一般化の文脈において,ドメインシフト課題に取り組む。 このソリューションをサポートするために,マイクロサービス指向の方法論も提案する。 我々は,建築エネルギー消費量予測のユースケースに関する実験研究を行っている。 実験結果から,最小限の建物記述により,エネルギー消費データの選択に用いる場合のクロスビルディング一般化性能が向上することが示唆された。

Supervised deep learning has achieved remarkable success in various applications. Successful machine learning application however depends on the availability of sufficiently large amount of data. In the absence of data from the target domain, representative data collection from multiple sources is often needed. However, a model trained on existing multi-source data might generalize poorly on the unseen target domain. This problem is referred to as domain shift. In this paper, we explore the suitability of multi-source training data selection to tackle the domain shift challenge in the context of domain generalization. We also propose a microservice-oriented methodology for supporting this solution. We perform our experimental study on the use case of building energy consumption prediction. Experimental results suggest that minimal building description is capable of improving cross-building generalization performances when used to select energy consumption data.
翻訳日:2021-02-26 13:36:30 公開日:2021-02-23
# (参考訳) 条件付き優先の下でのロケーショントレースプライバシ

Location Trace Privacy Under Conditional Priors ( http://arxiv.org/abs/2102.11955v1 )

ライセンス: CC BY 4.0
Casey Meehan, Kamalika Chaudhuri(参考訳) ロケーションベースのサービスのユーザーに意味のあるプライバシーを提供することは、複数の場所が短期間で明らかになった場合に特に困難です。 これは主に、ポイント間で予測できる膨大な依存度によるものです。 条件依存データに対する期待されるプライバシー損失をバウンダリングするためのR'enyi分散に基づくプライバシフレームワークを提案する。 さらに,gaussian process conditional priorsにおいて,このプライバシを実現するアルゴリズムを示す。 このフレームワークは、条件付きデータを保護することが非常に難しい理由を例示し、ユーザーのトレース内の敏感な場所の固定半径内にプライバシーを維持する戦略を提供します。

Providing meaningful privacy to users of location based services is particularly challenging when multiple locations are revealed in a short period of time. This is primarily due to the tremendous degree of dependence that can be anticipated between points. We propose a R\'enyi divergence based privacy framework for bounding expected privacy loss for conditionally dependent data. Additionally, we demonstrate an algorithm for achieving this privacy under Gaussian process conditional priors. This framework both exemplifies why conditionally dependent data is so challenging to protect and offers a strategy for preserving privacy to within a fixed radius for sensitive locations in a user's trace.
翻訳日:2021-02-26 13:31:51 公開日:2021-02-23
# (参考訳) サブモジュラ最大化のためのインスタンス固有近似

Instance Specific Approximations for Submodular Maximization ( http://arxiv.org/abs/2102.11911v1 )

ライセンス: CC BY 4.0
Eric Balkanski, Sharon Qian, Yaron Singer(参考訳) 機械学習における多くの最適化問題において、最適な解を見つけることは計算に難解であり、実際にうまく機能するアルゴリズムを求める。 計算の難解性はしばしば病的インスタンスから生じるため、実世界のインスタンスにおける最適解に対してアルゴリズムの性能をベンチマークする方法を探した。 主な課題は、最適なソリューションが難解な問題に対して効率的に計算できないことです。 したがって、主要な質問は、実際に遭遇したインスタンスの最適なソリューションと比較して、アルゴリズムのパフォーマンスを測定する方法です。 本稿では,この問題をサブモジュラ最適化問題という文脈で解決する。 濃度制約の下での部分モジュラー最大化の正準問題に対して、最適値の1-1/e \approx 0.63$未満の解を計算することは困難である。 有名なgreedyアルゴリズムのようなアルゴリズムは、任意のインスタンスで1-1/e$のバウンドを達成でき、実際に使用される。 我々の主な貢献は、部分モジュラー最大化のための新しいアルゴリズムではなく、部分モジュラー最大化のためのアルゴリズムが与えられた問題インスタンス上でいかに最適かを測定する分析方法である。 この手法を用いて,多種多様な実世界のデータセットと目的に対して,greedy が発見した解の近似値が 1-1/e$ を超え,少なくとも 0.95 であることを示す。 本手法は, 2つの最小化問題の目的を低くし, 原最大化問題に対する最適解の値の上限を求める, 新規な手法を用いて開発する。

For many optimization problems in machine learning, finding an optimal solution is computationally intractable and we seek algorithms that perform well in practice. Since computational intractability often results from pathological instances, we look for methods to benchmark the performance of algorithms against optimal solutions on real-world instances. The main challenge is that an optimal solution cannot be efficiently computed for intractable problems, and we therefore often do not know how far a solution is from being optimal. A major question is therefore how to measure the performance of an algorithm in comparison to an optimal solution on instances we encounter in practice. In this paper, we address this question in the context of submodular optimization problems. For the canonical problem of submodular maximization under a cardinality constraint, it is intractable to compute a solution that is better than a $1-1/e \approx 0.63$ fraction of the optimum. Algorithms like the celebrated greedy algorithm are guaranteed to achieve this $1-1/e$ bound on any instance and are used in practice. Our main contribution is not a new algorithm for submodular maximization but an analytical method that measures how close an algorithm for submodular maximization is to optimal on a given problem instance. We use this method to show that on a wide variety of real-world datasets and objectives, the approximation of the solution found by greedy goes well beyond $1-1/e$ and is often at least 0.95. We develop this method using a novel technique that lower bounds the objective of a dual minimization problem to obtain an upper bound on the value of an optimal solution to the primal maximization problem.
翻訳日:2021-02-26 09:15:39 公開日:2021-02-23
# (参考訳) Bridging Breiman's Brook:アルゴリズムモデリングから統計的学習へ

Bridging Breiman's Brook: From Algorithmic Modeling to Statistical Learning ( http://arxiv.org/abs/2102.12328v1 )

ライセンス: CC BY 4.0
Lucas Mentch and Giles Hooker(参考訳) 2001年、レオ・ブレイマンは「データモデリング」と「アルゴリズムモデリング」の文化の違いについて書いた。 20年後のこの区分は、個人をキャンプに割り当てること、知的境界の両面で、はるかに短命であると感じた。 これは主に、アルゴリズムの手法をツールボックスに組み込んだ「データモデラー」によるものであり、特にブレマン自身のランダムフォレスト手法の統計的理解における最近の進歩に起因している。 これは「ブリーマン・ウォン(breiman won)」と簡潔に表現できるが、これら同じ発展は彼が提唱した予測優先哲学の限界を露呈し、注意深い統計分析がより重要である。 本論文では,ブレイマンが最初に記述した2つの考え方を融合させた結果として生じた,ランダムな森林文学におけるこれらのエキサイティングな最近の展開について概説する。 また、統計と統計学者が現在見落としている領域も尋ねます。

In 2001, Leo Breiman wrote of a divide between "data modeling" and "algorithmic modeling" cultures. Twenty years later this division feels far more ephemeral, both in terms of assigning individuals to camps, and in terms of intellectual boundaries. We argue that this is largely due to the "data modelers" incorporating algorithmic methods into their toolbox, particularly driven by recent developments in the statistical understanding of Breiman's own Random Forest methods. While this can be simplistically described as "Breiman won", these same developments also expose the limitations of the prediction-first philosophy that he espoused, making careful statistical analysis all the more important. This paper outlines these exciting recent developments in the random forest literature which, in our view, occurred as a result of a necessary blending of the two ways of thinking Breiman originally described. We also ask what areas statistics and statisticians might currently overlook.
翻訳日:2021-02-26 07:27:20 公開日:2021-02-23
# (参考訳) 単語埋め込みに基づく著者検出モデルの意味的対向摂動に対する感度

The Sensitivity of Word Embeddings-based Author Detection Models to Semantic-preserving Adversarial Perturbations ( http://arxiv.org/abs/2102.11917v1 )

ライセンス: CC BY 4.0
Jeremiah Duncan, Fabian Fallas, Chris Gropp, Emily Herron, Maria Mahbub, Paula Olaya, Eduardo Ponce, Tabitha K. Samuel, Daniel Schultz, Sudarshan Srinivasan, Maofeng Tang, Viktor Zenkov, Quan Zhou, Edmon Begoli(参考訳) 著者分析は自然言語処理の分野において重要な課題である。 それは記事、ニュース、本、またはメッセージの最も可能性の高い作家の検出を可能にします。 この技術は、著者の帰属、盗作の検出、スタイル分析、誤情報のソースなどに関連するタスクに複数の用途があります。 本論文では,入力の逆操作に対する既成アプローチの限界と感度について検討する。 そこで我々はまず,著者検出と入力摂動のための実験用フレームワークを開発した。 次に, 著者検出モデルの性能を, 入力ナラティブの意味保存的逆動の集合に実験的に評価した。 最後に, 異なる摂動戦略, 入力およびモデル構成, およびこれらが著者検出モデルに与える影響を比較し, 分析する。

Authorship analysis is an important subject in the field of natural language processing. It allows the detection of the most likely writer of articles, news, books, or messages. This technique has multiple uses in tasks related to authorship attribution, detection of plagiarism, style analysis, sources of misinformation, etc. The focus of this paper is to explore the limitations and sensitiveness of established approaches to adversarial manipulations of inputs. To this end, and using those established techniques, we first developed an experimental frame-work for author detection and input perturbations. Next, we experimentally evaluated the performance of the authorship detection model to a collection of semantic-preserving adversarial perturbations of input narratives. Finally, we compare and analyze the effects of different perturbation strategies, input and model configurations, and the effects of these on the author detection model.
翻訳日:2021-02-26 01:45:47 公開日:2021-02-23
# (参考訳) Baby Intuitions Benchmark (BIB): 他人の目標、好み、行動を検討する。

Baby Intuitions Benchmark (BIB): Discerning the goals, preferences, and actions of others ( http://arxiv.org/abs/2102.11938v1 )

ライセンス: CC BY 4.0
Kanishk Gandhi, Gala Stojnic, Brenden M. Lake, Moira R. Dillon(参考訳) 日常生活に関する人間のような常識を達成するために、機械学習システムは他人の目標、好み、行動を理解し、推論しなければならない。 ヒトの幼児は、他のエージェントの行動の根本原因について推測することで、直感的にそのような常識を達成する。 私たちのベンチマークBIBは、乳児認知の研究によって直接通知され、人間の幼児のような他のエージェントについての汎用的で常識的な推論を達成するために機械に挑戦します。 さらに, 幼児の認知に関する研究では, 機械が映像シーケンスからエージェントの行動の妥当性を予測し, 将来の研究におけるヒトの幼児との直接の検証に適合させる予測パラダイムに違反する。 最近提案された深層学習に基づく推論モデルでは、幼児のような推論が得られず、BIBはオープンな課題であることを示す。

To achieve human-like common sense about everyday life, machine learning systems must understand and reason about the goals, preferences, and actions of others. Human infants intuitively achieve such common sense by making inferences about the underlying causes of other agents' actions. Directly informed by research on infant cognition, our benchmark BIB challenges machines to achieve generalizable, common-sense reasoning about other agents like human infants do. As in studies on infant cognition, moreover, we use a violation of expectation paradigm in which machines must predict the plausibility of an agent's behavior given a video sequence, making this benchmark appropriate for direct validation with human infants in future studies. We show that recently proposed, deep-learning-based agency reasoning models fail to show infant-like reasoning, leaving BIB an open challenge.
翻訳日:2021-02-26 01:08:03 公開日:2021-02-23
# (参考訳) ハイブリッド学習と推論システムのためのモジュラデザインパターン:分類学、パターン、ユースケース

Modular Design Patterns for Hybrid Learning and Reasoning Systems: a taxonomy, patterns and use cases ( http://arxiv.org/abs/2102.11965v1 )

ライセンス: CC BY 4.0
Michael van Bekkum, Maaike de Boer, Frank van Harmelen, Andr\'e Meyer-Vitali, Annette ten Teije(参考訳) 統計(データ駆動)とシンボリック(知識駆動)のメソッドの統合は、現代のAIの重要な課題の1つとして広く認識されています。 近年、このようなハイブリッドニューロシンボリックaiシステムに関する多くの論文が出版されている。 急速に成長している文学は多様であり、ほとんどが経験的であり、これらの多種多様なハイブリッドシステムの統一的な見解を欠いている。 本稿では,近年の文献を大規模に分析し,そのようなハイブリッド・ニューロシンボリックシステムのためのモジュラー設計パターンのセットを提案する。 少数の基本パターンのみをビルディングブロックとして構成することで、非常に多数のハイブリッドシステムのアーキテクチャを記述することができます。 1) ハイブリッドシステムで使用されるプロセスとデータ構造の両方を記述するための分類学的に組織化された語彙、2) ハイブリッドaiシステムの15以上のデザインパターンの集合、3) 基本パターンと合成パターンの集合、3) ハイブリッドaiシステムのための2つの現実的なユースケースにおけるこれらのデザインパターンの適用。 私たちのパターンは、これまで認識されていなかったシステム間の類似性を示しています。 最後に、我々のデザインパターンは、ニューロシンボリックアーキテクチャを分類するKautz氏の以前の試みを拡張し、洗練します。

The unification of statistical (data-driven) and symbolic (knowledge-driven) methods is widely recognised as one of the key challenges of modern AI. Recent years have seen large number of publications on such hybrid neuro-symbolic AI systems. That rapidly growing literature is highly diverse and mostly empirical, and is lacking a unifying view of the large variety of these hybrid systems. In this paper we analyse a large body of recent literature and we propose a set of modular design patterns for such hybrid, neuro-symbolic systems. We are able to describe the architecture of a very large number of hybrid systems by composing only a small set of elementary patterns as building blocks. The main contributions of this paper are: 1) a taxonomically organised vocabulary to describe both processes and data structures used in hybrid systems; 2) a set of 15+ design patterns for hybrid AI systems, organised in a set of elementary patterns and a set of compositional patterns; 3) an application of these design patterns in two realistic use-cases for hybrid AI systems. Our patterns reveal similarities between systems that were not recognised until now. Finally, our design patterns extend and refine Kautz' earlier attempt at categorising neuro-symbolic architectures.
翻訳日:2021-02-26 00:46:35 公開日:2021-02-23
# (参考訳) SpaceNet Multi-Temporal Urban Development Challenge

The SpaceNet Multi-Temporal Urban Development Challenge ( http://arxiv.org/abs/2102.11958v1 )

ライセンス: CC BY-SA 4.0
Adam Van Etten, Daniel Hogan(参考訳) 足跡を構築することは、多くの人道的アプリケーションに有用なプロキシを提供する。 例えば、建物の足跡は高い忠実度人口の推定に役立ち、人口統計の定量化は国連持続可能な開発目標指標の約1/4に基本である。 本稿では,スペースネット・パートナーズ(SpaceNet Partners)が,SpaceNet Multi-Temporal Urban Development Challenge(SpaceNet 7)を通じて,フットプリントの正確なローカライズ,トラッキング,変更検出を行う技術開発について論じる。 このNeurIPS 2020コンペティションでは、急速に都市化エリアで収集された衛星画像の時系列の建物を特定し、追跡するよう求められました。 このコンペティションは、Planet Labsの衛星画像モザイクの4m解像度で、約100のユニークな地理をカバーする24の画像(月1回)を含む、まったく新しいオープンソースのデータセットを中心に行われました。 この解像度で個々の建物を追跡することは非常に難しいが、勝者たちは新しく開発されたSpaceNet Change and Object Tracking(SCOT)メトリクスで印象的なパフォーマンスを示した。 本稿では,トップ5の入賞アプローチと,緯度による性能低下など,いくつかの興味深い逸話を生んだ結果の分析について述べる。

Building footprints provide a useful proxy for a great many humanitarian applications. For example, building footprints are useful for high fidelity population estimates, and quantifying population statistics is fundamental to ~1/4 of the United Nations Sustainable Development Goals Indicators. In this paper we (the SpaceNet Partners) discuss efforts to develop techniques for precise building footprint localization, tracking, and change detection via the SpaceNet Multi-Temporal Urban Development Challenge (also known as SpaceNet 7). In this NeurIPS 2020 competition, participants were asked identify and track buildings in satellite imagery time series collected over rapidly urbanizing areas. The competition centered around a brand new open source dataset of Planet Labs satellite imagery mosaics at 4m resolution, which includes 24 images (one per month) covering ~100 unique geographies. Tracking individual buildings at this resolution is quite challenging, yet the winning participants demonstrated impressive performance with the newly developed SpaceNet Change and Object Tracking (SCOT) metric. This paper details the top-5 winning approaches, as well as analysis of results that yielded a handful of interesting anecdotes such as decreasing performance with latitude.
翻訳日:2021-02-25 18:06:56 公開日:2021-02-23
# Interventional Sum-Product Networks: Tractable Probabilistic Modelsによる因果推論

Interventional Sum-Product Networks: Causal Inference with Tractable Probabilistic Models ( http://arxiv.org/abs/2102.10440v2 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c, Devendra Singh Dhami, Athresh Karanam, Sriraam Natarajan and Kristian Kersting(参考訳) 確率モデルは因果関係を研究する上で重要なツールであるが、推論の難しさに苦しむ。 説明可能な因果モデルへのステップとして,例えばニューラルネットワークなど,ゲート関数によって過度にパラメータ化される総積ネットワーク(spn)を用いた介入分布の学習の問題を考える。 任意に介入した因果グラフを入力とし、パールのdo-operatorを効果的に仮定すると、ゲート関数はSPNのパラメータを予測する。 結果として生じる介入SPNは、個人の健康をテーマとした構造因果モデルによって動機づけられ、図示される。 3つのベンチマークデータセットと合成健康データセットに関する経験的評価は、介入SPNがモデリングにおいて表現力があり、介入に適応するのに柔軟であることを明確に示しています。

While probabilistic models are an important tool for studying causality, doing so suffers from the intractability of inference. As a step towards tractable causal models, we consider the problem of learning interventional distributions using sum-product networks (SPNs) that are over-parameterized by gate functions, e.g., neural networks. Providing an arbitrarily intervened causal graph as input, effectively subsuming Pearl's do-operator, the gate function predicts the parameters of the SPN. The resulting interventional SPNs are motivated and illustrated by a structural causal model themed around personal health. Our empirical evaluation on three benchmark data sets as well as a synthetic health data set clearly demonstrates that interventional SPNs indeed are both expressive in modelling and flexible in adapting to the interventions.
翻訳日:2021-02-25 13:47:48 公開日:2021-02-23
# 非局所課題に対する畳み込みニューラルネットワークの不適合性に関する議論

Arguments for the Unsuitability of Convolutional Neural Networks for Non--Local Tasks ( http://arxiv.org/abs/2102.11944v1 )

ライセンス: Link先を確認
Sebastian Stabinger, David Peer, and Antonio Rodr\'iguez-S\'anchez(参考訳) 畳み込みニューラルネットワークは、画像分類の最先端の方法として過去数年間に確立され、多くのデータセットでは、画像の分類において人間を上回っています。 残念なことに、同じアーキテクチャは、画像を正しく分類するために画像の一部を互いに比較しなければならない場合、ずっと悪い結果をもたらす。 これまで、この不足を説明するための十分な理論的な議論は提示されていない。 本稿では,畳み込み層は本質的にはグローバルであるが,畳み込み層は設計によって局所的であるため,畳み込み層はそのような問題に対してはほとんど使われないと主張する。 この洞察を用いて、比較タスクをソートタスクに再構成し、ソートネットワークでの発見を使用して、ニューラルネットワークが比較タスクを一般化可能な方法で解決するために必要なパラメータ数に対する低い境界を提案する。 この低い境界を使用して、組み合わせ爆発を防ぐために注意と反復/繰り返し処理が必要であると主張します。

Convolutional neural networks have established themselves over the past years as the state of the art method for image classification, and for many datasets, they even surpass humans in categorizing images. Unfortunately, the same architectures perform much worse when they have to compare parts of an image to each other to correctly classify this image. Until now, no well-formed theoretical argument has been presented to explain this deficiency. In this paper, we will argue that convolutional layers are of little use for such problems, since comparison tasks are global by nature, but convolutional layers are local by design. We will use this insight to reformulate a comparison task into a sorting task and use findings on sorting networks to propose a lower bound for the number of parameters a neural network needs to solve comparison tasks in a generalizable way. We will use this lower bound to argue that attention, as well as iterative/recurrent processing, is needed to prevent a combinatorial explosion.
翻訳日:2021-02-25 13:46:08 公開日:2021-02-23
# Transformer Modifications は実装と応用にまたがって移行するのか?

Do Transformer Modifications Transfer Across Implementations and Applications? ( http://arxiv.org/abs/2102.11972v1 )

ライセンス: Link先を確認
Sharan Narang, Hyung Won Chung, Yi Tay, William Fedus, Thibault Fevry, Michael Matena, Karishma Malkan, Noah Fiedel, Noam Shazeer, Zhenzhong Lan, Yanqi Zhou, Wei Li, Nan Ding, Jake Marcus, Adam Roberts, Colin Raffel(参考訳) 研究コミュニティは、3年以上前に導入されて以来、トランスフォーマーアーキテクチャの大規模な変更を提案してきた。 本稿では,自然言語処理におけるTransformerの共通利用を網羅した共有実験環境において,これらの変更の多くを包括的に評価する。 驚いたことに、ほとんどの変更はパフォーマンスを有意義に改善しない。 さらに、Transformerの変種のほとんどは、私たちが使ったのと同じコードベースで開発されたか、比較的小さな変更だった。 パフォーマンスの改善は実装の詳細に強く依存し、実験結果の一般性を改善するためのいくつかの推奨を行う可能性があると推測する。

The research community has proposed copious modifications to the Transformer architecture since it was introduced over three years ago, relatively few of which have seen widespread adoption. In this paper, we comprehensively evaluate many of these modifications in a shared experimental setting that covers most of the common uses of the Transformer in natural language processing. Surprisingly, we find that most modifications do not meaningfully improve performance. Furthermore, most of the Transformer variants we found beneficial were either developed in the same codebase that we used or are relatively minor changes. We conjecture that performance improvements may strongly depend on implementation details and correspondingly make some recommendations for improving the generality of experimental results.
翻訳日:2021-02-25 13:45:14 公開日:2021-02-23
# 時間的ブラックボックスモデルの特徴的重要度記述

Feature Importance Explanations for Temporal Black-Box Models ( http://arxiv.org/abs/2102.11934v1 )

ライセンス: Link先を確認
Akshay Sood and Mark Craven(参考訳) 教師付き学習フレームワークのモデルは、人間が解釈するのは難しい機能に対して、豊かで複雑な表現を捉えることができる。 このようなモデルを説明する既存の手法は、しばしば時間を要するコンポーネントを持たないアーキテクチャやデータに特有のものである。 本研究では、本質的に時間的であるモデルを説明する手法であるTIMEを提案する。 我々のアプローチ(i)は,グローバル特徴の重要度を分析するためにモデル非依存な置換に基づくアプローチを用い,(ii)時間的順序と局所的な影響の窓に関して有意義な特徴の重要性を識別し,(iii)統計的厳密性を提供するために仮説検定を用いる。

Models in the supervised learning framework may capture rich and complex representations over the features that are hard for humans to interpret. Existing methods to explain such models are often specific to architectures and data where the features do not have a time-varying component. In this work, we propose TIME, a method to explain models that are inherently temporal in nature. Our approach (i) uses a model-agnostic permutation-based approach to analyze global feature importance, (ii) identifies the importance of salient features with respect to their temporal ordering as well as localized windows of influence, and (iii) uses hypothesis testing to provide statistical rigor.
翻訳日:2021-02-25 13:41:52 公開日:2021-02-23
# 接地関係推論:ドメイン知識駆動型説明可能な自律運転

Grounded Relational Inference: Domain Knowledge Driven Explainable Autonomous Driving ( http://arxiv.org/abs/2102.11905v1 )

ライセンス: Link先を確認
Chen Tang, Nishan Srishankar, Sujitha Martin, Masayoshi Tomizuka(参考訳) 操作中に人間や他の物体と対話する自動運転車や他のロボティクスシステムにとって説明可能性は不可欠です。 人間は、信頼できる安全な協力のために機械が行う行動を理解し、予測する必要がある。 本研究では、モデルに専門的なドメイン知識を組み込むことにより、設計段階での自動運転システムの説明性の実現を目指します。 GRI(Grounded Relational Inference)を提案する。 エージェントの関係を表す相互作用グラフを推論することで、対話システムの基盤となるダイナミクスをモデル化する。 我々は、関係的潜在空間を専門家ドメイン知識で定義された意味的行動に接することで、解釈可能な相互作用グラフを保証する。 シミュレーションと実世界の両方の状況下でのインタラクティブな交通シナリオをモデル化し,その相互作用によって車両の挙動を説明する解釈可能なグラフを生成できることを実証する。

Explainability is essential for autonomous vehicles and other robotics systems interacting with humans and other objects during operation. Humans need to understand and anticipate the actions taken by the machines for trustful and safe cooperation. In this work, we aim to enable the explainability of an autonomous driving system at the design stage by incorporating expert domain knowledge into the model. We propose Grounded Relational Inference (GRI). It models an interactive system's underlying dynamics by inferring an interaction graph representing the agents' relations. We ensure an interpretable interaction graph by grounding the relational latent space into semantic behaviors defined with expert domain knowledge. We demonstrate that it can model interactive traffic scenarios under both simulation and real-world settings, and generate interpretable graphs explaining the vehicle's behavior by their interactions.
翻訳日:2021-02-25 13:38:45 公開日:2021-02-23
# 量子クロスエントロピーと最大可能性原理

Quantum Cross Entropy and Maximum Likelihood Principle ( http://arxiv.org/abs/2102.11887v1 )

ライセンス: Link先を確認
Zhou Shangnan, Yixu Wang(参考訳) 量子機械学習は、機械学習と量子コンピューティングの交差点における新興分野である。 古典的クロスエントロピーは機械学習の中心的な役割を担っている。 我々は、その量子一般化、量子クロスエントロピーを定義し、その量子忠実度と最大の可能性原理との関係を調べます。 また、量子測定における物理的影響についても論じる。

Quantum machine learning is an emerging field at the intersection of machine learning and quantum computing. Classical cross entropy plays a central role in machine learning. We define its quantum generalization, the quantum cross entropy, and investigate its relations with the quantum fidelity and the maximum likelihood principle. We also discuss its physical implications on quantum measurements.
翻訳日:2021-02-25 13:35:31 公開日:2021-02-23
# Learner-Private Online Convex Optimization

Learner-Private Online Convex Optimization ( http://arxiv.org/abs/2102.11976v1 )

ライセンス: Link先を確認
Jiaming Xu, Kuang Xu and Dana Yang(参考訳) オンライン凸最適化は、学習者が凸関数の最適解に到達するために外部データソースを順次クエリするフレームワークである。 このパラダイムは、大規模最適化と機械学習のスケーラビリティのおかげで、最近大きな人気を集めている。 しかし、繰り返し行われるインタラクションは、送信されたクエリを観察する盗聴敵からのプライバシーリスクを学習者に暴露します。 本論文では,学習者の質問を一階オンライン凸最適化において最適に難読化する方法を検討し,学習者の学習した最適値は,盗聴相手の推定が困難であることを示す。 学習者のプライバシの定式化は,凸関数をランダムに描画するベイズ式と,その関数を固定した最小値の定式化と,逆の誤差確率を最小値の基準で測定する最小値の定式化である。 我々は、学習者が敵対者による正確な予測の確率を1ドル/L$以下に保ちたい場合、クエリの複雑さのオーバーヘッドは、ミニマックス製剤では$L$に加算されるが、ベイズ製剤では$L$に乗算されることを示した。 従来の2元フィードバックの学習者-個人学習モデルと比較すると,本研究は,完全フィードバックを持つ一般凸関数のかなりリッチなファミリーに適用できる。 私たちの証明は、dirichletプロセスの理論によるツールと、完全なoracleの下での情報漏洩量を測定するためのより洗練された分析ラインによって、主に実現されています。

Online convex optimization is a framework where a learner sequentially queries an external data source in order to arrive at the optimal solution of a convex function. The paradigm has gained significant popularity recently thanks to its scalability in large-scale optimization and machine learning. The repeated interactions, however, expose the learner to privacy risks from eavesdropping adversary that observe the submitted queries. In this paper, we study how to optimally obfuscate the learner's queries in first-order online convex optimization, so that their learned optimal value is provably difficult to estimate for the eavesdropping adversary. We consider two formulations of learner privacy: a Bayesian formulation in which the convex function is drawn randomly, and a minimax formulation in which the function is fixed and the adversary's probability of error is measured with respect to a minimax criterion. We show that, if the learner wants to ensure the probability of accurate prediction by the adversary be kept below $1/L$, then the overhead in query complexity is additive in $L$ in the minimax formulation, but multiplicative in $L$ in the Bayesian formulation. Compared to existing learner-private sequential learning models with binary feedback, our results apply to the significantly richer family of general convex functions with full-gradient feedback. Our proofs are largely enabled by tools from the theory of Dirichlet processes, as well as more sophisticated lines of analysis aimed at measuring the amount of information leakage under a full-gradient oracle.
翻訳日:2021-02-25 13:35:26 公開日:2021-02-23
# 公正な選抜:功労主義と社会福祉

Fair Set Selection: Meritocracy and Social Welfare ( http://arxiv.org/abs/2102.11932v1 )

ライセンス: Link先を確認
Thomas Kleine Buening and Meirav Segal and Debabrota Basu and Christos Dimitrakakis(参考訳) 本論文では,実効性最大化問題として,候補集団から個人群を選択する問題を定式化する。 意思決定者の視点からは、期待されるユーティリティを最大化する選択ポリシーを見つけることと等価である。 我々の枠組みは、選択政策に関して個人が期待する限界貢献(EMC)の概念を、長所主義からの逸脱の尺度として導く。 最大化問題を解決するために,ポリシー勾配アルゴリズムを提案する。 特定の政策構造において、政策勾配は個人のemcに比例する。 したがって、ポリシー勾配アルゴリズムは、emcがゼロである局所最適解を導き、実効主義を満足する。 均一なポリシーでは、EMCはShapley値に減少します。 EMCはまた、一般選択ポリシーに対するシェープリー値の公正選択特性を一般化する。 大学進学シミュレーションにおける異なる政策構造の影響を実験的に分析し,ランキングアルゴリズムと欲望アルゴリズムとの比較を行った。 分離可能な線形政策がemcを最小化しつつ高い実用性を達成することを検証した。 また、多様性などのグループ公平性の概念を成功裏に推進するユーティリティ機能を設計できることも示します。

In this paper, we formulate the problem of selecting a set of individuals from a candidate population as a utility maximisation problem. From the decision maker's perspective, it is equivalent to finding a selection policy that maximises expected utility. Our framework leads to the notion of expected marginal contribution (EMC) of an individual with respect to a selection policy as a measure of deviation from meritocracy. In order to solve the maximisation problem, we propose to use a policy gradient algorithm. For certain policy structures, the policy gradients are proportional to EMCs of individuals. Consequently, the policy gradient algorithm leads to a locally optimal solution that has zero EMC, and satisfies meritocracy. For uniform policies, EMC reduces to the Shapley value. EMC also generalises the fair selection properties of Shapley value for general selection policies. We experimentally analyse the effect of different policy structures in a simulated college admission setting and compare with ranking and greedy algorithms. Our results verify that separable linear policies achieve high utility while minimising EMCs. We also show that we can design utility functions that successfully promote notions of group fairness, such as diversity.
翻訳日:2021-02-25 13:33:19 公開日:2021-02-23
# イベントカメラを用いた屋内ロボットのリアルタイム検出と追跡

Event Camera Based Real-Time Detection and Tracking of Indoor Ground Robots ( http://arxiv.org/abs/2102.11916v1 )

ライセンス: Link先を確認
Himanshu Patel, Craig Iaboni, Deepan Lobo, Ji-won Choi, Pramod Abichandani(参考訳) 本稿では,イベントカメラを用いて複数の移動ロボットをリアルタイムに検出・追跡する手法を提案する。 ノイズのあるアプリケーションの密度に基づく空間クラスタリング(DBSCAN)を用いて、ロボットと1本のk次元(k-d)木を検知し、屋内アリーナで動きながら正確に追跡する。 ロバスト検出とトラックは、イベントカメラのノイズやイベントの欠如(ロボットがゆっくりと動いたり止まったりするため)に直面して維持される。 既製のRGBカメラベースの追跡システムは、地上の真実を提供するために使用されました。 i)DBSCANパラメータの変化、ii)イベント蓄積時間、iii)アリーナ内のロボットの数、およびiv)検出および追跡性能に対するロボットの速度を研究するために、最大4つのロボットを含む実験が行われます。 実験結果は、イベントカメラのノイズと、最大3台のロボットを含むテストのために停止するロボットと、最大で93%のロボットによる検出と追跡の忠実性を示した。

This paper presents a real-time method to detect and track multiple mobile ground robots using event cameras. The method uses density-based spatial clustering of applications with noise (DBSCAN) to detect the robots and a single k-dimensional (k-d) tree to accurately keep track of them as they move in an indoor arena. Robust detections and tracks are maintained in the face of event camera noise and lack of events (due to robots moving slowly or stopping). An off-the-shelf RGB camera-based tracking system was used to provide ground truth. Experiments including up to 4 robots are performed to study the effect of i) varying DBSCAN parameters, ii) the event accumulation time, iii) the number of robots in the arena, and iv) the speed of the robots on the detection and tracking performance. The experimental results showed 100% detection and tracking fidelity in the face of event camera noise and robots stopping for tests involving up to 3 robots (and upwards of 93% for 4 robots).
翻訳日:2021-02-25 13:33:05 公開日:2021-02-23
# ニューラルネットワークの非特異逆ロバスト性

Non-Singular Adversarial Robustness of Neural Networks ( http://arxiv.org/abs/2102.11935v1 )

ライセンス: Link先を確認
Yu-Lin Tsai, Chia-Yi Hsu, Chia-Mu Yu, Pin-Yu Chen(参考訳) 敵対的堅牢性は、小さな入力摂動に対する過敏性のため、ニューラルネットワークにとって新たな課題となっている。 批判的ではあるが、この特異な問題を解決するだけでは、包括的な堅牢性評価は提供できないと論じている。 さらに悪いことに、特異な堅牢性から引き出された結論は、モデル全体の堅牢性の誤った感覚を与えるかもしれません。 特に,入力摂動に頑健な対向的に訓練されたモデルは,標準モデルと比較してもなお(あるいはそれ以上)重み摂動に対して脆弱であることが示された。 本稿では,データ入力とモデル重みに対する関節摂動のレンズを通して,ニューラルネットワークの非特異な対角ロバスト性の概念を定式化する。 本研究は,同時入力重み付き対向摂動を考慮した最初の研究である。 reluアクティベーション関数と標準分類損失を持つ多層フィードフォワードニューラルネットワークモデルに基づいて,データ入力とモデル重みに対する$\ell_\infty$-norm有界摂動の損失感度を定量化するための誤差解析を行う。 誤差解析に基づいて,ロバストトレーニングのための新しい正規化関数を提案し,入力重み付き摂動に対する非特異なロバスト性が向上することを示す。

Adversarial robustness has become an emerging challenge for neural network owing to its over-sensitivity to small input perturbations. While being critical, we argue that solving this singular issue alone fails to provide a comprehensive robustness assessment. Even worse, the conclusions drawn from singular robustness may give a false sense of overall model robustness. Specifically, our findings show that adversarially trained models that are robust to input perturbations are still (or even more) vulnerable to weight perturbations when compared to standard models. In this paper, we formalize the notion of non-singular adversarial robustness for neural networks through the lens of joint perturbations to data inputs as well as model weights. To our best knowledge, this study is the first work considering simultaneous input-weight adversarial perturbations. Based on a multi-layer feed-forward neural network model with ReLU activation functions and standard classification loss, we establish error analysis for quantifying the loss sensitivity subject to $\ell_\infty$-norm bounded perturbations on data inputs and model weights. Based on the error analysis, we propose novel regularization functions for robust training and demonstrate improved non-singular robustness against joint input-weight adversarial perturbations.
翻訳日:2021-02-25 13:28:32 公開日:2021-02-23
# senone-aware adversarial multi-task training for unsupervised child to adult speech adapt

Senone-aware Adversarial Multi-task Training for Unsupervised Child to Adult Speech Adaptation ( http://arxiv.org/abs/2102.11488v1 )

ライセンス: Link先を確認
Richeng Duan, Nancy F. Chen(参考訳) 声道の生理的差異に起因する高い音響的変動のため,子音の音響的モデリングは困難である。 公開データセットの不足により、タスクはより困難になります。 そこで本研究では,成人音声と小児音声のセノンレベルにおける音響ミスマッチを最小限に抑えるために,多タスク学習を逆行する特徴適応手法を提案し,大量の書き起こし成人音声を活用する。 提案手法は, 児童音声認識, 児童発音評価, 児童流動度スコア予測の3つのタスクで検証した。 実験の結果,提案手法は競争ベースラインを一貫して上回り,音声認識における相対誤差の7.7%,評価タスクにおける最大25.2%の相対利得を達成した。

Acoustic modeling for child speech is challenging due to the high acoustic variability caused by physiological differences in the vocal tract. The dearth of publicly available datasets makes the task more challenging. In this work, we propose a feature adaptation approach by exploiting adversarial multi-task training to minimize acoustic mismatch at the senone (tied triphone states) level between adult and child speech and leverage large amounts of transcribed adult speech. We validate the proposed method on three tasks: child speech recognition, child pronunciation assessment, and child fluency score prediction. Empirical results indicate that our proposed approach consistently outperforms competitive baselines, achieving 7.7% relative error reduction on speech recognition and up to 25.2% relative gains on the evaluation tasks.
翻訳日:2021-02-25 13:26:10 公開日:2021-02-23
# 量子エントロピー因果推論

Quantum Entropic Causal Inference ( http://arxiv.org/abs/2102.11764v1 )

ライセンス: Link先を確認
Mohammad Ali Javidian, Vaneet Aggarwal, Fanglin Bao, Zubin Jacob(参考訳) 量子コンピューティングとネットワークノードがスケールアップするにつれて、様々なサブシステムによるシステム全体のパフォーマンスへの影響に重要な疑問が生まれます。 これらの質問は、マクロスコピック波動関数のトモグラフィ再構築と大規模量子ビットシステムの接続の最適化、量子ネットワークをまたがる情報の信頼性の高い放送、および量子コンピュータ上の古典的な因果推論アルゴリズムの高速化に関連している。 既存の因果推論技術の量子領域への直接的一般化は、重ね合わせと絡み合いのため不可能である。 エントロピー原理を利用して量子情報科学と因果推論を融合するための新しい理論的枠組みを提唱する。 まず、有名な量子限界問題とエントロピー因果推論の間の基本的な関係を構築します。 第二に、幾何学的量子不一致の定義に触発され、古典条件確率と量子条件密度行列の間のギャップを埋める。 これらの基本的な理論的進歩を利用して、量子エントロピー因果推論のためのスケーラブルなアルゴリズムアプローチを開発する。 提案したフレームワークを量子ノイズリンク上のメッセージ送信者を特定する実験的に関連するシナリオに適用する。 合成量子データセット上のこの成功した推論は、将来のマルチノード量子ネットワーク上で悪意のある活動の起源を特定する基礎を築くことができる。 我々は古典的および量子因果推論を、量子コンピューティングとネットワークにおける将来の応用への道を切り開く原則的な方法で統一する。

As quantum computing and networking nodes scale-up, important open questions arise on the causal influence of various sub-systems on the total system performance. These questions are related to the tomographic reconstruction of the macroscopic wavefunction and optimizing connectivity of large engineered qubit systems, the reliable broadcasting of information across quantum networks as well as speed-up of classical causal inference algorithms on quantum computers. A direct generalization of the existing causal inference techniques to the quantum domain is not possible due to superposition and entanglement. We put forth a new theoretical framework for merging quantum information science and causal inference by exploiting entropic principles. First, we build the fundamental connection between the celebrated quantum marginal problem and entropic causal inference. Second, inspired by the definition of geometric quantum discord, we fill the gap between classical conditional probabilities and quantum conditional density matrices. These fundamental theoretical advances are exploited to develop a scalable algorithmic approach for quantum entropic causal inference. We apply our proposed framework to an experimentally relevant scenario of identifying message senders on quantum noisy links. This successful inference on a synthetic quantum dataset can lay the foundations of identifying originators of malicious activity on future multi-node quantum networks. We unify classical and quantum causal inference in a principled way paving the way for future applications in quantum computing and networking.
翻訳日:2021-02-25 13:25:34 公開日:2021-02-23
# より小さいサイズで良い俳優が現れる:アクター・クリティカル非対称性の値に関するケーススタディ

Good Actors can come in Smaller Sizes: A Case Study on the Value of Actor-Critic Asymmetry ( http://arxiv.org/abs/2102.11893v1 )

ライセンス: Link先を確認
Siddharth Mysore, Bassel Mabsout, Renato Mancuso, Kate Saenko(参考訳) アクター批判強化学習アルゴリズムのアクターや批評家は機能的に分離されているが、同じネットワークアーキテクチャを使うことが多い。 本ケーススタディでは,アクタと批評家のアーキテクチャを独立して考える場合,ネットワークサイズのパフォーマンスへの影響について検討する。 アーキテクチャ対称性の仮定を緩和することにより、小さなアクターが対称対称性と同等のポリシー性能を達成することが可能となる。 私たちの実験では、ネットワークウェイト数を最大97%削減し、複数のタスクで複数のアルゴリズムを平均64%削減しました。 アクタの複雑さを減らす実用的な利点を考えると、アクタと批評家の構成は独立して考慮すべきアクタ批判的な設計の側面であると考えています。

Actors and critics in actor-critic reinforcement learning algorithms are functionally separate, yet they often use the same network architectures. This case study explores the performance impact of network sizes when considering actor and critic architectures independently. By relaxing the assumption of architectural symmetry, it is often possible for smaller actors to achieve comparable policy performance to their symmetric counterparts. Our experiments show up to 97% reduction in the number of network weights with an average reduction of 64% over multiple algorithms on multiple tasks. Given the practical benefits of reducing actor complexity, we believe configurations of actors and critics are aspects of actor-critic design that deserve to be considered independently.
翻訳日:2021-02-25 13:25:15 公開日:2021-02-23
# 文書検索のためのニューラルランキングモデル

Neural Ranking Models for Document Retrieval ( http://arxiv.org/abs/2102.11903v1 )

ライセンス: Link先を確認
Mohamed Trabelsi, Zhiyu Chen, Brian D. Davison, Jeff Heflin(参考訳) ランキングモデルは情報検索システムの主要な構成要素である。 ランキングに対するいくつかのアプローチは、手作りの機能セットを使った従来の機械学習アルゴリズムに基づいている。 近年,情報検索において深層学習モデルを活用している。 これらのモデルは、ランキングタスクの生データから特徴を抽出するためにエンドツーエンドで訓練され、手作りの機能の制限を克服します。 さまざまなディープラーニングモデルが提案されており、各モデルはランキングに使用される特徴を抽出するためのニューラルネットワークコンポーネントのセットを提示している。 本稿では,各モデルの主要な貢献と限界を理解するために,異なる次元の文献で提案されたモデルを比較した。 本論文の議論では,有望な神経成分を解析し,今後の研究方向性を提案する。 また,ランク付けすべき項目が構造化文書,回答,画像,ビデオである文書検索と他の検索タスクの類似性を示す。

Ranking models are the main components of information retrieval systems. Several approaches to ranking are based on traditional machine learning algorithms using a set of hand-crafted features. Recently, researchers have leveraged deep learning models in information retrieval. These models are trained end-to-end to extract features from the raw data for ranking tasks, so that they overcome the limitations of hand-crafted features. A variety of deep learning models have been proposed, and each model presents a set of neural network components to extract features that are used for ranking. In this paper, we compare the proposed models in the literature along different dimensions in order to understand the major contributions and limitations of each model. In our discussion of the literature, we analyze the promising neural components, and propose future research directions. We also show the analogy between document retrieval and other retrieval tasks where the items to be ranked are structured documents, answers, images and videos.
翻訳日:2021-02-25 13:25:03 公開日:2021-02-23
# 一般化可能性と輸送性

A Review of Generalizability and Transportability ( http://arxiv.org/abs/2102.11904v1 )

ライセンス: Link先を確認
Irina Degtiar and Sherri Rose(参考訳) 因果効果を評価する場合、結果を一般化しようとする目標集団を決定することは重要な決定である。 ランダム化および観測研究は、ターゲット集団における因果効果を推定するための強みと制限を有する。 ランダム化されたデータからの見積もりは内部的妥当性を持つが、しばしば対象人口を表すものではない。 観測データは対象の個体群をよりよく反映し、したがって外的妥当性が高いが、未測定の埋没により潜在的なバイアスにさらされる可能性がある。 因果推論の文献の多くは、内部妥当性のバイアスに対処することに焦点を当てているが、ターゲット人口の偏見のない推定には、内部および外部の妥当性の両方が必要である。 本稿では, 汎用性と輸送性へのアプローチ, 必要な仮定の合成, 治療効果の不均一性, 研究と対象集団間の差異の検証など, 外部妥当性バイアスに対処するための枠組みを提案する。

When assessing causal effects, determining the target population to which the results are intended to generalize is a critical decision. Randomized and observational studies each have strengths and limitations for estimating causal effects in a target population. Estimates from randomized data may have internal validity but are often not representative of the target population. Observational data may better reflect the target population, and hence be more likely to have external validity, but are subject to potential bias due to unmeasured confounding. While much of the causal inference literature has focused on addressing internal validity bias, both internal and external validity are necessary for unbiased estimates in a target population. This paper presents a framework for addressing external validity bias, including a synthesis of approaches for generalizability and transportability, the assumptions they require, as well as tests for the heterogeneity of treatment effects and differences between study and target populations.
翻訳日:2021-02-25 13:23:08 公開日:2021-02-23
# 支持ベクトルマシンによる平均治療効果の推定

Estimating Average Treatment Effects with Support Vector Machines ( http://arxiv.org/abs/2102.11926v1 )

ライセンス: Link先を確認
Alexander Tarr and Kosuke Imai(参考訳) サポートベクターマシン(SVM)は、機械学習文献で最も人気のある分類アルゴリズムの1つです。 我々は,SVMを用いて共変量と平均因果効果のバランスを推定できることを実証した。 具体的には、SVM分類器をカーネルベース重み付け法として適用し、有効サンプルサイズを最大化しつつ、処理群と制御群との最大平均誤差を最小化する。 また、SVMは最大平衡部分集合を計算するための二次整数プログラムの連続緩和であり、カーディナリティマッチング法との直接的な関係を確立していることを示した。 SVMのもう一つの重要な特徴は、正規化パラメータが共変バランスと有効なサンプルサイズの間のトレードオフを制御することである。 その結果、既存のSVMパスアルゴリズムを用いて、バランスサンプルサイズのフロンティアを計算することができる。 このトレードオフから生じる因果効果推定のバイアスを特徴づけ、提案されたSVM手順と既存のカーネルバランシング手法を結びつけます。 最後に,提案手法の性能を評価するためにシミュレーションと実験を行い,svmが最先端の共変量バランス手法と競合していることを見いだす。

Support vector machine (SVM) is one of the most popular classification algorithms in the machine learning literature. We demonstrate that SVM can be used to balance covariates and estimate average causal effects under the unconfoundedness assumption. Specifically, we adapt the SVM classifier as a kernel-based weighting procedure that minimizes the maximum mean discrepancy between the treatment and control groups while simultaneously maximizing effective sample size. We also show that SVM is a continuous relaxation of the quadratic integer program for computing the largest balanced subset, establishing its direct relation to the cardinality matching method. Another important feature of SVM is that the regularization parameter controls the trade-off between covariate balance and effective sample size. As a result, the existing SVM path algorithm can be used to compute the balance-sample size frontier. We characterize the bias of causal effect estimation arising from this trade-off, connecting the proposed SVM procedure to the existing kernel balancing methods. Finally, we conduct simulation and empirical studies to evaluate the performance of the proposed methodology and find that SVM is competitive with the state-of-the-art covariate balancing methods.
翻訳日:2021-02-25 13:22:55 公開日:2021-02-23
# LiDARスキャン合成におけるドロップポイントの学習

Learning to Drop Points for LiDAR Scan Synthesis ( http://arxiv.org/abs/2102.11952v1 )

ライセンス: Link先を確認
Kazuto Nakashima and Ryo Kurazume(参考訳) 3Dシーンのジェネラティブモデリングは、モバイルロボットが信頼できない観察を改善するための重要なトピックです。 しかし、自然画像領域の急速な進歩にもかかわらず、ポイントクラウドなどの3Dデータでは、生成モデルの構築は依然として困難です。 点雲に関する既存の研究のほとんどは、小さく均一な密度のデータに焦点を当てている。 対照的に、移動ロボットで広く使われている3次元LiDAR点雲は、多数の点と様々な密度のために扱いにくい。 この問題を回避するため, 既存のLiDAR処理タスクにおいて, 筒状深度マップのような3次元から2次元の投影表現が研究されている。 本論文では,リアルなLiDARデータを改良した2次元表現として合成する,ジェネレーティブ・アドバーサリ・ネットワークに基づく新しいフレームワークを提案する。 我々の生成アーキテクチャは、逆深度マップの分布を学習し、損失画素を同時にシミュレートするために設計されており、基礎となる滑らかな幾何学とそれに対応するレーザー反射の不確かさを分解することができる。 損失画素をシミュレートするために,gumbel-sigmoid再パラメータ化手法を用いてサンプル依存のバイナリマスクを作成するための微分可能なフレームワークを提案する。 2つのLiDARデータセットの合成および再構築タスクにおけるアプローチの有効性を実証する。 LiDARデータの様々な破損を回復することで、潜在的なアプリケーションをさらに紹介します。

Generative modeling of 3D scenes is a crucial topic for aiding mobile robots to improve unreliable observations. However, despite the rapid progress in the natural image domain, building generative models is still challenging for 3D data, such as point clouds. Most existing studies on point clouds have focused on small and uniform-density data. In contrast, 3D LiDAR point clouds widely used in mobile robots are non-trivial to be handled because of the large number of points and varying-density. To circumvent this issue, 3D-to-2D projected representation such as a cylindrical depth map has been studied in existing LiDAR processing tasks but susceptible to discrete lossy pixels caused by failures of laser reflection. This paper proposes a novel framework based on generative adversarial networks to synthesize realistic LiDAR data as an improved 2D representation. Our generative architectures are designed to learn a distribution of inverse depth maps and simultaneously simulate the lossy pixels, which enables us to decompose an underlying smooth geometry and the corresponding uncertainty of laser reflection. To simulate the lossy pixels, we propose a differentiable framework to learn to produce sample-dependent binary masks using the Gumbel-Sigmoid reparametrization trick. We demonstrate the effectiveness of our approach in synthesis and reconstruction tasks on two LiDAR datasets. We further showcase potential applications by recovering various corruptions in LiDAR data.
翻訳日:2021-02-25 13:22:37 公開日:2021-02-23
# 状態強化強化強化学習: 報酬による学習の限界を克服する

State Augmented Constrained Reinforcement Learning: Overcoming the Limitations of Learning with Rewards ( http://arxiv.org/abs/2102.11941v1 )

ライセンス: Link先を確認
Miguel Calvo-Fullana, Santiago Paternain, Luiz F. O. Chamon, Alejandro Ribeiro(参考訳) 制約付き強化学習は、与えられたしきい値に個別に蓄積しなければならない複数の報酬を伴う。 この問題のクラスでは、報酬の任意の線形組み合わせによって所望の最適政策を誘導することができない簡単な例を示します。 したがって、正規化法も古典的原始的方法も最適方針を与えない制約付き強化学習問題が存在する。 この研究は、Lagrange乗算器で状態を増強し、プリミラル・デュアルメソッドを乗算器の進化を駆動するダイナミクスの部分として再解釈することによって、この欠点に対処する。 このアプローチは、制約付き強化学習問題を解決するための体系的な状態拡張手順を提供する。 したがって、原始双対法は最適なポリシーを見つけるのに失敗する可能性があるが、拡張ポリシーを実行しながらデュアルダイナミクスを実行すると、最適なポリシーからアクションを確実にサンプリングするアルゴリズムが得られる。

Constrained reinforcement learning involves multiple rewards that must individually accumulate to given thresholds. In this class of problems, we show a simple example in which the desired optimal policy cannot be induced by any linear combination of rewards. Hence, there exist constrained reinforcement learning problems for which neither regularized nor classical primal-dual methods yield optimal policies. This work addresses this shortcoming by augmenting the state with Lagrange multipliers and reinterpreting primal-dual methods as the portion of the dynamics that drives the multipliers evolution. This approach provides a systematic state augmentation procedure that is guaranteed to solve reinforcement learning problems with constraints. Thus, while primal-dual methods can fail at finding optimal policies, running the dual dynamics while executing the augmented policy yields an algorithm that provably samples actions from the optimal policy.
翻訳日:2021-02-25 13:21:43 公開日:2021-02-23
# (参考訳) ROAD:自動運転のためのROADイベント認識データセット

ROAD: The ROad event Awareness Dataset for Autonomous Driving ( http://arxiv.org/abs/2102.11585v1 )

ライセンス: CC BY 4.0
Gurkirt Singh, Stephen Akrigg, Manuele Di Maio, Valentina Fontana, Reza Javanmard Alitappeh, Suman Saha, Kossar Jeddisaravi, Farzad Yousefi, Jacob Culley, Tom Nicholson, Jordan Omokeowa, Salman Khan, Stanislao Grazioso, Andrew Bradley, Giuseppe Di Gironimo, Fabio Cuzzolin(参考訳) 人間は、特に道路イベントとその進化を理解することを伴う総合的な方法で運転にアプローチする。 これらの機能を自動運転車に投入することで、状況認識と意思決定を人間レベルのパフォーマンスに近づける可能性があります。 この目的のために、我々は、自動運転のためのROADイベントAwareness Dataset(ROAD)を私たちの知識に紹介する。 ROADは、移動エージェント、実行するアクション、および対応するシーンの位置で構成されたトリプレットとして定義された、道路イベントを検出する自律車両の能力をテストするように設計されています。 ROADは、もともとOxford RobotCar Datasetからの22のビデオで構成されており、各道路イベントのイメージプレーン内の位置を示すバウンディングボックスがアノテートされている。 また、オンライン道路イベント認識のための新たなインクリメンタルアルゴリズムとして、時間とともに膨張するRetinaNetをベースとして、フレームレベルおよびビデオレベルのイベント検出において平均16.8%と6.1%の平均精度を50%のオーバーラップで達成する。 これらの数字は有望だが、自動運転における状況認識が直面する課題を強調している。 最後に、道路学者は複雑な(道路)活動の検出、将来の道路イベント予測、精神状態の感覚的な道路エージェントのモデル化といったエキサイティングなタスクを研究できる。

Humans approach driving in a holistic fashion which entails, in particular, understanding road events and their evolution. Injecting these capabilities in an autonomous vehicle has thus the potential to take situational awareness and decision making closer to human-level performance. To this purpose, we introduce the ROad event Awareness Dataset (ROAD) for Autonomous Driving, to our knowledge the first of its kind. ROAD is designed to test an autonomous vehicle's ability to detect road events, defined as triplets composed by a moving agent, the action(s) it performs and the corresponding scene locations. ROAD comprises 22 videos, originally from the Oxford RobotCar Dataset, annotated with bounding boxes showing the location in the image plane of each road event. We also provide as baseline a new incremental algorithm for online road event awareness, based on inflating RetinaNet along time, which achieves a mean average precision of 16.8% and 6.1% for frame-level and video-level event detection, respectively, at 50% overlap. Though promising, these figures highlight the challenges faced by situation awareness in autonomous driving. Finally, ROAD allows scholars to investigate exciting tasks such as complex (road) activity detection, future road event anticipation and the modelling of sentient road agents in terms of mental states.
翻訳日:2021-02-25 13:18:58 公開日:2021-02-23
# (参考訳) DeepThermal: オフライン強化学習を用いた火力発電ユニットの燃焼最適化

DeepThermal: Combustion Optimization for Thermal Power Generating Units Using Offline Reinforcement Learning ( http://arxiv.org/abs/2102.11492v1 )

ライセンス: CC BY 4.0
Xianyuan Zhan, Haoran Xu, Yue Zhang, Yusen Huo, Xiangyu Zhu, Honglei Yin, Yu Zheng(参考訳) 火力発電は世界の電力供給において主要な役割を担っている。 世界中で大量の石炭を消費し、深刻な大気汚染を引き起こす。 熱発電ユニット(TPGU)の燃焼効率を最適化することは、エネルギー産業において非常に困難かつ重要な課題である。 我々はtpgusの燃焼制御戦略を最適化する新しいデータ駆動型aiシステム、deepthermalを開発した。 MOREと呼ばれる新しいモデルベースのオフライン強化学習(RL)フレームワークは、TGPUのログ化された履歴操作データを活用して、純粋にオフライントレーニングを通じて、非常に複雑な制約付きマルコフ決定プロセス問題を解決する。 MOREは、長期的な報酬(燃焼効率の向上と汚染物質の排出削減)の同時改善と運用リスク(安全制約満足)のコントロールを目指しています。 DeepThermalでは、まずオフラインデータセットからデータ駆動の燃焼プロセスシミュレーターを学びます。 MOREのRLエージェントは、新しい制限探索スキームを介して、実際の履歴データと慎重にフィルタリングおよび処理されたシミュレーションデータを組み合わせて訓練されます。 DeepThermalは中国の4大石炭火力発電所に配備されている。 実世界の実験では、DeepThermalがTPGUの燃焼効率を効果的に改善することを示しています。 また,標準オフラインrlベンチマークにおける最先端アルゴリズムとの比較により,より優れた性能を示す。 著者の最高の知識のために、DeepThermalはオフラインRLアプローチを使用して現実世界の複雑なミッションクリティカルな制御タスクを解決するために使用された最初のAIアプリケーションです。

Thermal power generation plays a dominant role in the world's electricity supply. It consumes large amounts of coal worldwide, and causes serious air pollution. Optimizing the combustion efficiency of a thermal power generating unit (TPGU) is a highly challenging and critical task in the energy industry. We develop a new data-driven AI system, namely DeepThermal, to optimize the combustion control strategy for TPGUs. At its core, is a new model-based offline reinforcement learning (RL) framework, called MORE, which leverages logged historical operational data of a TGPU to solve a highly complex constrained Markov decision process problem via purely offline training. MORE aims at simultaneously improving the long-term reward (increase combustion efficiency and reduce pollutant emission) and controlling operational risks (safety constraints satisfaction). In DeepThermal, we first learn a data-driven combustion process simulator from the offline dataset. The RL agent of MORE is then trained by combining real historical data as well as carefully filtered and processed simulation data through a novel restrictive exploration scheme. DeepThermal has been successfully deployed in four large coal-fired thermal power plants in China. Real-world experiments show that DeepThermal effectively improves the combustion efficiency of a TPGU. We also report and demonstrate the superior performance of MORE by comparing with the state-of-the-art algorithms on the standard offline RL benchmarks. To the best knowledge of the authors, DeepThermal is the first AI application that has been used to solve real-world complex mission-critical control tasks using the offline RL approach.
翻訳日:2021-02-25 12:44:20 公開日:2021-02-23
# (参考訳) ベイズ因果推論の同定可能性のシミュレーションによる検証

A Simulation-Based Test of Identifiability for Bayesian Causal Inference ( http://arxiv.org/abs/2102.11761v1 )

ライセンス: CC BY 4.0
Sam Witty, David Jensen, Vikash Mansinghka(参考訳) 本稿では、因果推論のためのベイズモデルの識別性をテストする手順について紹介する。 do-calculus は、因果グラフが与えられたときの健全かつ完備であるが、器用変数設計や回帰不連続設計、対象内設計など、多くの実践的な仮定は、グラフ構造だけでは表現できない。 本論文では,シミュレート観測による粒子最適化方式に基づく完全自動識別試験であるシミュレーションに基づく識別可能性(SBI)について述べる。 このアプローチは、ガウス過程を用いた柔軟な事前を含む構造因果モデルにおける関数の先行として因果仮定を表現する。 我々はSBIが漸近的に健全かつ完全であることを証明し、実用的な有限サンプル境界を生成する。 また、SBIは、グラフに基づく識別の既知の結果と、グラフベースの手法が決定不能な設計に対する広く保持された直観に一致していることを示す。

This paper introduces a procedure for testing the identifiability of Bayesian models for causal inference. Although the do-calculus is sound and complete given a causal graph, many practical assumptions cannot be expressed in terms of graph structure alone, such as the assumptions required by instrumental variable designs, regression discontinuity designs, and within-subjects designs. We present simulation-based identifiability (SBI), a fully automated identification test based on a particle optimization scheme with simulated observations. This approach expresses causal assumptions as priors over functions in a structural causal model, including flexible priors using Gaussian processes. We prove that SBI is asymptotically sound and complete, and produces practical finite-sample bounds. We also show empirically that SBI agrees with known results in graph-based identification as well as with widely-held intuitions for designs in which graph-based methods are inconclusive.
翻訳日:2021-02-25 12:20:59 公開日:2021-02-23
# (参考訳) ただのモーメント:パラディグマ的高次元非凸問題におけるモーメントに基づく加速法の解析的研究

Just a Momentum: Analytical Study of Momentum-Based Acceleration Methods Methods in Paradigmatic High-Dimensional Non-Convex Problem ( http://arxiv.org/abs/2102.11755v1 )

ライセンス: CC BY 4.0
Stefano Sarao Mannelli and Pierfrancesco Urbani(参考訳) 損失関数を最適化する場合、バニラ勾配法ではなく運動量に基づく加速法を用いるのが一般的である。 任意の損失関数に広く適用されているにもかかわらず、それらの挙動は一般には非凸であり、高次元の風景は理解されていない。 本研究では,動的平均場理論を用いて,原型的非凸モデルである行列テンソルモデルにおいて,これらの手法の平均挙動を解析的に記述した。 重球運動量やネステロフ加速を含むいくつかのアルゴリズムの挙動を記述する閉集合方程式を導出する。 さらに、エネルギー的景観の底部に向かってリラックスする巨大粒子の数学的に等価な物理系の進化を特徴づける。 正しいマッピングの下では、2つのダイナミクスは等価であり、大きな質量を持つと重いボールのダイナミクスの有効時間ステップが増大し、速度が上がることに気付く。

When optimizing over loss functions it is common practice to use momentum-based accelerated methods rather than vanilla gradient-based method. Despite widely applied to arbitrary loss function, their behaviour in generically non-convex, high dimensional landscapes is poorly understood. In this work we used dynamical mean field theory techniques to describe analytically the average behaviour of these methods in a prototypical non-convex model: the (spiked) matrix-tensor model. We derive a closed set of equations that describe the behaviours of several algorithms including heavy-ball momentum and Nesterov acceleration. Additionally we characterize the evolution of a mathematically equivalent physical system of massive particles relaxing toward the bottom of an energetic landscape. Under the correct mapping the two dynamics are equivalent and it can be noticed that having a large mass increases the effective time step of the heavy ball dynamics leading to a speed up.
翻訳日:2021-02-25 11:28:18 公開日:2021-02-23
# (参考訳) ユーザーレベルのプライバシーで学ぶ

Learning with User-Level Privacy ( http://arxiv.org/abs/2102.11845v1 )

ライセンス: CC0 1.0
Daniel Levy, Ziteng Sun, Kareem Amin, Satyen Kale, Alex Kulesza, Mehryar Mohri, Ananda Theertha Suresh(参考訳) ユーザレベルの差分プライバシ制約下での学習タスクを解くためのアルゴリズムを提案し,解析する。 個々のサンプルのプライバシーだけを保証するのではなく、ユーザーレベルのDPはユーザーのコントリビューション全体($m \ge 1$サンプル)を保護し、情報漏洩に対するより厳密でより現実的な保護を提供します。 高次元平均推定、滑らかな損失を伴う経験的リスク最小化、確率的凸最適化、有限な計量エントロピーを持つ学習仮説クラスでは、ユーザがより多くのサンプルを提供すれば、プライバシコストは$o(1/\sqrt{m})$となる。 対照的に、$n$のユーザ数を増やすと、プライバシコストはより高速な$O(1/n)$レートで減少する。 平均推定と確率凸最適化のためのアルゴリズムの最悪の最適性を示す下限でこれらの結果を補完する。 私たちのアルゴリズムは、全範囲ではなく、分布の濃度半径 $\tau$ として誤差スケーリングで任意の次元のプライベート平均推定のための新しい技術に依存します。 均一収束の下では、プライバシコストが$\tau$に比例した、適応的に選択されたクエリ列にプライベートに答えるアルゴリズムを導出し、それを適用して検討する学習課題を解決する。

We propose and analyze algorithms to solve a range of learning tasks under user-level differential privacy constraints. Rather than guaranteeing only the privacy of individual samples, user-level DP protects a user's entire contribution ($m \ge 1$ samples), providing more stringent but more realistic protection against information leaks. We show that for high-dimensional mean estimation, empirical risk minimization with smooth losses, stochastic convex optimization, and learning hypothesis class with finite metric entropy, the privacy cost decreases as $O(1/\sqrt{m})$ as users provide more samples. In contrast, when increasing the number of users $n$, the privacy cost decreases at a faster $O(1/n)$ rate. We complement these results with lower bounds showing the worst-case optimality of our algorithm for mean estimation and stochastic convex optimization. Our algorithms rely on novel techniques for private mean estimation in arbitrary dimension with error scaling as the concentration radius $\tau$ of the distribution rather than the entire range. Under uniform convergence, we derive an algorithm that privately answers a sequence of $K$ adaptively chosen queries with privacy cost proportional to $\tau$, and apply it to solve the learning tasks we consider.
翻訳日:2021-02-25 09:58:20 公開日:2021-02-23
# (参考訳) VisualCheXbert: 放射線医学レポートラベルと画像ラベルの相違に対処する

VisualCheXbert: Addressing the Discrepancy Between Radiology Report Labels and Image Labels ( http://arxiv.org/abs/2102.11467v1 )

ライセンス: CC BY 4.0
Saahil Jain, Akshay Smit, Steven QH Truong, Chanh DT Nguyen, Minh-Thanh Huynh, Mudit Jain, Victoria A. Young, Andrew Y. Ng, Matthew P. Lungren, Pranav Rajpurkar(参考訳) 医用画像の解釈にコンピュータビジョンモデルを監督するためには, 自由テキストラジオグラフィーレポートからの医療条件の自動抽出が重要である。 本研究では, 放射線医はX線画像と放射線医と有意に一致せず, 画像ラベルのプロキシとして, レポートラベルの品質を低下させることを示した。 画像のラベリングとよりよく一致したラジオロジーレポートからラベルを作成する手法を開発し,評価する。 胸部X線画像から医療状況を検出するために訓練されたコンピュータビジョンモデルにより訓練された監視信号を用いて,生物医学的に事前訓練されたBERTモデルを用いて,放射線学レポートから画像ラベルに直接マップする。 VisualCheXbert は F1 スコア平均 0.14 (95% CI 0.12, 0.17) で既存の放射線学レポートラベラを用いたアプローチよりも優れていた。 また,0.12 (95% ci 0.09, 0.15) から 0.21 (95% ci 0.18, 0.24) までのいくつかの医療条件において,対応するx線報告書を平均f1スコアでラベル付けする放射線科医よりも,visualchexbert は胸部x線像をラベル付けする放射線科医とよく一致していることがわかった。

Automatic extraction of medical conditions from free-text radiology reports is critical for supervising computer vision models to interpret medical images. In this work, we show that radiologists labeling reports significantly disagree with radiologists labeling corresponding chest X-ray images, which reduces the quality of report labels as proxies for image labels. We develop and evaluate methods to produce labels from radiology reports that have better agreement with radiologists labeling images. Our best performing method, called VisualCheXbert, uses a biomedically-pretrained BERT model to directly map from a radiology report to the image labels, with a supervisory signal determined by a computer vision model trained to detect medical conditions from chest X-ray images. We find that VisualCheXbert outperforms an approach using an existing radiology report labeler by an average F1 score of 0.14 (95% CI 0.12, 0.17). We also find that VisualCheXbert better agrees with radiologists labeling chest X-ray images than do radiologists labeling the corresponding radiology reports by an average F1 score across several medical conditions of between 0.12 (95% CI 0.09, 0.15) and 0.21 (95% CI 0.18, 0.24).
翻訳日:2021-02-25 09:57:13 公開日:2021-02-23
# (参考訳) 不確実性認識一般化適応サイクルGAN

Uncertainty-aware Generalized Adaptive CycleGAN ( http://arxiv.org/abs/2102.11747v1 )

ライセンス: CC BY 4.0
Uddeshya Upadhyay, Yanbei Chen, Zeynep Akata(参考訳) unpaired image-to-image translationは、教師なしの方法で画像ドメイン間のマッピングを学ぶことを指す。 既存のメソッドは、アウトプライヤへの堅牢性や予測不確実性を明示的にモデル化することなく、決定論的なマッピングを学習することが多く、テスト時に未確認の分散(OOD)パターンに遭遇するとパフォーマンスが低下する。 そこで本研究では,一般ガウス分布によって残存する画素をモデル化し,重尾分布をモデル化できる,Uncertainty-aware Generalized Adaptive Cycle Consistency (UGAC) という新しい確率論的手法を提案する。 自然画像における不対画像のノイズ除去と医療画像領域における不対モダリティプロロゲーションの2つの課題について,本モデルと最先端の手法を比較した。 実験結果から, 信号対雑音比や構造的類似度などの定量的指標において, 最近の手法に比べ, 優れた画像生成品質が得られた。 また,OODテストデータに対する強い堅牢性を示す。

Unpaired image-to-image translation refers to learning inter-image-domain mapping in an unsupervised manner. Existing methods often learn deterministic mappings without explicitly modelling the robustness to outliers or predictive uncertainty, leading to performance degradation when encountering unseen out-of-distribution (OOD) patterns at test time. To address this limitation, we propose a novel probabilistic method called Uncertainty-aware Generalized Adaptive Cycle Consistency (UGAC), which models the per-pixel residual by generalized Gaussian distribution, capable of modelling heavy-tailed distributions. We compare our model with a wide variety of state-of-the-art methods on two challenging tasks: unpaired image denoising in the natural image and unpaired modality prorogation in medical image domains. Experimental results demonstrate that our model offers superior image generation quality compared to recent methods in terms of quantitative metrics such as signal-to-noise ratio and structural similarity. Our model also exhibits stronger robustness towards OOD test data.
翻訳日:2021-02-25 09:31:43 公開日:2021-02-23
# (参考訳) 密度マップの深ベイズ回帰を用いた不確実性細胞検出による定量的顕微鏡の確率的空間解析

Probabilistic Spatial Analysis in Quantitative Microscopy with Uncertainty-Aware Cell Detection using Deep Bayesian Regression of Density Maps ( http://arxiv.org/abs/2102.11865v1 )

ライセンス: CC BY 4.0
Alvaro Gomariz, Tiziano Portenier, C\'esar Nombela-Arrieta, Orcun Goksel(参考訳) 3d顕微鏡は多様な生体システムの研究の鍵であり、大規模データセットの可用性が高まるにつれて、精度だけでなく、予測の不確実性も示唆し、潜在的なエラーやそれを用いた結論への信頼が高まる。 従来の深層学習法は決定論的な結果をもたらすことが多いが、深層ベイズ学習の進歩は、多数の画像分類および分割タスクにおける確率的解釈を伴う正確な予測を可能にする。 しかし、このようなベイズ法を細胞検出に拡張するのは非自明であり、特殊な学習フレームワークを必要とする。 特に、密度マップの回帰は、後処理ステップで局所的なピークからセル座標を抽出する成功例であり、これは有意義な確率的出力を妨げる。 本稿では,大規模顕微鏡画像上で動作し,(i)セル提案を生成するためにピーク検出を適用可能な不確実性認識密度マップの回帰のためのベイズ法を統合し,(ii)多数の提案から校正される確率空間へのマッピングを学ぶことにより,所望の確率的予測を行う深層学習型セル検出フレームワークを提案する。 予測が成功する確率を正確に表します。 このようなキャリブレーション予測を用いて,モンテカルロサンプリングを用いた確率空間解析を提案する。 本研究では, 骨髄内における間葉系間質細胞型の分布について, 既存の記述を修正し, 検出不能な空間パターンを明らかにする方法を提案する。 このような確率論的解析を定量的顕微鏡パイプラインに導入することで、空間分布の生物学的仮説をテストするための信頼区間を報告できる。

3D microscopy is key in the investigation of diverse biological systems, and the ever increasing availability of large datasets demands automatic cell identification methods that not only are accurate, but also can imply the uncertainty in their predictions to inform about potential errors and hence confidence in conclusions using them. While conventional deep learning methods often yield deterministic results, advances in deep Bayesian learning allow for accurate predictions with a probabilistic interpretation in numerous image classification and segmentation tasks. It is however nontrivial to extend such Bayesian methods to cell detection, which requires specialized learning frameworks. In particular, regression of density maps is a popular successful approach for extracting cell coordinates from local peaks in a postprocessing step, which hinders any meaningful probabilistic output. We herein propose a deep learning-based cell detection framework that can operate on large microscopy images and outputs desired probabilistic predictions by (i) integrating Bayesian techniques for the regression of uncertainty-aware density maps, where peak detection can be applied to generate cell proposals, and (ii) learning a mapping from the numerous proposals to a probabilistic space that is calibrated, i.e. accurately represents the chances of a successful prediction. Utilizing such calibrated predictions, we propose a probabilistic spatial analysis with Monte-Carlo sampling. We demonstrate this in revising an existing description of the distribution of a mesenchymal stromal cell type within the bone marrow, where our proposed methods allow us to reveal spatial patterns that are otherwise undetectable. Introducing such probabilistic analysis in quantitative microscopy pipelines will allow for reporting confidence intervals for testing biological hypotheses of spatial distributions.
翻訳日:2021-02-25 09:12:20 公開日:2021-02-23
# (参考訳) 微分可能な論理機械

Differentiable Logic Machines ( http://arxiv.org/abs/2102.11529v1 )

ライセンス: CC BY 4.0
Zimmer Matthieu and Feng Xuening and Glanois Claire and Jiang Zhaohui and Zhang Jianyi and Weng Paul and Jianye Hao and Dong Li and Wulong Liu(参考訳) より一般的なAIシステムを構築するためには、推論、学習、意思決定の統合が重要です。 この方向への一歩として、帰納論理プログラミング(ILP)と深部強化学習(RL)の両問題を解くことができる新しいニューラル論理アーキテクチャを提案する。 我々のアーキテクチャは、規則の代わりに述語に重みを割り当てることで、一階述語論理プログラムの制限的かつ表現的連続空間を定義する。 したがって、完全に微分可能であり、勾配降下で効率的に訓練することができる。 さらに,アクター批判アルゴリズムを用いた深いRL設定において,新しい効率的な批評家アーキテクチャを提案する。 ilp問題とrl問題の両方における最先端手法と比較して,本提案は,完全な解釈可能なソリューションを提供しながら,特にテストフェーズにおいて,より優れたスケーリングを実現する。

The integration of reasoning, learning, and decision-making is key to build more general AI systems. As a step in this direction, we propose a novel neural-logic architecture that can solve both inductive logic programming (ILP) and deep reinforcement learning (RL) problems. Our architecture defines a restricted but expressive continuous space of first-order logic programs by assigning weights to predicates instead of rules. Therefore, it is fully differentiable and can be efficiently trained with gradient descent. Besides, in the deep RL setting with actor-critic algorithms, we propose a novel efficient critic architecture. Compared to state-of-the-art methods on both ILP and RL problems, our proposition achieves excellent performance, while being able to provide a fully interpretable solution and scaling much better, especially during the testing phase.
翻訳日:2021-02-25 08:35:17 公開日:2021-02-23
# (参考訳) 深部特徴の袋を用いた船舶の自動分類

Automatic Ship Classification Utilizing Bag of Deep Features ( http://arxiv.org/abs/2102.11520v1 )

ライセンス: CC BY 4.0
Sadegh Soleimani Pour, Ata Jodeiri, Hossein Rashidi, Seyed Mostafa Mirhassani, Hoda Kheradfallah, Hadi Seyedarabi(参考訳) 自然画像におけるシルエットプロファイルに基づく船舶の検出と分類は、コンピュータサイエンスにおいて重要な作業である。 この問題は、セキュリティ、トラフィック制御、さらには軍国主義など、さまざまな観点から見ることができます。 したがって、上記の各アプリケーションでは、特定の処理が必要です。 本論文では,"bag of words"(単語の袋)を適用することにより,その単語が,事前訓練された深層畳み込みネットワークモデルを用いて得られる特徴であることを示す。 3つのVGGモデルを用いてオブジェクトの識別精度を向上する。 初期提案として選択された画像の領域は、scale invariant feature transform (sift)法によって生成されたキーポイント上のグリーディアルゴリズムから導出される。 BOWメソッドの深い特徴を使用することは、船舶の認識と分類に良い改善をもたらします。 最終的に、従来の方法と比較して約5%の改善を示す船舶の分類で91.8%の精度を得た。

Detection and classification of ships based on their silhouette profiles in natural imagery is an important undertaking in computer science. This problem can be viewed from a variety of perspectives, including security, traffic control, and even militarism. Therefore, in each of the aforementioned applications, specific processing is required. In this paper, by applying the "bag of words" (BoW), a new method is presented that its words are the features that are obtained using pre-trained models of deep convolutional networks. , Three VGG models are utilized which provide superior accuracy in identifying objects. The regions of the image that are selected as the initial proposals are derived from a greedy algorithm on the key points generated by the Scale Invariant Feature Transform (SIFT) method. Using the deep features in the BOW method provides a good improvement in the recognition and classification of ships. Eventually, we obtained an accuracy of 91.8% in the classification of the ships which shows the improvement of about 5% compared to previous methods.
翻訳日:2021-02-25 07:44:44 公開日:2021-02-23
# (参考訳) ソースフリー非教師付きドメイン適応のための自己教師付きノイズラベル学習

Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2102.11614v1 )

ライセンス: CC BY 4.0
Weijie Chen and Luojun Lin and Shicai Yang and Di Xie and Shiliang Pu and Yueting Zhuang and Wenqi Ren(参考訳) 多くの既存の監視されていないドメイン適応アプローチで、ソースデータに自由にアクセスする強力な前提条件です。 しかし、コストのかかるデータ送信とデータプライバシ保護の制約のため、ソースデータは多くの現実的なシナリオでは不可知である。 通常、与えられたソースドメインの事前トレーニングモデルは、ラベルなしのターゲットデータのみを使用して最適化されることが期待されます。 本稿では,事前学習されたモデルが,直接ネットワーク推論によってラベルなし対象データのノイズラベルを事前に生成できるため,雑音ラベル学習の観点からこの問題を解決する。 自己監督型学習を組み込んだこの問題モデルでは,事前生成ラベルを用いた学習モデルと,その場で自動生成ラベルを効果的に微調整できる,新しい自己監督型雑音ラベル学習法を提案する。 有効性を検証するために大規模な実験が行われた。 本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。 コードはリリースされる。

It is a strong prerequisite to access source data freely in many existing unsupervised domain adaptation approaches. However, source data is agnostic in many practical scenarios due to the constraints of expensive data transmission and data privacy protection. Usually, the given source domain pre-trained model is expected to optimize with only unlabeled target data, which is termed as source-free unsupervised domain adaptation. In this paper, we solve this problem from the perspective of noisy label learning, since the given pre-trained model can pre-generate noisy label for unlabeled target data via directly network inference. Under this problem modeling, incorporating self-supervised learning, we propose a novel Self-Supervised Noisy Label Learning method, which can effectively fine-tune the pre-trained model with pre-generated label as well as selfgenerated label on the fly. Extensive experiments had been conducted to validate its effectiveness. Our method can easily achieve state-of-the-art results and surpass other methods by a very large margin. Code will be released.
翻訳日:2021-02-25 07:33:58 公開日:2021-02-23
# (参考訳) 低リソースインドの言語におけるファクトチェックのファクタリゼーション

Factorization of Fact-Checks for Low Resource Indian Languages ( http://arxiv.org/abs/2102.11276v1 )

ライセンス: CC BY 4.0
Shivangi Singhal, Rajiv Ratn Shah, Ponnurangam Kumaraguru(参考訳) テクノロジの進歩とインターネットの個人へのアクセシビリティは、リアルタイム情報に革命をもたらしている。 信頼度チェックを通さずに自分の考えを表現できる自由は、エコシステムにおける偽コンテンツの拡散につながる。 それは個人および社会全体に悲惨な効果をもたらすことができます。 インドでも偽ニュースの増幅が急増している。 分断された情報は、しばしば交換説明で再発行され、いくつかの異なる発生率を描写すると主張します。 このような作り話を抑制するためには、そのような重複や虚偽の主張を公に調査する必要がある。 自動事実チェックと偽ニュース検出の研究の大半は英語のみに限られている。 しかし、文人人口の10%が英語を話せないインドのような国では、偽造を広めるための地域言語の役割は損なわれない。 本稿では,インドの地域言語を対象とした,最初の大規模多言語ファクトチェックデータセットであるfactdrilを紹介する。 私たちは、11の低リソース言語をカバーする7ヶ月にわたる完全なデータセットを収集します。 私たちの提案データセットは、英語に属する9,058のサンプル、ヒンディー語への5,155のサンプル、および残りの8,222のサンプルからなる。 Bangla, Marathi, Malayalam, Telugu, Tamil, Oriya, Assamese, Punjabi, Urdu, Sinhala, Burmese。 また,ファクトドリルにおける3つのm(多言語,マルチメディア,マルチドメイン)の詳細な特徴と,他の属性の完全なリストについて述べる。 最後に、データセットの潜在的なユースケースを示す。 このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。

The advancement in technology and accessibility of internet to each individual is revolutionizing the real time information. The liberty to express your thoughts without passing through any credibility check is leading to dissemination of fake content in the ecosystem. It can have disastrous effects on both individuals and society as a whole. The amplification of fake news is becoming rampant in India too. Debunked information often gets republished with a replacement description, claiming it to depict some different incidence. To curb such fabricated stories, it is necessary to investigate such deduplicates and false claims made in public. The majority of studies on automatic fact-checking and fake news detection is restricted to English only. But for a country like India where only 10% of the literate population speak English, role of regional languages in spreading falsity cannot be undermined. In this paper, we introduce FactDRIL: the first large scale multilingual Fact-checking Dataset for Regional Indian Languages. We collect an exhaustive dataset across 7 months covering 11 low-resource languages. Our propose dataset consists of 9,058 samples belonging to English, 5,155 samples to Hindi and remaining 8,222 samples are distributed across various regional languages, i.e. Bangla, Marathi, Malayalam, Telugu, Tamil, Oriya, Assamese, Punjabi, Urdu, Sinhala and Burmese. We also present the detailed characterization of three M's (multi-lingual, multi-media, multi-domain) in the FactDRIL accompanied with the complete list of other varied attributes making it a unique dataset to study. Lastly, we present some potential use cases of the dataset. We expect this dataset will be a valuable resource and serve as a starting point to fight proliferation of fake news in low resource languages.
翻訳日:2021-02-25 07:13:40 公開日:2021-02-23
# (参考訳) 順序付きオートエンコーディングによる自己回帰モデルの任意のサンプリング

Anytime Sampling for Autoregressive Models via Ordered Autoencoding ( http://arxiv.org/abs/2102.11495v1 )

ライセンス: CC BY 4.0
Yilun Xu, Yang Song, Sahaj Garg, Linyuan Gong, Rui Shu, Aditya Grover, Stefano Ermon(参考訳) 自動回帰モデルは画像生成や音声生成などのタスクに広く使われている。 しかし、これらのモデルのサンプリングプロセスは中断を許さず、リアルタイムの計算リソースに適応できません。 この課題は、本質的にシーケンシャルで、典型的にはデータ次元に関して線形にスケールする遅いサンプリングプロセスを含む強力な自己回帰モデルの展開を妨げる。 この難易度に対処するため、いつでもサンプリングを可能にする新しい自動回帰モデルファミリーを提案します。 主成分分析に触発されて,次元が再構成における重要度に基づいて順序づけされる構造的表現空間を学習する。 この潜在空間における自己回帰モデルを用いて、元のデータ空間に復号する前に生成過程を切断し、サンプル品質を計算効率で交換する。 実験では,サンプリングの計算予算を削減し,サンプル品質が優雅に劣化する複数の画像および音声生成タスクを実演する。 このアプローチは、画像データの全潜在次元の60\%から80\%しか使っていないサンプル品質(fidによる測定)がほとんど失われない。 コードはhttps://github.com/Newbeeer/Anytime-Auto-Regressive-Modelで入手できる。

Autoregressive models are widely used for tasks such as image and audio generation. The sampling process of these models, however, does not allow interruptions and cannot adapt to real-time computational resources. This challenge impedes the deployment of powerful autoregressive models, which involve a slow sampling process that is sequential in nature and typically scales linearly with respect to the data dimension. To address this difficulty, we propose a new family of autoregressive models that enables anytime sampling. Inspired by Principal Component Analysis, we learn a structured representation space where dimensions are ordered based on their importance with respect to reconstruction. Using an autoregressive model in this latent space, we trade off sample quality for computational efficiency by truncating the generation process before decoding into the original data space. Experimentally, we demonstrate in several image and audio generation tasks that sample quality degrades gracefully as we reduce the computational budget for sampling. The approach suffers almost no loss in sample quality (measured by FID) using only 60\% to 80\% of all latent dimensions for image data. Code is available at https://github.com/Newbeeer/Anytime-Auto-Regressive-Model .
翻訳日:2021-02-25 06:36:56 公開日:2021-02-23
# (参考訳) histo-fetch -- ギガピクセル全体のスライド画像のオンザフライ処理がニューラルネットワークトレーニングを単純化し、高速化する

Histo-fetch -- On-the-fly processing of gigapixel whole slide images simplifies and speeds neural network training ( http://arxiv.org/abs/2102.11433v1 )

ライセンス: CC BY 4.0
Brendon Lutnick, Leema Krishna Murali, Brandon Ginley, and Pinaki Sarder(参考訳) ニューラルネットワークへの入力を行うために,病理全体スライド画像(wsis)からランダムパッチやラベルを効率的に抽出するカスタムパイプライン(histo-fetch)を開発した。 我々は、ネットワークトレーニング中に必要に応じてこれらのパッチをプリフェッチし、切り欠きや切り欠きなどのwsi準備の必要性を回避した。 本稿では,一般的なネットワークCycleGANとProGANを用いて,人工的な染料転送と画像生成を行うパイプラインの有用性を実証する。

We created a custom pipeline (histo-fetch) to efficiently extract random patches and labels from pathology whole slide images (WSIs) for input to a neural network on-the-fly. We prefetch these patches as needed during network training, avoiding the need for WSI preparation such as chopping/tiling. We demonstrate the utility of this pipeline to perform artificial stain transfer and image generation using the popular networks CycleGAN and ProGAN, respectively.
翻訳日:2021-02-25 05:59:21 公開日:2021-02-23
# (参考訳) 大規模最適化のためのマルチスペース進化探索

Multi-Space Evolutionary Search for Large-Scale Optimization ( http://arxiv.org/abs/2102.11693v1 )

ライセンス: CC BY 4.0
Liang Feng, Qingxia Shang, Yaqing Hou, Kay Chen Tan and Yew-Soon On(参考訳) 近年,多くの決定変数を含む最適化問題を解くために用いられる進化的アルゴリズムを改善するために,進化的探索のために与えられた問題の解空間を単純化する試みが数多く行われている。 文献では、既存のアプローチは一般に分解に基づく方法と次元還元に基づく方法に分類される。 前者は大規模な問題をいくつかの小さなサブ問題に分解し、後者は元の高次元解空間を低次元空間に変換する。 しかし、与えられた大規模最適化問題は必ずしも分解可能であるとは限りませんし、元の問題の大域的最適化が低次元問題空間で維持されることを保証することも困難です。 そこで本稿では,大規模最適化問題に対する既存の進化的探索法を強化するために,多空間進化探索という新しい探索パラダイムを提案する。 1つの検索空間で進化的探索を行う既存のアプローチとは対照的に、提案されたパラダイムは、与えられた問題から派生した複数の解空間の探索を行うように設計されている。 提案したパラダイムは、問題の分解性や決定変数の間に特定の関係が存在するなど、関心の大規模最適化問題に関する仮定をしない。 提案手法の有効性を検証するため,cec2013の大規模ベンチマーク問題を用いて4つの最先端アルゴリズムとの比較を行った。

In recent years, to improve the evolutionary algorithms used to solve optimization problems involving a large number of decision variables, many attempts have been made to simplify the problem solution space of a given problem for the evolutionary search. In the literature, the existing approaches can generally be categorized as decomposition-based methods and dimension-reduction-based methods. The former decomposes a large-scale problem into several smaller subproblems, while the latter transforms the original high-dimensional solution space into a low-dimensional space. However, it is worth noting that a given large-scale optimization problem may not always be decomposable, and it is also difficult to guarantee that the global optimum of the original problem is preserved in the reduced low-dimensional problem space. This paper thus proposes a new search paradigm, namely the multi-space evolutionary search, to enhance the existing evolutionary search methods for solving large-scale optimization problems. In contrast to existing approaches that perform an evolutionary search in a single search space, the proposed paradigm is designed to conduct a search in multiple solution spaces that are derived from the given problem, each possessing a unique landscape. The proposed paradigm makes no assumptions about the large-scale optimization problem of interest, such as that the problem is decomposable or that a certain relationship exists among the decision variables. To verify the efficacy of the proposed paradigm, comprehensive empirical studies in comparison to four state-of-the-art algorithms were conducted using the CEC2013 large-scale benchmark problems.
翻訳日:2021-02-25 05:52:56 公開日:2021-02-23
# (参考訳) 音声認識システムにおける音韻補正のための文脈の進化的最適化

Evolutionary optimization of contexts for phonetic correction in speech recognition systems ( http://arxiv.org/abs/2102.11480v1 )

ライセンス: CC BY 4.0
Rafael Viana-C\'amara, Diego Campos-Sobrino, Mario Campos-Soberanis(参考訳) 自動音声認識(ASR)は、自然コミュニケーション方法を提供するためにそれを使用するアプリケーションの需要が高いため、学術的および商業的関心が高まっている分野です。 汎用的なASRシステムはドメイン固有言語を使用するアプリケーションで失敗することが一般的である。 言語モデルや後処理の補正方法を変更するコンテキストを提供するなど,エラーの低減にさまざまな戦略が使用されている。 この記事では、特定のアプリケーション領域に最適化されたコンテキストを生成するための進化的プロセスの使用、および音韻距離メトリクスに基づく異なる補正技術について説明します。 その結果、文脈最適化のためのツールとしての遺伝的アルゴリズムの有効性が示され、音韻表現に基づく後処理補正に加えられ、認識された音声の誤りを低減できる。

Automatic Speech Recognition (ASR) is an area of growing academic and commercial interest due to the high demand for applications that use it to provide a natural communication method. It is common for general purpose ASR systems to fail in applications that use a domain-specific language. Various strategies have been used to reduce the error, such as providing a context that modifies the language model and post-processing correction methods. This article explores the use of an evolutionary process to generate an optimized context for a specific application domain, as well as different correction techniques based on phonetic distance metrics. The results show the viability of a genetic algorithm as a tool for context optimization, which, added to a post-processing correction based on phonetic representations, can reduce the errors on the recognized speech.
翻訳日:2021-02-25 05:36:25 公開日:2021-02-23
# (参考訳) オペレータダイナミクスのための機械学習回帰

Machine Learning Regression for Operator Dynamics ( http://arxiv.org/abs/2102.11868v1 )

ライセンス: CC BY 4.0
Justin Reyes, Sayandip Dhara, Eduardo R. Mucciolo(参考訳) 量子多体(QMB)システムに作用する演算子の期待値のダイナミクスを決定することは難しい課題である。 行列積状態(MPS)は伝統的にこれらのシステムの"go-to"モデルであり、この表現の期待値を計算することは比較的単純で高精度である。 しかし、そのような計算は長い時間に延ばすと計算コストがかかる。 本稿では,期待値の計算を長い時間間隔に効率的に拡張する解を提案する。 短時間間隔で計算されたMPS期待値の回帰のためのツールとして, 多層パーセプトロン(MLP)モデルを用いる。 このモデルでは、高い精度を維持しつつ、長時間ダイナミクスを生成する計算コストが大幅に削減される。 これらの結果は、1つの空間次元の量子スピンモデルに関連する作用素で示される。

Determining the dynamics of the expectation values for operators acting on a quantum many-body (QMB) system is a challenging task. Matrix product states (MPS) have traditionally been the "go-to" models for these systems because calculating expectation values in this representation can be done with relative simplicity and high accuracy. However, such calculations can become computationally costly when extended to long times. Here, we present a solution for efficiently extending the computation of expectation values to long time intervals. We utilize a multi-layer perceptron (MLP) model as a tool for regression on MPS expectation values calculated within the regime of short time intervals. With this model, the computational cost of generating long-time dynamics is significantly reduced, while maintaining a high accuracy. These results are demonstrated with operators relevant to quantum spin models in one spatial dimension.
翻訳日:2021-02-25 05:26:53 公開日:2021-02-23
# (参考訳) 境界条件の構造的類似性とゴール衝突同定のための効率的な局所探索アルゴリズム

Structural Similarity of Boundary Conditions and an Efficient Local Search Algorithm for Goal Conflict Identification ( http://arxiv.org/abs/2102.11482v1 )

ライセンス: CC BY 4.0
Hongzhen Zhong, Hai Wan, Weilin Luo, Zhanhao Xiao, Jia Li, Biqing Fang(参考訳) 目標指向要求工学では、目標競合識別は要件分析において基本的な重要性を持つ。 このタスクは、境界条件(bcs)と呼ばれるドメイン内で目標が分散する、実現可能な状況を見つけることを目的としている。 しかし、既存の目標競合同定のアプローチでは、状況のより多くの組み合わせをカバーする十分なBCと一般的なBCを見つけることができません。 これらの既存手法によって発見されたBCから、実験例で頻繁に発生する公式構造に類似したBCの対が存在するという興味深い現象が観察されている。 言い換えれば、紀元前が見つかると、前者を少し変えてすぐに新しい紀元前が発見される。 LOGIONと呼ばれる局所探索アルゴリズムを開発し、BCを見つけ、その構造的類似性は公式の近傍関係によって捉えられる。 構造的類似性に基づいて、LOGIONは短期間で多くのBCを見つけることができる。 さらに、多くの紀元前が特定されているため、より一般的な紀元前を選択できる可能性がある。 一連のケースで実験を行うことで、LOGIONがBCの構造的類似性を有効に活用することを示しています。 また、我々のアルゴリズムを最先端の2つのアプローチと比較する。 実験結果は、LOGIONが最先端のアプローチよりも1桁大きなBCを生成し、LOGIONが多数のBCのおかげでより一般的なBCを見つけることを確認することを示しています。

In goal-oriented requirements engineering, goal conflict identification is of fundamental importance for requirements analysis. The task aims to find the feasible situations which make the goals diverge within the domain, called boundary conditions (BCs). However, the existing approaches for goal conflict identification fail to find sufficient BCs and general BCs which cover more combinations of circumstances. From the BCs found by these existing approaches, we have observed an interesting phenomenon that there are some pairs of BCs are similar in formula structure, which occurs frequently in the experimental cases. In other words, once a BC is found, a new BC may be discovered quickly by slightly changing the former. It inspires us to develop a local search algorithm named LOGION to find BCs, in which the structural similarity is captured by the neighborhood relation of formulae. Based on structural similarity, LOGION can find a lot of BCs in a short time. Moreover, due to the large number of BCs identified, it potentially selects more general BCs from them. By taking experiments on a set of cases, we show that LOGION effectively exploits the structural similarity of BCs. We also compare our algorithm against the two state-of-the-art approaches. The experimental results show that LOGION produces one order of magnitude more BCs than the state-of-the-art approaches and confirm that LOGION finds out more general BCs thanks to a large number of BCs.
翻訳日:2021-02-25 05:16:59 公開日:2021-02-23
# (参考訳) 繰り返しモデル予測制御

Recurrent Model Predictive Control ( http://arxiv.org/abs/2102.11736v1 )

ライセンス: CC BY 4.0
Zhengyu Liu, Jingliang Duan, Wenxuan Wang, Shengbo Eben Li, Yuming Yin, Ziyu Lin, Qi Sun, Bo Cheng(参考訳) 本稿では,非線形有限ホライゾン最適制御問題を解くために,リカレントモデル予測制御(rmpc)と呼ばれるオフラインアルゴリズムを提案する。 従来のモデル予測制御(MPC)アルゴリズムとは異なり、現在のコンピューティングリソースをフル活用し、最長モデル予測水平線を適応的に選択することができる。 提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。 予測ステップの数は、学習されたポリシー関数の繰り返しサイクルの数に等しい。 任意の初期ポリシー関数により、提案したRMPCアルゴリズムは、設計された損失関数を直接最小化し、最適ポリシーに収束することができる。 rmpcアルゴリズムの完全ベルマン最適原理の収束と最適性をさらに証明し、2つの数値例を用いてその一般化と効率を示す。

This paper proposes an off-line algorithm, called Recurrent Model Predictive Control (RMPC), to solve general nonlinear finite-horizon optimal control problems. Unlike traditional Model Predictive Control (MPC) algorithms, it can make full use of the current computing resources and adaptively select the longest model prediction horizon. Our algorithm employs a recurrent function to approximate the optimal policy, which maps the system states and reference values directly to the control inputs. The number of prediction steps is equal to the number of recurrent cycles of the learned policy function. With an arbitrary initial policy function, the proposed RMPC algorithm can converge to the optimal policy by directly minimizing the designed loss function. We further prove the convergence and optimality of the RMPC algorithm thorough Bellman optimality principle, and demonstrate its generality and efficiency using two numerical examples.
翻訳日:2021-02-25 04:51:09 公開日:2021-02-23
# (参考訳) シェーファーの枠組みにおける論理に基づく論証のパラメータ化複雑性

Parameterized Complexity of Logic-Based Argumentation in Schaefer's Framework ( http://arxiv.org/abs/2102.11782v1 )

ライセンス: CC BY 4.0
Yasir Mahmood, Arne Meier, Johannes Schmidt(参考訳) 論理に基づく議論は、非単調推論をモデル化する定評のある形式主義である。 aiには何十年も前から大きな役割を果たしてきた。 形式的に、式の一式は、それが一貫した部分集合最小であり、主張を暗示するならば、与えられたクレームの支持である。 このような場合、サポートとクレームのペアを一緒に引数と呼びます。 本稿では,議論の中で研究されている3つの計算タスクの命題的変種について検討する。arg(ある論理式に対して与えられたクレームに対するサポートが存在する)、arg-check(与えられたクレームに対するサポートを与えられた集合である)、arg-rel(argとそれに含まれる追加の公式を必要とする)である。 ARG-Check は複雑性クラス DP に対して完全であり、その他の2つの問題は多項式階層の第2レベル (Parson et al., J. Log) に対して完全であることが知られている。 Comput., 2003)、そしてそれ故に、非常に難解である。 第一に、シェイファーの枠組み(STOC 1978)内の問題の可能性のあるすべての命題フラグメントを検討し、各フラグメントの異なるパラメータ化を研究する。 上記の決定問題に関連する合理的な構造パラメータ(クレーム,サポート,ナレッジベースのサイズ)のリストを同定する。 最終的に、固定パラメータがどこにあるか、いつそれが止まるのかを示す各問題に対して、パラメータ化の難しさの細かい境界を徹底的に描き出す。 驚くべきことに、いくつかのケースは非常に難易度が高い(paraNP以降)。

Logic-based argumentation is a well-established formalism modelling nonmonotonic reasoning. It has been playing a major role in AI for decades, now. Informally, a set of formulas is the support for a given claim if it is consistent, subset-minimal, and implies the claim. In such a case, the pair of the support and the claim together is called an argument. In this paper, we study the propositional variants of the following three computational tasks studied in argumentation: ARG (exists a support for a given claim with respect to a given set of formulas), ARG-Check (is a given set a support for a given claim), and ARG-Rel (similarly as ARG plus requiring an additionally given formula to be contained in the support). ARG-Check is complete for the complexity class DP, and the other two problems are known to be complete for the second level of the polynomial hierarchy (Parson et al., J. Log. Comput., 2003) and, accordingly, are highly intractable. Analyzing the reason for this intractability, we perform a two-dimensional classification: first, we consider all possible propositional fragments of the problem within Schaefer's framework (STOC 1978), and then study different parameterizations for each of the fragment. We identify a list of reasonable structural parameters (size of the claim, support, knowledge-base) that are connected to the aforementioned decision problems. Eventually, we thoroughly draw a fine border of parameterized intractability for each of the problems showing where the problems are fixed-parameter tractable and when this exactly stops. Surprisingly, several cases are of very high intractability (paraNP and beyond).
翻訳日:2021-02-25 04:33:07 公開日:2021-02-23
# (参考訳) 深層畳み込みニューラルネットワークにおける注意層と損失アンサンブルを用いた超音波画像中の乳癌病変の分類

Classification of Breast Cancer Lesions in Ultrasound Images by using Attention Layer and loss Ensembles in Deep Convolutional Neural Networks ( http://arxiv.org/abs/2102.11519v1 )

ライセンス: CC BY 4.0
Elham Yousef Kalaf, Ata Jodeiri, Seyed Kamaledin Setarehdan, Ng Wei Lin, Kartini Binti Rahman, Nur Aishah Taib, Sarinder Kaur Dhillon(参考訳) 乳房超音波画像における良性病変と悪性病変の信頼性の高い分類は、乳癌の早期診断に有効かつ比較的安価に有用である。 しかし、診断の精度は、超音波システムの品質とユーザー(放射線科医)の経験に大きく依存しています。 深い畳み込みニューラルネットワークアプローチの活用は、乳房超音波画像の効率的な分析にソリューションを提供しました。 本研究では,vgg16アーキテクチャを改良したアテンションモジュールを用いて,乳癌病変の分類のための新しい枠組みを提案する。 また,双曲性コサイン損失の二値交互エントロピーと対数の組み合わせである新たなアンサンブル損失関数を提案し,分類病変とそのラベル間のモデル差を改善する。 トレーニング済みのImageNet重みからトレーニングされたネットワークは、その後、超音波データセットで微調整される。 本研究で提案したモデルは,93%の精度で他の改良VGG16アーキテクチャよりも優れており,乳がん病変の分類のための他の技術フレームワークと競合する結果となった。 本研究では,事前学習したVGG16アーキテクチャを用いて伝達学習手法を適用した。 乳房超音波画像における良性または悪性病変の予測のために, 分類タスクの異なるcnnモデルを訓練した。 実験の結果, 分類作業において損失関数の選択が重要であり, 注意ブロックを追加することで, モデルの性能を高めることができた。

Reliable classification of benign and malignant lesions in breast ultrasound images can provide an effective and relatively low cost method for early diagnosis of breast cancer. The accuracy of the diagnosis is however highly dependent on the quality of the ultrasound systems and the experience of the users (radiologists). The leverage in deep convolutional neural network approaches provided solutions in efficient analysis of breast ultrasound images. In this study, we proposed a new framework for classification of breast cancer lesions by use of an attention module in modified VGG16 architecture. We also proposed new ensembled loss function which is the combination of binary cross-entropy and logarithm of the hyperbolic cosine loss to improve the model discrepancy between classified lesions and its labels. Networks trained from pretrained ImageNet weights, and subsequently fine-tuned with ultrasound datasets. The proposed model in this study outperformed other modified VGG16 architectures with the accuracy of 93% and also the results are competitive with other state of the art frameworks for classification of breast cancer lesions. In this study, we employed transfer learning approaches with the pre-trained VGG16 architecture. Different CNN models for classification task were trained to predict benign or malignant lesions in breast ultrasound images. Our Experimental results show that the choice of loss function is highly important in classification task and by adding an attention block we could empower the performance our model.
翻訳日:2021-02-25 03:59:57 公開日:2021-02-23
# (参考訳) 画像キャプションのための拡張モダリティ遷移

Enhanced Modality Transition for Image Captioning ( http://arxiv.org/abs/2102.11526v1 )

ライセンス: CC BY 4.0
Ziwei Wang, Yadan Luo and Zi Huang(参考訳) 画像キャプションモデルは、情報的かつコヒーレントな文で画像を自動的に記述するクロスモダリティ知識発見タスクである。 キャプションを生成するために、以前のエンコーダ・デコーダフレームワークは、ビジュアルベクトルをリカレント言語モデルに直接転送し、リカレントユニットは、視覚特徴に基づいて文を生成する。 これらの文は一般に読みやすいが、画像とテキストのモダリティの実質的なギャップが十分に解決されていないため、詳細やハイライトの欠如に悩まされている。 本研究では,視覚特徴を言語モデルに転送する前に意味表現に転送するモーダリティ遷移モジュール(mtm)を明示的に構築する。 トレーニングフェーズでは、提案したモダリティ損失によりモダリティ遷移ネットワークが最適化され、生成された予備テキストエンコーディングと、事前訓練されたテキスト自動エンコーダのターゲット文ベクトルを比較する。 このようにして、視覚ベクトルはより文脈的かつ正確な言語生成のためにテキストサブ空間に転送される。 この新しいMTMは、既存のほとんどの方法に組み込むことができます。 提案したフレームワークの有効性を実証したMS-COCOデータセットの大規模な実験が行われ、最先端技術と比較して3.4%性能が向上した。

Image captioning model is a cross-modality knowledge discovery task, which targets at automatically describing an image with an informative and coherent sentence. To generate the captions, the previous encoder-decoder frameworks directly forward the visual vectors to the recurrent language model, forcing the recurrent units to generate a sentence based on the visual features. Although these sentences are generally readable, they still suffer from the lack of details and highlights, due to the fact that the substantial gap between the image and text modalities is not sufficiently addressed. In this work, we explicitly build a Modality Transition Module (MTM) to transfer visual features into semantic representations before forwarding them to the language model. During the training phase, the modality transition network is optimised by the proposed modality loss, which compares the generated preliminary textual encodings with the target sentence vectors from a pre-trained text auto-encoder. In this way, the visual vectors are transited into the textual subspace for more contextual and precise language generation. The novel MTM can be incorporated into most of the existing methods. Extensive experiments have been conducted on the MS-COCO dataset demonstrating the effectiveness of the proposed framework, improving the performance by 3.4% comparing to the state-of-the-arts.
翻訳日:2021-02-25 03:50:38 公開日:2021-02-23
# (参考訳) EscapeWildFire: リアルタイムで山火事をエスケープする人を支援する

EscapeWildFire: Assisting People to Escape Wildfires in Real-Time ( http://arxiv.org/abs/2102.11558v1 )

ライセンス: CC BY 4.0
Andreas Kamilaris, Jean-Baptiste Filippi, Chirag Padubidri, Jesper Provoost, Savvas Karatsiolis, Ian Cole, Wouter Couwenbergh and Evi Demetriou(参考訳) 過去数十年間、森林火災や世界中で焼かれた土地の面積は、気候の変化や地球温暖化によって着実に増加してきた。 したがって、より多くの人々が森林火災にさらされて危険にさらされる可能性が高くなります。 したがって、山火事時に人々を効果的に支援し、安全に誘導する広汎なシステムを設計する必要がある。 本稿では,wildfireの地理的進展をモデル化し予測するバックエンドシステムに接続されたモバイルアプリケーションである escapewildfire について述べる。 小さなパイロットはシステムの正確性を示します。 コードはオープンソースであり、世界中の消防当局はこのアプローチを採用することを奨励されている。

Over the past couple of decades, the number of wildfires and area of land burned around the world has been steadily increasing, partly due to climatic changes and global warming. Therefore, there is a high probability that more people will be exposed to and endangered by forest fires. Hence there is an urgent need to design pervasive systems that effectively assist people and guide them to safety during wildfires. This paper presents EscapeWildFire, a mobile application connected to a backend system which models and predicts wildfire geographical progression, assisting citizens to escape wildfires in real-time. A small pilot indicates the correctness of the system. The code is open-source; fire authorities around the world are encouraged to adopt this approach.
翻訳日:2021-02-25 03:39:04 公開日:2021-02-23
# (参考訳) 高度に不均衡な病理データを用いた細胞検出のための深層学習

Cell abundance aware deep learning for cell detection on highly imbalanced pathological data ( http://arxiv.org/abs/2102.11677v1 )

ライセンス: CC BY 4.0
Yeman Brhane Hagos, Catherine SY Lecat, Dominic Patel, Lydia Lee, Thien-An Tran, Manuel Rodriguez- Justo, Kwee Yong, Yinyin Yuan(参考訳) 組織セクションの自動解析は、疾患の生物学をよりよく理解し、予後や治療の選択を導くバイオマーカーを明らかにする可能性がある。 デジタル病理学では、少ない細胞型は生物学的に重要であるが、それらの不足はバイアスと準最適細胞検出モデルをもたらす可能性がある。 細胞不均衡が細胞検出に与える影響を最小限に抑えるため,モデルトレーニング中の細胞型の存在量を考慮した深層学習パイプラインを提案する。 細胞重画像が生成され、より少ない細胞により重い重みを割り当て、重みを使ってダイス重なり損失機能を調整した。 このモデルは骨髄腫骨髄トレフィンサンプルで訓練および評価された。 本モデルでは, 細胞検出F1スコアが0.78で, ベースラインモデルに比べて2%増加し, 稀な細胞型検出におけるベースラインモデルよりも優れていた。 その結果,細胞量による深層学習損失関数のスケールアップは細胞検出性能を向上させることがわかった。 本研究は,学級不均衡を伴う病理データの深層学習手法にドメイン知識を取り入れることの重要性を実証するものである。

Automated analysis of tissue sections allows a better understanding of disease biology and may reveal biomarkers that could guide prognosis or treatment selection. In digital pathology, less abundant cell types can be of biological significance, but their scarcity can result in biased and sub-optimal cell detection model. To minimize the effect of cell imbalance on cell detection, we proposed a deep learning pipeline that considers the abundance of cell types during model training. Cell weight images were generated, which assign larger weights to less abundant cells and used the weights to regularize Dice overlap loss function. The model was trained and evaluated on myeloma bone marrow trephine samples. Our model obtained a cell detection F1-score of 0.78, a 2% increase compared to baseline models, and it outperformed baseline models at detecting rare cell types. We found that scaling deep learning loss function by the abundance of cells improves cell detection performance. Our results demonstrate the importance of incorporating domain knowledge on deep learning methods for pathological data with class imbalance.
翻訳日:2021-02-25 03:30:02 公開日:2021-02-23
# (参考訳) V2W-BERT:ソフトウェア脆弱性の効果的な階層的マルチクラス分類のためのフレームワーク

V2W-BERT: A Framework for Effective Hierarchical Multiclass Classification of Software Vulnerabilities ( http://arxiv.org/abs/2102.11498v1 )

ライセンス: CC BY 4.0
Siddhartha Shankar Das, Edoardo Serra, Mahantesh Halappanavar, Alex Pothen, Ehab Al-Shaer(参考訳) アーキテクチャ、ソフトウェアの設計または実装における欠陥、バグ、エラーなどのコンピュータシステムの弱さは、システムのセキュリティを侵害するために攻撃者が悪用することができる脆弱性を提供します。 common weak enumerations (cwe) は階層的に設計されたソフトウェア弱点の辞書であり、ソフトウェアの欠陥を理解する手段、その悪用による潜在的な影響、およびこれらの欠陥を緩和する手段を提供する。 Common Vulnerabilities and Exposures(CVE)は、特定の製品またはプロトコルの脆弱性をユニークに識別する、簡潔な低レベルの記述です。 CVEのCWEへの分類またはマッピングは、影響を理解し、脆弱性を緩和する手段を提供します。 CVEの手動マッピングは有効な選択肢ではないため、自動化アプローチは望ましいが難しい。 本稿では,Transformer-based learning framework(V2W-BERT)を提案する。 自然言語処理,リンク予測,転送学習のアイデアを駆使して,トレーニング対象データの多いCWEインスタンスだけでなく,トレーニング対象データが少ない,あるいはまったくない,希少なCWEクラスにおいても,従来の手法よりも優れていた。 また,過去のデータを用いて将来のcveのリンクを予測する手法にも大きな改善が見られ,実用的利用にも有効なアプローチが期待できる。 mitreおよびnational vulnerability databaseのデータを用いて、ランダム分割データに対する最大97%の予測精度と、時間分割データにおける最大94%の予測精度を達成する。 私たちの研究は、サイバーセキュリティにおけるますます難しい問題を解決するアプリケーションだけでなく、より良い方法やトレーニングモデルの設計に影響を与えます。

Weaknesses in computer systems such as faults, bugs and errors in the architecture, design or implementation of software provide vulnerabilities that can be exploited by attackers to compromise the security of a system. Common Weakness Enumerations (CWE) are a hierarchically designed dictionary of software weaknesses that provide a means to understand software flaws, potential impact of their exploitation, and means to mitigate these flaws. Common Vulnerabilities and Exposures (CVE) are brief low-level descriptions that uniquely identify vulnerabilities in a specific product or protocol. Classifying or mapping of CVEs to CWEs provides a means to understand the impact and mitigate the vulnerabilities. Since manual mapping of CVEs is not a viable option, automated approaches are desirable but challenging. We present a novel Transformer-based learning framework (V2W-BERT) in this paper. By using ideas from natural language processing, link prediction and transfer learning, our method outperforms previous approaches not only for CWE instances with abundant data to train, but also rare CWE classes with little or no data to train. Our approach also shows significant improvements in using historical data to predict links for future instances of CVEs, and therefore, provides a viable approach for practical applications. Using data from MITRE and National Vulnerability Database, we achieve up to 97% prediction accuracy for randomly partitioned data and up to 94% prediction accuracy in temporally partitioned data. We believe that our work will influence the design of better methods and training models, as well as applications to solve increasingly harder problems in cybersecurity.
翻訳日:2021-02-25 03:23:45 公開日:2021-02-23
# (参考訳) QuPeL: 量子パーソナライゼーションとフェデレーション学習への応用

QuPeL: Quantized Personalization with Applications to Federated Learning ( http://arxiv.org/abs/2102.11786v1 )

ライセンス: CC BY 4.0
Kaan Ozkara, Navjot Singh, Deepesh Data, Suhas Diggavi(参考訳) 従来、フェデレーションラーニング(FL)は、複数のクライアントとサーバーを共同利用しながら、単一のグローバルモデルをトレーニングすることを目指しています。 FLアルゴリズムが直面する2つの自然な課題は、クライアント間でのデータの不均一性と、多様なリソースを持つクライアントのコラボレーションです。 本稿では,リソースの多様性を尊重しながら異種クライアントとの協調学習を容易にする, \textit{quantized} と \textit{personalized} flアルゴリズムクペルを導入する。 パーソナライズのために、クライアントはリソースに応じて異なる量子化パラメータを持つ \textit{compressed Personalized Model} を学習できる。 そこで,まず,量子化値の最適化を行う緩和型最適化問題を用いて,量子化モデルの学習アルゴリズムを提案する。 各クライアントが(フェデレーション)学習プロセスに参加すると、量子化モデル(価値と精度の両方)の要件が異なる場合、グローバルに訓練されたモデルに対して、ローカルクライアントの目的に対するペナルティ用語を導入して、量子化パーソナライゼーションフレームワークを策定し、コラボレーションを促進します。 我々は,この量子化パーソナライズ問題を解決するための交互近勾配更新法を開発し,その収束特性を分析する。 数値的に、量子化レベルを最適化することで性能が向上し、QuPeLがFedAvgとクライアントのローカルトレーニングの両方で不均一な環境で性能を向上することを示す。

Traditionally, federated learning (FL) aims to train a single global model while collaboratively using multiple clients and a server. Two natural challenges that FL algorithms face are heterogeneity in data across clients and collaboration of clients with {\em diverse resources}. In this work, we introduce a \textit{quantized} and \textit{personalized} FL algorithm QuPeL that facilitates collective training with heterogeneous clients while respecting resource diversity. For personalization, we allow clients to learn \textit{compressed personalized models} with different quantization parameters depending on their resources. Towards this, first we propose an algorithm for learning quantized models through a relaxed optimization problem, where quantization values are also optimized over. When each client participating in the (federated) learning process has different requirements of the quantized model (both in value and precision), we formulate a quantized personalization framework by introducing a penalty term for local client objectives against a globally trained model to encourage collaboration. We develop an alternating proximal gradient update for solving this quantized personalization problem, and we analyze its convergence properties. Numerically, we show that optimizing over the quantization levels increases the performance and we validate that QuPeL outperforms both FedAvg and local training of clients in a heterogeneous setting.
翻訳日:2021-02-25 03:01:50 公開日:2021-02-23
# (参考訳) トランスを用いた非監視脳異常検出とセグメンテーション

Unsupervised Brain Anomaly Detection and Segmentation with Transformers ( http://arxiv.org/abs/2102.11650v1 )

ライセンス: CC BY 4.0
Walter Hugo Lopez Pinaya, Petru-Daniel Tudosiu, Robert Gray, Geraint Rees, Parashkev Nachev, Sebastien Ourselin, M. Jorge Cardoso(参考訳) 病理的な脳の外観は、特定の病理学的特徴よりも正常性からの逸脱によって定義される、異常としてのみ認識されるほど不均一である。 医用画像における最も困難な課題のうち、そのような異常を検出するには、コンパクトさと構造組織を特徴づける複雑な長距離相互作用の表現力を組み合わせた正常な脳のモデルが必要である。 これらの要件トランスフォーマーは、現在の他の候補アーキテクチャよりも満足できる可能性が高いが、データや計算資源に対する要求により、その応用は阻害されている。 本稿では,ベクトル量子化変分オートエンコーダの潜在表現と自己回帰トランスフォーマのアンサンブルを組み合わせることで,比較的控えめなデータレジーム内で,正常な脳画像データからの逸脱によって定義された教師なし異常検出とセグメンテーションを実現する。 本手法と現状のアプローチを比較して, 合成病変および実際の病理病変を含む一連の実験を行った。 実際の病変では,UK Biobankの放射線学的に正常な被験者15,000名を対象にモデルをトレーニングし,小血管疾患,脱髄性病変,腫瘍を伴う4種類の脳MRデータセットの性能評価を行った。 画像ワイドと画素ワイドの両方で優れた異常検出性能を示し、後処理なしで達成できることを示す。 これらの結果は、この最も困難なイメージングタスクにおいてトランスフォーマーの可能性に注意を向ける。

Pathological brain appearances may be so heterogeneous as to be intelligible only as anomalies, defined by their deviation from normality rather than any specific pathological characteristic. Amongst the hardest tasks in medical imaging, detecting such anomalies requires models of the normal brain that combine compactness with the expressivity of the complex, long-range interactions that characterise its structural organisation. These are requirements transformers have arguably greater potential to satisfy than other current candidate architectures, but their application has been inhibited by their demands on data and computational resource. Here we combine the latent representation of vector quantised variational autoencoders with an ensemble of autoregressive transformers to enable unsupervised anomaly detection and segmentation defined by deviation from healthy brain imaging data, achievable at low computational cost, within relative modest data regimes. We compare our method to current state-of-the-art approaches across a series of experiments involving synthetic and real pathological lesions. On real lesions, we train our models on 15,000 radiologically normal participants from UK Biobank, and evaluate performance on four different brain MR datasets with small vessel disease, demyelinating lesions, and tumours. We demonstrate superior anomaly detection performance both image-wise and pixel-wise, achievable without post-processing. These results draw attention to the potential of transformers in this most challenging of imaging tasks.
翻訳日:2021-02-25 03:00:37 公開日:2021-02-23
# (参考訳) Online Stochastic Gradient Descentが単一軌道から線形ダイナミカルシステムを学ぶ

Online Stochastic Gradient Descent Learns Linear Dynamical Systems from A Single Trajectory ( http://arxiv.org/abs/2102.11822v1 )

ライセンス: CC BY 4.0
Navid Reyhanian, Jarvis Haupt(参考訳) 本研究では, 安定な時間不変線形力学系の重み行列を, ノイズ測定の単一シーケンスから推定する問題を検討する。 システムを記述する未知の重み行列がブルーノフスキー標準形式である場合、オンラインおよびオフライン確率勾配勾配(SGD)法を用いて、システムの伝達関数に基づいて定式化された方程式の線形系から、システムの基底真さ不明行列を効率的に推定できることを示す。 具体的には、具体的な複雑性境界を導出することにより、SGDは基底真理重みから任意の小さなフロベニウスノルム距離に期待して線型収束することを示す。 私たちの知る限りでは、オンラインおよびオフラインの勾配に基づく1つの軌道から線形力学系における重み行列推定のための線形収束特性を確立する最初の研究である。 提案手法の性能が我々の理論と整合していることを広範な数値テストで検証し、既存の手法と比較して優れた性能を示す。

This work investigates the problem of estimating the weight matrices of a stable time-invariant linear dynamical system from a single sequence of noisy measurements. We show that if the unknown weight matrices describing the system are in Brunovsky canonical form, we can efficiently estimate the ground truth unknown matrices of the system from a linear system of equations formulated based on the transfer function of the system, using both online and offline stochastic gradient descent (SGD) methods. Specifically, by deriving concrete complexity bounds, we show that SGD converges linearly in expectation to any arbitrary small Frobenius norm distance from the ground truth weights. To the best of our knowledge, ours is the first work to establish linear convergence characteristics for online and offline gradient-based iterative methods for weight matrix estimation in linear dynamical systems from a single trajectory. Extensive numerical tests verify that the performance of the proposed methods is consistent with our theory, and show their superior performance relative to existing state of the art methods.
翻訳日:2021-02-25 02:38:10 公開日:2021-02-23
# (参考訳) 連続的一般化ゼロショット学習のためのメタ学習属性自己制御

Meta-Learned Attribute Self-Gating for Continual Generalized Zero-Shot Learning ( http://arxiv.org/abs/2102.11856v1 )

ライセンス: CC BY 4.0
Vinay Kumar Verma, Kevin Liang, Nikhil Mehta, Lawrence Carin(参考訳) ゼロショット学習(ZSL)は、クラス属性を活用することでトレーニング中に目に見えないカテゴリにモデルを一般化するための有望なアプローチであることが示されているが、依然として課題は残っている。 近年、訓練中のクラスに対する偏りに対処するために生成モデルを使用する手法がzslの技術を後押ししているが、これらの生成モデルは訓練に遅く、計算コストがかかる可能性がある。 さらに、従来のZSLメソッドの多くは、目に見えないクラスへのワンタイム適応を想定していますが、実際には、世界は常に変化しており、デプロイされたモデルに一定の調整が必要です。 シーケンシャルなデータストリームを扱う準備ができていないモデルは、破滅的な忘れを経験する可能性が高い。 これら2つの課題を解決するために,メタ継続的ゼロショット学習(MCZSL)手法を提案する。 特に,属性の自己ゲーティングと大規模クラス正規化をメタラーニングベースのトレーニングと組み合わせることで,高コストのジェネレーティブベースアプローチよりもはるかに高速なモデル(>100\times$)をトレーニングしながら,最先端の成果を達成できるのです。 我々は、一般化ゼロショット学習と一般化ゼロショット学習設定の両方において、5つの標準ZSLデータセット(CUB、aPY、AWA1、AWA2、SUN)で実験を行うことによってこれを実証する。

Zero-shot learning (ZSL) has been shown to be a promising approach to generalizing a model to categories unseen during training by leveraging class attributes, but challenges still remain. Recently, methods using generative models to combat bias towards classes seen during training have pushed the state of the art of ZSL, but these generative models can be slow or computationally expensive to train. Additionally, while many previous ZSL methods assume a one-time adaptation to unseen classes, in reality, the world is always changing, necessitating a constant adjustment for deployed models. Models unprepared to handle a sequential stream of data are likely to experience catastrophic forgetting. We propose a meta-continual zero-shot learning (MCZSL) approach to address both these issues. In particular, by pairing self-gating of attributes and scaled class normalization with meta-learning based training, we are able to outperform state-of-the-art results while being able to train our models substantially faster ($>100\times$) than expensive generative-based approaches. We demonstrate this by performing experiments on five standard ZSL datasets (CUB, aPY, AWA1, AWA2 and SUN) in both generalized zero-shot learning and generalized continual zero-shot learning settings.
翻訳日:2021-02-25 02:34:57 公開日:2021-02-23
# (参考訳) 視聴覚話者ローカリゼーションのためのデータ融合:動的ストリーム重みを空間領域に拡張する

Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain ( http://arxiv.org/abs/2102.11588v1 )

ライセンス: CC BY 4.0
Julio Wissing, Benedikt Boenninghoff, Dorothea Kolossa, Tsubasa Ochiaiy, Marc Delcroixy, Keisuke Kinoshitay, Tomohiro Nakataniy, Shoko Arakiy, Christopher Schymura(参考訳) 複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。 どちらのアプリケーションも、例えばビームフォーミングやユニークな話者IDの割り当てなど、既知の話者位置の恩恵を受ける。 近年,視覚データを付加した音響信号を用いた手法がいくつか提案されている。 しかし、例えば照明条件の悪さや背景ノイズの存在などにより、特定の空間領域において音響的・視覚的モダリティが損なわれることがある。 本稿では,個別の動的ストリーム重み付けを局所化空間内の特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。 この融合は、時間と位置に依存した信頼性に基づいて、個々のオーディオとビデオトラッカーの予測を組み合わせるニューラルネットワークを介して達成される。 オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。

Estimating the positions of multiple speakers can be helpful for tasks like automatic speech recognition or speaker diarization. Both applications benefit from a known speaker position when, for instance, applying beamforming or assigning unique speaker identities. Recently, several approaches utilizing acoustic signals augmented with visual data have been proposed for this task. However, both the acoustic and the visual modality may be corrupted in specific spatial regions, for instance due to poor lighting conditions or to the presence of background noise. This paper proposes a novel audiovisual data fusion framework for speaker localization by assigning individual dynamic stream weights to specific regions in the localization space. This fusion is achieved via a neural network, which combines the predictions of individual audio and video trackers based on their time- and location-dependent reliability. A performance evaluation using audiovisual recordings yields promising results, with the proposed fusion approach outperforming all baseline models.
翻訳日:2021-02-25 02:09:32 公開日:2021-02-23
# (参考訳) SISE-PC:説明可能な病理のための半監督画像サブサンプル

SISE-PC: Semi-supervised Image Subsampling for Explainable Pathology ( http://arxiv.org/abs/2102.11560v1 )

ライセンス: CC BY 4.0
Sohini Roychowdhury, Kwok Sun Tang, Mohith Ashok, Anoop Sanka(参考訳) 深層学習 (DL) を用いた自動病理分類は予測的に効率的であることが証明されているが, DL法はデータであり, 計算コストが高いことが判明した。 本研究は,OCT画像の遅延符号化のためのSimCLRコントラスト損失を用いたResnet特徴抽出器の事前学習により,DLトレーニングコストを削減することを目的とする。 我々は,SimCLRラテントエンコーディングのラベル伝搬を用いて,最も不確実なOCT画像サンプルを含む最小限のサブサンプルデータセットを同定する,新しいアクティブラーニングフレームワークを提案する。 事前学習されたResnetモデルはラベル付き最小サンプルデータで微調整され、基礎となる病理部位は視覚的に説明される。 提案手法では,最大97%の分類精度を達成するためにresnetモデルを微調整することが可能な,専門家の注意を要する最も不確実性が最大2%のoct画像を特定する。 提案手法は予測コストを最小化するために他の医用画像にも拡張できる。

Although automated pathology classification using deep learning (DL) has proved to be predictively efficient, DL methods are found to be data and compute cost intensive. In this work, we aim to reduce DL training costs by pre-training a Resnet feature extractor using SimCLR contrastive loss for latent encoding of OCT images. We propose a novel active learning framework that identifies a minimal sub-sampled dataset containing the most uncertain OCT image samples using label propagation on the SimCLR latent encodings. The pre-trained Resnet model is then fine-tuned with the labelled minimal sub-sampled data and the underlying pathological sites are visually explained. Our framework identifies upto 2% of OCT images to be most uncertain that need prioritized specialist attention and that can fine-tune a Resnet model to achieve upto 97% classification accuracy. The proposed method can be extended to other medical images to minimize prediction costs.
翻訳日:2021-02-25 01:21:31 公開日:2021-02-23
# (参考訳) テキスト感情分析のための新しい深層学習法

A Novel Deep Learning Method for Textual Sentiment Analysis ( http://arxiv.org/abs/2102.11651v1 )

ライセンス: CC BY 4.0
Hossein Sadr, Mozhdeh Nazari Solimandarabi, Mir Mohsen Pedram, Mohammad Teshnehlab(参考訳) 感性分析は自然言語処理の分野で最も重要なタスクの1つとして知られており、畳み込みニューラルネットワーク(CNN)はこの目的のために一般的に使用される顕著なモデルの1つである。 近年、畳み込みニューラルネットワークは目覚ましい成果を上げているが、いくつかの制限に直面している。 第一に、文中のすべての単語は文の意味表現に等しく貢献しており、有益な単語を抽出できないと考える。 第二に、十分な結果を得るために大量のトレーニングデータが必要ですが、正確な調整が必要なパラメータはたくさんあります。 この目的のために,情報的単語の抽出と重み付けが可能な階層的注意層と統合された畳み込みニューラルネットワークを提案する。 さらに、ソースドメインで学んだ知識を、パフォーマンスの向上を目的としたターゲットドメインに転送する転送学習の効果についても検討する。 実験結果に基づき, 分類精度が高く, 情報的単語を抽出できるだけでなく, インクリメンタルトランスファー学習を適用すれば, 分類性能が大幅に向上する。

Sentiment analysis is known as one of the most crucial tasks in the field of natural language processing and Convolutional Neural Network (CNN) is one of those prominent models that is commonly used for this aim. Although convolutional neural networks have obtained remarkable results in recent years, they are still confronted with some limitations. Firstly, they consider that all words in a sentence have equal contributions in the sentence meaning representation and are not able to extract informative words. Secondly, they require a large number of training data to obtain considerable results while they have many parameters that must be accurately adjusted. To this end, a convolutional neural network integrated with a hierarchical attention layer is proposed which is able to extract informative words and assign them higher weight. Moreover, the effect of transfer learning that transfers knowledge learned in the source domain to the target domain with the aim of improving the performance is also explored. Based on the empirical results, the proposed model not only has higher classification accuracy and can extract informative words but also applying incremental transfer learning can significantly enhance the classification performance.
翻訳日:2021-02-25 01:13:32 公開日:2021-02-23
# (参考訳) パラフレーズは単語の類似を説明しない

Paraphrases do not explain word analogies ( http://arxiv.org/abs/2102.11749v1 )

ライセンス: CC BY 4.0
Louis Fournier and Ewan Dunbar(参考訳) 多くの種類の分布語埋め込みは(弱く)言語規則性を方向として符号化している(「ジャンプ」と「ジャンプ」の違いは「ウォーク」や「ウォークド」などと同じような方向にある)。 この事実を説明するためにいくつかの試みが行われている。 我々はAllenとHospedalesの最近の理論的説明(ICML, 2019)に反応し、2vecとGloVeは規則性に関わる4つの単語の間の特定のパラフレーズの関係が保持されるたびに言語規則を符号化すると主張している。 我々は、説明が通らないことを実証する:この説明の下で必要な言い換えの関係は、経験的に保持していない。

Many types of distributional word embeddings (weakly) encode linguistic regularities as directions (the difference between "jump" and "jumped" will be in a similar direction to that of "walk" and "walked," and so on). Several attempts have been made to explain this fact. We respond to Allen and Hospedales' recent (ICML, 2019) theoretical explanation, which claims that word2vec and GloVe will encode linguistic regularities whenever a specific relation of paraphrase holds between the four words involved in the regularity. We demonstrate that the explanation does not go through: the paraphrase relations needed under this explanation do not hold empirically.
翻訳日:2021-02-25 01:01:10 公開日:2021-02-23
# (参考訳) ラベルなしグラフニューラルネットワークの動的ラベル付け

Dynamic Labeling for Unlabeled Graph Neural Networks ( http://arxiv.org/abs/2102.11485v1 )

ライセンス: CC BY 4.0
Zeyu Sun, Wenjie Zhang, Lili Mou, Qihao Zhu, Yingfei Xiong, Lu Zhang(参考訳) 既存のグラフニューラルネットワーク(GNN)は、ノードをそのアイデンティティ、タイプ、内容によってベクトルとして表現するノード埋め込みに大きく依存している。 しかし、未ラベルのノードを持つグラフは現実世界のアプリケーション(匿名のソーシャルネットワークなど)に広く存在する。 以前のGNNは、ランダムなラベルをノードに割り当てるか(GNNにアーティファクトを導入する)、1つの埋め込みをすべてのノードに割り当てるか(別のノードを区別できない)。 本稿では,グラフ分類とノード分類という2種類の分類タスクにおける既存手法の限界を解析する。 提案手法は,タスクの各タイプに対して統計的に,あるいは漸近的に所望の特性を満たす動的ラベリングと優先的動的ラベリングの2つの手法を提案する。 実験の結果,様々なグラフ関連タスクにおいて高い性能が得られた。

Existing graph neural networks (GNNs) largely rely on node embeddings, which represent a node as a vector by its identity, type, or content. However, graphs with unlabeled nodes widely exist in real-world applications (e.g., anonymized social networks). Previous GNNs either assign random labels to nodes (which introduces artefacts to the GNN) or assign one embedding to all nodes (which fails to distinguish one node from another). In this paper, we analyze the limitation of existing approaches in two types of classification tasks, graph classification and node classification. Inspired by our analysis, we propose two techniques, Dynamic Labeling and Preferential Dynamic Labeling, that satisfy desired properties statistically or asymptotically for each type of the task. Experimental results show that we achieve high performance in various graph-related tasks.
翻訳日:2021-02-25 00:25:37 公開日:2021-02-23
# (参考訳) ドメイン適応のための決定ルールの抽出

Decision Rule Elicitation for Domain Adaptation ( http://arxiv.org/abs/2102.11539v1 )

ライセンス: CC BY 4.0
Alexander Nikitin and Samuel Kaski(参考訳) human-in-the-loop machine learningは、人工知能(ai)において、専門家からデータポイントのラベルを導き出すために広く使われている。 これは、専門家の意思決定プロセスの詳細をすべて単純化する。 この作業では、専門家が意思決定を説明する決定ルールをさらに作成することができます。ルールは不完全であると予想されますが、追加情報を提供します。 特に、ルールは新しいディストリビューションに拡張できるため、ドメイン適応など、トレーニングとテストのディストリビューションが異なる場合のパフォーマンスを大幅に改善することができます。 提案手法を生涯学習やドメイン適応問題に適用し,エキスパートシステムにおける知識獲得問題など,AIの他の分野への応用について議論する。 シミュレーションおよび実ユーザ研究において、決定規則適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。

Human-in-the-loop machine learning is widely used in artificial intelligence (AI) to elicit labels for data points from experts or to provide feedback on how close the predicted results are to the target. This simplifies away all the details of the decision-making process of the expert. In this work, we allow the experts to additionally produce decision rules describing their decision-making; the rules are expected to be imperfect but to give additional information. In particular, the rules can extend to new distributions, and hence enable significantly improving performance for cases where the training and testing distributions differ, such as in domain adaptation. We apply the proposed method to lifelong learning and domain adaptation problems and discuss applications in other branches of AI, such as knowledge acquisition problems in expert systems. In simulated and real-user studies, we show that decision rule elicitation improves domain adaptation of the algorithm and helps to propagate expert's knowledge to the AI model.
翻訳日:2021-02-25 00:07:48 公開日:2021-02-23
# (参考訳) 再帰分割に基づく因果構造学習の高速化

Accelerating Recursive Partition-Based Causal Structure Learning ( http://arxiv.org/abs/2102.11545v1 )

ライセンス: CC BY 4.0
Md. Musfiqur Rahman, Ayman Rasheed, Md. Mosaddek Khan, Mohammad Ali Javidian, Pooyan Jamshidi and Md. Mamun-Or-Rashid(参考訳) 観測データからの因果構造発見は、医療意思決定支援システム、広告キャンペーン、自動運転車などの自律システムの因果的理解に不可欠である。 これは、それらの現実世界のアプリケーションに関連するよく知られた因果決定と予測問題を解決するために不可欠です。 近年、より小さなサブプロブレムで条件独立試験(CI)を用いて良好な結果が得られるため、再帰因果探索アルゴリズムが研究コミュニティの間で特に注目を集めている。 しかし、これらのアルゴリズムはそれぞれ、発見されたグラフの望ましくない因果関係を取り除くために改良関数を必要とする。 特に、問題サイズの増加に伴い、改良関数の計算コスト(CIテストの数)はアルゴリズムを実際にデプロイするのにコストがかかる。 本稿では,少数のCIテストで望ましくない関係を見つけることができる汎用因果構造改良戦略を提案し,大規模かつ複雑な問題のアルゴリズムを高速化する。 理論的にアルゴリズムの正確性を証明する。 次に,合成および実データ集合における解の質と完了時間の観点から,最先端アルゴリズムに対する性能を実証的に評価する。

Causal structure discovery from observational data is fundamental to the causal understanding of autonomous systems such as medical decision support systems, advertising campaigns and self-driving cars. This is essential to solve well-known causal decision making and prediction problems associated with those real-world applications. Recently, recursive causal discovery algorithms have gained particular attention among the research community due to their ability to provide good results by using Conditional Independent (CI) tests in smaller sub-problems. However, each of such algorithms needs a refinement function to remove undesired causal relations of the discovered graphs. Notably, with the increase of the problem size, the computation cost (i.e., the number of CI-tests) of the refinement function makes an algorithm expensive to deploy in practice. This paper proposes a generic causal structure refinement strategy that can locate the undesired relations with a small number of CI-tests, thus speeding up the algorithm for large and complex problems. We theoretically prove the correctness of our algorithm. We then empirically evaluate its performance against the state-of-the-art algorithms in terms of solution quality and completion time in synthetic and real datasets.
翻訳日:2021-02-24 23:55:30 公開日:2021-02-23
# (参考訳) アクティベーション正則化と仮想補間によるデータ自由反転蒸留の促進

Enhancing Data-Free Adversarial Distillation with Activation Regularization and Virtual Interpolation ( http://arxiv.org/abs/2102.11638v1 )

ライセンス: CC BY 4.0
Xiaoyang Qu, Jianzong Wang, Jing Xiao(参考訳) 知識蒸留(英: knowledge distillation)とは、知識を大きな学習モデルや学習モデルのアンサンブルから小さなモデルに移す技術を指す。 この方法はオリジナルのトレーニングセットへのアクセスに依存するが、必ずしも利用できるとは限らない。 可能な解決策は、教師モデルの知識を学生モデルに転送するために生成ネットワークをデプロイするデータフリーの逆蒸留フレームワークです。 しかし、データフリーの対比蒸留では、データ生成効率は低い。 データ生成効率を向上させるために、アクティベーションレギュレータと仮想補間法を追加します。 アクティベーション規則化により、生徒は、アクティベーション境界と決定境界に近い教師の予測を一致させることができる。 仮想補間法は、決定境界の間の仮想サンプルとラベルを生成することができる。 実験では、最新のデータフリー蒸留法を超えるアプローチが示されています。 学生モデルはCIFAR-10で95.42%、CIFAR-100で77.05%の精度が得られる。 CIFAR-100の最先端データフリー手法よりも精度が13.8%高い。

Knowledge distillation refers to a technique of transferring the knowledge from a large learned model or an ensemble of learned models to a small model. This method relies on access to the original training set, which might not always be available. A possible solution is a data-free adversarial distillation framework, which deploys a generative network to transfer the teacher model's knowledge to the student model. However, the data generation efficiency is low in the data-free adversarial distillation. We add an activation regularizer and a virtual interpolation method to improve the data generation efficiency. The activation regularizer enables the students to match the teacher's predictions close to activation boundaries and decision boundaries. The virtual interpolation method can generate virtual samples and labels in-between decision boundaries. Our experiments show that our approach surpasses state-of-the-art data-free distillation methods. The student model can achieve 95.42% accuracy on CIFAR-10 and 77.05% accuracy on CIFAR-100 without any original training data. Our model's accuracy is 13.8% higher than the state-of-the-art data-free method on CIFAR-100.
翻訳日:2021-02-24 23:35:00 公開日:2021-02-23
# (参考訳) CAC: 分類のためのクラスタリングベースのフレームワーク

CAC: A Clustering Based Framework for Classification ( http://arxiv.org/abs/2102.11872v1 )

ライセンス: CC BY 4.0
Shivin Srivastava, Siddharth Bhatia, Lingxiao Huang, Lim Jun Heng, Kenji Kawaguchi, Vaibhav Rajan(参考訳) 不均質なサブポピュレーションを含むデータでは、分類性能は分類器にクラスタ構造に関する知識を組み込むことで恩恵を受ける。 このようなクラスタリングと分類を組み合わせた従来の方法は、分類器固有のものであり、汎用的あるいは独立的にクラスタリングと分類器のトレーニングを実行するものではない。 クラスタで訓練された分類器のパフォーマンスを改善するためにクラスタリングを実行する方法の問題は、いくつかの実世界のアプリケーションでその重要性にもかかわらず、以前の文献でわずかな注目を集めています。 本稿では,クラスタリングが正確な分類器の獲得にどのように役立つのかを理論的に分析する。 下位のサブポピュレーション毎に分類器によってデータセットをトレーニングするのに適したクラスタを見つけるために、分類認識クラスタリング(cac)と呼ばれる、シンプルで効率的で汎用的なフレームワークを設計した。 本実験は,クラスタリングと分類を併用した従来の手法よりもCACの有効性を示すものである。

In data containing heterogeneous subpopulations, classification performance benefits from incorporating the knowledge of cluster structure in the classifier. Previous methods for such combined clustering and classification either are classifier-specific and not generic or independently perform clustering and classifier training, which may not form clusters that can potentially benefit classifier performance. The question of how to perform clustering to improve the performance of classifiers trained on the clusters has received scant attention in previous literature despite its importance in several real-world applications. In this paper, we theoretically analyze when and how clustering may help in obtaining accurate classifiers. We design a simple, efficient, and generic framework called Classification Aware Clustering (CAC), to find clusters that are well suited for being used as training datasets by classifiers for each underlying subpopulation. Our experiments on synthetic and real benchmark datasets demonstrate the efficacy of CAC over previous methods for combined clustering and classification.
翻訳日:2021-02-24 23:25:23 公開日:2021-02-23
# (参考訳) ダブルロバストなオフポリティ・アクター批判:収束性と最適性

Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality ( http://arxiv.org/abs/2102.11866v1 )

ライセンス: CC BY 4.0
Tengyu Xu, Zhuoran Yang, Zhaoran Wang, Yingbin Liang(参考訳) オフ・ポリシー強化学習アルゴリズムの設計は、望ましいイテレーション更新は、しばしばオン・ポリシー分布に対する期待を伴うため、一般的に非常に難しい課題である。 以前のオフポリシーアクタークリティカル(AC)アルゴリズムは、収束を安定化させるために分布ミスマッチを調整するために密度比を使用する新しい批評家を導入しましたが、密度比と値関数の両方の推定誤差による高バイアスを導入する可能性があるコストで。 本稿では,2つの頑健なオフポリチックAC(DR-Off-PAC)を,学習ニュアンス関数を利用して推定誤差を低減できる割引MDP用に開発する。 さらに、DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しており、2つのタイムスケールまたはネストループ構造を採用する以前のアルゴリズムよりもサンプル効率が高い。 有限時間収束速度を調べ, dr-off-pac のサンプル複雑性を特徴付け, $\epsilon$-accurate optimal policy を得る。 また,dr-off-pacの全体収束は近似関数の表現力のみに依存する近似誤差と二重に頑健であることを示した。 我々の知識を最大限に活用するため,本研究では,単一の時間スケールオフポリシックacアルゴリズムのサンプル複雑性解析を初めて確立する。

Designing off-policy reinforcement learning algorithms is typically a very challenging task, because a desirable iteration update often involves an expectation over an on-policy distribution. Prior off-policy actor-critic (AC) algorithms have introduced a new critic that uses the density ratio for adjusting the distribution mismatch in order to stabilize the convergence, but at the cost of potentially introducing high biases due to the estimation errors of both the density ratio and value function. In this paper, we develop a doubly robust off-policy AC (DR-Off-PAC) for discounted MDP, which can take advantage of learned nuisance functions to reduce estimation errors. Moreover, DR-Off-PAC adopts a single timescale structure, in which both actor and critics are updated simultaneously with constant stepsize, and is thus more sample efficient than prior algorithms that adopt either two timescale or nested-loop structure. We study the finite-time convergence rate and characterize the sample complexity for DR-Off-PAC to attain an $\epsilon$-accurate optimal policy. We also show that the overall convergence of DR-Off-PAC is doubly robust to the approximation errors that depend only on the expressive power of approximation functions. To the best of our knowledge, our study establishes the first overall sample complexity analysis for a single time-scale off-policy AC algorithm.
翻訳日:2021-02-24 23:24:34 公開日:2021-02-23
# (参考訳) imagenetを4gpu時間で検索するニューラルアーキテクチャ:理論的にインスパイアされた視点

Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective ( http://arxiv.org/abs/2102.11535v1 )

ライセンス: CC BY 4.0
Wuyang Chen, Xinyu Gong, Zhangyang Wang(参考訳) ニューラルネットワークの発見を自動化するため、NAS(Neural Architecture Search)が爆発的に研究されている。 現在の作業では,スーパーネットや集中的なアーキテクチャ評価のトレーニングが必要となるため,リソースの消費の増大や,トレーニングの停止や近似による検索バイアスがしばしば発生する。 トレーニングを伴わずに最高のニューラルネットワークアーキテクチャを選択し、検索コストを大幅に削減できますか? トレーニングフリーニューラルアーキテクチャサーチ(TE-NAS)と呼ばれる新しいフレームワークを提案することで、肯定的な答えを提供します。 TE-NASは、ニューラルネットワークカーネル(NTK)のスペクトルと入力空間内の線形領域の数を分析することによってアーキテクチャをランク付けする。 どちらも近年のディープネットワークの進歩に動機付けられており、トレーニングやラベルなしで計算することができる。 1) この2つの測定はニューラルネットワークのトレーサビリティと表現性を示し, (2) ネットワークのテスト精度と強く相関することを示した。 さらに,検索時のトレーサビリティと表現性とのトレードオフをより柔軟かつ優れたものにするために,プルーニングベースのnas機構を設計する。 NAS-Bench-201 と DARTS の検索空間では、TE-NAS は高品質な検索を完了するが、CIFAR-10 では 1080Ti と ImageNet では 0.5 と 4 の GPU 時間しかかからない。 私たちの研究は、深層ネットワークの理論的な知見と実際のnasアプリケーションにおける実用的な影響を橋渡しする試みを刺激することを期待しています。 コードはhttps://github.com/VITA-Group/TENAS.comで入手できる。

Neural Architecture Search (NAS) has been explosively studied to automate the discovery of top-performer neural networks. Current works require heavy training of supernet or intensive architecture evaluations, thus suffering from heavy resource consumption and often incurring search bias due to truncated training or approximations. Can we select the best neural architectures without involving any training and eliminate a drastic portion of the search cost? We provide an affirmative answer, by proposing a novel framework called training-free neural architecture search (TE-NAS). TE-NAS ranks architectures by analyzing the spectrum of the neural tangent kernel (NTK) and the number of linear regions in the input space. Both are motivated by recent theory advances in deep networks and can be computed without any training and any label. We show that: (1) these two measurements imply the trainability and expressivity of a neural network; (2) they strongly correlate with the network's test accuracy. Further on, we design a pruning-based NAS mechanism to achieve a more flexible and superior trade-off between the trainability and expressivity during the search. In NAS-Bench-201 and DARTS search spaces, TE-NAS completes high-quality search but only costs 0.5 and 4 GPU hours with one 1080Ti on CIFAR-10 and ImageNet, respectively. We hope our work inspires more attempts in bridging the theoretical findings of deep networks and practical impacts in real NAS applications. Code is available at: https://github.com/VITA-Group/TENAS.
翻訳日:2021-02-24 23:15:13 公開日:2021-02-23
# (参考訳) リニアトランスは超高速な軽量メモリシステム

Linear Transformers Are Secretly Fast Weight Memory Systems ( http://arxiv.org/abs/2102.11174v2 )

ライセンス: CC BY 4.0
Imanol Schlag, Kazuki Irie, J\"urgen Schmidhuber(参考訳) 線形化自己保持機構とファストウェイト記憶の90年代前半の形式的等価性を示す。 この観察から,近年のリニア化ソフトマックスアテンションのメモリ容量制限を推算する。 有限メモリでは、高速重量メモリモデルの望ましい動作は、メモリの内容を制御し、動的にそれと相互作用することです。 高速重みに関する以前の研究に触発されて、このような振る舞いをもたらす代替ルールに更新ルールを置き換えることを提案する。 また,注意を線形化し,単純さと有効性をバランスさせる新しいカーネル関数を提案する。 本手法の利点を実証するために, 標準機械翻訳および言語モデリングタスクとともに, 合成検索問題に関する実験を行う。

We show the formal equivalence of linearised self-attention mechanisms and fast weight memories from the early '90s. From this observation we infer a memory capacity limitation of recent linearised softmax attention variants. With finite memory, a desirable behaviour of fast weight memory models is to manipulate the contents of memory and dynamically interact with it. Inspired by previous work on fast weights, we propose to replace the update rule with an alternative rule yielding such behaviour. We also propose a new kernel function to linearise attention, balancing simplicity and effectiveness. We conduct experiments on synthetic retrieval problems as well as standard machine translation and language modelling tasks which demonstrate the benefits of our methods.
翻訳日:2021-02-24 22:39:56 公開日:2021-02-23
# (参考訳) 歌声音声認識における音源特徴の活用

The Use of Voice Source Features for Sung Speech Recognition ( http://arxiv.org/abs/2102.10376v2 )

ライセンス: CC BY 4.0
Gerardo Roa Dabike, Jon Barker(参考訳) 本稿では, 発声音源の特徴(ピッチ, シャッター, ジッタなど)が, 自動発声音声認識の性能を向上させることができるかどうかを問う。 まず, 歌唱音声コーパス (nus-48e) を用いて, ピッチ範囲, 音節長, ビブラート, ジッター, シマーなど, 歌唱音声の特徴の違いを示す。 次に,この分析を用いて,歌唱音声dsingコーパスの音声認識実験を行い,アート音響モデルの状況と,各種音源パラメータを用いた従来の特徴の強化を行った。 実験は、DSing1 (15.1時間)、DSing3 (44.7時間)、DSing30 (149.1時間)の3つの標準訓練セットで実施されている。 発声度と組み合わせることで、DSing1のトレーニングではWERが38.1%から36.7%に大幅に減少するが、より多彩なDSing3とDSing30のトレーニングでは統計的に有意ではない。 音声品質特性は認識性能を改善しなかったが、音声/無声音素対の区別の改善に寄与することが分析によって示唆された。

In this paper, we ask whether vocal source features (pitch, shimmer, jitter, etc) can improve the performance of automatic sung speech recognition, arguing that conclusions previously drawn from spoken speech studies may not be valid in the sung speech domain. We first use a parallel singing/speaking corpus (NUS-48E) to illustrate differences in sung vs spoken voicing characteristics including pitch range, syllables duration, vibrato, jitter and shimmer. We then use this analysis to inform speech recognition experiments on the sung speech DSing corpus, using a state of the art acoustic model and augmenting conventional features with various voice source parameters. Experiments are run with three standard (increasingly large) training sets, DSing1 (15.1 hours), DSing3 (44.7 hours) and DSing30 (149.1 hours). Pitch combined with degree of voicing produces a significant decrease in WER from 38.1% to 36.7% when training with DSing1 however smaller decreases in WER observed when training with the larger more varied DSing3 and DSing30 sets were not seen to be statistically significant. Voicing quality characteristics did not improve recognition performance although analysis suggests that they do contribute to an improved discrimination between voiced/unvoiced phoneme pairs.
翻訳日:2021-02-24 22:13:19 公開日:2021-02-23
# (参考訳) WaNet -- 受け入れ難いワープベースのバックドア攻撃

WaNet -- Imperceptible Warping-based Backdoor Attack ( http://arxiv.org/abs/2102.10369v2 )

ライセンス: CC BY 4.0
Anh Nguyen, Anh Tran(参考訳) ディープラーニングの繁栄と事前訓練されたネットワークの使用の広範な実践により、バックドア攻撃は近年多くの研究の関心を引くセキュリティの脅威となっています。 サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。 しかし、既存のバックドア攻撃はすべてノイズの摂動トリガーに基づいており、人間に顕著です。 本稿では,ワーピングに基づくトリガーの使用を提案する。 提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。 このようなモデルをマシンディフェンダーによって検出不能にするために, ``noise mode" と呼ばれる新しいトレーニングモードを提案する。 訓練されたネットワークは、MNIST、CIFAR-10、GTSRB、CelebAといった標準分類データセットの最先端の防衛手法を攻撃および回避することに成功している。 行動分析により,我々のバックドアはネットワーク検査に透過的であり,この新たな攻撃機構の効率性がさらに証明された。

With the thriving of deep learning and the widespread practice of using pre-trained networks, backdoor attacks have become an increasing security threat drawing many research interests in recent years. A third-party model can be poisoned in training to work well in normal conditions but behave maliciously when a trigger pattern appears. However, the existing backdoor attacks are all built on noise perturbation triggers, making them noticeable to humans. In this paper, we instead propose using warping-based triggers. The proposed backdoor outperforms the previous methods in a human inspection test by a wide margin, proving its stealthiness. To make such models undetectable by machine defenders, we propose a novel training mode, called the ``noise mode. The trained networks successfully attack and bypass the state-of-the-art defense methods on standard classification datasets, including MNIST, CIFAR-10, GTSRB, and CelebA. Behavior analyses show that our backdoors are transparent to network inspection, further proving this novel attack mechanism's efficiency.
翻訳日:2021-02-24 22:01:20 公開日:2021-02-23
# HardCoRe-NAS - Hard Constrained diffeRentiable Neural Architecture Search

HardCoRe-NAS: Hard Constrained diffeRentiable Neural Architecture Search ( http://arxiv.org/abs/2102.11646v1 )

ライセンス: Link先を確認
Niv Nayman, Yonathan Aflalo, Asaf Noy, Lihi Zelnik-Manor(参考訳) ニューラルネットワークの現実的な使用には、レイテンシ、エネルギー、メモリなどに関する複数の制約に従う必要があります。 適合するネットワークを見つけるための一般的なアプローチは、制約付きニューラルネットワーク検索(nas)である。 したがって、結果のネットワークはリソース制約に厳密に従わないため、その正確性は損なわれる。 本研究では,期待されるリソース要件の正確な定式化と,検索全体にわたるハード制約を満たすスケーラブルな検索手法に基づく,ハード制約付きdiffeRentiable NAS(HardCoRe-NAS)を導入することで,この問題を解決する。 実験の結果,HardCoRe-NASはNAS法を超越して最先端のアーキテクチャを生成する一方で,チューニングを必要とせず,厳密な資源制約を満たすことがわかった。

Realistic use of neural networks often requires adhering to multiple constraints on latency, energy and memory among others. A popular approach to find fitting networks is through constrained Neural Architecture Search (NAS), however, previous methods enforce the constraint only softly. Therefore, the resulting networks do not exactly adhere to the resource constraint and their accuracy is harmed. In this work we resolve this by introducing Hard Constrained diffeRentiable NAS (HardCoRe-NAS), that is based on an accurate formulation of the expected resource requirement and a scalable search method that satisfies the hard constraint throughout the search. Our experiments show that HardCoRe-NAS generates state-of-the-art architectures, surpassing other NAS methods, while strictly satisfying the hard resource constraints without any tuning required.
翻訳日:2021-02-24 14:13:17 公開日:2021-02-23
# モデルベースドメイン一般化

Model-Based Domain Generalization ( http://arxiv.org/abs/2102.11436v1 )

ライセンス: Link先を確認
Alexander Robey and George J. Pappas and Hamed Hassani(参考訳) 我々は、予測者が関連するトレーニングドメインのファミリーから引き出されたデータに基づいて訓練され、明確で見えないテストドメインでテストされるドメイン一般化の問題を検討する。 この設定には様々なアプローチが提案されているが、最近、既存のアルゴリズムがトレーニング領域よりも経験的リスク最小化(ERM)を一貫して上回ることはないことが示されている。 そこで本論文では,モデルベース領域一般化という領域一般化問題に対する新しいアプローチを提案する。 このアプローチでは、まずトレーニングドメインからのラベルなしデータを使用して、トレーニングドメインから他のドメインにデータをマッピングするマルチモーダルドメイン変換モデルを学びます。 次に,制約付き最適化に基づくドメイン一般化の定式化を提案し,基礎となるドメイン変換モデルの下での分散シフトに対して,トレーニングされた予測器が不変であることを強制する。 最後に,この制約付き最適化問題を効率的に解くための新しいアルゴリズムフレームワークを提案する。 実験では、このアプローチが、WILDS、PACS、ImageNetなど、多くのよく知られ、挑戦的なデータセットでERMとドメイン一般化アルゴリズムの両方よりも優れていることを示しています。 特に、我々のアルゴリズムは、現在提案されているWILDSベンチマークの最新の手法を最大20パーセントのポイントで破った。

We consider the problem of domain generalization, in which a predictor is trained on data drawn from a family of related training domains and tested on a distinct and unseen test domain. While a variety of approaches have been proposed for this setting, it was recently shown that no existing algorithm can consistently outperform empirical risk minimization (ERM) over the training domains. To this end, in this paper we propose a novel approach for the domain generalization problem called Model-Based Domain Generalization. In our approach, we first use unlabeled data from the training domains to learn multi-modal domain transformation models that map data from one training domain to any other domain. Next, we propose a constrained optimization-based formulation for domain generalization which enforces that a trained predictor be invariant to distributional shifts under the underlying domain transformation model. Finally, we propose a novel algorithmic framework for efficiently solving this constrained optimization problem. In our experiments, we show that this approach outperforms both ERM and domain generalization algorithms on numerous well-known, challenging datasets, including WILDS, PACS, and ImageNet. In particular, our algorithms beat the current state-of-the-art methods on the very-recently-proposed WILDS benchmark by up to 20 percentage points.
翻訳日:2021-02-24 14:12:59 公開日:2021-02-23
# 一般サムゲームにおけるstackelberg equilibriaのサンプル効率学習

Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games ( http://arxiv.org/abs/2102.11494v1 )

ライセンス: Link先を確認
Yu Bai, Chi Jin, Huan Wang, Caiming Xiong(参考訳) 経済学や政策作成のような現実世界の応用は、しばしば2つのユニークな特徴を持つマルチエージェントゲームを解くことを伴う:(1)エージェントは本質的に非対称であり、リーダーとフォロワに分割される。 この分野での既存の結果の大部分は対称解の概念(例えば)に焦点を当てている。 ナッシュ平衡)またはゼロサムゲーム。 Nash平衡の非対称なアナログであるStackelberg平衡をサンプルから効率的に学習する方法は、依然として非常にオープンです。 本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。 有限標本を用いて,スタックルバーグ平衡の正確な値と推定値との基本的なギャップを同定する。 次に、上述したギャップに最適な値を持つStackelberg平衡のサンプル効率学習の正の結果を確立する。 サンプルの複雑さは上界と下界の一致と密接な関係にあることを示す。 最後に、学習結果を、フォロワーがマルコフ決定プロセス(MDP)でプレーする設定と、リーダーとフォロワーが同時に行動する設定に拡張します。

Real world applications such as economics and policy making often involve solving multi-agent games with two unique features: (1) The agents are inherently asymmetric and partitioned into leaders and followers; (2) The agents have different reward functions, thus the game is general-sum. The majority of existing results in this field focuses on either symmetric solution concepts (e.g. Nash equilibrium) or zero-sum games. It remains vastly open how to learn the Stackelberg equilibrium -- an asymmetric analog of the Nash equilibrium -- in general-sum games efficiently from samples. This paper initiates the theoretical study of sample-efficient learning of the Stackelberg equilibrium in two-player turn-based general-sum games. We identify a fundamental gap between the exact value of the Stackelberg equilibrium and its estimated version using finite samples, which can not be closed information-theoretically regardless of the algorithm. We then establish a positive result on sample-efficient learning of Stackelberg equilibrium with value optimal up to the gap identified above. We show that our sample complexity is tight with matching upper and lower bounds. Finally, we extend our learning results to the setting where the follower plays in a Markov Decision Process (MDP), and the setting where the leader and the follower act simultaneously.
翻訳日:2021-02-24 14:12:41 公開日:2021-02-23
# 敵対防衛における適応攻撃の自動発見

Automated Discovery of Adaptive Attacks on Adversarial Defenses ( http://arxiv.org/abs/2102.11860v1 )

ライセンス: Link先を確認
Chengyuan Yao, Pavol Bielik, Petar Tsankov, Martin Vechev(参考訳) 敵の防御に対する信頼性の高い評価は難しい課題であり、現在、防御の内側の働きを悪用する攻撃を手作業で行う専門家や、固定された攻撃のアンサンブルに基づくアプローチに限定されている。 私たちの重要な観察は、カスタム攻撃は、関連する攻撃パラメータの微調整、ネットワーク変換、カスタムロス機能などの再利用可能なビルディングブロックのセットで構成されているということです。 この観察に基づいて,再利用可能なビルディングブロック上の探索空間を定義し,適切な組み合わせを探索することで,未知の防御を持つモデルに対する効果的な攻撃を自動的に発見する拡張性フレームワークを提案する。 敵防衛の信頼性評価ツールであるAutoAttackは, 攻撃が強く, 追加の敵防御例(10例)が3.0%-50.8%, 典型的には2倍の速さで, 類似の敵防御効果(13例)が認められた。

Reliable evaluation of adversarial defenses is a challenging task, currently limited to an expert who manually crafts attacks that exploit the defense's inner workings, or to approaches based on ensemble of fixed attacks, none of which may be effective for the specific defense at hand. Our key observation is that custom attacks are composed from a set of reusable building blocks, such as fine-tuning relevant attack parameters, network transformations, and custom loss functions. Based on this observation, we present an extensible framework that defines a search space over these reusable building blocks and automatically discovers an effective attack on a given model with an unknown defense by searching over suitable combinations of these blocks. We evaluated our framework on 23 adversarial defenses and showed it outperforms AutoAttack, the current state-of-the-art tool for reliable evaluation of adversarial defenses: our discovered attacks are either stronger, producing 3.0%-50.8% additional adversarial examples (10 cases), or are typically 2x faster while enjoying similar adversarial robustness (13 cases).
翻訳日:2021-02-24 14:12:01 公開日:2021-02-23
# 画像キャプション生成のためのCNNアーキテクチャの比較評価

Comparative evaluation of CNN architectures for Image Caption Generation ( http://arxiv.org/abs/2102.11506v1 )

ライセンス: Link先を確認
Sulabh Katiyar, Samir Kumar Borgohain(参考訳) 近年のディープラーニングの進歩に伴い、画像キャプション生成はここ数年で大きな進歩を遂げています。 ほとんどの方法は、画像特徴の形で視覚情報を抽出するために転送学習を使用し、事前訓練された畳み込みニューラルネットワークモデルと、キャプション生成モジュールを使用して視覚情報を変換して出力文を生成する。 異なる手法が異なる畳み込みニューラルネットワークアーキテクチャを使用しており、私たちの知る限り、視覚情報を抽出するための異なる畳み込みニューラルネットワークアーキテクチャの相対的有効性を比較する体系的な研究は存在しない。 本研究では,ニューラル画像キャプション生成モデル(nic)とソフトアテンションフレームワーク(soft-attention framework)の2つの一般的な画像キャプション生成フレームワークを用いて,17種類の畳み込みニューラルネットワークを評価した。 我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。

Aided by recent advances in Deep Learning, Image Caption Generation has seen tremendous progress over the last few years. Most methods use transfer learning to extract visual information, in the form of image features, with the help of pre-trained Convolutional Neural Network models followed by transformation of the visual information using a Caption Generator module to generate the output sentences. Different methods have used different Convolutional Neural Network Architectures and, to the best of our knowledge, there is no systematic study which compares the relative efficacy of different Convolutional Neural Network architectures for extracting the visual information. In this work, we have evaluated 17 different Convolutional Neural Networks on two popular Image Caption Generation frameworks: the first based on Neural Image Caption (NIC) generation model and the second based on Soft-Attention framework. We observe that model complexity of Convolutional Neural Network, as measured by number of parameters, and the accuracy of the model on Object Recognition task does not necessarily co-relate with its efficacy on feature extraction for Image Caption Generation task.
翻訳日:2021-02-24 14:11:41 公開日:2021-02-23
# SeqNet:シーケンスベースの階層的場所認識のための学習記述子

SeqNet: Learning Descriptors for Sequence-based Hierarchical Place Recognition ( http://arxiv.org/abs/2102.11603v1 )

ライセンス: Link先を確認
Sourav Garg and Michael Milford(参考訳) 視覚的場所認識(VPR)は、カメラから環境の参照マップに格納された画像に現在の視覚画像をマッチングするタスクである。 初期のvbrシステムは単純な直接画像法や手作りの視覚機能を使用していたが、近年の研究では、より強力な視覚特徴の学習と、何らかのシーケンシャルマッチング/フィルタまたは階層マッチングプロセスによるパフォーマンス向上に重点が置かれている。 いずれの場合も、最初の1枚の画像ベースのシステムの性能は完璧とは程遠いため、シーケンスマッチングや(階層的なシステムの場合)リファインメントの段階に大きなプレッシャーがかかる。 本論文では,単一画像学習ディスクリプタを用いた選択的連続スコア集計を可能にする,短時間学習型シーケンシャルディスクリプタを用いた高性能初期一致仮説生成器を作成する新しいハイブリッドシステムを提案する。 シーケンシャルディスクリプタは、seqnetと呼ばれるテンポラリ畳み込みネットワークを使用して生成され、1次元畳み込みを使用して短い画像シーケンスをエンコードし、参照データセットから対応するテンポラリディスクリプタとマッチングし、場所マッチ仮説の順序リストを提供する。 次に,各パイプラインから短縮された単一画像学習記述子を用いて選択的に逐次スコアアグリゲーションを行い,全体の位置マッチング仮説を生成する。 難解なベンチマークデータセットに関する包括的実験により、同一量のシーケンシャル情報を用いた最新の最先端手法よりも優れた手法が示された。 ソースコードと補足資料はhttps://github.com/oravus/seqnetにある。

Visual Place Recognition (VPR) is the task of matching current visual imagery from a camera to images stored in a reference map of the environment. While initial VPR systems used simple direct image methods or hand-crafted visual features, recent work has focused on learning more powerful visual features and further improving performance through either some form of sequential matcher / filter or a hierarchical matching process. In both cases the performance of the initial single-image based system is still far from perfect, putting significant pressure on the sequence matching or (in the case of hierarchical systems) pose refinement stages. In this paper we present a novel hybrid system that creates a high performance initial match hypothesis generator using short learnt sequential descriptors, which enable selective control sequential score aggregation using single image learnt descriptors. Sequential descriptors are generated using a temporal convolutional network dubbed SeqNet, encoding short image sequences using 1-D convolutions, which are then matched against the corresponding temporal descriptors from the reference dataset to provide an ordered list of place match hypotheses. We then perform selective sequential score aggregation using shortlisted single image learnt descriptors from a separate pipeline to produce an overall place match hypothesis. Comprehensive experiments on challenging benchmark datasets demonstrate the proposed method outperforming recent state-of-the-art methods using the same amount of sequential information. Source code and supplementary material can be found at https://github.com/oravus/seqNet.
翻訳日:2021-02-24 14:11:22 公開日:2021-02-23
# 一般化ゼロショット学習における新機能生成のためのマルチ知識融合

Multi-Knowledge Fusion for New Feature Generation in Generalized Zero-Shot Learning ( http://arxiv.org/abs/2102.11566v1 )

ライセンス: Link先を確認
Hongxin Xiang, Cheng Xie, Ting Zeng, Yun Yang(参考訳) 意味的不整合とドメインシフトの問題から、既存の最先端手法のほとんどはゼロショット学習(ZSL)の満足な結果を得ることができない。 これらの問題を緩和するために,複数知識からより汎用的な特徴を学習するための新しい生成型zsl法を提案する。 提案するMKFNet(Multi-Knowledge Fusion Network)は,複数の知識領域から視覚的特徴を適応的に融合させることで,より関連性の高い意味的特徴を意味-視覚的埋め込みのために訓練し,より汎用的な視覚的特徴を生成する。 適応的遺伝的戦略を持つ新しい特徴生成器(NFG)は,一方において意味情報を豊かにするために用いられ,他方では,MKFNetが生成する視覚的特徴の交叉と見えない視覚的特徴の交叉を大幅に改善する。 実験により,従来のZSL,一般化ZSL,ゼロショット検索など,ZSLタスクの多数のベンチマークにおいて,既存の最先端手法と比較して,本手法の方が優れた性能が得られることを示す。

Suffering from the semantic insufficiency and domain-shift problems, most of existing state-of-the-art methods fail to achieve satisfactory results for Zero-Shot Learning (ZSL). In order to alleviate these problems, we propose a novel generative ZSL method to learn more generalized features from multi-knowledge with continuously generated new semantics in semantic-to-visual embedding. In our approach, the proposed Multi-Knowledge Fusion Network (MKFNet) takes different semantic features from multi-knowledge as input, which enables more relevant semantic features to be trained for semantic-to-visual embedding, and finally generates more generalized visual features by adaptively fusing visual features from different knowledge domain. The proposed New Feature Generator (NFG) with adaptive genetic strategy is used to enrich semantic information on the one hand, and on the other hand it greatly improves the intersection of visual feature generated by MKFNet and unseen visual faetures. Empirically, we show that our approach can achieve significantly better performance compared to existing state-of-the-art methods on a large number of benchmarks for several ZSL tasks, including traditional ZSL, generalized ZSL and zero-shot retrieval.
翻訳日:2021-02-24 14:10:29 公開日:2021-02-23
# オブジェクトカウントのみをラベルとして用いるWeakly-supervised Multi-class Object Localization

Weakly-supervised multi-class object localization using only object counts as labels ( http://arxiv.org/abs/2102.11743v1 )

ライセンス: Link先を確認
Kyle Mills and Isaac Tamblyn(参考訳) 画像内のオブジェクトのインスタンスをローカライズするための、広範なディープニューラルネットワークの使用例を示す。 EDNNは当然、基底真理カウント値のみをラベルとして、マルチクラスカウントを正確に行うことができる。 概念情報、オブジェクトアノテーション、またはピクセル分割情報を提供せずに、ニューラルネットワークは画像内のアイテムの独自の概念表現を定式化することができます。 既存のオブジェクトのカウントのみをラベル付けした画像を使用することで、広範囲のディープニューラルネットワークの構造を利用して、視野内のオブジェクトのローカライズを行うことができる。 訓練されたEDNNは、訓練された画像よりもはるかに大きい画像のオブジェクトをカウントするために使用できることを実証します。 そこで本研究では,MNISTの数値計算データ5点と3次元レンダリングゴムアヒルのデータセット2点を,新たな7つのデータセットとして導入した。 これらのデータセットの大部分では、EDNNはオブジェクトのカウントで99%以上のテストセット精度を実現します。

We demonstrate the use of an extensive deep neural network to localize instances of objects in images. The EDNN is naturally able to accurately perform multi-class counting using only ground truth count values as labels. Without providing any conceptual information, object annotations, or pixel segmentation information, the neural network is able to formulate its own conceptual representation of the items in the image. Using images labelled with only the counts of the objects present,the structure of the extensive deep neural network can be exploited to perform localization of the objects within the visual field. We demonstrate that a trained EDNN can be used to count objects in images much larger than those on which it was trained. In order to demonstrate our technique, we introduce seven new data sets: five progressively harder MNIST digit-counting data sets, and two datasets of 3d-rendered rubber ducks in various situations. On most of these datasets, the EDNN achieves greater than 99% test set accuracy in counting objects.
翻訳日:2021-02-24 14:10:05 公開日:2021-02-23
# MUSBO: 展開制約強化学習のためのモデルベース不確かさ正規化およびサンプル効率的なバッチ最適化

MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch Optimization for Deployment Constrained Reinforcement Learning ( http://arxiv.org/abs/2102.11448v1 )

ライセンス: Link先を確認
DiJia Su, Jason D. Lee, John M. Mulvey, H. Vincent Poor(参考訳) 医療、金融、ロボティクス、レコメンデーションシステムといった現代の多くのアプリケーションでは、データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非実用的かのいずれかである。 我々は、純粋なオフライン強化学習(RL)と純粋なオンラインRLの間に、データサンプリングのためのポリシーデプロイメントの数を制限する、配置制約付きRLという設定について検討する。 この課題を解決するために,モデルベース不確実性正規化とサンプル効率バッチ最適化(MUSBO)と呼ばれる新しいアルゴリズム学習フレームワークを提案する。 本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。 各オフライントレーニングセッションでは、収集したデータ内の不確実性量を定量化し、ポリシー更新をブートストラップします。 高いサポート領域(低い不確実性)では、積極的な更新をすることで政策を奨励します。 低サポート領域(高い不確実性)では、ポリシーが分散領域にブートストラップすると、推定の不確かさの定量化によってそれを下げます。 実験結果から,MUSBOは配置制約付きRL設定における最先端性能を実現することが示された。

In many contemporary applications such as healthcare, finance, robotics, and recommendation systems, continuous deployment of new policies for data collection and online learning is either cost ineffective or impractical. We consider a setting that lies between pure offline reinforcement learning (RL) and pure online RL called deployment constrained RL in which the number of policy deployments for data sampling is limited. To solve this challenging task, we propose a new algorithmic learning framework called Model-based Uncertainty regularized and Sample Efficient Batch Optimization (MUSBO). Our framework discovers novel and high quality samples for each deployment to enable efficient data collection. During each offline training session, we bootstrap the policy update by quantifying the amount of uncertainty within our collected data. In the high support region (low uncertainty), we encourage our policy by taking an aggressive update. In the low support region (high uncertainty) when the policy bootstraps into the out-of-distribution region, we downweight it by our estimated uncertainty quantification. Experimental results show that MUSBO achieves state-of-the-art performance in the deployment constrained RL setting.
翻訳日:2021-02-24 14:09:07 公開日:2021-02-23
# シーケンスモデリングのためのモデル-アテンティブアンサンブル学習

Model-Attentive Ensemble Learning for Sequence Modeling ( http://arxiv.org/abs/2102.11500v1 )

ライセンス: Link先を確認
Victor D. Bourgin, Ioana Bica, Mihaela van der Schaar(参考訳) 医用時系列データセットには、予測タスクを難しくするユニークな特徴がある。 特に、患者の軌跡には、一般に時間的条件シフトと呼ばれる、入出力関係の縦方向の変動がしばしば含まれます。 このような時間変化分布に適応可能なシーケンスモデルの設計は、依然として一般的な問題である。 そこで本研究では,シーケンスモデリングのためのモデル指向アンサンブル学習(maes)を提案する。 MAESは、異なるシーケンスダイナミクスの専門家を専門とし、予測を適応的に重み付けるために、注目ベースのゲーティングメカニズムを利用する時系列の専門家の混合物です。 MAESが時系列シフトを受けるデータセットの人気シーケンスモデルを大幅に上回ることを示す。

Medical time-series datasets have unique characteristics that make prediction tasks challenging. Most notably, patient trajectories often contain longitudinal variations in their input-output relationships, generally referred to as temporal conditional shift. Designing sequence models capable of adapting to such time-varying distributions remains a prevailing problem. To address this we present Model-Attentive Ensemble learning for Sequence modeling (MAES). MAES is a mixture of time-series experts which leverages an attention-based gating mechanism to specialize the experts on different sequence dynamics and adaptively weight their predictions. We demonstrate that MAES significantly out-performs popular sequence models on datasets subject to temporal shift.
翻訳日:2021-02-24 14:08:46 公開日:2021-02-23
# GAIT-propで学習をスケールアップ

Scaling up learning with GAIT-prop ( http://arxiv.org/abs/2102.11598v1 )

ライセンス: Link先を確認
Sander Dalm, Nasir Ahmad, Luca Ambrogioni, Marcel van Gerven(参考訳) backpropagation of error (bp) は広く使われ、非常に成功した学習アルゴリズムである。 しかし、エラーグラデーションの伝播における非局所情報への依存は、脳内で学習する可能性は低いと思われます。 過去10年間で、より生物学的に有理な計算がbpの近似に使用できるかどうかの判断に焦点が当てられた多くの研究が行われている。 この研究は、局所的な学習アルゴリズムであるGradient Adjusted Incremental Target Propagation (GAIT-prop)に基づいており、最近、BPを生物学的に証明可能な方法で近似することが示されている。 本手法は, 局所的, 層単位の重み更新ターゲットを構築し, 信頼性の高い信用代入を可能にする。 しかし、ディープネットワークでは、GAIT-propによって計算された局所的な重量更新は、BPから多くの理由で逸脱することがある。 ここでは、このようなエラーの原因を克服するためのメソッドを提供し、テストする。 特に、局所計算誤差を適応的に再スケールし、CIFAR-10データセットに適用すると、GAIT-propアルゴリズムの性能と安定性が著しく向上することを示す。

Backpropagation of error (BP) is a widely used and highly successful learning algorithm. However, its reliance on non-local information in propagating error gradients makes it seem an unlikely candidate for learning in the brain. In the last decade, a number of investigations have been carried out focused upon determining whether alternative more biologically plausible computations can be used to approximate BP. This work builds on such a local learning algorithm - Gradient Adjusted Incremental Target Propagation (GAIT-prop) - which has recently been shown to approximate BP in a manner which appears biologically plausible. This method constructs local, layer-wise weight update targets in order to enable plausible credit assignment. However, in deep networks, the local weight updates computed by GAIT-prop can deviate from BP for a number of reasons. Here, we provide and test methods to overcome such sources of error. In particular, we adaptively rescale the locally-computed errors and show that this significantly increases the performance and stability of the GAIT-prop algorithm when applied to the CIFAR-10 dataset.
翻訳日:2021-02-24 14:08:36 公開日:2021-02-23
# 回転機械の教師なし故障検出と診断のための説明可能な人工知能アプローチ

An Explainable Artificial Intelligence Approach for Unsupervised Fault Detection and Diagnosis in Rotating Machinery ( http://arxiv.org/abs/2102.11848v1 )

ライセンス: Link先を確認
Lucas Costa Brito, Gian Antonio Susto, Jorge Nei Brito, Marcus Antonio Viana Duarte(参考訳) 回転機械の監視は、今日の生産プロセスにおいて重要な課題である。 現在、いくつかの機械学習とディープラーニングベースのモジュールは、故障の検出と診断において優れた結果を達成しています。 それでも、ユーザの採用と普及をさらに増やすためには、ユーザと人間の専門家に、モジュールによる説明と洞察を提供する必要がある。 もう1つの問題は、ほとんどの場合、教師付きモデルの使用を不可能にするラベル付き履歴データが利用できないことである。 そこで, 回転機械の故障検出と診断のための新しい手法を提案する。 この手法は,特徴抽出,障害検出,障害診断の3つの部分からなる。 第1部では、時間領域と周波数領域の振動特性を抽出します。 次に、異常検出において、異常検出アルゴリズムに基づいて教師なしの方法で障害の有無を検証する。 方法論のモジュール化により、異なるアルゴリズムを実装できる。 最後に、故障診断では、ブラックボックスモデルを解釈する技術であるShapley Additive Explanations(SHAP)が使用される。 モデル説明性によって得られた特徴重要度ランキングにより、故障診断を行う。 非教師なし分類と根本原因分析の2つの診断ツールが提案されている。 提案手法の有効性は, 回転機械の機械故障が異なる3つのデータセットに示される。 この研究はまた、機械学習の説明可能性に使用されるモデルの比較も示している:SHAPとローカル深さベースのアイソレーションフォレスト(LocalDIFFI)の機能重要度。 最後に、回転機械におけるいくつかの最先端異常検出アルゴリズムの分析を含む。

The monitoring of rotating machinery is an essential task in today's production processes. Currently, several machine learning and deep learning-based modules have achieved excellent results in fault detection and diagnosis. Nevertheless, to further increase user adoption and diffusion of such technologies, users and human experts must be provided with explanations and insights by the modules. Another issue is related, in most cases, with the unavailability of labeled historical data that makes the use of supervised models unfeasible. Therefore, a new approach for fault detection and diagnosis in rotating machinery is here proposed. The methodology consists of three parts: feature extraction, fault detection and fault diagnosis. In the first part, the vibration features in the time and frequency domains are extracted. Secondly, in the fault detection, the presence of fault is verified in an unsupervised manner based on anomaly detection algorithms. The modularity of the methodology allows different algorithms to be implemented. Finally, in fault diagnosis, Shapley Additive Explanations (SHAP), a technique to interpret black-box models, is used. Through the feature importance ranking obtained by the model explainability, the fault diagnosis is performed. Two tools for diagnosis are proposed, namely: unsupervised classification and root cause analysis. The effectiveness of the proposed approach is shown on three datasets containing different mechanical faults in rotating machinery. The study also presents a comparison between models used in machine learning explainability: SHAP and Local Depth-based Feature Importance for the Isolation Forest (Local- DIFFI). Lastly, an analysis of several state-of-art anomaly detection algorithms in rotating machinery is included.
翻訳日:2021-02-24 14:08:18 公開日:2021-02-23
# ユニタリ重みを持つ深層畳み込みニューラルネットワーク

Deep Convolutional Neural Networks with Unitary Weights ( http://arxiv.org/abs/2102.11855v1 )

ライセンス: Link先を確認
Hao-Yuan Chang, Kang L. Wang (University of California, Los Angeles)(参考訳) 正規化は、ディープニューラルネットワークにおける爆発的および消滅的な勾配問題を修正することを目的としているが、データセット統計に依存するため、速度や精度の欠点がある。 本研究は,内在的に安定な神経系を構築するためのリー群から導かれるユニタリシナプス重みに基づく新しい手法の包括的研究である。 ここでは,ユニタリ畳み込みニューラルネットワークが,競合予測精度を維持しつつ推論速度を最大32%高速化することを示す。 正方形シナプス重みに制限された先行技術とは異なり、ユニタリネットワークを任意の大きさと次元の重みに拡張する。

While normalizations aim to fix the exploding and vanishing gradient problem in deep neural networks, they have drawbacks in speed or accuracy because of their dependency on the data set statistics. This work is a comprehensive study of a novel method based on unitary synaptic weights derived from Lie Group to construct intrinsically stable neural systems. Here we show that unitary convolutional neural networks deliver up to 32% faster inference speeds while maintaining competitive prediction accuracy. Unlike prior arts restricted to square synaptic weights, we expand the unitary networks to weights of any size and dimension.
翻訳日:2021-02-24 14:08:01 公開日:2021-02-23
# 事前学習型言語モデルを用いたログデータのロバストと転送可能な異常検出

Robust and Transferable Anomaly Detection in Log Data using Pre-Trained Language Models ( http://arxiv.org/abs/2102.11570v1 )

ライセンス: Link先を確認
Harold Ott, Jasmin Bogatinovski, Alexander Acker, Sasho Nedelkoski, Odej Kao(参考訳) クラウドのような大規模コンピュータシステムにおける異常や障害は、情報を伝える、計算し、保存する多くのユーザに影響を与える。 したがって, 信頼性, セキュリティ, 安全操作, 損失軽減のためには, 時間的かつ正確な異常検出が必要である。 近年,ソフトウェア産業の進化は,(1)ソフトウェアアップグレードに伴うソフトウェア進化に対処すること,(2)興味あるシステムからのデータが入手できないコールドスタート問題の解決など,取り組まなければならない問題のいくつかを解決している。 本稿では,システム情報の主要なトラブルシューティング源として,ログデータの異常検出のためのフレームワークを提案する。 そのために、事前訓練された汎用言語モデルを用いてログメッセージの意味を保存し、それらをログベクトル埋め込みにマッピングする。 重要なアイデアは、ログのこれらの表現は堅牢であり、ログの変更に不変ではないため、異常検出モデルのより良い一般化をもたらすということです。 BERT、GPT-2、XLなどの数値ログ表現を得るために、異なる言語モデルを評価するクラウドデータセット上でいくつかの実験を行います。 セマンティクスの変化をシミュレートするために、ログメッセージを徐々に変更することでロバスト性を評価する。 その結果,提案手法は高い性能と頑健性を実現し,今後の研究の可能性を開くことができた。

Anomalies or failures in large computer systems, such as the cloud, have an impact on a large number of users that communicate, compute, and store information. Therefore, timely and accurate anomaly detection is necessary for reliability, security, safe operation, and mitigation of losses in these increasingly important systems. Recently, the evolution of the software industry opens up several problems that need to be tackled including (1) addressing the software evolution due software upgrades, and (2) solving the cold-start problem, where data from the system of interest is not available. In this paper, we propose a framework for anomaly detection in log data, as a major troubleshooting source of system information. To that end, we utilize pre-trained general-purpose language models to preserve the semantics of log messages and map them into log vector embeddings. The key idea is that these representations for the logs are robust and less invariant to changes in the logs, and therefore, result in a better generalization of the anomaly detection models. We perform several experiments on a cloud dataset evaluating different language models for obtaining numerical log representations such as BERT, GPT-2, and XL. The robustness is evaluated by gradually altering log messages, to simulate a change in semantics. Our results show that the proposed approach achieves high performance and robustness, which opens up possibilities for future research in this direction.
翻訳日:2021-02-24 14:07:50 公開日:2021-02-23
# 適切な誘導性ビアーゼを付加した決定論的ニューラルネットワークによるてんかんとアラート性不確かさの把握

Deterministic Neural Networks with Appropriate Inductive Biases Capture Epistemic and Aleatoric Uncertainty ( http://arxiv.org/abs/2102.11582v1 )

ライセンス: Link先を確認
Jishnu Mukhoti, Andreas Kirsch, Joost van Amersfoort, Philip H.S. Torr, Yarin Gal(参考訳) 本研究では, 最小変化のソフトマックスニューラルネットが, ディープアンサンブルやより複雑なシングルフォワードパス不確実性アプローチの不確実性予測に匹敵することを示した。 ソフトマックスニューラルネットは、OoDポイントが任意に外挿され、特徴的崩壊に苦しむため、確実にてんかん不確実性を捉えることができない。 この結果、OoD点に対する任意のソフトマックスのエントロピーは、高いエントロピー、低い、あるいはその中間にあるあらゆるものを持つことができる。 そこで本研究では, 適切な誘導バイアスにより, 最大精度で訓練したソフトマックスニューラルネットワークが, 特徴空間密度を通じて, 不確実性を確実に捉えていることを示す。 この密度はガウス判別解析を用いて得られるが、不確実性を解くことはできない。 我々は、この密度とソフトマックスエントロピーを組み合わせることが必要であることを示しています。 活発な学習のために CIFAR-10 vs SVHNでSOTA ~0.98 AUROCを得るアクティブラーニングとOoD検出における骨粗さの質を検討する。

We show that a single softmax neural net with minimal changes can beat the uncertainty predictions of Deep Ensembles and other more complex single-forward-pass uncertainty approaches. Softmax neural nets cannot capture epistemic uncertainty reliably because for OoD points they extrapolate arbitrarily and suffer from feature collapse. This results in arbitrary softmax entropies for OoD points which can have high entropy, low, or anything in between. We study why, and show that with the right inductive biases, softmax neural nets trained with maximum likelihood reliably capture epistemic uncertainty through the feature-space density. This density is obtained using Gaussian Discriminant Analysis, but it cannot disentangle uncertainties. We show that it is necessary to combine this density with the softmax entropy to disentangle aleatoric and epistemic uncertainty -- crucial e.g. for active learning. We examine the quality of epistemic uncertainty on active learning and OoD detection, where we obtain SOTA ~0.98 AUROC on CIFAR-10 vs SVHN.
翻訳日:2021-02-24 14:07:09 公開日:2021-02-23
# ASAM(Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning of Deep Neural Networks)

ASAM: Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning of Deep Neural Networks ( http://arxiv.org/abs/2102.11600v1 )

ライセンス: Link先を確認
Jungmin Kwon, Jeongseop Kim, Hyunseo Park and In Kwon Choi(参考訳) 近年,一般化ギャップの有効な尺度として,損失面の鋭さを動機とする学習アルゴリズムが最先端のパフォーマンスを示している。 それでも、固定半径の剛性領域で定義されるシャープネスは、損失が影響を受けないパラメータ再スケーリングに対する感度の欠点があり、シャープネスと一般化ギャップの接続が弱まる。 本稿では,スケール不変である適応シャープネスの概念を導入し,対応する一般化境界を提案する。 本稿では,適応的シャープネス認識最小化(ASAM)という新たな学習手法を提案する。 各種ベンチマークデータセットの実験結果から,ASAMはモデル一般化性能の大幅な向上に寄与することが示された。

Recently, learning algorithms motivated from sharpness of loss surface as an effective measure of generalization gap have shown state-of-the-art performances. Nevertheless, sharpness defined in a rigid region with a fixed radius, has a drawback in sensitivity to parameter re-scaling which leaves the loss unaffected, leading to weakening of the connection between sharpness and generalization gap. In this paper, we introduce the concept of adaptive sharpness which is scale-invariant and propose the corresponding generalization bound. We suggest a novel learning method, adaptive sharpness-aware minimization (ASAM), utilizing the proposed generalization bound. Experimental results in various benchmark datasets show that ASAM contributes to significant improvement of model generalization performance.
翻訳日:2021-02-24 14:06:47 公開日:2021-02-23
# 自動車ルーティング問題に対するDeep Policy Dynamic Programming

Deep Policy Dynamic Programming for Vehicle Routing Problems ( http://arxiv.org/abs/2102.11756v1 )

ライセンス: Link先を確認
Wouter Kool, Herke van Hoof, Joaquim Gromicho and Max Welling(参考訳) ルーティング問題は、多くの実用的な応用を伴う組合せ問題の一種である。 近年,このような問題に対する近似解ヒューリスティックスを学ぶために,エンドツーエンドのディープラーニング手法が提案されている。 対照的に、古典的動的プログラミング (DP) アルゴリズムは最適解を見つけることができるが、問題のサイズに悪影響を及ぼす。 学習したニューラルヒューリスティックの強みとDPアルゴリズムの強みを組み合わせることを目的としたDeep Policy Dynamic Programming(DPDP)を提案する。 DPDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。 我々は、旅行セールスマン問題(TSP)と車両ルーティング問題(VRP)の枠組みを評価し、ニューラルネットワークが(制限された)DPアルゴリズムの性能を改善し、LKHのような強力な代替品と競合し、TSPやVRPを100ノードで解くための他の「神経的アプローチ」よりも優れていることを示す。

Routing problems are a class of combinatorial problems with many practical applications. Recently, end-to-end deep learning methods have been proposed to learn approximate solution heuristics for such problems. In contrast, classical dynamic programming (DP) algorithms can find optimal solutions, but scale badly with the problem size. We propose Deep Policy Dynamic Programming (DPDP), which aims to combine the strengths of learned neural heuristics with those of DP algorithms. DPDP prioritizes and restricts the DP state space using a policy derived from a deep neural network, which is trained to predict edges from example solutions. We evaluate our framework on the travelling salesman problem (TSP) and the vehicle routing problem (VRP) and show that the neural policy improves the performance of (restricted) DP algorithms, making them competitive to strong alternatives such as LKH, while also outperforming other `neural approaches' for solving TSPs and VRPs with 100 nodes.
翻訳日:2021-02-24 14:06:33 公開日:2021-02-23
# 最大確率で訓練されたEBMは、自己逆転損失で訓練されたジェネレータモデルである

EBMs Trained with Maximum Likelihood are Generator Models Trained with a Self-adverserial Loss ( http://arxiv.org/abs/2102.11757v1 )

ライセンス: Link先を確認
Zhisheng Xiao, Qing Yan, Yali Amit(参考訳) 最大確率推定は、エネルギーベースモデル(EBM)の訓練に広く用いられている。 トレーニングには、通常難易度の高い非正規分布のサンプルが必要であり、実際にはランゲビンダイナミクスなどのMCMCアルゴリズムによって取得されます。 しかし、高次元空間におけるMCMCの収束は非常に遅いため、モデルから近似サンプルを抽出できると仮定した最大極大トレーニングの現在の理解は問題となる。 本稿では、Langevinダイナミクスを関連する勾配降下ODEの決定論的解に置き換えることで、このトレーニング手順を理解することを試みる。 そうすることで、ダイナミクスによって誘導される密度(ダイナミクスが反転可能であれば)を研究し、ダイナミクスをジェネレータモデルとして扱うことでGANと接続し、初期値を潜在変数として扱い、その勾配を通じて発電機を決定する全く同じエネルギーによって定義される批評家を最適化するように損失します。 したがって、用語 - 自己逆転損失。 本研究では, 騒音の再導入は, 動作の質的変化を招き得ず, ジェネレータの品質を低下させるだけであることを示す。 そこで, EBMトレーニングは, 最大確率推定よりも, 事実上自己反逆的処置であることを示す。

Maximum likelihood estimation is widely used in training Energy-based models (EBMs). Training requires samples from an unnormalized distribution, which is usually intractable, and in practice, these are obtained by MCMC algorithms such as Langevin dynamics. However, since MCMC in high-dimensional space converges extremely slowly, the current understanding of maximum likelihood training, which assumes approximate samples from the model can be drawn, is problematic. In this paper, we try to understand this training procedure by replacing Langevin dynamics with deterministic solutions of the associated gradient descent ODE. Doing so allows us to study the density induced by the dynamics (if the dynamics are invertible), and connect with GANs by treating the dynamics as generator models, the initial values as latent variables and the loss as optimizing a critic defined by the very same energy that determines the generator through its gradient. Hence the term - self-adversarial loss. We show that reintroducing the noise in the dynamics does not lead to a qualitative change in the behavior, and merely reduces the quality of the generator. We thus show that EBM training is effectively a self-adversarial procedure rather than maximum likelihood estimation.
翻訳日:2021-02-24 14:06:15 公開日:2021-02-23
# Greedy Multi-step Off-Policy Reinforcement Learning

Greedy Multi-step Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2102.11717v1 )

ライセンス: Link先を確認
Yuhui Wang, Pengcheng He, Xiaoyang Tan(参考訳) 多段階オフポリシー強化学習は大きな成功を収めました。 しかし、既存のマルチステップ法は通常ブートストラップのステップに固定前処理を課すが、オフポリシー法は特定の望ましくない影響に苦しむ追加の修正を必要とする。 そこで本論文では, ブートストラップ値の最大値を段階的に勾配的に取得する, 新たなブートストラップ法を提案する。 1)データの品質と学習値関数に基づいてブートストラップステップを柔軟に調整することができ、2)任意の行動方針のデータを、その品質や「オフポリシ性」に関係なく、追加修正することなく、安全かつ堅牢に活用することができる。 関連演算子の理論特性を分析し、従来のベルマン最適演算子よりも速い比率で、グローバルな最適値関数に収束できることを示します。 さらに、この新しい演算子に基づいて、Greedy Multi-Step Q Learning(およびGreedy Multi-Step DQN)という新しいモデルフリーRLアルゴリズムを導出する。 実験の結果,提案手法は信頼性が高く,実装が容易で,一連の標準ベンチマークデータセット上での最先端のパフォーマンスを実現していることがわかった。

Multi-step off-policy reinforcement learning has achieved great success. However, existing multi-step methods usually impose a fixed prior on the bootstrap steps, while the off-policy methods often require additional correction, suffering from certain undesired effects. In this paper, we propose a novel bootstrapping method, which greedily takes the maximum value among the bootstrapping values with varying steps. The new method has two desired properties:1) it can flexibly adjust the bootstrap step based on the quality of the data and the learned value function; 2) it can safely and robustly utilize data from arbitrary behavior policy without additional correction, whatever its quality or "off-policyness". We analyze the theoretical properties of the related operator, showing that it is able to converge to the global optimal value function, with a ratio faster than the traditional Bellman Optimality Operator. Furthermore, based on this new operator, we derive new model-free RL algorithms named Greedy Multi-Step Q Learning (and Greedy Multi-step DQN). Experiments reveal that the proposed methods are reliable, easy to implement, and achieve state-of-the-art performance on a series of standard benchmark datasets.
翻訳日:2021-02-24 14:05:39 公開日:2021-02-23
# ハードノックの学派: 計算予算を固定したポンマーマンのカリキュラム分析

School of hard knocks: Curriculum analysis for Pommerman with a fixed computational budget ( http://arxiv.org/abs/2102.11762v1 )

ライセンス: Link先を確認
Omkar Shelke, Hardik Meisheri, Harshad Khadilkar(参考訳) Pommermanは、部分的な可観測性、通信の制限またはなし、報酬のスパースと遅延、および制限された計算時間制限の点で困難な特性を持つハイブリッド協調/逆マルチエージェント環境です。 これにより、強化学習(RL)アプローチの難しい環境になる。 本稿では,定型的基本方針(ノイズの多い専門家政策を模倣する訓練)から始まる,制約付き10,000試合の計算予算で,堅牢で有望な政策を学習するためのカリキュラムの開発に焦点をあてる。 基本方針から始まる全てのRLアルゴリズムは、同じ報酬関数を持つバニラ近似-ポリチ最適化(PPO)を使用し、トレーニングの唯一の違いは、対立するポリシーの混合と順序である。 より単純な相手とのトレーニングを開始し、徐々に相手の難易度を増すと、学習の迅速化が期待され、利用可能なすべての相手ポリシーが最初から導入されるベースラインと比較して、より堅牢なポリシーが導かれる。 我々は、この仮説を検証し、制約された計算予算の中で、事実上「ハードノックの学派で学ぶ」こと、すなわち、ほぼ最初から利用可能な全ての反対の政策に対して、より良いことを示します。 また、アンモのベース環境特性や爆破強度がエージェント性能に及ぼす影響を研究するアブレーション研究も実施しています。

Pommerman is a hybrid cooperative/adversarial multi-agent environment, with challenging characteristics in terms of partial observability, limited or no communication, sparse and delayed rewards, and restrictive computational time limits. This makes it a challenging environment for reinforcement learning (RL) approaches. In this paper, we focus on developing a curriculum for learning a robust and promising policy in a constrained computational budget of 100,000 games, starting from a fixed base policy (which is itself trained to imitate a noisy expert policy). All RL algorithms starting from the base policy use vanilla proximal-policy optimization (PPO) with the same reward function, and the only difference between their training is the mix and sequence of opponent policies. One expects that beginning training with simpler opponents and then gradually increasing the opponent difficulty will facilitate faster learning, leading to more robust policies compared against a baseline where all available opponent policies are introduced from the start. We test this hypothesis and show that within constrained computational budgets, it is in fact better to "learn in the school of hard knocks", i.e., against all available opponent policies nearly from the start. We also include ablation studies where we study the effect of modifying the base environment properties of ammo and bomb blast strength on the agent performance.
翻訳日:2021-02-24 14:05:16 公開日:2021-02-23
# リレーショナルデータマトリックスにおける双子数に対する適合性試験

Goodness-of-fit Test on the Number of Biclusters in Relational Data Matrix ( http://arxiv.org/abs/2102.11658v1 )

ライセンス: Link先を確認
Chihiro Watanabe, Taiji Suzuki(参考訳) Biclusteringは与えられた観察されたマトリックスの均質なサブマトリックスを検出する問題であり、リレーショナルデータ分析の効果的なツールであることが示されています。 行列の基盤となる二クラスター構造を推定するための多くの研究があるが、観測された行列の適切な数の二クラスターを決定できるものは少ない。 近年,正規グリッド型バイクラスタ構造において,遅延型バイクラスタ構造を行列クラスタリングで表現できると仮定した,バイクラスタ数に関する統計的テストが提案されている。 しかし、潜在二クラスター構造がそのような正規格子の仮定を満たしていない場合、以前のテストでは、ヌル仮説が受け入れられるにはあまりにも多くの二クラスター(すなわち、より細かい二クラスター構造)が必要である。 本稿では,正規格子の仮定を必要としないビクラスタ数に関する新しい統計テストを提案し,ヌルおよびオルタナティブのいずれにおいても,提案した検定統計量の漸近的挙動を導出する。 提案手法を考案するために, 一貫性のある部分行列局在化アルゴリズム, すなわち, 正しい二クラスター構造を出力する確率を 1 に収束させる。 本手法を合成および実用的な関係データ行列に適用することにより,提案手法の有効性を示す。

Biclustering is a problem to detect homogeneous submatrices in a given observed matrix, and it has been shown to be an effective tool for relational data analysis. Although there have been many studies for estimating the underlying bicluster structure of a matrix, few have enabled us to determine the appropriate number of biclusters in an observed matrix. Recently, a statistical test on the number of biclusters has been proposed for a regular-grid bicluster structure, where we assume that the latent bicluster structure can be represented by row-column clustering. However, when the latent bicluster structure does not satisfy such regular-grid assumption, the previous test requires too many biclusters (i.e., finer bicluster structure) for the null hypothesis to be accepted, which is not desirable in terms of interpreting the accepted bicluster structure. In this paper, we propose a new statistical test on the number of biclusters that does not require the regular-grid assumption, and derive the asymptotic behavior of the proposed test statistic in both null and alternative cases. To develop the proposed test, we construct a consistent submatrix localization algorithm, that is, the probability that it outputs the correct bicluster structure converges to one. We show the effectiveness of the proposed method by applying it to both synthetic and practical relational data matrices.
翻訳日:2021-02-24 14:04:39 公開日:2021-02-23
# 高次元ガウス混合体を分類する:カーネル法が失敗しニューラルネットワークが成功する場所

Classifying high-dimensional Gaussian mixtures: Where kernel methods fail and neural networks succeed ( http://arxiv.org/abs/2102.11742v1 )

ライセンス: Link先を確認
Maria Refinetti, Sebastian Goldt, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 最近の一連の理論研究は、特定の初期化を伴うニューラルネットワークのダイナミクスがカーネル法によってうまく獲得されていることを示した。 並行実験により、カーネルメソッドがいくつかの画像分類タスクでニューラルネットワークの性能に近づくことが証明された。 これらの結果は、ニューラルネットワークがより表現力があるにもかかわらず、カーネルがうまく学習できるかどうかという疑問を提起する。 ここでは,数個の隠れニューロンしか持たない2層ニューラルネットワーク(2LNN)が,単純なガウス混合分類タスクにおいて,カーネル学習の性能を上回ることを理論的に示す。 本研究では, サンプル数が入力次元に線形に比例する高次元限界について検討し, 2LNNの小さい場合, ランダムな特徴やカーネル手法のような遅延学習手法では, ほぼ最適性能が得られないことを示す。 この解析は、2LNNの学習ダイナミクスをトラックする閉集合方程式の導出に基づいており、これにより、信号対雑音比および他のハイパーパラメータの関数としてネットワークの無症状性能を抽出することができる。 最後に、ニューラルネットワークのオーバーパラメータが収束を早めるが、最終的なパフォーマンスは改善しないことを示す。

A recent series of theoretical works showed that the dynamics of neural networks with a certain initialisation are well-captured by kernel methods. Concurrent empirical work demonstrated that kernel methods can come close to the performance of neural networks on some image classification tasks. These results raise the question of whether neural networks only learn successfully if kernels also learn successfully, despite neural networks being more expressive. Here, we show theoretically that two-layer neural networks (2LNN) with only a few hidden neurons can beat the performance of kernel learning on a simple Gaussian mixture classification task. We study the high-dimensional limit where the number of samples is linearly proportional to the input dimension, and show that while small 2LNN achieve near-optimal performance on this task, lazy training approaches such as random features and kernel methods do not. Our analysis is based on the derivation of a closed set of equations that track the learning dynamics of the 2LNN and thus allow to extract the asymptotic performance of the network as a function of signal-to-noise ratio and other hyperparameters. We finally illustrate how over-parametrising the neural network leads to faster convergence, but does not improve its final performance.
翻訳日:2021-02-24 14:04:13 公開日:2021-02-23
# フラッシュ画像からのBRDFテクスチャの生成モデリング

Generative Modelling of BRDF Textures from Flash Images ( http://arxiv.org/abs/2102.11861v1 )

ライセンス: Link先を確認
Philipp Henzler, Valentin Deschaintre, Niloy J. Mitra, Tobias Ritschel(参考訳) 我々は,可読性,セマンティクス編集,一貫性のある補間,視覚的な外観の効率的な再現のための潜在空間を学習する。 フラッシュライト照明下で捕獲された静止天然物の写真が提供されると、ミリ秒単位で潜伏する物質コードに変換される。 2番目のステップでは、材料コードに基づいて、我々の手法はミリ秒で、BRDFモデルパラメータ(拡散アルベド、スペクトルアルベド、粗さ、正規化)の無限かつ多様な空間場を生成し、複雑なシーンや照明のレンダリングを可能にし、入力画像の外観と一致する。 技術的には、畳み込みエンコーダを用いてすべてのフラッシュ画像を潜伏空間に共同で埋め込み、これらの潜伏符号を条件に、ランダムな空間場を畳み込みニューラルネットワーク(CNN)を用いてBRDFパラメータのフィールドに変換する。 これらのBRDFパラメータは、マッチング光の下で入力の視覚特性(視覚的特徴の統計とスペクトル)に一致するように調整します。 ユーザ調査は、潜在素材空間の意味論がユーザの期待に合致していることを確認し、このアプローチを以前の作業と好意的に比較する。

We learn a latent space for easy capture, semantic editing, consistent interpolation, and efficient reproduction of visual material appearance. When users provide a photo of a stationary natural material captured under flash light illumination, it is converted in milliseconds into a latent material code. In a second step, conditioned on the material code, our method, again in milliseconds, produces an infinite and diverse spatial field of BRDF model parameters (diffuse albedo, specular albedo, roughness, normals) that allows rendering in complex scenes and illuminations, matching the appearance of the input picture. Technically, we jointly embed all flash images into a latent space using a convolutional encoder, and -- conditioned on these latent codes -- convert random spatial fields into fields of BRDF parameters using a convolutional neural network (CNN). We condition these BRDF parameters to match the visual characteristics (statistics and spectra of visual features) of the input under matching light. A user study confirms that the semantics of the latent material space agree with user expectations and compares our approach favorably to previous work.
翻訳日:2021-02-24 14:03:52 公開日:2021-02-23
# テンソルトレイン形式を用いた高次元パラボリックPDEの解法

Solving high-dimensional parabolic PDEs using the tensor train format ( http://arxiv.org/abs/2102.11830v1 )

ライセンス: Link先を確認
Lorenz Richter, Leon Sallandt, Nikolas N\"usken(参考訳) 高次元偏微分方程式(PDE)は、経済学、科学、工学において普遍的である。 しかし, 従来の格子法は次元の呪いによってフラストレーションを受ける傾向にあるため, 数値処理は重大な課題となる。 本稿では、テンソル列が放物型pdesに対して魅力的な近似フレームワークを提供していることを論じる。 逆確率微分方程式とテンソル形式における回帰型法の組み合わせは、圧縮と効率的な計算を可能にする潜在低ランク構造を活用することを約束する。 このパラダイムに従って、明示的で高速または暗黙の正確な更新を含む新しい反復スキームを開発します。 提案手法は,最先端のニューラルネットワークを用いた手法と比較して,精度と計算効率のトレードオフを良好に実現していることを示す。

High-dimensional partial differential equations (PDEs) are ubiquitous in economics, science and engineering. However, their numerical treatment poses formidable challenges since traditional grid-based methods tend to be frustrated by the curse of dimensionality. In this paper, we argue that tensor trains provide an appealing approximation framework for parabolic PDEs: the combination of reformulations in terms of backward stochastic differential equations and regression-type methods in the tensor format holds the promise of leveraging latent low-rank structures enabling both compression and efficient computation. Following this paradigm, we develop novel iterative schemes, involving either explicit and fast or implicit and accurate updates. We demonstrate in a number of examples that our methods achieve a favorable trade-off between accuracy and computational efficiency in comparison with state-of-the-art neural network based approaches.
翻訳日:2021-02-24 14:03:18 公開日:2021-02-23
# テキストリッチネットワーク上での学習による最小教師構造リッチテキスト分類

Minimally-Supervised Structure-Rich Text Categorization via Learning on Text-Rich Networks ( http://arxiv.org/abs/2102.11479v1 )

ライセンス: Link先を確認
Xinyang Zhang, Chenwei Zhang, Luna Xin Dong, Jingbo Shang, Jiawei Han(参考訳) テキスト分類は、Webコンテンツ分析において不可欠なタスクです。 本稿では,Webデータと新たなカテゴリの進化を考えると,ドキュメントを効果的に分類することを目的とした最小限の教師付き設定に焦点をあて,各カテゴリに注釈を付けた2つのシード文書を配置する。 私たちは、Webから収集されたテキストはしばしば構造が豊富であることを認識します。 コーパスをテキストリッチネットワークに簡単に整理でき、文書属性、高品質なフレーズ、ノードとしてのラベル表面名、エッジとしての関連付けなど、生のテキスト文書を結合することができる。 このようなネットワークはコーパスの異種データソースの全体像を提供し、ネットワークベースの分析と深いテキストモデルトレーニングのための共同最適化を可能にします。 そこで本研究では,テキストリッチネットワークから学習し,最小限の教師付き分類のための新しいフレームワークを提案する。 具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。 各モジュールは、未ラベルの文書集合から擬似訓練ラベルを生成し、両方のモジュールは、プールされた擬似ラベルを用いて相互に強化する。 2つの実世界のデータセットでモデルをテストします。 683のカテゴリを持つ難易度の高いeコマース製品分類データセットでは,1つのカテゴリに3つのシードドキュメントしか与えられず,その精度は92%程度で,比較したすべての手法を上回っており,約50kのラベル付きドキュメントでトレーニングされた教師付きbertモデルから2%弱の精度しか得られていない。

Text categorization is an essential task in Web content analysis. Considering the ever-evolving Web data and new emerging categories, instead of the laborious supervised setting, in this paper, we focus on the minimally-supervised setting that aims to categorize documents effectively, with a couple of seed documents annotated per category. We recognize that texts collected from the Web are often structure-rich, i.e., accompanied by various metadata. One can easily organize the corpus into a text-rich network, joining raw text documents with document attributes, high-quality phrases, label surface names as nodes, and their associations as edges. Such a network provides a holistic view of the corpus' heterogeneous data sources and enables a joint optimization for network-based analysis and deep textual model training. We therefore propose a novel framework for minimally supervised categorization by learning from the text-rich network. Specifically, we jointly train two modules with different inductive biases -- a text analysis module for text understanding and a network learning module for class-discriminative, scalable network learning. Each module generates pseudo training labels from the unlabeled document set, and both modules mutually enhance each other by co-training using pooled pseudo labels. We test our model on two real-world datasets. On the challenging e-commerce product categorization dataset with 683 categories, our experiments show that given only three seed documents per category, our framework can achieve an accuracy of about 92%, significantly outperforming all compared methods; our accuracy is only less than 2% away from the supervised BERT model trained on about 50K labeled documents.
翻訳日:2021-02-24 14:02:25 公開日:2021-02-23
# 高度文脈化言語表現による認知行動療法セッションの品質自動評価

Automated Quality Assessment of Cognitive Behavioral Therapy Sessions Through Highly Contextualized Language Representations ( http://arxiv.org/abs/2102.11573v1 )

ライセンス: Link先を確認
Nikolaos Flemotomos, Victor R. Martinez, Zhuohao Chen, Torrey A. Creed, David C. Atkins, Shrikanth Narayanan(参考訳) サイコセラピーセッションの間、カウンセラーは通常、特定の次元(例えば「温かさと自信を示す」、または「コラボレーションをセットアップする試み」)に沿ってコード化される技術を採用し、セッションの評価を容易にする。 これらの構造は、伝統的に訓練された人間レーサーによって評価され、心理療法の複雑な性質を反映し、相互作用の文脈に非常に依存します。 近年の深い文脈的言語モデルの進歩は、正確なドメイン内言語表現の手段を提供し、そのような心理療法関連行動構成の堅牢な認識と評価につながることができ、品質保証と監督をサポートします。 本研究では, 認知行動療法 (Cognitive Behavioral Therapy, CBT) と呼ばれる特定のタイプの心理療法の自動行動得点のためのBERTに基づくモデルを提案する。 このモデルは高い解釈可能性を達成するためにマルチタスクで訓練される。 BERTベースの表現は、利用可能な治療メタデータでさらに拡張され、関連する非言語的コンテキストを提供し、一貫したパフォーマンス改善につながります。

During a psychotherapy session, the counselor typically adopts techniques which are codified along specific dimensions (e.g., 'displays warmth and confidence', or 'attempts to set up collaboration') to facilitate the evaluation of the session. Those constructs, traditionally scored by trained human raters, reflect the complex nature of psychotherapy and highly depend on the context of the interaction. Recent advances in deep contextualized language models offer an avenue for accurate in-domain linguistic representations which can lead to robust recognition and scoring of such psychotherapy-relevant behavioral constructs, and support quality assurance and supervision. In this work, a BERT-based model is proposed for automatic behavioral scoring of a specific type of psychotherapy, called Cognitive Behavioral Therapy (CBT), where prior work is limited to frequency-based language features and/or short text excerpts which do not capture the unique elements involved in a spontaneous long conversational interaction. The model is trained in a multi-task manner in order to achieve higher interpretability. BERT-based representations are further augmented with available therapy metadata, providing relevant non-linguistic context and leading to consistent performance improvements.
翻訳日:2021-02-24 14:01:56 公開日:2021-02-23
# 意味表現への敵対的知識の導入によるモデルロバストネスの強化

Enhancing Model Robustness By Incorporating Adversarial Knowledge Into Semantic Representation ( http://arxiv.org/abs/2102.11584v1 )

ライセンス: Link先を確認
Jinfeng Li, Tianyu Du, Xiangyu Liu, Rong Zhang, Hui Xue, Shouling Ji(参考訳) ディープニューラルネットワーク(DNN)は、自然言語処理(NLP)のような多くの分野で大きな成功を収めていますが、悪意のある敵対的な例に対して脆弱であることも証明されています。 このような固有の脆弱性は、様々な現実世界のDNNsベースのアプリケーションを脅かしている。 モデルロバスト性を高めるために、英語のNLPドメインでいくつかの対策が提案され、良好な性能を得た。 しかし、中国語の独特な言語特性から、既存の防衛を中国領に拡張することは自明ではない。 そこで我々は,入力の意味表現に敵対的知識を組み込むことにより,中国のNLPモデルのロバスト性を高める新しいディフェンスであるAdvGraphを提案する。 Extensive experiments on two real-world tasks show that AdvGraph exhibits better performance compared with previous work: (i) effective - it significantly strengthens the model robustness even under the adaptive attacks setting without negative impact on model performance over legitimate input; (ii) generic - its key component, i.e., the representation of connotative adversarial knowledge is task-agnostic, which can be reused in any Chinese-based NLP models without retraining; and (iii) efficient - it is a light-weight defense with sub-linear computational complexity, which can guarantee the efficiency required in practical scenarios.

Despite that deep neural networks (DNNs) have achieved enormous success in many domains like natural language processing (NLP), they have also been proven to be vulnerable to maliciously generated adversarial examples. Such inherent vulnerability has threatened various real-world deployed DNNs-based applications. To strength the model robustness, several countermeasures have been proposed in the English NLP domain and obtained satisfactory performance. However, due to the unique language properties of Chinese, it is not trivial to extend existing defenses to the Chinese domain. Therefore, we propose AdvGraph, a novel defense which enhances the robustness of Chinese-based NLP models by incorporating adversarial knowledge into the semantic representation of the input. Extensive experiments on two real-world tasks show that AdvGraph exhibits better performance compared with previous work: (i) effective - it significantly strengthens the model robustness even under the adaptive attacks setting without negative impact on model performance over legitimate input; (ii) generic - its key component, i.e., the representation of connotative adversarial knowledge is task-agnostic, which can be reused in any Chinese-based NLP models without retraining; and (iii) efficient - it is a light-weight defense with sub-linear computational complexity, which can guarantee the efficiency required in practical scenarios.
翻訳日:2021-02-24 14:01:35 公開日:2021-02-23
# 確率的目標認識の優先事項としてのエージェントの推論

Inferring Agents Preferences as Priors for Probabilistic Goal Recognition ( http://arxiv.org/abs/2102.11791v1 )

ライセンス: Link先を確認
Kin Max Gusm\~ao, Ramon Fraga Pereira, and Felipe Meneguzzi(参考訳) ゴール認識への最近のアプローチは、実行コストの低い高精度を実現するために計画ランドマークを活用している。 しかし、これらのアプローチは確率論的解釈を欠いている。 さらに、ほとんどの確率的モデルでは、例えばエージェントの選好を表す事前確率に認識者がアクセスできると仮定するが、実際にはゴール認識アプローチは、単に均一な事前を仮定して、実際にその先行を実際に使用することはない。 本稿では,ランドマークに基づく目標認識を確率論的解釈で拡張し,その事前確率の推定と,観察したエージェントの繰り返し相互作用後の後方確率の計算を可能にするモデルを提案する。 本モデルでは,目標を効果的に認識できるだけでなく,エージェントの好みを表す正しい事前確率分布を推定できることを示す。

Recent approaches to goal recognition have leveraged planning landmarks to achieve high-accuracy with low runtime cost. These approaches, however, lack a probabilistic interpretation. Furthermore, while most probabilistic models to goal recognition assume that the recognizer has access to a prior probability representing, for example, an agent's preferences, virtually no goal recognition approach actually uses the prior in practice, simply assuming a uniform prior. In this paper, we provide a model to both extend landmark-based goal recognition with a probabilistic interpretation and allow the estimation of such prior probability and its usage to compute posterior probabilities after repeated interactions of observed agents. We empirically show that our model can not only recognize goals effectively but also successfully infer the correct prior probability distribution representing an agent's preferences.
翻訳日:2021-02-24 14:00:57 公開日:2021-02-23
# マルチモーダルMR解析のための表現障害

Representation Disentanglement for Multi-modal MR Analysis ( http://arxiv.org/abs/2102.11456v1 )

ライセンス: Link先を確認
Jiahong Ouyang, Ehsan Adeli, Kilian M Pohl, Qingyu Zhao, Greg Zaharchuk(参考訳) マルチモーダルMR画像は、脳構造を補完する情報を提供するために、神経イメージングの応用に広く利用されている。 近年の研究では、マルチモーダルディープラーニング分析は、画像から解剖学的(形状)およびモダリティ(外観)表現を明示的に切り離すことから恩恵を受けることができることが示唆されている。 本研究では,既存の戦略に挑戦し,理論上および実際上において,自然に表現の絡み合いを生じないことを示す。 この問題に対処するために,対象とモダリティ間の表現の類似性関係を規則化するマージン損失を提案する。 頑健なトレーニングを実現するため,全てのモダリティの画像を符号化する単一モデルの設計のために,修正条件の畳み込みを導入する。 最後に,下流タスクのモダリティ不変な特徴の集合として,異種解剖学的表現を結合する融合関数を提案する。 提案手法を3つのマルチモーダルニューロイメージングデータセット上で評価する。 実験により,提案手法は既存の解離戦略よりも優れた解離表現を実現できることが示された。 結果は、融合解剖学的表現は、ゼロ線量PET再建および脳腫瘍分割の下流タスクに大きな可能性を有することを示唆している。

Multi-modal MR images are widely used in neuroimaging applications to provide complementary information about the brain structures. Recent works have suggested that multi-modal deep learning analysis can benefit from explicitly disentangling anatomical (shape) and modality (appearance) representations from the images. In this work, we challenge existing strategies by showing that they do not naturally lead to representation disentanglement both in theory and in practice. To address this issue, we propose a margin loss that regularizes the similarity relationships of the representations across subjects and modalities. To enable a robust training, we further introduce a modified conditional convolution to design a single model for encoding images of all modalities. Lastly, we propose a fusion function to combine the disentangled anatomical representations as a set of modality-invariant features for downstream tasks. We evaluate the proposed method on three multi-modal neuroimaging datasets. Experiments show that our proposed method can achieve superior disentangled representations compared to existing disentanglement strategies. Results also indicate that the fused anatomical representation has great potential in the downstream task of zero-dose PET reconstruction and brain tumor segmentation.
翻訳日:2021-02-24 14:00:30 公開日:2021-02-23
# FaceController: 野生の顔のコントロール可能な属性編集

FaceController: Controllable Attribute Editing for Face in the Wild ( http://arxiv.org/abs/2102.11464v1 )

ライセンス: Link先を確認
Zhiliang Xu, Xiyu Yu, Zhibin Hong, Zhen Zhu, Junyu Han, Jingtuo Liu, Errui Ding, Xiang Bai(参考訳) 顔属性編集は、1つまたは複数の望ましい顔属性が操作され、他の詳細が保存される顔を生成することを目的としている。 高価なリバースマッピングプロセスを持つGAN反転のような以前の作品とは異なり、高忠実度操作された顔を生成するための単純なフィードフォワードネットワークを提案します。 本手法では,既存かつ容易に把握可能な事前情報を利用することで,野生の多様な顔属性の制御,転送,編集を行うことができる。 提案手法は, 顔の交換, 顔の照明, メークアップの転送など, 様々な用途に適用できる。 本手法では,3Dプリミティブを用いてアイデンティティ,表現,ポーズ,イルミネーションを分離し,地域別スタイルコードを用いてテクスチャとカラーを分離する。 すべての情報は、アイデンティティスタイルの正規化モジュールによって逆学習に埋め込まれます。 各属性から独立して情報を抽出するジェネレータを強化するために, 絡み合い損失を提案する。 総合的定量的および定性評価が行われている。 一つのフレームワークにおいて,本手法は様々な顔アプリケーションにおいて最適な,あるいは競争的なスコアを得る。

Face attribute editing aims to generate faces with one or multiple desired face attributes manipulated while other details are preserved. Unlike prior works such as GAN inversion, which has an expensive reverse mapping process, we propose a simple feed-forward network to generate high-fidelity manipulated faces. By simply employing some existing and easy-obtainable prior information, our method can control, transfer, and edit diverse attributes of faces in the wild. The proposed method can consequently be applied to various applications such as face swapping, face relighting, and makeup transfer. In our method, we decouple identity, expression, pose, and illumination using 3D priors; separate texture and colors by using region-wise style codes. All the information is embedded into adversarial learning by our identity-style normalization module. Disentanglement losses are proposed to enhance the generator to extract information independently from each attribute. Comprehensive quantitative and qualitative evaluations have been conducted. In a single framework, our method achieves the best or competitive scores on a variety of face applications.
翻訳日:2021-02-24 14:00:12 公開日:2021-02-23
# アクティブクロスドメイン自己ローカリゼーションのためのドメイン不変NBVプランナー

Domain-invariant NBV Planner for Active Cross-domain Self-localization ( http://arxiv.org/abs/2102.11530v1 )

ライセンス: Link先を確認
Kanji Tanaka(参考訳) ポールのようなランドマークは、ドメイン(季節、時間帯、天気など)をまたいだ視覚ロボットの自己局在化のためのドメイン不変視覚キューとして注目されている。 しかし、ポールのようなランドマークを用いた自己局所化は、多くの視点がポールのようなランドマークビューを提供しないため、パッシブオブザーバには不適切である。 この問題を緩和するために、アクティブオブザーバを検討し、データ収集と再トレーニングの高価なタスクを必要とせずに、異なるドメイン(すなわちメンテナンスフリー)で一貫したパフォーマンスを実現する新しい「ドメイン不変」next-invariant next-best-view(nbv)プランナーを探求する。 提案手法では,新しいマルチエンコーダ深部畳み込みニューラルネットワークを用いて,モデルのない深部強化学習に基づくドメイン不変NBVプランナの唯一の入力として,ドメイン不変極状ランドマークを検出する。 さらに,スパース不変のランドマークと濃密な識別的ランドマークを用いたアクティブな自己ローカライゼーションシステムを開発した。 実験では,効率的なランドマーク検出と識別的自己局所化の両方において提案手法が有効であることを示す。

Pole-like landmark has received increasing attention as a domain-invariant visual cue for visual robot self-localization across domains (e.g., seasons, times of day, weathers). However, self-localization using pole-like landmarks can be ill-posed for a passive observer, as many viewpoints may not provide any pole-like landmark view. To alleviate this problem, we consider an active observer and explore a novel "domain-invariant" next-best-view (NBV) planner that attains consistent performance over different domains (i.e., maintenance-free), without requiring the expensive task of training data collection and retraining. In our approach, a novel multi-encoder deep convolutional neural network enables to detect domain invariant pole-like landmarks, which are then used as the sole input to a model-free deep reinforcement learning -based domain-invariant NBV planner. Further, we develop a practical system for active self-localization using sparse invariant landmarks and dense discriminative landmarks. In experiments, we demonstrate that the proposed method is effective both in efficient landmark detection and in discriminative self-localization.
翻訳日:2021-02-24 13:59:57 公開日:2021-02-23
# 画像空間を超えた逆例検出

Adversarial Examples Detection beyond Image Space ( http://arxiv.org/abs/2102.11586v1 )

ライセンス: Link先を確認
Kejiang Chen, Yuefeng Chen, Hang Zhou, Chuan Qin, Xiaofeng Mao, Weiming Zhang, Nenghai Yu(参考訳) 深層ニューラルネットワークは、人間の知覚できない摂動を画像に加えることで生じる敵の例に弱いことが証明されている。 これらの敵の例を守るため,様々な検出手法が提案されている。 しかし、それらのほとんどは、非常にわずかな摂動を伴う逆転例の検出に不十分である。 これらの逆の例を調べることで、摂動と予測信頼の間にはコンプライアンスが存在することが分かり、予測信頼の面から少数の摂動攻撃を検出するための指針となる。 低周波攻撃と大周波攻撃の両方を検出するために,画像ストリームが画素アーティファクトに焦点を合わせ,グラデーションストリームが信頼性アーティファクトに対応する2ストリームアーキテクチャにより,画像空間を超えた手法を提案する。 実験の結果,提案手法は既存手法よりも優れており,全能攻撃の防御にも有効であることがわかった。

Deep neural networks have been proved that they are vulnerable to adversarial examples, which are generated by adding human-imperceptible perturbations to images. To defend these adversarial examples, various detection based methods have been proposed. However, most of them perform poorly on detecting adversarial examples with extremely slight perturbations. By exploring these adversarial examples, we find that there exists compliance between perturbations and prediction confidence, which guides us to detect few-perturbation attacks from the aspect of prediction confidence. To detect both few-perturbation attacks and large-perturbation attacks, we propose a method beyond image space by a two-stream architecture, in which the image stream focuses on the pixel artifacts and the gradient stream copes with the confidence artifacts. The experimental results show that the proposed method outperforms the existing methods under oblivious attacks and is verified effective to defend omniscient attacks as well.
翻訳日:2021-02-24 13:59:32 公開日:2021-02-23
# 旅客安全向上のためのRGB-D鉄道プラットフォームモニタリングとシーン理解

RGB-D Railway Platform Monitoring and Scene Understanding for Enhanced Passenger Safety ( http://arxiv.org/abs/2102.11730v1 )

ライセンス: Link先を確認
Marco Wallner, Daniel Steininger, Verena Widhalm, Matthias Sch\"orghuber, Csaba Beleznai(参考訳) 交通インフラの安全クリティカルな部分における乗客移動の自動監視と分析は、関連する視覚的監視タスクである。 視覚表現学習と空間センシングの最近の進歩は、3次元空間コンテキスト内で人間や物体を検出し追跡する新たな可能性を開いた。 本稿では,ステレオ深度と歩行者検出により自動的に校正される地上平面上の人間を検知し追跡する,様々な処理パイプラインの柔軟な解析手法と徹底的な評価を提案する。 我々は,RGB/Depth-based detection と Tracking modalities のセット内で複数の組み合わせを検討する。 We exploit the modular concept of Meshroom [2] and demonstrate its use as a generic vision processing pipeline and scalable evaluation framework。 さらに,自動rgb-d監視における研究活動を支援するアノテーション付きオープンrgb-d鉄道プラットフォームデータセットを提案する。 本稿では,データセット上の各種アルゴリズムの組み合わせに対する複数の対象検出と追跡について定量的な結果を示す。 その結果,奥行きに基づく空間情報と学習表現の組み合わせにより,検出精度と追跡精度が大幅に向上した。 示されるように、これらの強化は特に、学習された表現で捉えられない咬合や物体が存在する状況において顕著に発音される。

Automated monitoring and analysis of passenger movement in safety-critical parts of transport infrastructures represent a relevant visual surveillance task. Recent breakthroughs in visual representation learning and spatial sensing opened up new possibilities for detecting and tracking humans and objects within a 3D spatial context. This paper proposes a flexible analysis scheme and a thorough evaluation of various processing pipelines to detect and track humans on a ground plane, calibrated automatically via stereo depth and pedestrian detection. We consider multiple combinations within a set of RGB- and depth-based detection and tracking modalities. We exploit the modular concepts of Meshroom [2] and demonstrate its use as a generic vision processing pipeline and scalable evaluation framework. Furthermore, we introduce a novel open RGB-D railway platform dataset with annotations to support research activities in automated RGB-D surveillance. We present quantitative results for multiple object detection and tracking for various algorithmic combinations on our dataset. Results indicate that the combined use of depth-based spatial information and learned representations yields substantially enhanced detection and tracking accuracies. As demonstrated, these enhancements are especially pronounced in adverse situations when occlusions and objects not captured by learned representations are present.
翻訳日:2021-02-24 13:59:18 公開日:2021-02-23
# 分類モデルにおける自然逆例の再考

Rethinking Natural Adversarial Examples for Classification Models ( http://arxiv.org/abs/2102.11731v1 )

ライセンス: Link先を確認
Xiao Li, Jianmin Li, Ting Dai, Jie Shi, Jun Zhu, Xiaolin Hu(参考訳) 近年,意図的な修正を伴わない実世界の例の多くは機械学習モデルを騙しうることが判明し,このような例を「自然対逆例」と呼ぶ。 ImageNet-Aは、自然対比例の有名なデータセットです。 このデータセットを解析することにより、大きな、散らばった、あるいは異常な背景が、このデータセットのイメージの分類が難しい重要な理由である、という仮説を立てた。 オブジェクト検出技術を用いたImageNet-A例の背景影響を低減して仮説を検証した。 実験により,様々な分類モデルを用いた物体検出モデルは,その分類モデルよりも精度が高かった。 分類モデル efficientnet-b7に基づく検出モデルは、imagenetでトレーニングされた以前の最先端の分類モデルを上回る53.95%のtop-1精度を達成した。 次に、ImageNet-Aからイメージ内のオブジェクトを手動でトリミングし、ImageNet-A-Plusという新しいデータセットを作成しました。 新しいデータセットの人間のテストでは、深層学習に基づく分類器は依然として人間と比較してかなり貧弱であったことが示された。 したがって、新しいデータセットは、背景外乱を考慮せずに、オブジェクトの内部分散に対する分類モデルのロバスト性を調べるために使用できる。

Recently, it was found that many real-world examples without intentional modifications can fool machine learning models, and such examples are called "natural adversarial examples". ImageNet-A is a famous dataset of natural adversarial examples. By analyzing this dataset, we hypothesized that large, cluttered and/or unusual background is an important reason why the images in this dataset are difficult to be classified. We validated the hypothesis by reducing the background influence in ImageNet-A examples with object detection techniques. Experiments showed that the object detection models with various classification models as backbones obtained much higher accuracy than their corresponding classification models. A detection model based on the classification model EfficientNet-B7 achieved a top-1 accuracy of 53.95%, surpassing previous state-of-the-art classification models trained on ImageNet, suggesting that accurate localization information can significantly boost the performance of classification models on ImageNet-A. We then manually cropped the objects in images from ImageNet-A and created a new dataset, named ImageNet-A-Plus. A human test on the new dataset showed that the deep learning-based classifiers still performed quite poorly compared with humans. Therefore, the new dataset can be used to study the robustness of classification models to the internal variance of objects without considering the background disturbance.
翻訳日:2021-02-24 13:59:01 公開日:2021-02-23
# 動的神経衣料品

Dynamic Neural Garments ( http://arxiv.org/abs/2102.11811v1 )

ライセンス: Link先を確認
Meng Zhang, Duygu Ceylan, Tuanfeng Wang, Niloy J. Mitra(参考訳) より広いデジタル人間の努力の重要なタスクは、デジタルアバター上の現実的な衣服の作成であり、アバターの動き下での衣服のダイナミクスの豊かさと同様に、静的フレームの特徴的な折り畳みパターンとしわの形態の両方である。 既存のモデリング、シミュレーション、レンダリングのワークフローは、実際の衣服の背後にある物理を忠実に再現するが、面倒であり、キャラクターの動き、カメラアングル、衣服のリサイズの変更の下で、ほとんどのワークフローを繰り返す必要がある。 データ駆動のソリューションは存在するが、静的なシナリオにフォーカスするか、タイトな衣服のダイナミクスのみを扱う。 テスト時に、身体の関節運動を利用して、リアルな動的衣服画像シーケンスを直接生成するソリューションを提示します。 具体的には, アバターの標的関節運動シーケンスを考慮し, 目立たない視点から, 実用的な動的衣服の外観を協調的にシミュレートし, レンダリングするダイナミックニューラルウェアを提案する。 技術的には、私たちのソリューションは粗い衣服のプロキシシーケンスを生成し、このテンプレートに添付された深い動的特徴を学び、神経的に特徴をレンダリングして、折り目、しわ、シルエットなどの外観変化を生成します。 我々は、見えない動きと見えないカメラビューの両方に一般化挙動を示す。 さらに、ネットワークを微調整して、新しい体型や背景画像を採用することもできる。 また,既存のニューラルレンダリング法と画像シーケンス変換法との比較を行い,定量的な改善を報告した。

A vital task of the wider digital human effort is the creation of realistic garments on digital avatars, both in the form of characteristic fold patterns and wrinkles in static frames as well as richness of garment dynamics under avatars' motion. Existing workflow of modeling, simulation, and rendering closely replicates the physics behind real garments, but is tedious and requires repeating most of the workflow under changes to characters' motion, camera angle, or garment resizing. Although data-driven solutions exist, they either focus on static scenarios or only handle dynamics of tight garments. We present a solution that, at test time, takes in body joint motion to directly produce realistic dynamic garment image sequences. Specifically, given the target joint motion sequence of an avatar, we propose dynamic neural garments to jointly simulate and render plausible dynamic garment appearance from an unseen viewpoint. Technically, our solution generates a coarse garment proxy sequence, learns deep dynamic features attached to this template, and neurally renders the features to produce appearance changes such as folds, wrinkles, and silhouettes. We demonstrate generalization behavior to both unseen motion and unseen camera views. Further, our network can be fine-tuned to adopt to new body shape and/or background images. We also provide comparisons against existing neural rendering and image sequence translation approaches, and report clear quantitative improvements.
翻訳日:2021-02-24 13:58:34 公開日:2021-02-23
# 非拘束歴史文書のページレイアウト解析システム

Page Layout Analysis System for Unconstrained Historic Documents ( http://arxiv.org/abs/2102.11838v1 )

ライセンス: Link先を確認
Old\v{r}ich Kodym, Michal Hradi\v{s}(参考訳) 自動転写には歴史文書からテキスト領域と個々のテキスト行を抽出する必要がある。 モデル出力に線高とテキストブロック境界予測を追加することで,CNNベースのテキストベースライン検出システムの拡張を提案し,より包括的なレイアウト情報を抽出する。 また,複数のテキスト指向性を持つ文書の処理には,画素単位のテキスト指向予測が利用できることを示した。 提案手法は, cBAD ベースライン検出データセット上で有効であることを示す。 また、新たに導入したPEROレイアウトデータセットのベンチマークも公開しています。

Extraction of text regions and individual text lines from historic documents is necessary for automatic transcription. We propose extending a CNN-based text baseline detection system by adding line height and text block boundary predictions to the model output, allowing the system to extract more comprehensive layout information. We also show that pixel-wise text orientation prediction can be used for processing documents with multiple text orientations. We demonstrate that the proposed method performs well on the cBAD baseline detection dataset. Additionally, we benchmark the method on newly introduced PERO layout dataset which we also make public.
翻訳日:2021-02-24 13:58:07 公開日:2021-02-23
# STEP:全Pixelのセグメンテーションと追跡

STEP: Segmenting and Tracking Every Pixel ( http://arxiv.org/abs/2102.11859v1 )

ライセンス: Link先を確認
Mark Weber, Jun Xie, Maxwell Collins, Yukun Zhu, Paul Voigtlaender, Hartwig Adam, Bradley Green, Andreas Geiger, Bastian Leibe, Daniel Cremers, Aljosa Osep, Laura Leal-Taixe, Liang-Chieh Chen(参考訳) 本稿では,ビデオ中のすべての画素に意味クラスを割り当て,識別性を追跡するタスクであるvideo panoptic segmentationについて述べる。 センサデータの連続的な解釈を必要とする設定において、この重要な問題を研究するために、新しい評価指標として、KITTI-STEPとMOTChallenge-STEPの2つのデータセットを含むSegmenting and Tracking Every Pixel (STEP)を提案する。 私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。 このタスクの根拠は困難で高価であるため、既存のデータセットは合成的に構築されるか、短いビデオクリップ内でわずかなアノテートされるだけです。 対照的に、私たちのデータセットには長いビデオシーケンスがあり、チャレンジングな例と、長期のピクセル精度のセグメンテーションとトラッキングのためのテストベッドを提供します。 性能測定のために, このタスクのセマンティックとトラッキングの側面を公平にバランスさせ, 任意の長さのシーケンスを評価するのに適した, 新たな評価指標 Segmentation and Tracking Quality (STQ) を提案する。 データセット、メトリクス、ベースラインを一般公開します。

In this paper, we tackle video panoptic segmentation, a task that requires assigning semantic classes and track identities to all pixels in a video. To study this important problem in a setting that requires a continuous interpretation of sensory data, we present a new benchmark: Segmenting and Tracking Every Pixel (STEP), encompassing two datasets, KITTI-STEP, and MOTChallenge-STEP together with a new evaluation metric. Our work is the first that targets this task in a real-world setting that requires dense interpretation in both spatial and temporal domains. As the ground-truth for this task is difficult and expensive to obtain, existing datasets are either constructed synthetically or only sparsely annotated within short video clips. By contrast, our datasets contain long video sequences, providing challenging examples and a test-bed for studying long-term pixel-precise segmentation and tracking. For measuring the performance, we propose a novel evaluation metric Segmentation and Tracking Quality (STQ) that fairly balances semantic and tracking aspects of this task and is suitable for evaluating sequences of arbitrary length. We will make our datasets, metric, and baselines publicly available.
翻訳日:2021-02-24 13:57:59 公開日:2021-02-23
# UnsupervisedR&R:差分レンダリングによる無監視ポイントクラウド登録

UnsupervisedR&R: Unsupervised Point Cloud Registration via Differentiable Rendering ( http://arxiv.org/abs/2102.11870v1 )

ライセンス: Link先を確認
Mohamed El Banani, Luya Gao, Justin Johnson(参考訳) シーンの部分的なビューを1つの全体へアライメントすることは、環境を理解するために不可欠であり、SLAMやSfMのような多数のロボティクスタスクの重要なコンポーネントである。 近年のアプローチでは、ポーズ監視を活用して従来の手法より優れているエンドツーエンドシステムを提案する。 しかし、深度センサーを備えたカメラの普及により、監視に必要なアノテーションなしで、生のRGB-Dデータの新たなストリームが期待できます。 生RGB-Dビデオからポイントクラウド登録を学習するためのエンドツーエンドの非監視アプローチであるUnsupervisedR&Rを提案します。 重要なアイデアは、微分可能なアライメントとレンダリングを利用して、フレーム間のフォトメトリックと幾何学的一貫性を強制することだ。 屋内シーンデータセットに対するアプローチを評価し,従来の従来のアプローチを古典的・学習的ディスクリプタで上回りながら,幾何学的ポイントクラウド登録アプローチと競合していることを見出した。

Aligning partial views of a scene into a single whole is essential to understanding one's environment and is a key component of numerous robotics tasks such as SLAM and SfM. Recent approaches have proposed end-to-end systems that can outperform traditional methods by leveraging pose supervision. However, with the rising prevalence of cameras with depth sensors, we can expect a new stream of raw RGB-D data without the annotations needed for supervision. We propose UnsupervisedR&R: an end-to-end unsupervised approach to learning point cloud registration from raw RGB-D video. The key idea is to leverage differentiable alignment and rendering to enforce photometric and geometric consistency between frames. We evaluate our approach on indoor scene datasets and find that we outperform existing traditional approaches with classic and learned descriptors while being competitive with supervised geometric point cloud registration approaches.
翻訳日:2021-02-24 13:57:35 公開日:2021-02-23
# 分子特性予測に自信を割り当てる

Assigning Confidence to Molecular Property Prediction ( http://arxiv.org/abs/2102.11439v1 )

ライセンス: Link先を確認
AkshatKumar Nigam, Robert Pollice, Matthew F. D. Hurley, Riley J. Hickman, Matteo Aldeghi, Naruki Yoshikawa, Seyone Chithrananda, Vincent A. Voelz, Al\'an Aspuru-Guzik(参考訳) 導入: 計算モデリングは、特に化学、材料科学、薬物設計の分子特性を予測するために、過去数十年間で急速に進歩しています。 近年、機械学習技術は、既存のデータセットから学習し、目に見えない分子の予測を行うための強力で費用効率のよい戦略として出現している。 したがって、データ駆動技術が爆発的に増加し、重要な疑問が持ち上がる: 分子特性予測にどんな信頼が割り当てられるか、その目的にどんな技術が使えるのか? 本研究では, 薬物設計に関連する分子特性を予測するための一般的な戦略, 対応する不確実性源, 不確実性と信頼性を定量化する手法について論じる。 まず、信頼度を評価するための考察は、データセットのバイアスとサイズ、データ駆動プロパティ予測、特徴設計から始まります。 次に,分子ドッキングによる特性シミュレーションと結合親和性の自由エネルギーシミュレーションについて詳しく述べる。 最後に,これらの不確かさが生成モデルにどのように伝播するかについて検討する。 専門家の意見: 巨大な化学空間を探索するときの残酷な力の実験の禁止的な費用そしてタイミングを減らすために計算技術は最も重要です。 高スループットの仮想スクリーニングに頼ったクローズドループ医薬品設計キャンペーンが展開されるたびに、プロパティ予測モデルにおける不確実性を評価することが不可欠です。 したがって、不確実性の源を考慮すると、より詳細な実験的検証、より信頼性の高い予測、およびワークフロー全体のより現実的な期待につながります。 全体として、これは予測および設計の信頼を高め、最終的に薬剤の設計を加速します。

Introduction: Computational modeling has rapidly advanced over the last decades, especially to predict molecular properties for chemistry, material science and drug design. Recently, machine learning techniques have emerged as a powerful and cost-effective strategy to learn from existing datasets and perform predictions on unseen molecules. Accordingly, the explosive rise of data-driven techniques raises an important question: What confidence can be assigned to molecular property predictions and what techniques can be used for that purpose? Areas covered: In this work, we discuss popular strategies for predicting molecular properties relevant to drug design, their corresponding uncertainty sources and methods to quantify uncertainty and confidence. First, our considerations for assessing confidence begin with dataset bias and size, data-driven property prediction and feature design. Next, we discuss property simulation via molecular docking, and free-energy simulations of binding affinity in detail. Lastly, we investigate how these uncertainties propagate to generative models, as they are usually coupled with property predictors. Expert opinion: Computational techniques are paramount to reduce the prohibitive cost and timing of brute-force experimentation when exploring the enormous chemical space. We believe that assessing uncertainty in property prediction models is essential whenever closed-loop drug design campaigns relying on high-throughput virtual screening are deployed. Accordingly, considering sources of uncertainty leads to better-informed experimental validations, more reliable predictions and to more realistic expectations of the entire workflow. Overall, this increases confidence in the predictions and designs and, ultimately, accelerates drug design.
翻訳日:2021-02-24 13:56:19 公開日:2021-02-23
# 全員のためのデータエンジニアリング

Data Engineering for Everyone ( http://arxiv.org/abs/2102.11447v1 )

ライセンス: Link先を確認
Vijay Janapa Reddi, Greg Diamos, Pete Warden, Peter Mattson, David Kanter(参考訳) データエンジニアリングは、機械学習(ML)の中で急速に成長している分野の一つです。 MLがより一般的になるにつれて、データの食欲はより高くなる。 しかし、MLは、データエンジニアの個々のチームが簡単に作成できるよりも多くのデータを必要とします。 オープンソースソフトウェアがインフラストラクチャコードのクローズドな社内開発モデルに置き換えられたソフトウェアエンジニアリング革命のように、大規模機械学習データセットへの迅速な開発とオープンな貢献を可能にする必要性が高まっている。 この記事では、大規模なAI組織でも、オープンソースのデータセットが研究とイノベーションのためのロケット燃料であることを示す。 過去5年間にFacebook、Google、Microsoftから2000近い研究論文を分析したところ、オープンデータセットの普及と普及が示されています。 誰もが容易にアクセスできるオープンデータセットは、MLのイノベーションを加速するために不可欠だ。 しかし、そのようなオープンな資源は野生では乏しい。 では、データセットの自動生成ツールでデータセット作成を加速できたらどうでしょう?

Data engineering is one of the fastest-growing fields within machine learning (ML). As ML becomes more common, the appetite for data grows more ravenous. But ML requires more data than individual teams of data engineers can readily produce, which presents a severe challenge to ML deployment at scale. Much like the software-engineering revolution, where mass adoption of open-source software replaced the closed, in-house development model for infrastructure code, there is a growing need to enable rapid development and open contribution to massive machine learning data sets. This article shows that open-source data sets are the rocket fuel for research and innovation at even some of the largest AI organizations. Our analysis of nearly 2000 research publications from Facebook, Google and Microsoft over the past five years shows the widespread use and adoption of open data sets. Open data sets that are easily accessible to the public are vital to accelerating ML innovation for everyone. But such open resources are scarce in the wild. So, what if we are able to accelerate data-set creation via automatic data set generation tools?
翻訳日:2021-02-24 13:55:54 公開日:2021-02-23
# 時系列の早期分類はいつ意味しますか?

When is Early Classification of Time Series Meaningful? ( http://arxiv.org/abs/2102.11487v1 )

ライセンス: Link先を確認
Renjie Wu, Audrey Der, Eamonn J. Keogh(参考訳) 20年前に導入されて以来、時系列の早期分類の問題への関心が高まっています。 この問題は、古典的な時系列分類を一般化し、ターゲットパターンのプレフィックスのみを見て、十分な精度と信頼性で時系列サブシーケンスを分類できるかどうかを尋ねる。 より初期の分類は、いくつかの実践的な介入が可能なドメインにおいて、直ちに行動を起こすことができる、という考え方です。 例えば、その介入はアラームを鳴らしたり、自動車のブレーキをかけたりします。 この仕事では、私たちは驚くべき主張をします。 時系列の初期の分類に関する数十の論文があるという事実にもかかわらず、それらのいずれかが現実世界の環境で機能することは明らかではありません。 問題はアルゴリズムそのものではなく、曖昧で不特定な問題記述にある。 本質的にすべてのアルゴリズムは、たとえ結果がほぼ完全な結果が得られると示唆しても、偽陽性と偽陰性に悩まされることを確実にする問題に関して暗黙的かつ不当な仮定をする。 新たな洞察と実験でその結果を説明し、コミュニティに推奨します。

Since its introduction two decades ago, there has been increasing interest in the problem of early classification of time series. This problem generalizes classic time series classification to ask if we can classify a time series subsequence with sufficient accuracy and confidence after seeing only some prefix of a target pattern. The idea is that the earlier classification would allow us to take immediate action, in a domain in which some practical interventions are possible. For example, that intervention might be sounding an alarm or applying the brakes in an automobile. In this work, we make a surprising claim. In spite of the fact that there are dozens of papers on early classification of time series, it is not clear that any of them could ever work in a real-world setting. The problem is not with the algorithms per se but with the vague and underspecified problem description. Essentially all algorithms make implicit and unwarranted assumptions about the problem that will ensure that they will be plagued by false positives and false negatives even if their results suggested that they could obtain near-perfect results. We will explain our findings with novel insights and experiments and offer recommendations to the community.
翻訳日:2021-02-24 13:55:40 公開日:2021-02-23
# eコマースにおける制御可能で多様なテキスト生成

Controllable and Diverse Text Generation in E-commerce ( http://arxiv.org/abs/2102.11497v1 )

ライセンス: Link先を確認
Huajie Shao, Jun Wang, Haohong Lin, Xuezhou Zhang, Aston Zhang, Heng Ji, Tarek Abdelzaher(参考訳) eコマースにおいて、テキスト生成の重要な課題は、単語の多様性と正確さ(関連)の間の良いトレードオフを見つけ、生成したテキストをより自然で人間らしく見せることである。 結果の関連性を向上させるために,入力キーワードや属性を用いて対応するテキストを生成する条件付きテキスト生成装置を開発した。 しかし、以前の作業は、自動生成された文の多様性を細かく制御しません。 たとえば、より関連性の高いキーワードを優先するキーワードの順序を制御しません。 さらに、多様性と正確さのバランスを明示的に制御しない。 そこで本研究では,自動制御(すなわち, \textit{proportional, integral, and derivative (PID) controller} の変種)から借りたアルゴリズムを用いて,生成テキストの多様性と精度のトレードオフを高精度に操作する,きめ細かい制御可能な生成モデル~\textit{Apex}を提案する。 このアルゴリズムは条件付き可変オートエンコーダ(CVAE)に注入され、 \textit{Apex} は (i) 生成された文中のキーワードの順序 (入力キーワードとその順序で条件付き) と (ii) 多様性と精度のトレードオフの両方を制御することができる。 実世界データセットの評価結果から,提案手法は多様性と関連性の観点から既存の生成モデルよりも優れていることが示された。 apexは現在、中国最大のeコマースプラットフォームであるalibabaが所有するtaobaoで生産説明とアイテム推奨理由を生成するためにデプロイされている。 A/B 生産試験の結果,既存の生産記述法と比較してクリックスルー率 (CTR) は 13.17 % 向上した。 アイテムレコメンデーションの理由から、ユーザレビューとトップKアイテムレコメンデーションのそれぞれに対して、CTRを6.89倍と1.42倍に増やすことができる。

In E-commerce, a key challenge in text generation is to find a good trade-off between word diversity and accuracy (relevance) in order to make generated text appear more natural and human-like. In order to improve the relevance of generated results, conditional text generators were developed that use input keywords or attributes to produce the corresponding text. Prior work, however, do not finely control the diversity of automatically generated sentences. For example, it does not control the order of keywords to put more relevant ones first. Moreover, it does not explicitly control the balance between diversity and accuracy. To remedy these problems, we propose a fine-grained controllable generative model, called~\textit{Apex}, that uses an algorithm borrowed from automatic control (namely, a variant of the \textit{proportional, integral, and derivative (PID) controller}) to precisely manipulate the diversity/accuracy trade-off of generated text. The algorithm is injected into a Conditional Variational Autoencoder (CVAE), allowing \textit{Apex} to control both (i) the order of keywords in the generated sentences (conditioned on the input keywords and their order), and (ii) the trade-off between diversity and accuracy. Evaluation results on real-world datasets show that the proposed method outperforms existing generative models in terms of diversity and relevance. Apex is currently deployed to generate production descriptions and item recommendation reasons in Taobao owned by Alibaba, the largest E-commerce platform in China. The A/B production test results show that our method improves click-through rate (CTR) by 13.17\% compared to the existing method for production descriptions. For item recommendation reason, it is able to increase CTR by 6.89\% and 1.42\% compared to user reviews and top-K item recommendation without reviews, respectively.
翻訳日:2021-02-24 13:55:25 公開日:2021-02-23
# 簡単な学習ベンチマークから学んだこと:メタラーニング手法の評価を再考する

Lessons from Chasing Few-Shot Learning Benchmarks: Rethinking the Evaluation of Meta-Learning Methods ( http://arxiv.org/abs/2102.11503v1 )

ライセンス: Link先を確認
Amrith Setlur, Oscar Li, Virginia Smith(参考訳) 本稿ではメタラーニングのためのシンプルなベースラインを紹介する。 提案手法であるFIX-MLは,タスク間のサポートセットを固定してタスクの多様性を低減し,メタラーニング手法の性能を向上する。 しかし,この反直感的現象の理由を探る際に,メタラーニング評価の実践について,一連の疑問と懸念を提起する。 メタラーニングの2つの可能性を探る: (i) トレーニングセットを生成する同じタスク分布に一般化する手法(in-distriion) または (ii) 新たな未確認タスク分布(out-of-distriion)に一般化する手法を開発する。 注意深い分析を通じて,この2つの目標それぞれについて,(1)与えられたメタラーニング法に対してモデル選択とハイパーパラメータチューニングを行うこと,(2)異なるメタラーニング法の性能を比較すること,の2つの落とし穴があることを示す。 以上の結果から,この分野の進歩を判断するためには,メタラーニングの目標を明確に説明し,より適切な評価戦略を開発する必要があることを強調する。

In this work we introduce a simple baseline for meta-learning. Our unconventional method, FIX-ML, reduces task diversity by keeping support sets fixed across tasks, and consistently improves the performance of meta-learning methods on popular few-shot learning benchmarks. However, in exploring the reason for this counter-intuitive phenomenon, we unearth a series of questions and concerns about meta-learning evaluation practices. We explore two possible goals of meta-learning: to develop methods that generalize (i) to the same task distribution that generates the training set (in-distribution), or (ii) to new, unseen task distributions (out-of-distribution). Through careful analyses, we show that for each of these two goals, current few-shot learning benchmarks have potential pitfalls in 1) performing model selection and hyperparameter tuning for a given meta-learning method and 2) comparing the performance of different meta-learning methods. Our results highlight that in order to reason about progress in this space, it is necessary to provide a clearer description of the goals of meta-learning, and to develop more appropriate corresponding evaluation strategies.
翻訳日:2021-02-24 13:54:51 公開日:2021-02-23
# 逆問題に対する等変ニューラルネットワーク

Equivariant neural networks for inverse problems ( http://arxiv.org/abs/2102.11504v1 )

ライセンス: Link先を確認
Elena Celledoni, Matthias J. Ehrhardt, Christian Etmann, Brynjulf Owren, Carola-Bibiane Sch\"onlieb and Ferdia Sherry(参考訳) 近年、ニューラルネットワークにおける誘導バイアス(翻訳等価性)を符号化する畳み込み層の使用は非常に実りあるアイデアであることが証明されている。 このアプローチの成功は、グループ同変畳み込みニューラルネットワークの形で、他の対称性を深層学習手法に組み込むための一連の研究を動機付けている。 この研究の多くは $\mathbf R^d$ のロト変換対称性に焦点を当てているが、他の例は $\mathbf R^d$ のスケーリング対称性と球面の回転対称性である。 本研究では, 群同変畳み込み演算を, 変分正規化アプローチに動機付けられた逆問題に対して, 自然に学習再構成法に組み込むことができることを示す。 実際、正規化函数が群対称性の下で不変であれば、対応する近位作用素は同じ群対称性に関して同値性を満たす。 この観察の結果,近位作用素を群同変畳み込みニューラルネットワークとしてモデル化する反復的手法を考案した。 提案手法ではRoto-translationally equivariant Operationを用いて低線量コンピュータ断層撮影とサブサンプル磁気共鳴画像再構成の問題に適用する。 提案手法は, 学習した再構成手法の再構築品質を改善するために, トレーニング時の計算コストを少なくするが, 試験時の追加費用を伴わないことを実証した。

In recent years the use of convolutional layers to encode an inductive bias (translational equivariance) in neural networks has proven to be a very fruitful idea. The successes of this approach have motivated a line of research into incorporating other symmetries into deep learning methods, in the form of group equivariant convolutional neural networks. Much of this work has been focused on roto-translational symmetry of $\mathbf R^d$, but other examples are the scaling symmetry of $\mathbf R^d$ and rotational symmetry of the sphere. In this work, we demonstrate that group equivariant convolutional operations can naturally be incorporated into learned reconstruction methods for inverse problems that are motivated by the variational regularisation approach. Indeed, if the regularisation functional is invariant under a group symmetry, the corresponding proximal operator will satisfy an equivariance property with respect to the same group symmetry. As a result of this observation, we design learned iterative methods in which the proximal operators are modelled as group equivariant convolutional neural networks. We use roto-translationally equivariant operations in the proposed methodology and apply it to the problems of low-dose computerised tomography reconstruction and subsampled magnetic resonance imaging reconstruction. The proposed methodology is demonstrated to improve the reconstruction quality of a learned reconstruction method with a little extra computational cost at training time but without any extra cost at test time.
翻訳日:2021-02-24 13:54:30 公開日:2021-02-23
# Mixed Policy Gradient

Mixed Policy Gradient ( http://arxiv.org/abs/2102.11513v1 )

ライセンス: Link先を確認
Yang Guan, Jingliang Duan, Shengbo Eben Li, Jie Li, Jianyu Chen, Bo Cheng(参考訳) 強化学習(RL)はシーケンシャルな意思決定において大きな可能性を秘めている。 現在、主流のRLアルゴリズムはデータ駆動であり、ポリシーを学ぶために数百万のイテレーションと多数の経験的なデータに依存している。 データ駆動型RLは漸近性能が優れているが、通常は収束速度が遅い。 比較として、モデル駆動型RLはコンバージェンス速度を改善するために微分可能な遷移モデルを用いており、政策勾配(PG)は時間によるバックプロパゲーション(BPTT)技術を用いて計算される。 しかし、そのような手法は数値不安定性、モデル誤差感度、低演算効率に悩まされ、政策の悪化につながる可能性がある。 本論文では,経験的データと遷移モデルの両方を用いてPGを構築する混合ポリシ勾配(MPG)法を提案し,最適性保証を失うことなく収束速度を高速化する。 MPGは、(1)学習したQ値関数の導関数を直接計算して得られるデータ駆動PGと、2)モデル予測リターンに基づいてBPTTを用いて計算されるモデル駆動PGの2つのタイプを含む。 統一PG誤差の上限値と予測地平線との相関関係を明らかにすることにより、データ駆動PGを0ステップモデル予測リターンとして分解する。 MPGは、データ駆動およびモデル駆動PGの重みを適応的に調整するためにルールベースの方法を採用しています。 特に、より正確なPGを得るために、データ駆動PGの重量は学習プロセスに沿って増加し、他方は減少するように設計されている。 さらに、更新イテレーション毎に必要なウォールクロック時間を短縮する非同期学習フレームワークも提案されている。 シミュレーションの結果,mpg法は,他のベースラインアルゴリズムと比較して,最高漸近性能と収束速度を達成した。

Reinforcement learning (RL) has great potential in sequential decision-making. At present, the mainstream RL algorithms are data-driven, relying on millions of iterations and a large number of empirical data to learn a policy. Although data-driven RL may have excellent asymptotic performance, it usually yields slow convergence speed. As a comparison, model-driven RL employs a differentiable transition model to improve convergence speed, in which the policy gradient (PG) is calculated by using the backpropagation through time (BPTT) technique. However, such methods suffer from numerical instability, model error sensitivity and low computing efficiency, which may lead to poor policies. In this paper, a mixed policy gradient (MPG) method is proposed, which uses both empirical data and the transition model to construct the PG, so as to accelerate the convergence speed without losing the optimality guarantee. MPG contains two types of PG: 1) data-driven PG, which is obtained by directly calculating the derivative of the learned Q-value function with respect to actions, and 2) model-driven PG, which is calculated using BPTT based on the model-predictive return. We unify them by revealing the correlation between the upper bound of the unified PG error and the predictive horizon, where the data-driven PG is regraded as 0-step model-predictive return. Relying on that, MPG employs a rule-based method to adaptively adjust the weights of data-driven and model-driven PGs. In particular, to get a more accurate PG, the weight of the data-driven PG is designed to grow along the learning process while the other to decrease. Besides, an asynchronous learning framework is proposed to reduce the wall-clock time needed for each update iteration. Simulation results show that the MPG method achieves the best asymptotic performance and convergence speed compared with other baseline algorithms.
翻訳日:2021-02-24 13:54:06 公開日:2021-02-23
# グラフ多重集合プーリングによるグラフ表現の高精度学習

Accurate Learning of Graph Representations with Graph Multiset Pooling ( http://arxiv.org/abs/2102.11533v1 )

ライセンス: Link先を確認
Jinheon Baek, Minki Kang, Sung Ju Hwang(参考訳) グラフニューラルネットワークは、グラフデータのモデリングに広く使われ、ノード分類とリンク予測タスクで印象的な結果を得た。 しかし、グラフの正確な表現を得るには、ノード表現の集合をコンパクトな形式にマッピングするプーリング関数が必要である。 すべてのノード表現に対する単純な和や平均は、すべてのノードの特徴を、そのタスクの関連性やそれらの構造的依存関係を考慮せずに、等しく考慮する。 一方,最近提案された階層型グラフプーリング手法は,ノード特徴からの情報を保護するため,Weisfeiler-Lehmanテストによって区別される2つの異なるグラフに対して,同じ表現が得られる可能性がある。 既存のグラフプーリング手法のこれらの制限に対処するために,まずグラフ構造に関する補助情報を含むマルチセット符号化問題としてグラフプーリング問題を策定し,その構造依存性に応じてノード間の相互作用をキャプチャするマルチヘッド注意ベースのグローバルプーリング層であるグラフマルチセットトランスフォーマー(GMT)を提案する。 GMT は単射性と置換不変性の両方を満たすことを示し、Weisfeiler-Lehman graph isomorphism test と同じくらい強力であることを示す。 さらに,本手法は,階層的なグラフプーリングのために,従来のノードクラスタリングアプローチに容易に拡張できる。 実験結果から,GMTはグラフ分類ベンチマークにおいて,メモリと時間効率が向上し,グラフ再構成および生成タスクにおいてさらに大きな性能向上が得られることがわかった。

Graph neural networks have been widely used on modeling graph data, achieving impressive results on node classification and link prediction tasks. Yet, obtaining an accurate representation for a graph further requires a pooling function that maps a set of node representations into a compact form. A simple sum or average over all node representations considers all node features equally without consideration of their task relevance, and any structural dependencies among them. Recently proposed hierarchical graph pooling methods, on the other hand, may yield the same representation for two different graphs that are distinguished by the Weisfeiler-Lehman test, as they suboptimally preserve information from the node features. To tackle these limitations of existing graph pooling methods, we first formulate the graph pooling problem as a multiset encoding problem with auxiliary information about the graph structure, and propose a Graph Multiset Transformer (GMT) which is a multi-head attention based global pooling layer that captures the interaction between nodes according to their structural dependencies. We show that GMT satisfies both injectiveness and permutation invariance, such that it is at most as powerful as the Weisfeiler-Lehman graph isomorphism test. Moreover, our methods can be easily extended to the previous node clustering approaches for hierarchical graph pooling. Our experimental results show that GMT significantly outperforms state-of-the-art graph pooling methods on graph classification benchmarks with high memory and time efficiency, and obtains even larger performance gain on graph reconstruction and generation tasks.
翻訳日:2021-02-24 13:53:37 公開日:2021-02-23
# 暗黒における戦略的分類

Strategic Classification in the Dark ( http://arxiv.org/abs/2102.11592v1 )

ライセンス: Link先を確認
Ganesh Ghalme, Vineet Nair, Itay Eilat, Inbal Talgam-Cohen, and Nir Rosenfeld(参考訳) 戦略分類は、分類規則とそれが支配する戦略エージェントの間の相互作用を研究する。 分類器が知られているという仮定の下で、合理的なエージェントは特徴を操作してそれに対応する。 しかし、ハイステーク分類(例えば信用スコアリング)の多くの実生活シナリオでは、分類器はエージェントに明らかにされておらず、エージェントは分類器を学習してゲームもしようとする。 本稿では,戦略分類モデルをそのようなシナリオに一般化する。 不透明度は、不透明度と透明性戦略燃焼分類器の予測誤差の差として定義し、その特性付けを行い、透明性が推奨される政策である場合には、この価格が厳密に肯定的である十分な条件を与える。 私たちの実験では、Hardt et al。 強靭な分類器は エージェントを暗く保つことで 影響を受けます

Strategic classification studies the interaction between a classification rule and the strategic agents it governs. Under the assumption that the classifier is known, rational agents respond to it by manipulating their features. However, in many real-life scenarios of high-stake classification (e.g., credit scoring), the classifier is not revealed to the agents, which leads agents to attempt to learn the classifier and game it too. In this paper we generalize the strategic classification model to such scenarios. We define the price of opacity as the difference in prediction error between opaque and transparent strategy-robust classifiers, characterize it, and give a sufficient condition for this price to be strictly positive, in which case transparency is the recommended policy. Our experiments show how Hardt et al.'s robust classifier is affected by keeping agents in the dark.
翻訳日:2021-02-24 13:53:08 公開日:2021-02-23
# ノイズ画像分類における勝利チケット

Winning Ticket in Noisy Image Classification ( http://arxiv.org/abs/2102.11628v1 )

ライセンス: Link先を確認
Taehyeon Kim, Jongwoo Ko, Jinhwan Choi, Sangwook Cho, Se-Young Yun(参考訳) 現代のディープニューラルネットワーク(DNN)は、データセットにノイズ(不正確な)クラスのラベルが含まれていると不安定になります。 損失調整、ロバスト損失関数、クリーンサンプル選択など、多くのロバストなテクニックが登場し、データセット全体を使用してこの問題を軽減する。 本稿では,ノイズの多いデータセットのクリーンなインスタンスのみを含むデータセットが,少ないデータでも元のデータセットよりも優れたオプティマ性をもたらすことを実証的に観察する。 これらの結果に基づき, 入賞券仮説を述べる: 頑健な手法にかかわらず, DNNは, オリジナル(入賞券)のクリーンなサンプルしか持たないデータセット上で訓練すると, 最高の性能に達する。 DNNのロスランドスケープと潜在機能を見て、勝ったチケットを特定するための2つのシンプルで効果的な戦略を提案します。 CIFAR-10とCIFAR-100の2つのデータ浄化手法と既存のロバスト手法を連携させて数値実験を行います。 その結果、我々のフレームワークは継続的に、そして著しくパフォーマンスを向上します。

Modern deep neural networks (DNNs) become frail when the datasets contain noisy (incorrect) class labels. Many robust techniques have emerged via loss adjustment, robust loss function, and clean sample selection to mitigate this issue using the whole dataset. Here, we empirically observe that the dataset which contains only clean instances in original noisy datasets leads to better optima than the original dataset even with fewer data. Based on these results, we state the winning ticket hypothesis: regardless of robust methods, any DNNs reach the best performance when trained on the dataset possessing only clean samples from the original (winning ticket). We propose two simple yet effective strategies to identify winning tickets by looking at the loss landscape and latent features in DNNs. We conduct numerical experiments by collaborating the two proposed methods purifying data and existing robust methods for CIFAR-10 and CIFAR-100. The results support that our framework consistently and remarkably improves performance.
翻訳日:2021-02-24 13:52:53 公開日:2021-02-23
# フィッシャー情報を用いた機械学習モデルにおけるデータリークの測定

Measuring Data Leakage in Machine-Learning Models with Fisher Information ( http://arxiv.org/abs/2102.11673v1 )

ライセンス: Link先を確認
Awni Hannun, Chuan Guo, Laurens van der Maaten(参考訳) 機械学習モデルには、トレーニングしたデータに関する情報が含まれている。 この情報はモデル自身あるいはモデルによる予測を通じてリークする。 これにより、トレーニングデータがセンシティブな属性を含む場合、情報漏洩の量を評価することが最重要となる。 本稿では,データに関するモデルのフィッシャー情報を用いて,この漏洩を定量化する手法を提案する。 差分プライバシーを保証する最悪のケースとは異なり、Fisher情報損失はデータセット内の特定の例、属性、またはサブ人口に関する漏洩を測定します。 Cram\'{e}r-Rao によるフィッシャー情報の損失を動機付け、暗黙の脅威モデルを説明します。 出力摂動一般化線形モデルに対するフィッシャー情報損失の効率的な計算法を提案する。 最後に,漁獲情報の損失を情報漏洩の有用な指標として実証的に検証する。

Machine-learning models contain information about the data they were trained on. This information leaks either through the model itself or through predictions made by the model. Consequently, when the training data contains sensitive attributes, assessing the amount of information leakage is paramount. We propose a method to quantify this leakage using the Fisher information of the model about the data. Unlike the worst-case a priori guarantees of differential privacy, Fisher information loss measures leakage with respect to specific examples, attributes, or sub-populations within the dataset. We motivate Fisher information loss through the Cram\'{e}r-Rao bound and delineate the implied threat model. We provide efficient methods to compute Fisher information loss for output-perturbed generalized linear models. Finally, we empirically validate Fisher information loss as a useful measure of information leakage.
翻訳日:2021-02-24 13:52:36 公開日:2021-02-23
# Oriole: 信頼できるディープラーニングモデルに対するプライバシー侵害

Oriole: Thwarting Privacy against Trustworthy Deep Learning Models ( http://arxiv.org/abs/2102.11502v1 )

ライセンス: Link先を確認
Liuqiao Chen, Hu Wang, Benjamin Zi Hao Zhao, Minhui Xue and Haifeng Qian(参考訳) ディープニューラルネットワークは、高精度顔認識モデルを訓練する目的で明示的な許可なしにインターネットから他人のデータをクロールすることができるように、顔認識の分野で前例のない成功を達成し、プライバシーの深刻な侵害を生み出しています。 最近、有名なシステムであるfawkes(usenix security 2020)は、このプライバシーの脅威は、オリジナルの画像の代わりにクロークされたユーザー画像をアップロードすることで、中立化できると主張した。 本稿では,データ中毒攻撃と回避攻撃の利点を組み合わせたシステムであるOrioleについて,攻撃者の顔認識モデルを,Orioleが生成したマルチクローズド画像でトレーニングすることにより,Fawkesの保護を阻止する。 これにより、攻撃モデルの顔認識精度が維持され、フェイクの弱点が明らかにされる。 実験の結果,提案するオリオール系はファウクスシステムの性能を効果的に阻害し,有望な攻撃結果を得ることができた。 本研究は,dssimの摂動予算,リークしたクリーンユーザ画像の比率,アンクローク画像毎のマルチクローク数など,オリオールシステムの性能に影響する複数の主要な要因を浮き彫りにしたものである。 また,fawkesの脆弱性を詳細に特定し,議論する。 本論文では,より堅牢なプライバシー保護深層学習モデルの設計の必要性について,セキュリティコミュニティに通知する。

Deep Neural Networks have achieved unprecedented success in the field of face recognition such that any individual can crawl the data of others from the Internet without their explicit permission for the purpose of training high-precision face recognition models, creating a serious violation of privacy. Recently, a well-known system named Fawkes (published in USENIX Security 2020) claimed this privacy threat can be neutralized by uploading cloaked user images instead of their original images. In this paper, we present Oriole, a system that combines the advantages of data poisoning attacks and evasion attacks, to thwart the protection offered by Fawkes, by training the attacker face recognition model with multi-cloaked images generated by Oriole. Consequently, the face recognition accuracy of the attack model is maintained and the weaknesses of Fawkes are revealed. Experimental results show that our proposed Oriole system is able to effectively interfere with the performance of the Fawkes system to achieve promising attacking results. Our ablation study highlights multiple principal factors that affect the performance of the Oriole system, including the DSSIM perturbation budget, the ratio of leaked clean user images, and the numbers of multi-cloaks for each uncloaked image. We also identify and discuss at length the vulnerabilities of Fawkes. We hope that the new methodology presented in this paper will inform the security community of a need to design more robust privacy-preserving deep learning models.
翻訳日:2021-02-24 13:52:05 公開日:2021-02-23
# 防食ツールとしての人工知能(AI-ACT) -トップダウンとボトムアップのアプローチの可能性と落とし穴-

Artificial Intelligence as an Anti-Corruption Tool (AI-ACT) -- Potentials and Pitfalls for Top-down and Bottom-up Approaches ( http://arxiv.org/abs/2102.11567v1 )

ライセンス: Link先を確認
Nils K\"obis, Christopher Starke, Iyad Rahwan(参考訳) 腐敗は、私たちの時代の最大の社会的課題の1つであり続けています。 人工知能(AI)に新しい希望が置かれ、偏見のない腐敗防止剤として機能します。 より利用可能な(オープンな)政府データと前例のないパフォーマンスのアルゴリズムの組み合わせにより、AIは腐敗防止の次のフロンティアとなります。 AIベースの腐敗防止ツール(AI-ACT)を用いた既存の取り組みを要約し、研究と政策を進めるための概念的枠組みを紹介します。 AIがトップダウンとボトムアップの腐敗防止アプローチのためのユニークなツールを提供する理由を概説します。 いずれのアプローチについても,ai-act が (a) 入力データ, (b) アルゴリズム設計, (c) システム実装に対して,さまざまな可能性と落とし穴をどのように提示するかを概説する。 最後に、我々は、市民の見解を考慮しながらAI-ACTを開発するために対処する必要がある重要な質問を、未来を探求し、さらに「ループの社会性」を見出します。

Corruption continues to be one of the biggest societal challenges of our time. New hope is placed in Artificial Intelligence (AI) to serve as an unbiased anti-corruption agent. Ever more available (open) government data paired with unprecedented performance of such algorithms render AI the next frontier in anti-corruption. Summarizing existing efforts to use AI-based anti-corruption tools (AI-ACT), we introduce a conceptual framework to advance research and policy. It outlines why AI presents a unique tool for top-down and bottom-up anti-corruption approaches. For both approaches, we outline in detail how AI-ACT present different potentials and pitfalls for (a) input data, (b) algorithmic design, and (c) institutional implementation. Finally, we venture a look into the future and flesh out key questions that need to be addressed to develop AI-ACT while considering citizens' views, hence putting "society in the loop".
翻訳日:2021-02-24 13:51:40 公開日:2021-02-23
# 信頼できるモデル:(エージェントベース)モデルの解釈と検証の体系的規律に向けて

Models we Can Trust: Toward a Systematic Discipline of (Agent-Based) Model Interpretation and Validation ( http://arxiv.org/abs/2102.11615v1 )

ライセンス: Link先を確認
Gabriel Istrate(参考訳) 我々は、モデルから情報を取り出す、相互作用する分野の開発を提唱する(例えば、数学)。 ゲーム理論)と計算(例えば、計算) エージェントベースモデル)。 我々は,そのような分野の発展に向けたいくつかの方向性を概説する:―(数学的・計算的な)社会科学における,形式化された事実と社会メカニズムの体系的な形式的仕様のための論理的枠組みの開発。 このようなフレームワークは、フェーズ遷移、すなわち、新たな問題に注目を集めるだろう。 パラメータ空間のいくつかの重要な値を超える様式化された事実の妥当性の劇的な変化。 このような記述は ABM の性質を記述する論理フレームワークにとって有用であると主張します。 -「同じ行動を持つ」2つのシステムの事実上関連する概念を得るために、反応系の理論(二相計算など)からのツールの適応。 -社会的行動のモデルから社会的ダイナミクスのいくつかの特徴の変動への結論の堅牢性を調べるモデル摂動の逆転理論の体系的な発展。 これには、アクティベーション順序、基礎となるソーシャルネットワーク、個々のエージェントの振る舞いが含まれる。

We advocate the development of a discipline of interacting with and extracting information from models, both mathematical (e.g. game-theoretic ones) and computational (e.g. agent-based models). We outline some directions for the development of a such a discipline: - the development of logical frameworks for the systematic formal specification of stylized facts and social mechanisms in (mathematical and computational) social science. Such frameworks would bring to attention new issues, such as phase transitions, i.e. dramatical changes in the validity of the stylized facts beyond some critical values in parameter space. We argue that such statements are useful for those logical frameworks describing properties of ABM. - the adaptation of tools from the theory of reactive systems (such as bisimulation) to obtain practically relevant notions of two systems "having the same behavior". - the systematic development of an adversarial theory of model perturbations, that investigates the robustness of conclusions derived from models of social behavior to variations in several features of the social dynamics. These may include: activation order, the underlying social network, individual agent behavior.
翻訳日:2021-02-24 13:51:21 公開日:2021-02-23
# スマートデバイスにおけるメモリ効率のよい音声認識

Memory-efficient Speech Recognition on Smart Devices ( http://arxiv.org/abs/2102.11531v1 )

ライセンス: Link先を確認
Ganesh Venkatesh, Alagappan Valliappan, Jay Mahadeokar, Yuan Shangguan, Christian Fuegen, Michael L. Seltzer, Vikas Chandra(参考訳) リカレントトランスデューサモデルは、現在および次世代のスマートデバイスにおける音声認識の有望なソリューションとして登場しました。 トランスデューサモデルは、これらのデバイスのメモリ容量の制約を軽減する合理的なメモリフットプリント内の競争力のある精度を提供します。 しかし、これらのモデルは入力時間ステップ毎にオフチップメモリからパラメータにアクセスし、デバイスのバッテリ寿命に悪影響を及ぼし、低消費電力デバイスのユーザビリティを制限する。 トランスデューサモデルのメモリアクセスに関する懸念を、モデルアーキテクチャの最適化と新規なリカレントセル設計により解決します。 i) モデルのエネルギーコストは,オフチップメモリからモデルウェイトにアクセスすることで支配的であること,ii) トランスデューサモデルアーキテクチャは、オフチップメモリへのアクセス数を決定する上で重要であり,モデルサイズだけでは良いプロキシではないこと,iii) 私たちのトランスデューサモデルの最適化と新しいリカレントセルは、オフチップメモリへのアクセスを4.5倍削減し,モデルサイズを2倍小さくする。

Recurrent transducer models have emerged as a promising solution for speech recognition on the current and next generation smart devices. The transducer models provide competitive accuracy within a reasonable memory footprint alleviating the memory capacity constraints in these devices. However, these models access parameters from off-chip memory for every input time step which adversely effects device battery life and limits their usability on low-power devices. We address transducer model's memory access concerns by optimizing their model architecture and designing novel recurrent cell designs. We demonstrate that i) model's energy cost is dominated by accessing model weights from off-chip memory, ii) transducer model architecture is pivotal in determining the number of accesses to off-chip memory and just model size is not a good proxy, iii) our transducer model optimizations and novel recurrent cell reduces off-chip memory accesses by 4.5x and model size by 2x with minimal accuracy impact.
翻訳日:2021-02-24 13:51:04 公開日:2021-02-23
# 薄殻モデルにおける深部変形詳細合成

Deep Deformation Detail Synthesis for Thin Shell Models ( http://arxiv.org/abs/2102.11541v1 )

ライセンス: Link先を確認
Lan Chen, Lin Gao, Jie Yang, Shibiao Xu, Juntao Ye, Xiaopeng Zhang, Yu-Kun Lai(参考訳) 物理ベースの布アニメーションでは、高価な計算リソースと巨大な労働調整のコストで豊富な折り畳みと詳細なしわが達成されます。 データ駆動技術により、データベースによる計算を大幅に削減します。 一般的な布には当てはまらない着物を合成するために、人間のポーズに依存する方法がある。 別のタイプのメソッドは、そのような制限なしに粗いメッシュに詳細を追加する。 しかし、既存の作品は通常、大規模な変形に対応できない座標に基づく表現を使い、粗いメッシュと細かいメッシュの間の密接な頂点対応を必要とする。 さらに、これらのメソッドは詳細のみを追加するため、粗いメッシュを細いメッシュに近づける必要があり、これは不可能か、細いメッシュを生成する際に非現実的な制約を必要とする可能性がある。 これらの課題に対処するため,我々は,低解像度メッシュから詳細なメッシュへのマッピングを学ぶために,時間的かつ空間的に一貫性のある変形表現(ts-acap)とデフォームトランスフォーマネットワークを開発した。 このTS-ACAP表現は、布のアニメーションから連続した大規模変形に対する空間的および時間的整合性を保証するように設計されている。 この表現により、DeformTransformerネットワークは、まず2つのメッシュベースのエンコーダを使用して、粗い特徴と細かな特徴を抽出する。 粗い特徴を微細なものに伝達するために,フレームレベルの注意機構からなるトランスネットワークを利用して,予測の時間的コヒーレンスを確保する。 本手法は, 物理シミュレーションの10~35倍の速度で, 従来の手法よりも詳細合成能力に優れ, 高いフレームレートで, 信頼性と現実的なアニメーションを様々なデータセットで生成できることを示した。

In physics-based cloth animation, rich folds and detailed wrinkles are achieved at the cost of expensive computational resources and huge labor tuning. Data-driven techniques make efforts to reduce the computation significantly by a database. One type of methods relies on human poses to synthesize fitted garments which cannot be applied to general cloth. Another type of methods adds details to the coarse meshes without such restrictions. However, existing works usually utilize coordinate-based representations which cannot cope with large-scale deformation, and requires dense vertex correspondences between coarse and fine meshes. Moreover, as such methods only add details, they require coarse meshes to be close to fine meshes, which can be either impossible, or require unrealistic constraints when generating fine meshes. To address these challenges, we develop a temporally and spatially as-consistent-as-possible deformation representation (named TS-ACAP) and a DeformTransformer network to learn the mapping from low-resolution meshes to detailed ones. This TS-ACAP representation is designed to ensure both spatial and temporal consistency for sequential large-scale deformations from cloth animations. With this representation, our DeformTransformer network first utilizes two mesh-based encoders to extract the coarse and fine features, respectively. To transduct the coarse features to the fine ones, we leverage the Transformer network that consists of frame-level attention mechanisms to ensure temporal coherence of the prediction. Experimental results show that our method is able to produce reliable and realistic animations in various datasets at high frame rates: 10 ~ 35 times faster than physics-based simulation, with superior detail synthesis abilities than existing methods.
翻訳日:2021-02-24 13:49:58 公開日:2021-02-23
# 粉砕骨遠位端骨折の3次元再建システム

A System for 3D Reconstruction Of Comminuted Tibial Plafond Bone Fractures ( http://arxiv.org/abs/2102.11684v1 )

ライセンス: Link先を確認
Pengcheng Liu, Nathan Hewitt, Waseem Shadid, Andrew Willis(参考訳) 関節部位における高エネルギーの影響は、しばしば高度に断片化された骨骨折を引き起こす。 現在の治療アプローチでは、骨折を階層的骨折重症度分類に分類する方法を医師が決める必要がある。 各カテゴリは、患者に最適な予後を得るために最良の治療シナリオを提供します。 本稿では、破壊重大度の定性的評価のみに関連する欠点を特定し、これらの欠点に対処するのに役立つ新しい定量的指標を提供します。 骨折重症度の主要な指標である定量指標を半自動的に抽出するシステムを提案する。 これらには、(i)骨折表面積、すなわち、骨が壊れたときの表面積、および(ii)分散、すなわち、断片が元の解剖学的位置からどのくらい回転し、翻訳されたかが含まれます。 本稿では, CT画像から3次元骨解剖を計算的に再構成し, 難治性定性骨折の重症度が高い頸部骨折症例を中心に, それらの測定値を抽出する新しい計算ツールについて述べる。 レコンストラクションは、仮想環境で断片を識別し、抽出し、断片化するいくつかの新しいアルゴリズムを統合する単一のシステム内で達成される。 これを行うことは、これらの破壊重症度指標に客観的な定量的測定を提供します。 このような対策が利用可能になると、骨折の重症度評価のための新しいツールが提供され、骨折治療の改善につながる可能性があります。 本論文では, 6症例の骨盤骨折症例を定量的に解析し, そのシステム, 基礎アルゴリズム, 再構成結果のメトリクスについて述べる。

High energy impacts at joint locations often generate highly fragmented, or comminuted, bone fractures. Current approaches for treatment require physicians to decide how to classify the fracture within a hierarchy fracture severity categories. Each category then provides a best-practice treatment scenario to obtain the best possible prognosis for the patient. This article identifies shortcomings associated with qualitative-only evaluation of fracture severity and provides new quantitative metrics that serve to address these shortcomings. We propose a system to semi-automatically extract quantitative metrics that are major indicators of fracture severity. These include: (i) fracture surface area, i.e., how much surface area was generated when the bone broke apart, and (ii) dispersion, i.e., how far the fragments have rotated and translated from their original anatomic positions. This article describes new computational tools to extract these metrics by computationally reconstructing 3D bone anatomy from CT images with a focus on tibial plafond fracture cases where difficult qualitative fracture severity cases are more prevalent. Reconstruction is accomplished within a single system that integrates several novel algorithms that identify, extract and piece-together fractured fragments in a virtual environment. Doing so provides objective quantitative measures for these fracture severity indicators. The availability of such measures provides new tools for fracture severity assessment which may lead to improved fracture treatment. This paper describes the system, the underlying algorithms and the metrics of the reconstruction results by quantitatively analyzing six clinical tibial plafond fracture cases.
翻訳日:2021-02-24 13:49:31 公開日:2021-02-23
# ビデオ超解像のためのディープアンロールネットワーク

Deep Unrolled Network for Video Super-Resolution ( http://arxiv.org/abs/2102.11720v1 )

ライセンス: Link先を確認
Benjamin Naoto Chiche, Arnaud Woiselle, Joana Frontera-Pons and Jean-Luc Starck(参考訳) ビデオスーパーリゾリューション(VSR)は、対応する低リゾリューション(LR)バージョンから高リゾリューション(HR)画像のシーケンスを再構築することを目的としています。 伝統的に、VSR問題の解法は、画像形成や動きの仮定に関する事前知識を活用できる反復アルゴリズムに基づいている。 しかし、これらの古典的手法は自然画像から複雑な統計を取り込むのに苦労している。 さらに、VSRは最近、ディープラーニング(DL)アルゴリズムによる改善の恩恵を受けています。 これらの技術は、大量の画像から空間パターンを効率的に学習できます。 しかし、画像形成モデルに関する知識を取り入れておらず、柔軟性が制限されている。 逆問題解決のために開発された未ロール最適化アルゴリズムは、ディープラーニングアーキテクチャに事前情報を含めることができる。 これらは、主に単一の画像復元タスクで使用されてきた。 アンロールされたニューラルネットワーク構造への適応には、次のようなメリットがある。 まず、これはスーパーレゾリューションタスクのパフォーマンスを向上させる可能性がある。 これにより、ニューラルネットワークの解釈性が向上する。 最後に、単一のモデルが複数の劣化に無明快に対処できるように柔軟性を持たせる。 本稿では,未ロール最適化技術に基づく新しいvsrニューラルネットワークを提案し,その性能について述べる。

Video super-resolution (VSR) aims to reconstruct a sequence of high-resolution (HR) images from their corresponding low-resolution (LR) versions. Traditionally, solving a VSR problem has been based on iterative algorithms that can exploit prior knowledge on image formation and assumptions on the motion. However, these classical methods struggle at incorporating complex statistics from natural images. Furthermore, VSR has recently benefited from the improvement brought by deep learning (DL) algorithms. These techniques can efficiently learn spatial patterns from large collections of images. Yet, they fail to incorporate some knowledge about the image formation model, which limits their flexibility. Unrolled optimization algorithms, developed for inverse problems resolution, allow to include prior information into deep learning architectures. They have been used mainly for single image restoration tasks. Adapting an unrolled neural network structure can bring the following benefits. First, this may increase performance of the super-resolution task. Then, this gives neural networks better interpretability. Finally, this allows flexibility in learning a single model to nonblindly deal with multiple degradations. In this paper, we propose a new VSR neural network based on unrolled optimization techniques and discuss its performance.
翻訳日:2021-02-24 13:49:10 公開日:2021-02-23
# Chaos と NSGA II を用いたマクロ経済時系列の最適予測間隔

Optimal Prediction Intervals for Macroeconomic Time Series Using Chaos and NSGA II ( http://arxiv.org/abs/2102.11427v1 )

ライセンス: Link先を確認
Vangala Sarveswararao, Vadlamani Ravi and Sheik Tanveer Ul Huq(参考訳) 本稿では,二目的最適化問題として時系列における予測区間(PI)の定式化を提案し,Nondominated Sorting Genetic Algorithm (NSGA-II) の助けを借りて解決する。 また,時系列に存在するカオスを前処理としてモデル化し,時系列に存在する決定論的不確実性をモデル化することを提案した。 提案モデルは汎用的ではあるが,マクロ経済時系列予測の不確かさの定量化に用いられている。 理想のPIは可能な限り狭くし、ほとんどのデータポイントをキャプチャするべきです。 これら2つの目的に基づき, PIを2段階に生成するための両対象最適化問題を策定し, カオス理論を用いた位相空間の再構築(ステージ-1)を行い, NSGA-IIを用いた最適点予測を行い, これらの点予測をPIの取得に用いる(ステージ-2)。 また,第3段階がNSGA-IIを起動し,第2段階の点予測からPIを構成する問題を解く3段階のハイブリッドも提案した。 提案手法をマクロ経済時系列に適用した場合, 予測区間被覆率 (PICP) と予測区間平均幅 (PIAW) の両面において, 勾配Descent (GD) を用いた下層境界推定法 (LUBE) と比較し, 良好な結果を得た。 3段モデルでは2段モデルと比較してPICPが向上したが, NSGA-II2次動作の計算コストが増大し, PIAWでは同様の性能を示した。

In a first-of-its-kind study, this paper proposes the formulation of constructing prediction intervals (PIs) in a time series as a bi-objective optimization problem and solves it with the help of Nondominated Sorting Genetic Algorithm (NSGA-II). We also proposed modeling the chaos present in the time series as a preprocessor in order to model the deterministic uncertainty present in the time series. Even though the proposed models are general in purpose, they are used here for quantifying the uncertainty in macroeconomic time series forecasting. Ideal PIs should be as narrow as possible while capturing most of the data points. Based on these two objectives, we formulated a bi-objective optimization problem to generate PIs in 2-stages, wherein reconstructing the phase space using Chaos theory (stage-1) is followed by generating optimal point prediction using NSGA-II and these point predictions are in turn used to obtain PIs (stage-2). We also proposed a 3-stage hybrid, wherein the 3rd stage invokes NSGA-II too in order to solve the problem of constructing PIs from the point prediction obtained in 2nd stage. The proposed models when applied to the macroeconomic time series, yielded better results in terms of both prediction interval coverage probability (PICP) and prediction interval average width (PIAW) compared to the state-of-the-art Lower Upper Bound Estimation Method (LUBE) with Gradient Descent (GD). The 3-stage model yielded better PICP compared to the 2-stage model but showed similar performance in PIAW with added computation cost of running NSGA-II second time.
翻訳日:2021-02-24 13:48:35 公開日:2021-02-23
# 製造システムの予測的保守のための神経科学に基づくアルゴリズム

Neuroscience-Inspired Algorithms for the Predictive Maintenance of Manufacturing Systems ( http://arxiv.org/abs/2102.11450v1 )

ライセンス: Link先を確認
Arnav V. Malawade, Nathan D. Costa, Deepan Muthirayan, Pramod P. Khargonekar, Mohammad A. Al Faruque(参考訳) 機械故障を事前に検出できれば、メンテナンスや修理をより効率的に行うことができ、生産コストを低減できる。 振動データを用いた早期故障検出のための機械学習手法が数多く提案されているが、これらの手法はしばしば電力とデータ格納性があり、ノイズに影響を受けやすく、大量のデータ前処理を必要とする。 また、トレーニングは通常、推論の前に1回だけ行われるので、機械時代の学習や適応は行わない。 そこで我々は階層型時空間メモリ(htm)を用いた予測保守のためのオンラインリアルタイム異常検出手法を提案する。 ヒトの新皮質に触発されて、htmは継続的に学習し、適応し、雑音に頑健である。 Numenta Anomaly Benchmark を用いて,本手法は実世界のベアリング故障や3Dプリンタの故障を事前に検出し,最先端のアルゴリズムよりも優れていることを示す。 このアプローチは平均スコア64.71に達し、最先端のディープラーニング(49.38)と統計的手法(61.06)を上回っている。

If machine failures can be detected preemptively, then maintenance and repairs can be performed more efficiently, reducing production costs. Many machine learning techniques for performing early failure detection using vibration data have been proposed; however, these methods are often power and data-hungry, susceptible to noise, and require large amounts of data preprocessing. Also, training is usually only performed once before inference, so they do not learn and adapt as the machine ages. Thus, we propose a method of performing online, real-time anomaly detection for predictive maintenance using Hierarchical Temporal Memory (HTM). Inspired by the human neocortex, HTMs learn and adapt continuously and are robust to noise. Using the Numenta Anomaly Benchmark, we empirically demonstrate that our approach outperforms state-of-the-art algorithms at preemptively detecting real-world cases of bearing failures and simulated 3D printer failures. Our approach achieves an average score of 64.71, surpassing state-of-the-art deep-learning (49.38) and statistical (61.06) methods.
翻訳日:2021-02-24 13:48:04 公開日:2021-02-23
# euler数値積分が凸最適化の加速と安定性に及ぼす影響の再検討

Revisiting the Role of Euler Numerical Integration on Acceleration and Stability in Convex Optimization ( http://arxiv.org/abs/2102.11537v1 )

ライセンス: Link先を確認
Peiyuan Zhang, Antonio Orvieto, Hadi Daneshmand, Thomas Hofmann, Roy Smith(参考訳) 常微分方程式(ODE)の数値積分器としての最適化手法の展望は、加速された一階最適化器を研究するための思考を誘発する現代的な枠組みを提供する。 この文献では、加速はしばしば積分器の品質(正確性、エネルギー保存、シンプレクティリティ)に関係していると考えられる。 本研究では、この接続に疑問を呈する新しい常微分方程式を提案する: このODE上の明示的および半単純(シンプレクティック)なオイラー離散化は、凸プログラミングの高速化アルゴリズムに繋がる。 半単純法は物理系の統合に望ましい特徴を多く享受するために数値解析でよく知られているが,これらの特性が必ずしも加速度に関係しないことを示す。

Viewing optimization methods as numerical integrators for ordinary differential equations (ODEs) provides a thought-provoking modern framework for studying accelerated first-order optimizers. In this literature, acceleration is often supposed to be linked to the quality of the integrator (accuracy, energy preservation, symplecticity). In this work, we propose a novel ordinary differential equation that questions this connection: both the explicit and the semi-implicit (a.k.a symplectic) Euler discretizations on this ODE lead to an accelerated algorithm for convex programming. Although semi-implicit methods are well-known in numerical analysis to enjoy many desirable features for the integration of physical systems, our findings show that these properties do not necessarily relate to acceleration.
翻訳日:2021-02-24 13:47:44 公開日:2021-02-23
# メタラーニングによるハミルトン系の物理法則の同定

Identifying Physical Law of Hamiltonian Systems via Meta-Learning ( http://arxiv.org/abs/2102.11544v1 )

ライセンス: Link先を確認
Seungjun Lee, Haesang Yang, Woojae Seong(参考訳) ハミルトン力学は、簡潔かつよく一般化された数学的表現で多くの物理過程を表現する効果的なツールである。 十分にモデル化されたハミルトニアンは、研究者が同じ物理法則によって支配される多くの関連する現象を分析し予測することを容易にする。 しかし一般に、ハミルトニアンの機能的あるいは共有的な表現の同定は非常に困難である。 それは慎重に設計された実験と長年の経験から来る研究者の洞察を必要とします。 メタラーニングアルゴリズムはハミルトン系を支配する物理法則を識別するための強力なデータ駆動型ツールであり、表現に関する数学的仮定はなく、同じ物理法則に支配される一連のシステムから観測されることを示唆する。 本手法は,様々な実験環境において,様々な物理系で評価することにより,よく訓練された学習者がハミルトニアンの共有表現を識別できることを示す。

Hamiltonian mechanics is an effective tool to represent many physical processes with concise yet well-generalized mathematical expressions. A well-modeled Hamiltonian makes it easy for researchers to analyze and forecast many related phenomena that are governed by the same physical law. However, in general, identifying a functional or shared expression of the Hamiltonian is very difficult. It requires carefully designed experiments and the researcher's insight that comes from years of experience. We propose that meta-learning algorithms can be potentially powerful data-driven tools for identifying the physical law governing Hamiltonian systems without any mathematical assumptions on the representation, but with observations from a set of systems governed by the same physical law. We show that a well meta-trained learner can identify the shared representation of the Hamiltonian by evaluating our method on several types of physical systems with various experimental settings.
翻訳日:2021-02-24 13:47:27 公開日:2021-02-23
# 無線リンクの品質を公平に分類する学習

Learning to Fairly Classify the Quality of WirelessLinks ( http://arxiv.org/abs/2102.11655v1 )

ライセンス: Link先を確認
Gregor Cerar, Halil Yetgin, Mihael Mohor\v{c}i\v{c}, Carolina Fortuna(参考訳) 機械学習(ML)は、無線ネットワークにおけるリンク品質推定器の精度向上に用いられている。 しかし、最も適したモデルのクラス、最も適したメトリクス、不均衡なデータセットのモデルパフォーマンスに関するより詳細な質問は、引き続き開かれている。 本稿では,高パフォーマンスを満たし,マイノリティクラスを公平に分類し,同時に低いトレーニングコストを発生させる木ベースリンク品質分類器を提案する。 本研究では, 選択された不均衡データセット上で, マルチレイヤパーセプトロン(MLP)の非線形モデルと, ロジスティック回帰(LR)とSVMの2つの線形モデルを比較し, 5つの異なる性能指標を用いて評価した。 Our study shows that 1) non-linear models perform slightly better than linear models in general, 2) the proposed non-linear tree-based model yields the best performance trade-off considering F1, training time and fairness, 3) single metric aggregated evaluations based only on accuracy can hide poor, unfair performance especially on minority classes, and 4) it is possible to improve the performance on minority classes, by over 40% through feature selection and by over 20% through resampling, therefore leading to fairer classification results.

Machine learning (ML) has been used to develop increasingly accurate link quality estimators for wireless networks. However, more in-depth questions regarding the most suitable class of models, most suitable metrics and model performance on imbalanced datasets remain open. In this paper, we propose a new tree-based link quality classifier that meets high performance and fairly classifies the minority class and, at the same time, incurs low training cost. We compare the tree-based model, to a multilayer perceptron (MLP) non-linear model and two linear models, namely logistic regression (LR) and SVM, on a selected imbalanced dataset and evaluate their results using five different performance metrics. Our study shows that 1) non-linear models perform slightly better than linear models in general, 2) the proposed non-linear tree-based model yields the best performance trade-off considering F1, training time and fairness, 3) single metric aggregated evaluations based only on accuracy can hide poor, unfair performance especially on minority classes, and 4) it is possible to improve the performance on minority classes, by over 40% through feature selection and by over 20% through resampling, therefore leading to fairer classification results.
翻訳日:2021-02-24 13:47:11 公開日:2021-02-23
# 量子ドットデバイスにおける状態同定のためのレイベースフレームワーク

Ray-based framework for state identification in quantum dot devices ( http://arxiv.org/abs/2102.11784v1 )

ライセンス: Link先を確認
Justyna P. Zwolak, Thomas McJunkin, Sandesh S. Kalantre, Samuel F. Neyens, E. R. MacQuarrie, Mark A. Eriksson, Jacob M. Taylor(参考訳) 静電ゲートで定義された量子ドット(QD)は、スケーラブルな量子コンピューティング実装のための主要なプラットフォームである。 しかし、量子ビット数の増加に伴い、制御パラメータ空間の複雑さも増大する。 デバイス応答の2パラメータスキャン(画像)による完全またはほぼ完全な探索に依存する従来の測定技術は、ゲートの数が増えるとすぐに非現実的になります。 本稿では,マルチ次元パラメータ空間におけるデバイス応答の1次元投影に基づく計測手法の導入により,この課題を回避することを提案する。 レイベース分類(RBC)フレームワークとして、この機械学習(ML)アプローチを使用して、QD状態の分類器を実装し、量子ビット関連パラメータ系統の自動認識を可能にする。 rbcは, 画像に基づく分類手法の実験的実装から, 82 %の精度ベンチマークを上回っており, 必要な測定点数を最大70 %削減できることを示した。 測定コストの削減は、時間を要するqd測定の大幅な増加であり、これらのデバイスのスケーラビリティへの一歩である。 また,マルチキュービットレジームにチューニングするrbcベースのオプティマイザが,ドットを制御するプランジャとバリアゲートによって定義される2次元および3次元のパラメータ空間でチューニングする際にどのように動作するかについても論じる。 この研究は、高次元パラメータ空間を持つ量子系における非伝統的な測定のためのML手法による効率的な状態同定と最適化の両立を実験的に検証する。

Quantum dots (QDs) defined with electrostatic gates are a leading platform for a scalable quantum computing implementation. However, with increasing numbers of qubits, the complexity of the control parameter space also grows. Traditional measurement techniques, relying on complete or near-complete exploration via two-parameter scans (images) of the device response, quickly become impractical with increasing numbers of gates. Here, we propose to circumvent this challenge by introducing a measurement technique relying on one-dimensional projections of the device response in the multi-dimensional parameter space. Dubbed as the ray-based classification (RBC) framework, we use this machine learning (ML) approach to implement a classifier for QD states, enabling automated recognition of qubit-relevant parameter regimes. We show that RBC surpasses the 82 % accuracy benchmark from the experimental implementation of image-based classification techniques from prior work while cutting down the number of measurement points needed by up to 70 %. The reduction in measurement cost is a significant gain for time-intensive QD measurements and is a step forward towards the scalability of these devices. We also discuss how the RBC-based optimizer, which tunes the device to a multi-qubit regime, performs when tuning in the two- and three-dimensional parameter spaces defined by plunger and barrier gates that control the dots. This work provides experimental validation of both efficient state identification and optimization with ML techniques for non-traditional measurements in quantum systems with high-dimensional parameter spaces and time-intensive measurements.
翻訳日:2021-02-24 13:46:51 公開日:2021-02-23
# SliceNStitch: スパーステンソルストリームの連続CP分解

SliceNStitch: Continuous CP Decomposition of Sparse Tensor Streams ( http://arxiv.org/abs/2102.11517v1 )

ライセンス: Link先を確認
Taehyung Kwon, Inkyu Park, Dongjin Lee, and Kijung Shin(参考訳) 時間とともに増加するトラフィックデータ(すなわち、ソース・デスティネーション・タイムスタンプの形でトリプレット)を考える。 時間モードを持つテンソル(すなわち多次元配列)は、このようなマルチスペクトルデータストリームのモデリングと解析に広く使われている。 しかし、そのようなテンソルでは、新しいエントリは周期ごとに1回だけ追加され、これはしばしば1時間、1日、あるいは1年である。 このようなテンソルの離散性は、新しいデータが到着すると即座に分析されるべきリアルタイムアプリケーションの使用を制限している。 時間的変化を伴うマルチスペクトルスパースデータをテンソルを用いて「連続的」に解析する方法 我々は,異常検出,レコメンデータシステム,株式市場予測など,多くの時間クリティカルなアプリケーションを有する連続的candecomp/parafac分解のためのスライスストッチを提案する。 SLICENSTITCHは、現在の時間に基づいて各期間の開始点を適応的に変更し、新しいデータが到着するとすぐに因子行列(CP分解の出力)を更新します。 理論的および実験的に、SLICENSTITCHは(1)「任意の時間」:現在の時間期間が終了するまで待つことなく、すぐに因子行列を更新すること、(2)高速:オンラインメソッドよりも759倍速く、(3)正確:オフラインメソッドに匹敵するフィットネス(特に72〜160%)。

Consider traffic data (i.e., triplets in the form of source-destination-timestamp) that grow over time. Tensors (i.e., multi-dimensional arrays) with a time mode are widely used for modeling and analyzing such multi-aspect data streams. In such tensors, however, new entries are added only once per period, which is often an hour, a day, or even a year. This discreteness of tensors has limited their usage for real-time applications, where new data should be analyzed instantly as it arrives. How can we analyze time-evolving multi-aspect sparse data 'continuously' using tensors where time is'discrete'? We propose SLICENSTITCH for continuous CANDECOMP/PARAFAC (CP) decomposition, which has numerous time-critical applications, including anomaly detection, recommender systems, and stock market prediction. SLICENSTITCH changes the starting point of each period adaptively, based on the current time, and updates factor matrices (i.e., outputs of CP decomposition) instantly as new data arrives. We show, theoretically and experimentally, that SLICENSTITCH is (1) 'Any time': updating factor matrices immediately without having to wait until the current time period ends, (2) Fast: with constant-time updates up to 759x faster than online methods, and (3) Accurate: with fitness comparable (specifically, 72 ~ 160%) to offline methods.
翻訳日:2021-02-24 13:45:38 公開日:2021-02-23
# Gram Matrix 機能的相関を用いた深層学習音イベント分類器の改良

Improving Deep Learning Sound Events Classifiers using Gram Matrix Feature-wise Correlations ( http://arxiv.org/abs/2102.11771v1 )

ライセンス: Link先を確認
Antonio Joia Neto and Andre G C Pacheco and Diogo C Luvizon(参考訳) 本稿では,分布外検出のための最近の研究に触発された新しい音事象分類(SEC)手法を提案する。 本手法では,一般CNNの全てのアクティベーションを分析し,Gram Matricesを用いて特徴表現を生成する。 類似度メトリクスは、すべての可能なクラスを考慮して評価され、最終的な予測は、トレーニング中に見られる特徴に対する偏差を最小限にするクラスとして定義される。 提案手法はどのCNNにも適用可能であり,2つのデータセット上で4つの異なるアーキテクチャを実験的に評価した結果,ベースラインモデルが一貫して改善されることが示された。

In this paper, we propose a new Sound Event Classification (SEC) method which is inspired in recent works for out-of-distribution detection. In our method, we analyse all the activations of a generic CNN in order to produce feature representations using Gram Matrices. The similarity metrics are evaluated considering all possible classes, and the final prediction is defined as the class that minimizes the deviation with respect to the features seeing during training. The proposed approach can be applied to any CNN and our experimental evaluation of four different architectures on two datasets demonstrated that our method consistently improves the baseline models.
翻訳日:2021-02-24 13:45:13 公開日:2021-02-23
# 物理層設計のための連合学習

Federated Learning for Physical Layer Design ( http://arxiv.org/abs/2102.11777v1 )

ライセンス: Link先を確認
Ahmet M. Elbir and Anastasios K. Papazafeiropoulos and Symeon Chatzinotas(参考訳) 機械学習(ML)のようなモデルフリーの技術は最近、記号検出、チャネル推定、ビームフォーミングなどの物理層設計に多くの関心を集めている。 これらのML技術のほとんどは集中学習(CL)方式を採用し、パラメータサーバ(PS)でのデータセットの可用性を想定し、携帯電話などのエッジデバイスからPSへのデータの送信を要求します。 エッジで生成されたデータを活用することで、フェデレーション学習(fl)が分散学習スキームとして提案され、各デバイスがモデルパラメータを計算し、モデル集約のためにpsに送信し、データセットはエッジに保持される。 したがって、FLはCLよりも通信効率が良くプライバシーが保護され、エッジデバイスでデータが生成される無線通信シナリオに適用できる。 この記事では、物理層設計問題に対するFLベースのトレーニングの最近の進歩を説明し、通信オーバーヘッド、モデル/データ/ハードウェアの複雑さの観点からパフォーマンスを向上させるための可能なソリューションとともに関連する設計課題を特定します。

Model-free techniques, such as machine learning (ML), have recently attracted much interest for physical layer design, e.g., symbol detection, channel estimation and beamforming. Most of these ML techniques employ centralized learning (CL) schemes and assume the availability of datasets at a parameter server (PS), demanding the transmission of data from the edge devices, such as mobile phones, to the PS. Exploiting the data generated at the edge, federated learning (FL) has been proposed recently as a distributed learning scheme, in which each device computes the model parameters and sends them to the PS for model aggregation, while the datasets are kept intact at the edge. Thus, FL is more communication-efficient and privacy-preserving than CL and applicable to the wireless communication scenarios, wherein the data are generated at the edge devices. This article discusses the recent advances in FL-based training for physical layer design problems, and identifies the related design challenges along with possible solutions to improve the performance in terms of communication overhead, model/data/hardware complexity.
翻訳日:2021-02-24 13:45:04 公開日:2021-02-23
# 中央銀行デジタル通貨(CBDC)プロジェクトのドライバーのデータ駆動分析

Data-driven analysis of central bank digital currency (CBDC) projects drivers ( http://arxiv.org/abs/2102.11807v1 )

ライセンス: Link先を確認
Toshiko Matsui and Daniel Perez(参考訳) 本論文では,CBDCPI(CBC Project Index)を指標として,各国におけるCBDC(Central Bank Digital Currencies)の進展を経済的・技術的要因が予測する範囲を,様々な機械学習手法を用いて定量化する。 私たちは、金融開発指数が私たちのモデルにとって最も重要な特徴であり、一人当たりGDPと国の人口の声と説明責任の指標が続きます。 本研究は,高度の金融開発やデジタルインフラを持つ国がCBDCプロジェクトをより発展させているという,これまでの定性的な研究と一致している。 さらに、異なる時点でCBDCPIを予測すると、堅牢な結果が得られます。

In this paper, we use a variety of machine learning methods to quantify the extent to which economic and technological factors are predictive of the progression of Central Bank Digital Currencies (CBDC) within a country, using as our measure of this progression the CBDC project index (CBDCPI). We find that a financial development index is the most important feature for our model, followed by the GDP per capita and an index of the voice and accountability of the country's population. Our results are consistent with previous qualitative research which finds that countries with a high degree of financial development or digital infrastructure have more developed CBDC projects. Further, we obtain robust results when predicting the CBDCPI at different points in time.
翻訳日:2021-02-24 13:44:45 公開日:2021-02-23
# バイアスを有する過パラメータ人工ニューラルネットワークのトレーニングにおける勾配降下の収束率

Convergence rates for gradient descent in the training of overparameterized artificial neural networks with biases ( http://arxiv.org/abs/2102.11840v1 )

ライセンス: Link先を確認
Arnulf Jentzen, Timo Kr\"oger(参考訳) 近年、人工ニューラルネットワークは、古典的なソリューションのアプローチが限界に達する多数の問題に対処するための強力なツールに発展しています。 しかし、目的関数が凸かつ非スムースであっても、よく知られたバッチ勾配降下のようなランダムに初期化された勾配降下最適化アルゴリズムが、多くの状況でトレーニング損失をゼロにできる理由はまだ不明である。 教師付き学習の分野でこの問題を解決する最も有望なアプローチの1つは、いわゆる過パラメータ化体制における勾配降下最適化の分析である。 本稿では,偏りのある過パラメータ化完全連結型人工ニューラルネットワークについて検討し,この研究分野へのさらなる貢献を提供する。 具体的には、一定数のトレーニングデータに対して、ランダムに初期化されたニューラルネットワークに適用したバッチ勾配降下最適化を用いた平均二乗誤差が、ニューラルネットワークの幅が十分大きい場合、線形収束率でゼロに収束し、学習レートが十分に小さく、トレーニング入力データが一対一独立であることを示す。

In recent years, artificial neural networks have developed into a powerful tool for dealing with a multitude of problems for which classical solution approaches reach their limits. However, it is still unclear why randomly initialized gradient descent optimization algorithms, such as the well-known batch gradient descent, are able to achieve zero training loss in many situations even though the objective function is non-convex and non-smooth. One of the most promising approaches to solving this problem in the field of supervised learning is the analysis of gradient descent optimization in the so-called overparameterized regime. In this article we provide a further contribution to this area of research by considering overparameterized fully-connected rectified artificial neural networks with biases. Specifically, we show that for a fixed number of training data the mean squared error using batch gradient descent optimization applied to such a randomly initialized artificial neural network converges to zero at a linear convergence rate as long as the width of the artificial neural network is large enough, the learning rate is small enough, and the training input data are pairwise linearly independent.
翻訳日:2021-02-24 13:44:20 公開日:2021-02-23
# スケッチモデルを用いたマルチデスティネーショントリップのモデル化

Modeling Multi-Destination Trips with Sketch-Based Model ( http://arxiv.org/abs/2102.11252v2 )

ライセンス: Link先を確認
Micha{\l} Daniluk, Barbara Rychalska, Konrad Go{\l}uchowski, Jacek D\k{a}browski(参考訳) 最近提案されたEMDE(Efficient Manifold Density Estimator)モデルは、セッションベースのレコメンデーションで最新の結果を達成します。 本研究では,Booking Data Challengeコンペティションへの適用を検討する。 この課題の目的は、数百万の匿名の宿泊予約を持つデータセットに基づいて、ユーザー旅行の次の目的地に最適なレコメンデーションを行うことである。 このコンペで2位を獲得します。 まず,都市を有向グラフとして表現し,そのベクトル表現を学習するために,Cleoraour graph Embedding法を用いる。 次に、これまで訪れた都市と旅行に関連するいくつかの特徴に基づいて、次のユーザ目的地を予測するためにEMDEを適用した。 ソースコードはhttps://github.com/Synerise/booking-challenge.comで公開しています。

The recently proposed EMDE (Efficient Manifold Density Estimator) model achieves state of-the-art results in session-based recommendation. In this work we explore its application to Booking Data Challenge competition. The aim of the challenge is to make the best recommendation for the next destination of a user trip, based on dataset with millions of real anonymized accommodation reservations. We achieve 2nd place in this competition. First, we use Cleora - our graph embedding method - to represent cities as a directed graph and learn their vector representation. Next, we apply EMDE to predict the next user destination based on previously visited cities and some features associated with each trip. We release the source code at: https://github.com/Synerise/booking-challenge.
翻訳日:2021-02-24 11:32:19 公開日:2021-02-23
# 画像超解像のための領域ベースディープラーニングアーキテクチャのTchebichef変換

Tchebichef Transform Domain-based Deep Learning Architecture for Image Super-resolution ( http://arxiv.org/abs/2102.10640v2 )

ライセンス: Link先を確認
Ahlad Kumar and Harsh Vardhan Singh(参考訳) 最近の新型コロナウイルスの流行は、人工知能とディープラーニングを用いた医療画像の分野に貢献する研究者を動機づけています。 ここ数年、超解像(SR)は深層学習法を用いて顕著な成果を上げてきた。 低解像度(LR)画像から対応する高分解能(HR)画像への非線形マッピングを学ぶためのディープラーニング手法の能力は、さまざまな研究分野でSRのための説得力のある結果をもたらします。 本稿では,Tchebichef変換領域における深層学習に基づく画像超解像アーキテクチャを提案する。 これは、カスタマイズされたtchebichef畳み込み層(tcl$)を通じて変換層を提案アーキテクチャに統合することで実現される。 TCLの役割は、Tchebichef基底関数を使用して、LRイメージを空間領域から直交変換ドメインに変換することである。 上記の変換の反転は、逆チェビシェフ畳み込み層 (ITCL) と呼ばれる別の層を用いて達成され、変換領域から空間領域へのLR画像の逆変換を行う。 SRのタスクにTchebichef変換ドメインを使用することは、超解像のタスクを簡素化する画像の高低周波数表現の利点を取ることが観察されています。 さらに,コビッドをベースとした医用画像の品質向上のためのトランスファーラーニング手法を導入する。 当院のアーキテクチャはcovid-19のx線およびct画像の品質を高め,臨床診断に有用な画像品質を提供する。 提案した Tchebichef transform domain super- resolution (TTDSR) アーキテクチャを用いて得られた実験結果は、訓練可能なパラメータの少ない深層学習手法と比較して、競合する結果をもたらす。

The recent outbreak of COVID-19 has motivated researchers to contribute in the area of medical imaging using artificial intelligence and deep learning. Super-resolution (SR), in the past few years, has produced remarkable results using deep learning methods. The ability of deep learning methods to learn the non-linear mapping from low-resolution (LR) images to their corresponding high-resolution (HR) images leads to compelling results for SR in diverse areas of research. In this paper, we propose a deep learning based image super-resolution architecture in Tchebichef transform domain. This is achieved by integrating a transform layer into the proposed architecture through a customized Tchebichef convolutional layer ($TCL$). The role of TCL is to convert the LR image from the spatial domain to the orthogonal transform domain using Tchebichef basis functions. The inversion of the aforementioned transformation is achieved using another layer known as the Inverse Tchebichef convolutional Layer (ITCL), which converts back the LR images from the transform domain to the spatial domain. It has been observed that using the Tchebichef transform domain for the task of SR takes the advantage of high and low-frequency representation of images that makes the task of super-resolution simplified. We, further, introduce transfer learning approach to enhance the quality of Covid based medical images. It is shown that our architecture enhances the quality of X-ray and CT images of COVID-19, providing a better image quality that helps in clinical diagnosis. Experimental results obtained using the proposed Tchebichef transform domain super-resolution (TTDSR) architecture provides competitive results when compared with most of the deep learning methods employed using a fewer number of trainable parameters.
翻訳日:2021-02-24 11:32:08 公開日:2021-02-23
# ReINTEL Challenge 2020:ベトナムのソーシャルネットワークサイトにおける信頼できるインテリジェンス識別のための転送学習モデルを公開

ReINTEL Challenge 2020: Exploiting Transfer Learning Modelsfor Reliable Intelligence Identification on Vietnamese Social Network Sites ( http://arxiv.org/abs/2102.10794v2 )

ライセンス: Link先を確認
Kim Thi-Thanh Nguyen, Kiet Van Nguyen(参考訳) 本稿ではベトナム語・音声処理2020(VLSP 2020)共有タスクのベトナム語ソーシャルネットワークサイト(ReINTEL)タスクにおける信頼性の高いインテリジェンス・インデント化を提案する。 このタスクでは、VLSP 2020は、信頼性または信頼性の低いラベルで注釈付けされた約6,000のトレーニングニュース/ポストのデータセットを提供し、テストセットはラベルなしで2,000のサンプルで構成されている。 本稿では, bert4news と PhoBERT を微調整して, ニュースが信頼できるかどうかを推定する, 異なる伝達学習モデルの実験を行う。 実験では,ReINTELのオーガナイザによるプライベートテストセットのAUCスコアが94.52%に達した。

This paper presents the system that we propose for the Reliable Intelligence Indentification on Vietnamese Social Network Sites (ReINTEL) task of the Vietnamese Language and Speech Processing 2020 (VLSP 2020) Shared Task. In this task, the VLSP 2020 provides a dataset with approximately 6,000 trainning news/posts annotated with reliable or unreliable labels, and a test set consists of 2,000 examples without labels. In this paper, we conduct experiments on different transfer learning models, which are bert4news and PhoBERT fine-tuned to predict whether the news is reliable or not. In our experiments, we achieve the AUC score of 94.52% on the private test set from ReINTEL's organizers.
翻訳日:2021-02-24 11:31:37 公開日:2021-02-23
# 部分可観測領域における不確実性最大化:認知的視点

Uncertainty Maximization in Partially Observable Domains: A Cognitive Perspective ( http://arxiv.org/abs/2102.11232v2 )

ライセンス: Link先を確認
Mirza Ramicic and Andrea Bonarini(参考訳) ますます複雑化するアプリケーション領域に直面している人工知能エージェントは、環境との相互作用から生じる圧倒的な量の情報を処理する能力でスケールアップすることができます。 しかし、このスケーリングのプロセスには、学習プロセス自体にとって必ずしも有益ではない冗長な情報のエンコードと処理のコストが伴います。 この研究は、環境の遷移状態間の因果相互作用を表現する可能性が高い特定のタイプの情報に選択的に焦点を合わせることによって、部分可観測領域で定義された学習システムの特性を利用する。 観測空間の適応マスキングは、$\textit{temporal difference displacement}$ criterion に基づいて、部分可観測マルコフ過程上で定義される時間差アルゴリズムの収束を大幅に改善した。

Faced with an ever-increasing complexity of their domains of application, artificial learning agents are now able to scale up in their ability to process an overwhelming amount of information coming from their interaction with an environment. However, this process of scaling does come with a cost of encoding and processing an increasing amount of redundant information that is not necessarily beneficial to the learning process itself. This work exploits the properties of the learning systems defined over partially observable domains by selectively focusing on the specific type of information that is more likely to express the causal interaction among the transitioning states of the environment. Adaptive masking of the observation space based on the $\textit{temporal difference displacement}$ criterion enabled a significant improvement in convergence of temporal difference algorithms defined over a partially observable Markov process.
翻訳日:2021-02-24 11:31:22 公開日:2021-02-23
# Reward Empirical Sufficiencyによる遅延リワードキャリブレーション

Delayed Rewards Calibration via Reward Empirical Sufficiency ( http://arxiv.org/abs/2102.10527v2 )

ライセンス: Link先を確認
Yixuan Liu, Hu Wang, Xiaowei Wang, Xiaoyue Sun, Liuyue Jiang and Minhui Xue(参考訳) 遅延報酬の適切なクレジット割り当ては、強化学習の基本的な課題です。 この問題に対処するために,分類の観点から着想を得た遅延報酬校正パラダイムを提案する。 我々は、よく表現された状態ベクトルは、同一または同等の必須情報を含むので互いに類似性を持つと仮定する。 この目的のために,我々は,分布内の状態ベクトルがエージェントを連続したステップで環境報酬信号に導くような経験的十分分布を定義する。 したがって、純度訓練された分類器は、その分布を取得し、校正された報酬を生成するように設計されている。 実時間抽出を追跡し,異なる報酬関数を構築することで,十分な状態抽出の正しさを検証した。 その結果,分類器は時間的,正確な校正報酬を生成することができた。 さらに、報酬はモデルのトレーニングプロセスをより効率的にすることができる。 最後に, モデルによって抽出された十分条件が, ヒトの観察と共振することを示す。

Appropriate credit assignment for delay rewards is a fundamental challenge for reinforcement learning. To tackle this problem, we introduce a delay reward calibration paradigm inspired from a classification perspective. We hypothesize that well-represented state vectors share similarities with each other since they contain the same or equivalent essential information. To this end, we define an empirical sufficient distribution, where the state vectors within the distribution will lead agents to environmental reward signals in the consequent steps. Therefore, a purify-trained classifier is designed to obtain the distribution and generate the calibrated rewards. We examine the correctness of sufficient state extraction by tracking the real-time extraction and building different reward functions in environments. The results demonstrate that the classifier could generate timely and accurate calibrated rewards. Moreover, the rewards are able to make the model training process more efficient. Finally, we identify and discuss that the sufficient states extracted by our model resonate with the observations of humans.
翻訳日:2021-02-24 11:31:08 公開日:2021-02-23
# グラフニューラルネットワークの自己教師付き学習:統一レビュー

Self-Supervised Learning of Graph Neural Networks: A Unified Review ( http://arxiv.org/abs/2102.10757v2 )

ライセンス: Link先を確認
Yaochen Xie, Zhao Xu, Zhengyang Wang, Shuiwang Ji(参考訳) 監督モードで訓練された深いモデルは、さまざまなタスクで驚くべき成功を達成しました。 ラベル付きサンプルが制限されると、大量のラベルなしサンプルを利用するための新しいパラダイムとして、自己監視学習(SSL)が出現しています。 SSLは自然言語と画像学習タスクで有望なパフォーマンスを達成した。 近年,グラフニューラルネットワーク(GNN)を用いたグラフデータにその成功を拡大する傾向にある。 本調査では,SSLを用いたGNNのトレーニング方法を統一的に検討する。 具体的には、SSLメソッドをコントラストおよび予測モデルに分類する。 いずれのカテゴリでも、メソッドの統一フレームワークと、これらのメソッドがフレームワークの下にある各コンポーネントでどのように異なるかを提供します。 GNNsのためのSSLメソッドの統一された処理は、さまざまな方法の類似性と相違に光を当て、新しい方法とアルゴリズムを開発するための段階を設定します。 また、異なるSSL設定と各設定で使用される対応するデータセットを要約します。 手法開発と経験的比較を容易にするため,共通ベースライン手法,データセット,評価指標の実装を含む,GNNにおけるSSLの標準化テストベッドを開発した。

Deep models trained in supervised mode have achieved remarkable success on a variety of tasks. When labeled samples are limited, self-supervised learning (SSL) is emerging as a new paradigm for making use of large amounts of unlabeled samples. SSL has achieved promising performance on natural language and image learning tasks. Recently, there is a trend to extend such success to graph data using graph neural networks (GNNs). In this survey, we provide a unified review of different ways of training GNNs using SSL. Specifically, we categorize SSL methods into contrastive and predictive models. In either category, we provide a unified framework for methods as well as how these methods differ in each component under the framework. Our unified treatment of SSL methods for GNNs sheds light on the similarities and differences of various methods, setting the stage for developing new methods and algorithms. We also summarize different SSL settings and the corresponding datasets used in each setting. To facilitate methodological development and empirical comparison, we develop a standardized testbed for SSL in GNNs, including implementations of common baseline methods, datasets, and evaluation metrics.
翻訳日:2021-02-24 11:30:55 公開日:2021-02-23
# 深層強化学習の高速化:人間プレイヤーからの衝突回避学習

Accelerated Sim-to-Real Deep Reinforcement Learning: Learning Collision Avoidance from Human Player ( http://arxiv.org/abs/2102.10711v2 )

ライセンス: Link先を確認
Hanlin Niu, Ze Ji, Farshad Arvin, Barry Lennox, Hujun Yin, and Joaquin Carrasco(参考訳) 本稿では,センサレベルのマップレス衝突回避アルゴリズムを提案する。このアルゴリズムは,センサデータを線形および角速度にマッピングし,地図のない未知環境をナビゲートする移動ロボットである。 ロボットが人間体験データと自己探索データの両方から学習できるように,効率的な学習戦略を提案する。 ゲームフォーマットシミュレーションフレームワークは、人間が移動ロボットを目標に遠隔操作できるように設計され、報酬関数を用いて人間のアクションもスコアされる。 人間のプレイヤーデータと自己再生データは、優先された体験再生アルゴリズムを用いてサンプリングされる。 提案手法と学習戦略は,シミュレーション環境である \textit{environment 1} とシミュレーション廊下環境である \textit{environment 2} の2つの異なる実験構成で評価し,その性能について検討した。 提案手法は,環境1および環境2の20\%において,標準的Deep Deterministic Policy Gradient (DDPG)法が要求するトレーニングステップの16\%のみを用いて,同じレベルの報酬を得ていることを示した。 20回のランダムミッションの評価において,提案手法はガゼボの2つの環境において,訓練時間の2~h未満と2.5~h未満で衝突することはなかった。 また、DDPGよりもスムーズな軌道も生成した。 提案手法は実環境における実ロボットにも実装され,性能評価を行った。 シミュレーションソフトウェアを用いてトレーニングしたモデルは,さらに微調整することなく実世界のシナリオに直接適用可能であることを確認でき,DDPGよりも高い堅牢性を示すことができる。 https://youtu.be/BmwxevgsdGc https://github.com/hanlinniu/turtlebot3_ddpg_collision_avoidance

This paper presents a sensor-level mapless collision avoidance algorithm for use in mobile robots that map raw sensor data to linear and angular velocities and navigate in an unknown environment without a map. An efficient training strategy is proposed to allow a robot to learn from both human experience data and self-exploratory data. A game format simulation framework is designed to allow the human player to tele-operate the mobile robot to a goal and human action is also scored using the reward function. Both human player data and self-playing data are sampled using prioritized experience replay algorithm. The proposed algorithm and training strategy have been evaluated in two different experimental configurations: \textit{Environment 1}, a simulated cluttered environment, and \textit{Environment 2}, a simulated corridor environment, to investigate the performance. It was demonstrated that the proposed method achieved the same level of reward using only 16\% of the training steps required by the standard Deep Deterministic Policy Gradient (DDPG) method in Environment 1 and 20\% of that in Environment 2. In the evaluation of 20 random missions, the proposed method achieved no collision in less than 2~h and 2.5~h of training time in the two Gazebo environments respectively. The method also generated smoother trajectories than DDPG. The proposed method has also been implemented on a real robot in the real-world environment for performance evaluation. We can confirm that the trained model with the simulation software can be directly applied into the real-world scenario without further fine-tuning, further demonstrating its higher robustness than DDPG. The video and code are available: https://youtu.be/BmwxevgsdGc https://github.com/hanlinniu/turtlebot3_ddpg_collision_avoidance
翻訳日:2021-02-24 11:30:37 公開日:2021-02-23
# Kuka LBR iiwaロボットを用いた3Dビジョン誘導ピックアンドプレイス

3D Vision-guided Pick-and-Place Using Kuka LBR iiwa Robot ( http://arxiv.org/abs/2102.10710v2 )

ライセンス: Link先を確認
Hanlin Niu, Ze Ji, Zihang Zhu, Hujun Yin, and Joaquin Carrasco(参考訳) 本論文では,3Dカメラを搭載したロボットアームを用いた視覚誘導ピック・アンド・プレースタスク制御システムの開発について述べる。 主なステップには、カメラの本質的および外部的なキャリブレーション、手目キャリブレーション、初期オブジェクトポーズ登録、オブジェクトポーズアライメントアルゴリズム、ピック&プレース実行が含まれます。 提案システムにより,ロボットは新しいオブジェクトを登録する時間に制限のあるオブジェクトを選択・配置することができ,開発したソフトウェアを新たなオブジェクトシナリオに迅速に適用することができる。 この統合システムは、kuka iiwaとrobotiq gripper(2本の指グリッパーと3本の指グリッパー)と3dカメラ(intel realsense d415カメラ、intel realsense d435カメラ、microsoft kinect v2)のハードウェアの組み合わせでテストされた。 システム全体は、他のロボットアーム、グリッパー、および3dカメラの組み合わせのためにも変更できる。

This paper presents the development of a control system for vision-guided pick-and-place tasks using a robot arm equipped with a 3D camera. The main steps include camera intrinsic and extrinsic calibration, hand-eye calibration, initial object pose registration, objects pose alignment algorithm, and pick-and-place execution. The proposed system allows the robot be able to to pick and place object with limited times of registering a new object and the developed software can be applied for new object scenario quickly. The integrated system was tested using the hardware combination of kuka iiwa, Robotiq grippers (two finger gripper and three finger gripper) and 3D cameras (Intel realsense D415 camera, Intel realsense D435 camera, Microsoft Kinect V2). The whole system can also be modified for the combination of other robotic arm, gripper and 3D camera.
翻訳日:2021-02-24 11:30:07 公開日:2021-02-23