このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210217となっている論文です。

PDF登録状況(公開日: 20210217)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子チャネルの比較の一般理論(およびそれ以上)

A general theory of comparison of quantum channels (and beyond) ( http://arxiv.org/abs/2002.04240v2 )

ライセンス: Link先を確認
Anna Jen\v{c}ov\'a(参考訳) 量子チャネルの比較に関する一般的な理論を、与えられたチャネルの許容変換によって与えられた量子チャネルのシミュラビリティや近似シミュラビリティの問題と合わせて提示する。 許容変換の集合 F に関する条件最小エントロピーの修正を導入し、F 上のいくつかの条件下では、これらの量が近似的シミュラビリティを特徴付けることを示す。 f が場の量子資源理論における自由超チャネルの集合であるなら、修正条件付きミンエントロピーはリソースモノトン全体の集合を形成する。 F の変換が前処理と特定形式の後処理で構成されている場合、与えられた形式の前処理を選択して測定を制限する特定の推算ゲームにおいて、成功確率の観点から近似的シミュラビリティが特徴付けられる。 これらの結果は、ポストプロセッシング、前処理、およびloccスーパーチャネルおよび部分スーパーチャネルによる二成分チャネルの処理を含む、量子チャネルのシミュラビリティのいくつかの特定のケースに適用される。 これらの質問は、チャネルを扱うのに適した一般確率論(GPT)の枠組みの拡張である一般的な設定で最初に研究される。 ここでは、あるテストにおける結果確率を比較することによって近似的同化可能性を示す一般定理を証明する。 この結果は、統計実験のための古典的なル・カムランダム化基準に触発され、有限次元バージョンを特別な場合として含む。

We present a general theory of comparison of quantum channels, concerning with the question of simulability or approximate simulability of a given quantum channel by allowed transformations of another given channel. We introduce a modification of conditional min-entropies, with respect to the set F of allowed transformations, and show that under some conditions on F, these quantities characterize approximate simulability. If F is the set of free superchannels in a quantum resource theory of processes, the modified conditional min-entropies form a complete set of resource monotones. If the transformations in F consist of a preprocessing and a postprocessing of specified forms, approximate simulability is also characterized in terms of success probabilities in certain guessing games, where a preprocessing of a given form can be chosen and the measurements are restricted. These results are applied to several specific cases of simulability of quantum channels, including postprocessings, preprocessings and processing of bipartite channels by LOCC superchannels and by partial superchannels, as well as simulability of sets of quantum measurements. These questions are first studied in a general setting that is an extension of the framework of general probabilistic theories (GPT), suitable for dealing with channels. Here we prove a general theorem that shows that approximate simulability can be characterized by comparing outcome probabilities in certain tests. This result is inspired by the classical Le Cam randomization criterion for statistical experiments and contains its finite dimensional version as a special case.
翻訳日:2023-06-03 23:40:53 公開日:2021-02-17
# 情報理論ゲームとしての干渉

Interference as an information-theoretic game ( http://arxiv.org/abs/2003.12114v4 )

ライセンス: Link先を確認
Sebastian Horvat, Borivoje Daki\'c(参考訳) 二重スリット実験は古典理論と量子理論を明確に区別する一方、多重スリット実験は量子理論と高次干渉理論を分離する。 本研究では,これらの実験が,情報処理タスクとして定式化され,古典的,量子的,高次的な理論の間で明確な切り離しを与える,より広い種類のプロセスに関係していることを示す。 このタスクには2つの当事者が関与し、特定のパリティゲームに勝つという目標を掲げる。 干渉の順序は、これらのゲームのパリティ順序と1対1の対応にあることを示す。 さらに、古典理論と量子論の両方において、系の構成下において干渉の順序が添加物であることを証明する。 後者の結果は、量子設定における粒子数を(半)デバイスに依存しない証人として使うことができる。 最後に、一般化確率的枠組み内でのゲーム定式化を拡張し、トモグラフィーの局所性は構成下の干渉順序の加算性を意味することを示す。 これらの結果は干渉の順序の操作的意味に光を当て、量子論における二階干渉の背後にある情報理論原理の同定に重要である。

The double slit experiment provides a clear demarcation between classical and quantum theory, while multi-slit experiments demarcate quantum and higher-order interference theories. In this work we show that these experiments pertain to a broader class of processes, which can be formulated as information-processing tasks, providing a clear cut between classical, quantum and higher-order theories. The tasks involve two parties and communication between them with the goal of winning certain parity games. We show that the order of interference is in one-to-one correspondence with the parity order of these games. Furthermore, we prove the order of interference to be additive under composition of systems both in classical and quantum theory. The latter result can be used as a (semi)device-independent witness of the number of particles in the quantum setting. Finally, we extend our game formulation within the generalized probabilistic framework and prove that tomographic locality implies the additivity of the order of interference under composition. These results shed light on the operational meaning of the order of interference and can be important for the identification of the information-theoretic principles behind second-order interference in quantum theory.
翻訳日:2023-05-27 20:25:33 公開日:2021-02-17
# マルチモード量子気象学におけるハイゼンベルクスケーリング精度の典型性

Typicality of Heisenberg scaling precision in multi-mode quantum metrology ( http://arxiv.org/abs/2003.12551v2 )

ライセンス: Link先を確認
Giovanni Gramegna, Danilo Triggiani, Paolo Facchi, Frank A. Narducci, Vincenzo Tamma(参考訳) 本稿では,パッシブ要素のみからなる汎用$m$-port線形ネットワークに符号化された任意の分散パラメータ$\varphi$ (必ずしも位相ではない) の推定のために,ハイゼンベルクスケーリング精度に達する計測設定を提案する。 提案されたスキームは、ガウス状態とガウス測定のみを用いるので、実験的な観点から容易に実装できる。 推定問題の完全一般性から, 入力状態と出力時の計測の両方を適応的に行う必要があると予測され, ハイゼンベルクスケーリング精度は1ステージのみを適応させることで実現可能であることが判明した。 非適応ステージは、ハイゼンベルクスケーリング精度を乗じた前要素の値にのみ影響する:我々は、m$の大きな値と非適応ステージのランダムな(偏りのない)選択に対して、この前要素は、パラメータ$\varphi$を線形ネットワークにエンコーディングすることで制御できる典型的な値を取ることを示します。

We propose a measurement setup reaching Heisenberg scaling precision for the estimation of any distributed parameter $\varphi$ (not necessarily a phase) encoded into a generic $M$-port linear network composed only of passive elements. The scheme proposed can be easily implemented from an experimental point of view since it employs only Gaussian states and Gaussian measurements. Due to the complete generality of the estimation problem considered, it was predicted that one would need to carry out an adaptive procedure which involves both the input states employed and the measurement performed at the output; we show that this is not necessary: Heisenberg scaling precision is still achievable by only adapting a single stage. The non-adapted stage only affects the value of a pre-factor multiplying the Heisenberg scaling precision: we show that, for large values of $M$ and a random (unbiased) choice of the non-adapted stage, this pre-factor takes a typical value which can be controlled through the encoding of the parameter $\varphi$ into the linear network.
翻訳日:2023-05-27 18:13:27 公開日:2021-02-17
# 高次派生語の存在における島

Island in the Presence of Higher Derivative Terms ( http://arxiv.org/abs/2005.08715v2 )

ライセンス: Link先を確認
Mohsen Alishahiha, Amin Faraji Astaneh and Ali Naseh(参考訳) 拡張島式を用いて、高次微分項を含む特定の重力モデルのブラックホール解に対するホーキング放射の絡み合いエントロピーを計算する。 具体的には、漸近的に平坦なブラックホールとAdSブラックホールのエントロピーを計算するために、2つの異なる4次元モデルを考える。 結果として生じるエントロピーは、対応する重力モデルが非ユニタリであるという事実にもかかわらず、島の寄与によってページ曲線に従うことを観察する。

Using extended island formula we compute entanglement entropy of Hawking radiation for black hole solutions of certain gravitational models containing higher derivative terms. To be concrete we consider two different four dimensional models to compute entropy for both asymptotically flat and AdS black holes. One observes that the resultant entropy follows the Page curve, thanks to the contribution of the island, despite the fact that the corresponding gravitational models might be non-unitary.
翻訳日:2023-05-19 11:25:01 公開日:2021-02-17
# モバイルデバイスの位置データに基づくデータ駆動トラベルモード共有推定フレームワーク

A Data-Driven Travel Mode Share Estimation Framework based on Mobile Device Location Data ( http://arxiv.org/abs/2006.10036v4 )

ライセンス: Link先を確認
Mofeng Yang, Yixuan Pan, Aref Darzi, Sepehr Ghader, Chenfeng Xiong and Lei Zhang(参考訳) 移動体位置情報(MDLD)は、旅行需要分析を支援するための豊富な旅行行動情報を含む。 従来の旅行調査と比較すると、MDLDは人口の時空間被覆率と移動率が大きい。 しかし、旅行の起源や目的地、旅行モード、旅行目的などの真理情報はデフォルトでは含まれていない。 このような重要な属性は、データの有用性を最大化するためにインプットされなければならない。 本稿では,MDLDが旅行モードの共有度を推定する能力について検討する。 MDLDから旅行行動情報を抽出するためのデータ駆動型フレームワークを提案する。 提案フレームワークはまず,時空間密度に基づくSpatial Clustering of Applications (ST-DBSCAN)アルゴリズムを用いてトリップエンドを識別する。 次に、機械学習モデルを用いて、各旅行毎に3種類の特徴を抽出する。 提案したモデルのトレーニングにはMDLDのラベル付きデータセットを使用しており、結果として旅行終了の95%の精度と5つの移動モード(ドライブ、レール、バス、自転車、歩行)をランダムフォレスト(RF)分類器で計算する93%の精度が得られる。 提案したフレームワークは、ボルチモア・ワシントン大都市圏とアメリカ合衆国をカバーする2つの大規模MDLDデータセットに適用される。 旅行距離,旅行時間,旅行率分布および旅行モードの比率を,異なる地域における旅行調査と比較した。 提案手法は,多変量移動需要の調査,移動傾向の把握,意思決定支援等のために,低コストで,異なる州や大都市に容易に適用できることが示唆された。

Mobile device location data (MDLD) contains abundant travel behavior information to support travel demand analysis. Compared to traditional travel surveys, MDLD has larger spatiotemporal coverage of population and its mobility. However, ground truth information such as trip origins and destinations, travel modes, and trip purposes are not included by default. Such important attributes must be imputed to maximize the usefulness of the data. This paper tends to study the capability of MDLD on estimating travel mode share at aggregated levels. A data-driven framework is proposed to extract travel behavior information from the MDLD. The proposed framework first identifies trip ends with a modified Spatiotemporal Density-based Spatial Clustering of Applications with Noise (ST-DBSCAN) algorithm. Then three types of features are extracted for each trip to impute travel modes using machine learning models. A labeled MDLD dataset with ground truth information is used to train the proposed models, resulting in 95% accuracy in identifying trip ends and 93% accuracy in imputing five travel modes (drive, rail, bus, bike and walk) with a Random Forest (RF) classifier. The proposed framework is then applied to two large-scale MDLD datasets, covering the Baltimore-Washington metropolitan area and the United States, respectively. The estimated trip distance, trip time, trip rate distribution, and travel mode share are compared against travel surveys at different geographies. The results suggest that the proposed framework can be readily applied in different states and metropolitan regions with low cost in order to study multimodal travel demand, understand mobility trends, and support decision making.
翻訳日:2023-05-13 15:49:27 公開日:2021-02-17
# 1次元フェルミオン系の対称性保護位相相の分類

The classification of symmetry protected topological phases of one-dimensional fermion systems ( http://arxiv.org/abs/2006.15232v2 )

ライセンス: Link先を確認
Chris Bourne and Yoshiko Ogata(参考訳) 我々は、有限群 $g$ によって与えられるオンサイト対称性を持つ無限フェルミオン鎖の対称性保護位相(spt)位相の指数を導入する。 この指数は$\mathbb{Z}_2 \times H^1(G,\mathbb{Z}_2) \times H^2(G, U(1)_{\mathfrak{p}})$ の値を取る。 この指標はspt相の分類の不変量であることを示す。 基底状態が変換不変であり、有限区間に一様有界なランクを持つ密度行列を持つとき、この状態のフェルミオン行列積をオンサイト対称性で導出する。

We introduce an index for symmetry protected topological (SPT) phases of infinite fermionic chains with an on-site symmetry given by a finite group $G$. This index takes values in $\mathbb{Z}_2 \times H^1(G,\mathbb{Z}_2) \times H^2(G, U(1)_{\mathfrak{p}})$ with a generalized Wall group law under stacking. We show that this index is an invariant of the classification of SPT phases. When the ground state is translation invariant and has reduced density matrices with uniformly bounded rank on finite intervals, we derive a fermionic matrix product representative of this state with on-site symmetry.
翻訳日:2023-05-12 11:15:55 公開日:2021-02-17
# カップリングから環境への例外的スピン液体

Exceptional Spin Liquids from Couplings to the Environment ( http://arxiv.org/abs/2007.04329v2 )

ライセンス: Link先を確認
Kang Yang, Siddhardh C. Morampudi and Emil J. Bergholtz(参考訳) 我々は,環境に結合する際,創発的な例外点を有する定性的に新しいスピン液体の出現を確立する。 我々は,キタエフハニカムモデルと外部環境を総称的に結合したオープンシステムを考える。 拡張されたパラメータレジームでは、元のモデルからの創発的なマヨラナフェルミオンのディラック点をフェルミ弧をつなぐ例外点に分割する。 時間反転対称性を必要とするハニカムモデルの当初のギャップレス位相とは対照的に、この新しい位相はすべての摂動に対して安定である。 このシステムはまた、非エルミート皮膚効果による境界条件に対する大きな感度と実験結果を示す。 その結果, 開放系におけるスピン液体の新しいクラスが出現し, 環境と不可避なカップリングにより汎用的に実現される可能性が示唆された。

We establish the appearance of a qualitatively new type of spin liquid with emergent exceptional points when coupling to the environment. We consider an open system of the Kitaev honeycomb model generically coupled to an external environment. In extended parameter regimes, the Dirac points of the emergent Majorana fermions from the original model are split into exceptional points with Fermi arcs connecting them. In glaring contrast to the original gapless phase of the honeycomb model which requires time-reversal symmetry, this new phase is stable against all perturbations. The system also displays a large sensitivity to boundary conditions resulting from the non-Hermitian skin effect with telltale experimental consequences. Our results point to the emergence of new classes of spin liquids in open systems which might be generically realized due to unavoidable couplings with the environment.
翻訳日:2023-05-10 23:20:28 公開日:2021-02-17
# スピングラスの地上状態のための熱帯テンソルネットワーク

Tropical Tensor Network for Ground States of Spin Glasses ( http://arxiv.org/abs/2008.06888v2 )

ライセンス: Link先を確認
Jin-Guo Liu, Lei Wang and Pan Zhang(参考訳) 本稿では,基底状態エネルギーを計算し,最適配置を同定し,スピングラスの解数を数えるための統一的完全テンソルネットワーク手法を提案する。 この方法は、半環上に熱帯代数が定義されるテンソルネットワークに基づいている。 熱帯テンソルネットワークの縮約は基底状態エネルギーを与え、テンソルネットワークの縮約を通じて微分することは基底状態構成を与え、熱帯代数と通常の代数を混合して基底状態縮退を数える。 このアプローチは、グラフィカルモデル、テンソルネットワーク、微分可能プログラミング、量子回路シミュレーションの概念を結合し、グラフィカル処理ユニット(gpu)の計算能力を容易に活用する。 For applications, we compute the exact ground state energy of Ising spin glasses on square lattice up to 1024 spins, on cubic lattice up to 216 spins, and on 3 regular random graphs up to 220 spins, on a single GPU; We obtain exact ground state energy of (+/-)J Ising spin glass on the chimera graph of D-Wave quantum annealer of 512 qubits in less than 100 seconds and investigate the exact value of the residual entropy of (+/-)J spin glasses on the chimera graph; Finally, we investigate ground-state energy and entropy of 3-state Potts glasses on square lattices up to size 18 x 18. 本手法は,スピングラスと組合せ最適化問題に対する厳密なアルゴリズムと,ヒューリスティックアルゴリズムと平均場理論の評価のためのベースラインとベンチマークを提供する。

We present a unified exact tensor network approach to compute the ground state energy, identify the optimal configuration, and count the number of solutions for spin glasses. The method is based on tensor networks with the Tropical Algebra defined on the semiring. Contracting the tropical tensor network gives the ground state energy; differentiating through the tensor network contraction gives the ground state configuration; mixing the tropical algebra and the ordinary algebra counts the ground state degeneracy. The approach brings together the concepts from graphical models, tensor networks, differentiable programming, and quantum circuit simulation, and easily utilizes the computational power of graphical processing units (GPUs). For applications, we compute the exact ground state energy of Ising spin glasses on square lattice up to 1024 spins, on cubic lattice up to 216 spins, and on 3 regular random graphs up to 220 spins, on a single GPU; We obtain exact ground state energy of (+/-)J Ising spin glass on the chimera graph of D-Wave quantum annealer of 512 qubits in less than 100 seconds and investigate the exact value of the residual entropy of (+/-)J spin glasses on the chimera graph; Finally, we investigate ground-state energy and entropy of 3-state Potts glasses on square lattices up to size 18 x 18. Our approach provides baselines and benchmarks for exact algorithms for spin glasses and combinatorial optimization problems, and for evaluating heuristic algorithms and mean-field theories.
翻訳日:2023-05-06 03:09:12 公開日:2021-02-17
# 量子Lanczosアルゴリズムを用いたイジングモデルの散乱

Scattering in the Ising Model Using Quantum Lanczos Algorithm ( http://arxiv.org/abs/2008.08763v3 )

ライセンス: Link先を確認
K\"ubra Yeter-Aydeniz, George Siopsis, Raphael C. Pooser(参考訳) 現象学モデルにおける時間進化と散乱シミュレーションは、量子場理論をシミュレートする短期量子コンピュータの可能性のテストと検証に非常に興味がある。 本稿では, 量子コンピュータ上で周期境界条件を持つ3, 4の空間場に対する1次元横イジングモデルにおける1粒子伝播と2粒子散乱をシミュレートする。 量子ランツォスアルゴリズムを用いて、システムのすべてのエネルギーレベルと対応する固有状態を得る。 システムの対称性を利用して量子計算を単純化する。 これらの結果から, 1粒子および2粒子遷移振幅, 空間的位置の粒子数, 時間関数としての横磁化の計算が可能となった。 量子回路はIBM 5量子ビット超伝導ハードウェア上で実行された。 読み出し誤差軽減による実験結果は, 正確な対角化により得られた値と非常によく一致した。

Time evolution and scattering simulation in phenomenological models are of great interest for testing and validating the potential for near-term quantum computers to simulate quantum field theories. Here, we simulate one-particle propagation and two-particle scattering in the one-dimensional transverse Ising model for 3 and 4 spatial sites with periodic boundary conditions on a quantum computer. We use the quantum Lanczos algorithm to obtain all energy levels and corresponding eigenstates of the system. We simplify the quantum computation by taking advantage of the symmetries of the system. These results enable us to compute one- and two-particle transition amplitudes, particle numbers for spatial sites, and the transverse magnetization as functions of time. The quantum circuits were executed on IBM 5-qubit superconducting hardware. The experimental results with readout error mitigation are in very good agreement with the values obtained using exact diagonalization.
翻訳日:2023-05-05 12:32:00 公開日:2021-02-17
# 統計的および機械学習による工学的位相相の導出

Engineering Topological Phases Guided by Statistical and Machine Learning Methods ( http://arxiv.org/abs/2008.11213v2 )

ライセンス: Link先を確認
Thomas Mertz and Roser Valent\'i(参考訳) トポロジカルな性質を持つ物質の探索は進行中である。 本稿では,位相図の事前知識を必要とせず,一般格子の位相モデルを構築することができる機械学習手法によって支援される系統的統計手法を提案する。 ランダム分布から厳密な結合パラメータベクトルをサンプリングすることにより、対応するトポロジカル指数にラベル付けしたデータセットを得る。 このラベル付きデータは、トポロジカル分類に最も関係したパラメータを抽出し、最も可能性が高い値を見つけるために分析される。 パラメータの辺分布は、既に位相モデルを定義している。 追加情報はパラメータ間の相関に隠されている。 ここでは、アルトランド・ジルンバウアー(Altland-Zirnbauer, AZ)クラスAにおけるハニカム格子の原型的トポロジカル絶縁体としてハルダンモデルの予測を概念の証明として提示する。

The search for materials with topological properties is an ongoing effort. In this article we propose a systematic statistical method supported by machine learning techniques that is capable of constructing topological models for a generic lattice without prior knowledge of the phase diagram. By sampling tight-binding parameter vectors from a random distribution we obtain data sets that we label with the corresponding topological index. This labeled data is then analyzed to extract those parameters most relevant for the topological classification and to find their most likely values. We find that the marginal distributions of the parameters already define a topological model. Additional information is hidden in correlations between parameters. Here we present as a proof of concept the prediction of the Haldane model as the prototypical topological insulator for the honeycomb lattice in Altland-Zirnbauer (AZ) class A. The algorithm is straightforwardly applicable to any other AZ class or lattice and could be generalized to interacting systems.
翻訳日:2023-05-04 23:43:01 公開日:2021-02-17
# 多体フロケダイナミクスに対する影響行列アプローチ

Influence matrix approach to many-body Floquet dynamics ( http://arxiv.org/abs/2009.10105v2 )

ライセンス: Link先を確認
Alessio Lerose and Michael Sonner and Dmitry A. Abanin(参考訳) 本研究では,ファインマン・ヴァーノンの影響関数に触発された量子多体力学の研究手法を提案する。 相互作用するフロケスピン鎖の族に焦点をあてて、ケルディシュ経路積分によるダイナミクスの記述を考える。 本手法の中心となる対象は影響行列 (IM) であり, 局所的なサブシステムの力学に対するシステムの影響を記述している。 変換不変モデルに対しては、影響行列に対する自己矛盾方程式を定式化する。 モデルパラメータの特定の特別な値について、完全デフェイラ(PD)を表す正確な解を得る。 物理的には、pdは完ぺきなマルコフ浴として機能する多体系に対応する: 各周期において、全てのスピンを測定する。 ここでは,最近の研究で検討された二重単位回路を含むPD点について検討する。 PDポイントの近傍では、システムは完全にマルコフ的ではなく、短い記憶時間で浴槽として機能する。 本稿では,IMの時間的絡み合いが低いため,行列積状態(MPS)法を用いて自己整合性方程式を解くことができることを示す。 解析的洞察とMPS計算を組み合わせることで、効果的な「統計力学」記述の観点から影響行列の構造を特徴づけることができる。 組込み不純物スピンの温度変化の速さを解析計算することで,この記述の予測力を説明する。 ここで定式化した影響行列アプローチは、量子多体力学問題の直観的な見方を提供し、解くことができるか、mpsベースの方法で効率的に処理できる熱化ダイナミクスのモデルを構築する道を開き、量子エルゴディシティやその欠如をさらに特徴付ける。

In this work, we introduce an approach to study quantum many-body dynamics, inspired by the Feynman-Vernon influence functional. Focusing on a family of interacting, Floquet spin chains, we consider a Keldysh path-integral description of the dynamics. The central object in our approach is the influence matrix (IM), which describes the effect of the system on the dynamics of a local subsystem. For translationally invariant models, we formulate a self-consistency equation for the influence matrix. For certain special values of the model parameters, we obtain an exact solution which represents a perfect dephaser (PD). Physically, a PD corresponds to a many-body system that acts as a perfectly Markovian bath on itself: at each period, it measures every spin. For the models considered here, we establish that PD points include dual-unitary circuits investigated in recent works. In the vicinity of PD points, the system is not perfectly Markovian, but rather acts as a bath with a short memory time. In this case, we demonstrate that the self-consistency equation can be solved using matrix-product states (MPS) methods, as the IM temporal entanglement is low. A combination of analytical insights and MPS computations allows us to characterize the structure of the influence matrix in terms of an effective "statistical-mechanics" description. We finally illustrate the predictive power of this description by analytically computing how quickly an embedded impurity spin thermalizes. The influence matrix approach formulated here provides an intuitive view of the quantum many-body dynamics problem, opening a path to constructing models of thermalizing dynamics that are solvable or can be efficiently treated by MPS-based methods, and to further characterizing quantum ergodicity or lack thereof.
翻訳日:2023-05-01 09:02:57 公開日:2021-02-17
# 励起状態量子相転移の存在下での量子クエンチダイナミクスへの準古典的アプローチ

Quasiclassical approach to quantum quench dynamics in the presence of an excited-state quantum phase transition ( http://arxiv.org/abs/2010.07750v2 )

ライセンス: Link先を確認
Michal Kloc, Daniel \v{S}imsa, Filip Han\'ak, Petra Ruth Kapr\'alov\'a-\v{Z}\v{d}\'ansk\'a, Pavel Str\'ansk\'y, Pavel Cejnar(参考訳) 制御パラメータ (quantum quench) の突然の非断熱的変化に続く量子系の力学を準古典的手法を用いて研究した。 最近の研究は、正確な量子力学的アプローチを用いて、量子クエンチ後の平衡が励起状態の量子相転移の存在において特定の特徴を示すことを示した。 本稿では,これらの特徴が位相空間におけるウィグナー関数の古典的進化から理解できることを実証する。

The dynamics of a quantum system following a sudden, highly non-adiabatic change of its control parameter (quantum quench) is studied with quasiclassical techniques. Recent works have shown, using exact quantum mechanical approach, that equilibration after quantum quench exhibits specific features in the presence of excited-state quantum phase transitions. In this paper, we demonstrate that these features can be understood from the classical evolution of the Wigner function in phase space.
翻訳日:2023-04-29 00:24:48 公開日:2021-02-17
# 1次元フォトニック結晶におけるx線パルス増幅のマクスウェルブローチモデル

Maxwell-Bloch modeling of an x-ray pulse amplification in a 1D photonic crystal ( http://arxiv.org/abs/2012.01069v3 )

ライセンス: Link先を確認
O. Peyrusse, P. Jonnard, J.-M. Andr\'e(参考訳) 本稿では,周期多層材料からのx線放出ダイナミクスを人工的あるいは自然に研究するために,maxwell-bloch(mb)形式を実装した。 この処理は、マクスウェル方程式の直接有限差分時間領域(fdtd)解とランダムな自発的放射ノイズを含むブロッホ方程式を組み合わせたものである。 素材の周期性に加えて、この処理は2種類の層(アクティブ(または共鳴音)と非共鳴の層)を区別する。 この数値モデルは、X線自由電子レーザー(XFEL)による高速内殻光イオン化により集団反転が生じる多層材料におけるK\alpha$放出問題に適用される。 ブラッグ回折条件における増幅蛍光の特異性は数値シミュレーションにより示される。 対応するパルスは、物質とX線の非線形相互作用の特定の研究に使用できる。

We present an implementation of the Maxwell-Bloch (MB) formalism for the study of x-ray emission dynamics from periodic multilayer materials whether they are artificial or natural. The treatment is based on a direct Finite-Difference-Time-Domain (FDTD) solution of Maxwell equations combined with Bloch equations incorporating a random spontaneous emission noise. Besides periodicity of the material, the treatment distinguishes between two kinds of layers, those being active (or resonant) and those being off-resonance. The numerical model is applied to the problem of $K\alpha$ emission in multilayer materials where the population inversion could be created by fast inner-shell photoionization by an x-ray free-electron-laser (XFEL). Specificities of the resulting amplified fluorescence in conditions of Bragg diffraction is illustrated by numerical simulations. The corresponding pulses could be used for specific investigations of non-linear interaction of x-rays with matter.
翻訳日:2023-04-22 08:07:38 公開日:2021-02-17
# ゲート半導体微小キャビティの表面損失の抑制

Suppression of surface-related loss in a gated semiconductor microcavity ( http://arxiv.org/abs/2012.05104v3 )

ライセンス: Link先を確認
Daniel Najer, Natasha Tomm, Alisa Javadi, Alexander R. Korsch, Benjamin Petrak, Daniel Riedel, Vincent Dolique, Sascha R. Valentin, R\"udiger Schott, Andreas D. Wieck, Arne Ludwig, Richard J. Warburton(参考訳) 本稿では,gaasオープンマイクロキャビティの小型化により表面損失を約2桁低減するサーフェスパッシベーション法を提案する。 マイクロキャビティは、半径$\sim 10$$\mu$mの湾曲誘電体分散ブラッグ反射体(DBR)とGaAsベースのヘテロ構造からなる。 ヘテロ構造は半導体DBRとn-i-pダイオードから構成され、固有領域に量子ドットの層がある。 高ドープn層およびp層の自由キャリア吸収は、真空電磁場のノードに近接して位置決めすることで最小化される。 しかし、表面は真空場の反極に存在し、かなりの損失をもたらす。 これらの損失は表面の通過によって大幅に減少する。 波長への強い依存は、表面の通過の主な効果は表面の電場を排除し、フランツ・ケルディシュ効果によってバンドギャップ下吸収を加熱することである。 もう一つの利点は、表面の通過がGaAs表面の散乱を減少させることである。 これらの結果は、電磁界を閉じ込めるためにGaAs-真空界面に依存する他のナノフォトニックデバイスにおいて重要である。

We present a surface passivation method that reduces surface-related losses by almost two orders of magnitude in a highly miniaturized GaAs open microcavity. The microcavity consists of a curved dielectric distributed Bragg reflector (DBR) with radius $\sim 10$ $\mu$m paired with a GaAs-based heterostructure. The heterostructure consists of a semiconductor DBR followed by an n-i-p diode with a layer of quantum dots in the intrinsic region. Free-carrier absorption in the highly doped n- and p-layers is minimized by positioning them close to a node of the vacuum electromagnetic-field. The surface, however, resides at an anti-node of the vacuum field and results in significant loss. These losses are much reduced by surface passivation. The strong dependence on wavelength implies that the main effect of the surface passivation is to eliminate the surface electric field, thereby quenching below-bandgap absorption via a Franz-Keldysh-like effect. An additional benefit is that the surface passivation reduces scattering at the GaAs surface. These results are important in other nano-photonic devices which rely on a GaAs-vacuum interface to confine the electromagnetic field.
翻訳日:2023-04-21 08:07:42 公開日:2021-02-17
# データレバレッジ(Data Leverage) - テクノロジ企業との関係で公衆を力づけるフレームワーク

Data Leverage: A Framework for Empowering the Public in its Relationship with Technology Companies ( http://arxiv.org/abs/2012.09995v2 )

ライセンス: Link先を確認
Nicholas Vincent, Hanlin Li, Nicole Tilly, Stevie Chancellor, Brent Hecht(参考訳) 多くの強力なコンピューティング技術は、大衆からの暗黙的かつ明示的なデータ貢献に依存している。 データのコントリビューションを減らしたり、停止したり、リダイレクトしたり、その他に操作することで、多くの利益をもたらす技術の有効性を減らすことができる。 本稿では,この「textit{data leverage}」を人々がよりよく理解し,行動するのを手助けする新興研究を合成する。 機械学習、人間とコンピュータの相互作用、コンピューティングにおける公正性と説明責任といった分野における先行研究に基づいて、プライバシ、経済的不平等、コンテンツモデレーション、その他の社会的関心領域に関連する技術企業行動を変える新たな機会を浮き彫りにする、データレバレッジを理解するためのフレームワークを提案する。 当社のフレームワークはまた、政策立案者が公共企業とIT企業のパワーバランスを変える手段として、データを活用する方法も指している。

Many powerful computing technologies rely on implicit and explicit data contributions from the public. This dependency suggests a potential source of leverage for the public in its relationship with technology companies: by reducing, stopping, redirecting, or otherwise manipulating data contributions, the public can reduce the effectiveness of many lucrative technologies. In this paper, we synthesize emerging research that seeks to better understand and help people action this \textit{data leverage}. Drawing on prior work in areas including machine learning, human-computer interaction, and fairness and accountability in computing, we present a framework for understanding data leverage that highlights new opportunities to change technology company behavior related to privacy, economic inequality, content moderation and other areas of societal concern. Our framework also points towards ways that policymakers can bolster data leverage as a means of changing the balance of power between the public and tech companies.
翻訳日:2023-04-20 06:30:26 公開日:2021-02-17
# ストロング量子ダーウィン主義と強い独立性はスペクトラム放送構造と等価である」への回答

Reply to Comment on "Strong Quantum Darwinism and Strong Independence are Equivalent to Spectrum Broadcast Structure" ( http://arxiv.org/abs/2101.10756v2 )

ライセンス: Link先を確認
Thao P. Le and Alexandra Olaya-Castro(参考訳) Feller et al, arXiv:2101.09186] on our Letter [Phys. Rev. Lett. 122, 010403 (2019)], Feller et。 alは、スペクトル放送構造を満たす状態に対する「強い独立」という数学的表現の誤りを特定した。 我々は必要だが十分ではない数学的条件を記述したと仮定する。 しかし、論文全体および我々の証明において、「強い独立性」のための原文と正しい定性的定義を用いたので、上記の数学的表現を除いて証明と言明は正しいままである。

In a recent comment [Feller et. al, arXiv:2101.09186] on our Letter [Phys. Rev. Lett. 122, 010403 (2019)], Feller et. al identified a mistake in our mathematical expression of "strong independence" for states that satisfy Spectrum Broadcast Structure. We concede that we wrote a mathematical condition that is necessary but not sufficient. However, we used the original and correct qualitative definition for "strong independence" throughout the paper and in our proofs, therefore the proofs and statements, aside from the aforementioned mathematical expression, remain correct.
翻訳日:2023-04-13 22:30:44 公開日:2021-02-17
# ランダム化低ランク近似による量子特異性の強化収束

Enhanced Convergence of Quantum Typicality using a Randomized Low-Rank Approximation ( http://arxiv.org/abs/2102.02293v2 )

ライセンス: Link先を確認
Phillip Weinberg(参考訳) 本稿では, 有限温度密度行列 $e^{-\beta H}$ のランダム化低ランク近似により, QT法における確率的トレース推定量の分散を低減する手法を提案する。 トレースはQT推定器を用いて補完部分空間のトレースを近似しながら、低ランク部分空間において高い精度で評価することができる。 トレース推定器の2つの変種を示し,その効果を数値実験により実証する。 実験により, 低ランク近似は中等度から低温の標準QTトレース推定器よりも優れていた。 これは低ランク近似が低温で密度行列を正確に表現しているためであり、トレースの正確な結果が得られると主張している。

We present a method to reduce the variance of stochastic trace estimators used in quantum typicality (QT) methods via a randomized low-rank approximation of the finite-temperature density matrix $e^{-\beta H}$. The trace can be evaluated with higher accuracy in the low-rank subspace while using the QT estimator to approximate the trace in the complementary subspace. We present two variants of the trace estimator and demonstrate their efficacy using numerical experiments. The experiments show that the low-rank approximation outperforms the standard QT trace estimator for moderate- to low-temperature. We argue this is due to the low-rank approximation accurately represent the density matrix at low temperatures, allowing for accurate results for the trace.
翻訳日:2023-04-12 22:03:35 公開日:2021-02-17
# SU(N)1, N奇素、チャーン・サイモンズ理論におけるハイパーグラフ状態

Hypergraph States in SU(N)1, N odd prime, Chern-Simons Theory ( http://arxiv.org/abs/2102.02281v2 )

ライセンス: Link先を確認
Howard J. Schnitzer(参考訳) グラフ状態とハイパーグラフ状態は SU(N)1 に現れる基本演算の積から構成することができる。 ソルトン、スウィングル、ウォルターの定理のレベルランク双対は、これらの演算は n neq 5 mod 4 に対するチャーン・サイモンズ理論の n-トーラス・ヒルベルト空間で位相的に作成できることを意味する。 SU(N)1, N = 5 mod 4 に対して、安定状態のみが n-トーラスヒルベルト空間上で準備でき、グラフ状態への構成を制限する。

Graph states and hypergraph states can be constructed from products of basic operations that appear in SU(N)1. The level-rank dual of a theorem of Salton, Swingle, and Walter implies that these operations can be prepared topologically in the n-torus Hilbert space of Chern-Simons theory for N neq 5 mod 4. For SU(N)1, N = 5 mod 4, only stabilizer states can be prepared on the n-torus Hilbert space, which restricts the construction to graph states.
翻訳日:2023-04-12 22:03:12 公開日:2021-02-17
# 湾岸災害研究のためのバイオマーカー発見とバイオリポジトリの課題:新しいデータプラットフォームソリューション

Challenges in biomarker discovery and biorepository for Gulf-war-disease studies: a novel data platform solution ( http://arxiv.org/abs/2102.02878v3 )

ライセンス: Link先を確認
Dimitris Floros (1), Mulugu V. Brahmajothi (2), Alexandros-Stavros Iliopoulos (3), Nikos Pitsianis (1 and 4), Xiaobai Sun (4) ((1) Aristotle University of Thessaloniki, (2) Duke University Medical Center, (3) Massachusetts Institute of Technology, (4) Duke University)(参考訳) Aims: Our Gulf War Illness (GWI) 研究は、予測、診断、治療のターゲットを確立するために、多くのインタラクティブな神経およびユーモラスなバイオマーカーの組合せスクリーニングを実施している。 サンプル取得からバイオマーカー抽出,マルチアスペクト,マルチウェイインタラクション解析に至るまで,バイオマーカー発見プロセスの各段階において,複雑度と複雑なデータ問題に対するサポート不足のため,障害に直面している。 ROSALINDという新しいデータプラットフォームを導入し、課題を克服し、健全で重要なコラボレーションを育み、科学的調査を進めます。 主な手法: ROSALINDは研究者中心のデータプラットフォームである。 共同研究における個人の創造性と努力の不可欠なサポートを提供する。 プラットフォーム名のROSALINDは、自己管理されたアクセシビリティ、結合性、可積分性、中立性、信頼性を持つ資源生物を表す。 データ整合性と研究の整合性を確保し,保護するために,先進的な概念とテクニックを新たに活用して,プラットフォームの原則を翻訳し,エンコードし,実装する。 ROSALINDは研究者のバンテージの観点から、従来のストレージ、アーカイブ、データ管理を超えて、単一のシステムにおけるニュアンスユーティリティと高度な機能を具現化している。 主な発見:最近の12ヶ月のGWI研究におけるROSALINDの展開は、データ実験と分析のペースを加速し、多数のエラーソースを除去し、研究品質と生産性を向上しました。 意義:ROSALINDは、データ整合性と研究整合性に、デジタル測度と手段で対処する最初のものと思われる。 また、さまざまな自己組織化されたコラボレーション構成で接続された個別のデータプラットフォームを備えた新しいタイプの分散リサーチネットワークも約束している。

Aims: Our Gulf War Illness (GWI) study conducts combinatorial screening of many interactive neural and humoral biomarkers in order to establish predictive, diagnostic, and therapeutic targets. We encounter obstacles at every stage of the biomarker discovery process, from sample acquisition, bio-marker extraction to multi-aspect, multi-way interaction analysis, due to the study complexity and lack of support for complex data problem solutions. We introduce a novel data platform, named ROSALIND, to overcome the challenges, foster healthy and vital collaborations and advance scientific inquiries. Main methods: ROSALIND is a researcher-centered, study-specific data platform. It provides vital support of individual creativity and effort in collaborative research. We follow the principles etched in the platform name - ROSALIND stands for resource organisms with self-governed accessibility, linkability, integrability, neutrality, and dependability. We translate, encode and implement the principles in the platform with novel use of advanced concepts and techniques to ensure and protect data integrity and research integrity. From a researcher's vantage point, ROSALIND embodies nuance utilities and advanced functionalities in one system, beyond conventional storage, archive and data management. Key findings: The deployment of ROSALIND in our GWI study in recent 12 months has accelerated the pace of data experiment and analysis, removed numerous error sources, and increased research quality and productivity. Significance: ROSALIND seems the first to address data integrity and research integrity in tandem with digital measures and means. It also promises a new type of distributed research networks with individualized data platforms connected in various self-organized collaboration configurations.
翻訳日:2023-04-12 19:54:34 公開日:2021-02-17
# 量子力学におけるエピタキシャルグラフェン成長の最適化

Optimization of epitaxial graphene growth for quantum metrology ( http://arxiv.org/abs/2102.08691v1 )

ライセンス: Link先を確認
Davood Momeni Pakdehi(参考訳) (英語版とドイツ語版の両方の論文の完全な抽象化を参照)この論文では、いわゆる高分子補助昇華法によるエピタキシャルグラフェン成長のプロセス条件を微視的に検討する。 原子間力顕微鏡(AFM)は、アルゴンプロセスガスのこれまで無視されていた流量がSiC基板と炭素層上の形態に重大な影響を与えることを示すために用いられる。 結果は、表面に隣接する層における熱力学的条件に対する単純なモデルを用いてよく説明できる。 サブナノメータスケールにおけるステップバンチングの制御オプションは、抵抗異方性の消失を示す二層包含物のない超平坦な単層グラフェン層を生成するために用いられる。 4点および走査トンネル電位計の比較により、残りの小さな異方性は究極の限界を表しており、これはSiCテラスステップの残留抵抗によってのみ与えられる。 ... Ar流を用いたステップバンチの精密制御により、グラフェン層下における周期的非恒常SiC表面の調製が可能となる。 ケルビン-プローブ力顕微鏡およびx線光電子分光顕微鏡による作業関数測定に基づき、異なる表面近傍のsicスタックの近接効果によって誘導されるグラフェンにドーピング変化があることを初めて示した。 AFMと低エネルギー電子顕微鏡による測定の結果,SiCスタックの正確な配置が可能となり,ステップフローモードの枠組みにおける表面再構成の理解が向上した。 ...

(See the complete abstract within the thesis in both English and German versions) In this thesis, the process conditions of the epitaxial graphene growth through a socalled polymer-assisted sublimation growth method are minutely investigated. Atomic force microscopy (AFM) is used to show that the previously neglected flow-rate of the argon process gas has a significant influence on the morphology of the SiC substrate and atop carbon layers. The results can be well explained using a simple model for the thermodynamic conditions at the layer adjacent to the surface. The resulting control option of step-bunching on the sub-nanometer scales is used to produce the ultra-flat, monolayer graphene layers without the bilayer inclusions that exhibit the vanishing of the resistance anisotropy. The comparison of four-point and scanning tunneling potentiometry measurements shows that the remaining small anisotropy represents the ultimate limit, which is given solely by the remaining resistances at the SiC terrace steps. ... The precise control of step-bunching using the Ar flow also enables the preparation of periodic non-identical SiC surfaces under the graphene layer. Based on the work function measurements by Kelvin-Probe force microscopy and X-ray photoemission electron microscopy, it is shown for the first time that there is a doping variation in graphene, induced by a proximity effect of the different near-surface SiC stacks. The comparison of the AFM and low-energy electron microscopy measurements have enabled the exact assignment of the SiC stacks, and the examinations have led to an improved understanding of the surface restructuring in the framework of a step-flow mode. ...
翻訳日:2023-04-11 00:05:47 公開日:2021-02-17
# 超高速量子非線形光学のための工学的枠組みを目指して

Towards an Engineering Framework for Ultrafast Quantum Nonlinear Optics ( http://arxiv.org/abs/2102.08658v1 )

ライセンス: Link先を確認
Ryotatsu Yanagimoto, Edwin Ng, Tatsuhiro Onodera, Hideo Mabuchi(参考訳) 分散工学および高非線形ナノフォトニクスの出現は、超短パルス操作と高横磁場閉じ込めを組み合わせることで、量子光学の強い相互作用状態への全光経路を開くことが期待されている。 しかし、そのような広帯域デバイスにおける光子ダイナミクスの完全な理解を得ることは、多モード非ゲージ量子物理学のモデリングとシミュレーションにおいて大きな課題となり、有用な物理的洞察を提供しながら効率的な数値研究を容易にする洗練された縮小モデルの必要性を浮き彫りにする。 本稿では、同期励起発振器の量子入力出力理論のマルチモード拡張から非線形導波路の場理論記述に基づく数値手法の開発まで、様々な抽象化と一般化のレベルでブロードバンド光学系をモデル化するための最近の取り組みを概観する。 我々は、次世代量子デバイスに対する現在進行中の理論的および実験的取り組みを導くだけでなく、ブロードバンド量子フォトニクスの本質物理学を解明することを期待している。

The advent of dispersion-engineered and highly nonlinear nanophotonics is expected to open up an all-optical path towards the strong-interaction regime of quantum optics by combining high transverse field confinement with ultra-short-pulse operation. Obtaining a full understanding of photon dynamics in such broadband devices, however, poses major challenges in the modeling and simulation of multimode non-Gaussian quantum physics, highlighting the need for sophisticated reduced models that facilitate efficient numerical study while providing useful physical insight. In this manuscript, we review our recent efforts in modeling broadband optical systems at varying levels of abstraction and generality, ranging from multimode extensions of quantum input-output theory for sync-pumped oscillators to the development of numerical methods based on a field-theoretic description of nonlinear waveguides. We expect our work not only to guide ongoing theoretical and experimental efforts towards next-generation quantum devices but also to uncover essential physics of broadband quantum photonics.
翻訳日:2023-04-11 00:05:15 公開日:2021-02-17
# 超伝導量子プロセッサにおける強・弱熱化の観測

Observation of strong and weak thermalization in a superconducting quantum processor ( http://arxiv.org/abs/2102.08587v1 )

ライセンス: Link先を確認
Fusheng Chen, Zheng-Hang Sun, Ming Gong, Qingling Zhu, Yu-Ran Zhang, Yulin Wu, Yangsen Ye, Chen Zha, Shaowei Li, Shaojun Guo, Haoran Qian, He-Liang Huang, Jiale Yu, Hui Deng, Hao Rong, Jin Lin, Yu Xu, Lihua Sun, Cheng Guo, Na Li, Futian Liang, Cheng-Zhi Peng, Heng Fan, Xiaobo Zhu, and Jian-Wei Pan(参考訳) 横磁場を持つ12個の超伝導量子ビットからなる1次元配列のエルゴードダイナミクスを実験的に研究し,初期状態の異なる強熱と弱熱の領域を同定した。 強熱平衡系において,局所観測可能な観測値の収束を熱的期待値で観測する。 弱熱化の場合、局所観測可能領域のダイナミクスは、時間平均でしか達成できない熱値の周りの振動を示す。 また,エントロピーの絡み合いと共起が強い熱化と弱い熱化を特徴付けることを示した。 我々の研究は、量子系における熱化の一般的な理解に向けた重要なステップを提供する。

We experimentally study the ergodic dynamics of a 1D array of 12 superconducting qubits with a transverse field, and identify the regimes of strong and weak thermalization with different initial states. We observe convergence of the local observable to its thermal expectation value in the strong-thermalizaion regime. For weak thermalization, the dynamics of local observable exhibits an oscillation around the thermal value, which can only be attained by the time average. We also demonstrate that the entanglement entropy and concurrence can characterize the regimes of strong and weak thermalization. Our work provides an essential step towards a generic understanding of thermalization in quantum systems.
翻訳日:2023-04-11 00:04:22 公開日:2021-02-17
# ダイヤモンド中の窒素空洞中心の学習支援電子スピン読み出し

Machine-learning-assisted electron-spin readout of nitrogen-vacancy center in diamond ( http://arxiv.org/abs/2102.08558v1 )

ライセンス: Link先を確認
Peng Qian, Xue Lin, Feifei Zhou, Runchuan Ye, Yunlan Ji, Bing Chen, Guangjun Xie and Nanyang Xu(参考訳) 機械学習は、量子情報処理のための隠れデータパターンを見つける強力なツールである。 本稿では,単光子収集によるダイヤモンド中の電子スピン状態の光学的読み出し法を紹介し,室温での読み出し精度の向上を示す。 従来のタイムゲートにおける光子数の総和法は、すべてのタイミング情報を粗く失う。 ゲート幅の変更はコントラストや状態のばらつきを最適化するだけであり、両方ではない。 一方、機械学習は時間分解蛍光データから適応的に学習し、抽出された情報を最大化するために各時間ビンを精巧に重み付けする最適なデータ処理モデルを提供する。 提案手法は,不完全なデータから処理結果を修復し,コントラストを最適化しながら,スピン読み出し誤差を7%低減する。 これらの改善は、光子時間トレースの記録のみを含み、追加の実験時間を消費しないため、堅牢で自由である。 我々の機械学習手法は、状態の精度測定と光学的検出に幅広い応用を示唆している。

Machine learning is a powerful tool in finding hidden data patterns for quantum information processing. Here, we introduce this method into the optical readout of electron-spin states in diamond via single-photon collection and demonstrate improved readout precision at room temperature. The traditional method of summing photon counts in a time gate loses all the timing information crudely. We find that changing the gate width can only optimize the contrast or the state variance, not both. In comparison, machine learning adaptively learns from time-resolved fluorescence data, and offers the optimal data processing model that elaborately weights each time bin to maximize the extracted information. It is shown that our method can repair the processing result from imperfect data, reducing 7% in spin readout error while optimizing the contrast. Note that these improvements only involve recording photon time traces and consume no additional experimental time, they are thus robust and free. Our machine learning method implies a wide range of applications in precision measurement and optical detection of states.
翻訳日:2023-04-11 00:04:10 公開日:2021-02-17
# 古典・量子物理学問題におけるパウリ位相と軌道角運動量の分数量子化

Topological Pauli Phase and Fractional Quantization of Orbital Angular Momentum in the Problems of Classical and Quantum Physics ( http://arxiv.org/abs/2102.08879v1 )

ライセンス: Link先を確認
K. S. Krylov, V. M. Kuleshov, Yu. E. Lozovik, V. D. Mur(参考訳) 二次元ヘルムホルツ、シュレーディンガー、ディラック方程式の枠組みの中で、非自明な位相パウリ相の存在(すなわち、2次元の場合で可能な角軌道角モータの分数量子化)が不可欠である物理問題について論じる。 古典場理論の例として、2つの導電性半平面の間の点電荷によって生成される場の「ウェッジ問題」とナイフエッジからのフレネル回折を考える。 少数電子円量子ドットでは、軌道角モータの整数と半整数量子化の選択はパウリ原理によって定義される。 これは、垂直磁場中のそのような量子ドットの基底状態エネルギーに関する正確な実験データと一致している。 隙間のないグラフェンでは、ギャップのあるグラフェンの場合と同様に、過充電不純物の存在下では、例えば走査トンネル分光法を用いて、この問題を実験的に解決することができる。

Physical problems for which the existence of non-trivial topological Pauli phase (i.e. fractional quantization of angular orbital angular momenta that is possible in 2D case) is essential are discussed within the framework of two-dimensional Helmholtz, Schroedinger and Dirac equations. As examples in classical field theory we consider a "wedge problem" -- a description of a field generated by a point charge between two conducting half-planes -- and a Fresnel diffraction from knife-edge. In few-electron circular quantum dots the choice between integer and half-integer quantization of orbital angular momenta is defined by the Pauli principle. This is in line with precise experimental data for the ground state energy of such quantum dots in a perpendicular magnetic field. In a gapless graphene, as in the case of gapped one, in the presence of overcharged impurity this problem can be solved experimentally, e.g., using the method of scanning tunnel spectroscopy.
翻訳日:2023-04-10 23:56:15 公開日:2021-02-17
# 繰り返しパターンを用いた量子回路コンパイルのための決定論的アルゴリズム

Deterministic Algorithms for Compiling Quantum Circuits with Recurrent Patterns ( http://arxiv.org/abs/2102.08765v1 )

ライセンス: Link先を確認
Davide Ferrari, Ivano Tavernelli, Michele Amoretti(参考訳) 現在の量子プロセッサはノイズが多く、コヒーレンスや不完全なゲート実装は限られている。 このようなハードウェアでは、全体のコヒーレンス時間よりも短いアルゴリズムのみが実装され、うまく実行される。 優れた量子コンパイラは入力プログラムを自身の最も効率的な等価なものに変換し、利用可能なハードウェアを最大限に活用しなければならない。 本研究では,再帰量子回路パターンを多項式時間でコンパイルする決定論的アルゴリズムを提案する。 特に、そのようなパターンはRyRzのヒューリスティック波動関数 Ansatz とともに変分量子固有解法 (VQE) 法を用いて分子系の基底状態特性を計算するために用いられる量子回路に現れる。 我々は、パターン指向のアルゴリズムと効率的なスワップ戦略を組み合わせることで、cnot数とcnot深さの点で、最先端のコンパイラで得られたものと同等の出力プログラムを生成することを示した。 特に、我々の解はRyRz回路上で未整合結果を生成する。

Current quantum processors are noisy, have limited coherence and imperfect gate implementations. On such hardware, only algorithms that are shorter than the overall coherence time can be implemented and executed successfully. A good quantum compiler must translate an input program into the most efficient equivalent of itself, getting the most out of the available hardware. In this work, we present novel deterministic algorithms for compiling recurrent quantum circuit patterns in polynomial time. In particular, such patterns appear in quantum circuits that are used to compute the ground state properties of molecular systems using the variational quantum eigensolver (VQE) method together with the RyRz heuristic wavefunction Ansatz. We show that our pattern-oriented compiling algorithms, combined with an efficient swapping strategy, produces - in general - output programs that are comparable to those obtained with state-of-art compilers, in terms of CNOT count and CNOT depth. In particular, our solution produces unmatched results on RyRz circuits.
翻訳日:2023-04-10 23:55:35 公開日:2021-02-17
# 非局所性に必要な量子資源の定量化

Quantifying necessary quantum resources for nonlocality ( http://arxiv.org/abs/2102.08722v1 )

ライセンス: Link先を確認
Lucas Tendick, Hermann Kampermann, Dagmar Bru{\ss}(参考訳) 非局所性は量子情報プロトコルにおいて最も重要な資源の1つである。 ベル実験における非局所相関の観測は、適切に選択された測定と量子状態の結果である。 我々は任意のベル作用素に対して一定のベル値を達成するために最小純度を定量化する。 純度は量子状態の最も基本的な資源であるため、与えられた2量子相関不等式に違反するために必要なコヒーレンス、不協和、絡み合いを定量化することができる。 その結果,固定ベル違反の場合,測定資源の増加が最小状態資源の減少につながるとは限らないことを示し,chsh不等式に新たな光を当てることができた。

Nonlocality is one of the most important resources for quantum information protocols. The observation of nonlocal correlations in a Bell experiment is the result of appropriately chosen measurements and quantum states. We quantify the minimal purity to achieve a certain Bell value for any Bell operator. Since purity is the most fundamental resource of a quantum state, this enables us also to quantify the necessary coherence, discord, and entanglement for a given violation of two-qubit correlation inequalities. Our results shine new light on the CHSH inequality by showing that for a fixed Bell violation an increase in the measurement resources does not always lead to a decrease of the minimal state resources.
翻訳日:2023-04-10 23:54:51 公開日:2021-02-17
# 多様体トポロジー、オブザーバブルおよびゲージ群

Manifold Topology, Observables and Gauge Group ( http://arxiv.org/abs/2102.09632v1 )

ライセンス: Link先を確認
G.Morchio (1), F.Strocchi (1) ((1) Dipartimento di Fisica, Universit\`a di Pisa)(参考訳) 多様体位相、可観測量、ゲージ群との関係は、多様体上の位置と変位に関連する可観測物の代数の表現の分類に基づいて明らかにされる。 導く、物理的に動機づけられた原則は 一 局所性、すなわち、小さな、位相的自明な領域に局在した代数の生成的役割 二 解析の本質的性質を保証した微分同相共変性 三 シュレーディンガー表現に関して追加の局所的自由度を除外すること。 結果として得られる可観測代数の局所正規表現は、実際に可観測な「位相的」部分代数を生成する多様体の基本群のユニタリ表現によって分類される。 この結果は、普遍被覆である${\tilde{\cal m}}$ of $\cal{m}$と、ゲージ群の役割を担う基本群のスペクトルに従って$l^2({\tilde{\cal m}})$を分解することに基づく標準的アプローチと対立する。 このようにして、可観測群 iff のすべての表現を得ることができ、基本群は amenable である。 粒子統計学における置換群の可観測性について論じる。

The relation between manifold topology, observables and gauge group is clarified on the basis of the classification of the representations of the algebra of observables associated to positions and displacements on the manifold. The guiding, physically motivated, principles are i) locality, i.e. the generating role of the algebras localized in small, topological trivial, regions, ii) diffeomorphism covariance, which guarantees the intrinsic character of the analysis, iii) the exclusion of additional local degrees of freedom with respect to the Schroedinger representation. The locally normal representations of the resulting observable algebra are classified by unitary representations of the fundamental group of the manifold, which actually generate an observable, "topological", subalgebra. The result is confronted with the standard approach based on the introduction of the universal covering ${\tilde{\cal M}}$ of $\cal{M}$ and on the decomposition of $L^2({\tilde{\cal M}})$ according to the spectrum of the fundamental group, which plays the role of a gauge group. It is shown that in this way one obtains all the representations of the observables iff the fundamental group is amenable. The implications on the observability of the Permutation Group in Particle Statistics are discussed.
翻訳日:2023-04-10 23:46:42 公開日:2021-02-17
# フェルミオンの情報理論における量子演算

Quantum Operations in an Information Theory for Fermions ( http://arxiv.org/abs/2102.09074v1 )

ライセンス: Link先を確認
Nicetu Tibau Vidal, Mohit Lal Bera, Arnau Riera, Maciej Lewenstein and Manabendra Nath Bera(参考訳) フェルミオンに対する合理的な量子情報理論は、相対性理論や符号なし原理に従うためにパリティ超選択規則を尊重しなければならない。 この規則は、任意の量子状態が偶数状態と奇数パリティフェルミオン状態の間の重なりを持つ可能性を制限する。 これにより、物理的に許容されるフェルミオン量子状態の集合を特徴づける。 ここでは、許容されるフェルミオン状態の集合を自身にマッピングするパリティ超選択則と一致して、物理的に許容される量子演算を導入する。 まず,フェルミオン状態のユニタリおよび射影的測定操作を導入する。 さらに、Stinespring Dilation, operator-sum representation, and axiomatic completely- positive-trace-serving map という形式での一般量子演算にフォーマリズムを拡張します。 これらのフェルミオン量子演算の3つの表現の等価性を明確に示す。 フェルミオン系における相関のキャラクタリゼーションにおける結果の影響について考察する。

A reasonable quantum information theory for fermions must respect the parity super-selection rule to comply with the special theory of relativity and the no-signaling principle. This rule restricts the possibility of any quantum state to have a superposition between even and odd parity fermionic states. It thereby characterizes the set of physically allowed fermionic quantum states. Here we introduce the physically allowed quantum operations, in congruence with the parity super-selection rule, that map the set of allowed fermionic states onto itself. We first introduce unitary and projective measurement operations of the fermionic states. We further extend the formalism to general quantum operations in the forms of Stinespring dilation, operator-sum representation, and axiomatic completely-positive-trace-preserving maps. We explicitly show the equivalence between these three representations of fermionic quantum operations. We discuss the possible implications of our results in characterization of correlations in fermionic systems.
翻訳日:2023-04-10 23:46:04 公開日:2021-02-17
# 推力不変性を持つ相対論的量子流体

Relativistic quantum fluid with boost invariance ( http://arxiv.org/abs/2102.09016v1 )

ライセンス: Link先を確認
D. Rindori (U. Florence), L. Tinti (U. Kielce), F. Becattini (U. Florence), D. Rischke (U. Frankfurt)(参考訳) 量子統計フレームワークにおいて, 縦方向の推力不変性を持つ相対論的流体を解ける非平衡問題の例として検討する。 自由量子場に対しては、応力エネルギーテンソルの期待値とエントロピー電流の正確な形を計算する。 応力-エネルギーテンソルの場合、一定の適切な時間 \tau_0 で密度演算子の真空を減算することでのみ有限値が得られる。 その結果、応力エネルギーテンソルは古典的な自由ストリーミング形式への非自明な量子補正を取得する。

We study a relativistic fluid with longitudinal boost invariance in a quantum-statistical framework as an example of a solvable non-equilibrium problem. For the free quantum field, we calculate the exact form of the expectation values of the stress-energy tensor and the entropy current. For the stress-energy tensor, we find that a finite value can be obtained only by subtracting the vacuum of the density operator at some fixed proper time \tau_0. As a consequence, the stress-energy tensor acquires non-trivial quantum corrections to the classical free-streaming form.
翻訳日:2023-04-10 23:45:49 公開日:2021-02-17
# 商対称性が位相現象を保護する

Quotient symmetry protected topological phenomena ( http://arxiv.org/abs/2102.08967v1 )

ライセンス: Link先を確認
Ruben Verresen, Julian Bibo, Frank Pollmann(参考訳) トポロジカル現象は、自明な相から避けられない量子相転移によって分離される物質の相でよく研究される。 これは過度に制限され、液体水と蒸気の区別に類似した実践的関連性のシナリオが残される。 実際、バルクが自明な物質相で厳密に話し合っている場合でも、位相現象はパラメータ空間の大部分で安定であることを示す。 特に、対称性群を拡張することで自明化できる対称性保護位相に着目する。 スピン鎖のトポロジカルなハルデン相は、モット極限からのチューニングにより、$SO(3)$対称性が$SU(2)$に拡張されるパラダイム的な例として機能する。 ハルダン相は2次的に積状態と結合するが、エッジモード、エンタングルメント縮退、バルク相転移といった特性現象はパラメトリック安定である。 この安定性はエネルギースケールの分離によるものであり、対称性の部分群が高エネルギーの自由度にのみ作用するときによく定義される量子化された不変量によって特徴づけられる。 低エネルギー対称性群(low-energy symmetry group)は、創発的異常がエッジモードと不要な臨界性を安定化する商群である。

Topological phenomena are commonly studied in phases of matter which are separated from a trivial phase by an unavoidable quantum phase transition. This can be overly restrictive, leaving out scenarios of practical relevance -- similar to the distinction between liquid water and vapor. Indeed, we show that topological phenomena can be stable over a large part of parameter space even when the bulk is strictly speaking in a trivial phase of matter. In particular, we focus on symmetry-protected topological phases which can be trivialized by extending the symmetry group. The topological Haldane phase in spin chains serves as a paradigmatic example where the $SO(3)$ symmetry is extended to $SU(2)$ by tuning away from the Mott limit. Although the Haldane phase is then adiabatically connected to a product state, we show that characteristic phenomena -- edge modes, entanglement degeneracies and bulk phase transitions -- remain parametrically stable. This stability is due to a separation of energy scales, characterized by quantized invariants which are well-defined when a subgroup of the symmetry only acts on high-energy degrees of freedom. The low-energy symmetry group is a quotient group whose emergent anomalies stabilize edge modes and unnecessary criticality, which can occur in any dimension.
翻訳日:2023-04-10 23:45:09 公開日:2021-02-17
# 超研究家になりたいのか?

So you want to be a Super Researcher? ( http://arxiv.org/abs/2103.03351v1 )

ライセンス: Link先を確認
Sanjay Rathee and Sheah Lin Lee(参考訳) 科学研究の出版は研究者の仕事に固有のものである。 しかし、生産性と科学的影響を維持する圧力は、研究グループが過剰に出版し、研究者の精神的健康に悪影響を及ぼす可能性がある。 博士課程の学生と初期のキャリア研究者は、その位置の固有の脆弱性のために、特にこの圧力に影響を受けやすい。 現在、研究グループの出版文化を簡潔に要約し、研究者が参加する前に情報的な決定を下すのを助けるリソースは存在しない。 本稿では、ユーザフレンドリーなインターフェースを備えたr光沢のあるアプリケーションである「スーパーリサーチ」アプリについて紹介する。 テキストマイニング手法を用いて、Scopusから公開されている著者データを抽出し、このパイロットアプリは、研究者が研究グループの出版文化を数分で把握するのに役立つスナップショット情報を提供する4つの基本的な機能を備えている。 Super Researcher’アプリは以下の情報を提供する。 1)制度データ、 2)著者の出版 3)共著者ネットワークプロット及び 4) 刊行物。 Super Researcher’アプリはR shiny上に構築されており、ユーザに対してインタラクティブなインターフェースを提供する。 このアプリはビッグデータフレームワークapache sparkを使用して、巨大な著者情報データベースから関連する情報を発掘する。 著者の情報は、SQL(SQLite)データベースとNoSQL(HBase)データベースの両方を使用して保存および操作される。 Hbaseはローカルデータストレージと操作に使用され、SQLiteはR Shinyインターフェースにデータを供給している。 本稿では,これらの機能について紹介するとともに,この情報を用いて研究者に,出版態度の面での互換性が向上した新しい原理調査員(pi)の選定を,ケーススタディを用いて支援する方法について述べる。 https://researchmind.co.uk/super-researcher/

Publishing original scientific research is inherent to the work of a researcher. However, the pressure to maintain productivity and scientific impact can lead to research group publishing excessively, negatively affecting the mental health of a researcher. Ph.D. students and early career researchers are particularly susceptible to this pressure due to the inherent vulnerability of their positions. At present, there are no resources that concisely summarise the publication culture of a research group to help the researcher make an informed decision before joining. In this article, we present the 'Super Researcher' app, an R Shiny application(app) with a user-friendly interface. Using text-mining methodology to extract publicly available author data from Scopus, this pilot app has four fundamental functions to provide snapshot information that will help researchers grasp the publication culture of a research group within minutes. The 'Super Researcher' app provides information on: 1) institution data, 2) author's publication, 3) co-author network plots and 4) publication journals. The 'Super Researcher' app is built on R shiny which provides an interactive interface to users. This app utilizes the Big Data framework Apache Spark to mine relevant information from a huge author information database. The author's information is stored and manipulated using both SQL(SQLite) and NoSQL(HBase) databases. Hbase is used for local data storage and manipulation while SQLite feeds data to the R Shiny interface. In this paper, we introduce these functionalities and illustrate how this information can help guide a researcher to select a new Principle Investigator (PI) with better compatibility in terms of publication attitude using a case study. Available: https://researchmind.co.uk/super-researcher/
翻訳日:2023-04-10 22:02:51 公開日:2021-02-17
# トロント市の介護老人ホームにおける看護スタッフのスケジューリングを支援する最適化

Optimization Helps Scheduling Nursing Staff at the Long-Term Care Homes of the City of Toronto ( http://arxiv.org/abs/2102.09461v1 )

ライセンス: Link先を確認
Manion Anderson, Merve Bodur, Scott Rathwell, Vahid Sarhangian(参考訳) トロント市介護ホームズ・アンド・サービス部(英語版)(ltch&s)はカナダのオンタリオ州で最大の介護機関の1つであり、トロント市内の10軒の家庭で2,640人の住民に介護を提供している。 LTCH&Sとの連携により,看護スタッフのスケジューリング作業がますます難しくなり,パートタイム看護師が観察する高い欠勤率の低減が図られた。 我々は,スケジュール生成を自動化し,看護師の好みをスケジュールに反映する表計算ベースのスケジューリングツールを開発した。 スケジューリングツールの中核は階層的最適化モデルであり、最大要求を満足しつつ、最高全優先スコアの実行可能なスケジュールを生成する。 利用可能なシフトを割り当てる際には、より高齢の看護師を優先する、複雑な高齢者の要求に従わなければならなかった。 私たちのスケジューリングツールはトロントの391床の家で実装されました。 このツールにより、看護管理者は1時間以内で実行可能なスケジュールを作成できるようになった。 さらに、スケジュールは、最も好ましい順位の割り当てられたシフトの94%以上を平均して、好みをうまく説明できた。

The City of Toronto Long Term Care Homes & Services (LTCH&S) division is one of the largest providers of long-term care in the Canadian province of Ontario, providing care to 2,640 residents at 10 homes across Toronto. Our collaboration with LTCH&S was initiated to facilitate the increasingly challenging task of scheduling nursing staff and reduce high absenteeism rate observed among the part-time nurses. We developed a spreadsheet-based scheduling tool to automate the generation of schedules and incorporate nurses' preferences for different shifts into the schedules. At the core of the scheduling tool is a hierarchical optimization model that generates a feasible schedule with the highest total preference score while satisfying the maximum possible demand. Feasible schedules had to abide by a set of complex seniority requirements which prioritized more senior nurses when allocating the available shifts. Our scheduling tool was implemented in a 391-bed home in Toronto. The tool allowed nursing managers to generate feasible schedules within a fraction of an hour, in contrast to the status-quo manual approach which could took up to tens of hours. In addition, the schedules successfully accounted for preferences with on average above 94% of the allocated shifts ranked as most preferred.
翻訳日:2023-04-10 22:02:28 公開日:2021-02-17
# プレプリントは科学の未来か? オンライン印刷サービス30年の旅

Is preprint the future of science? A thirty year journey of online preprint services ( http://arxiv.org/abs/2102.09066v1 )

ライセンス: Link先を確認
Boya Xie, Zhihong Shen, Kuansan Wang(参考訳) Preprintは、正式な査読の前に公開された科学論文のバージョンである。 1991年にarXivが発売されて以来、印刷物は紙のコピーとは対照的にインターネット上に流通してきた。 オープンなオンラインアクセスによって、オリジナルの研究を数日以内に広めることができ、しばしば運用コストが極めて低い。 この研究は、webの成長と共に過去30年にわたって、preprintがどのように進化し、研究コミュニティに影響を与えてきたかを概説している。 本研究では,研究論文の4%に過ぎず,30年間で指数関数的にプレプリント数が63倍に増加したことを最初に報告した。 第2に、プレプリントが著者にもたらすメリットを定量化します。プレプリントは平均14ヶ月早く聴衆に届き、非プレプリントに比べて5倍の引用と結びつきます。 最後に, プレプリントの品質問題に対処するため, 41%のプレプリントが最終的に査読された目的地で出版され, 公開会場は, プレプリント版のない論文ほど影響力があることがわかった。 また,最近の公衆衛生の危機における最新の研究データを伝える上で,前例のないプレプリントが果たす役割についても論じる。 結論として,プレプリントが個々の研究者やコミュニティに与える影響を明らかにするための定量的証拠を提供する。 プレプリントは学術的なコミュニケーションをより効率的にし、科学的な発見をより迅速かつ広くウェブ技術によって広める。 本研究で提示する測定値は,プレプリント文化を効果的に活用し,責任を負う方法について,研究者や政策立案者がインフォームドな意思決定を行う上で有効である。

Preprint is a version of a scientific paper that is publicly distributed preceding formal peer review. Since the launch of arXiv in 1991, preprints have been increasingly distributed over the Internet as opposed to paper copies. It allows open online access to disseminate the original research within a few days, often at a very low operating cost. This work overviews how preprint has been evolving and impacting the research community over the past thirty years alongside the growth of the Web. In this work, we first report that the number of preprints has exponentially increased 63 times in 30 years, although it only accounts for 4% of research articles. Second, we quantify the benefits that preprints bring to authors: preprints reach an audience 14 months earlier on average and associate with five times more citations compared with a non-preprint counterpart. Last, to address the quality concern of preprints, we discover that 41% of preprints are ultimately published at a peer-reviewed destination, and the published venues are as influential as papers without a preprint version. Additionally, we discuss the unprecedented role of preprints in communicating the latest research data during recent public health emergencies. In conclusion, we provide quantitative evidence to unveil the positive impact of preprints on individual researchers and the community. Preprints make scholarly communication more efficient by disseminating scientific discoveries more rapidly and widely with the aid of Web technologies. The measurements we present in this study can help researchers and policymakers make informed decisions about how to effectively use and responsibly embrace a preprint culture.
翻訳日:2023-04-10 22:02:07 公開日:2021-02-17
# 身体的エージェントの自動カリキュラム学習--神経進化的アプローチ

Automated Curriculum Learning for Embodied Agents: A Neuroevolutionary Approach ( http://arxiv.org/abs/2102.08849v1 )

ライセンス: Link先を確認
Nicola Milano and Stefano Nolfi(参考訳) 進化的アルゴリズムは,進化的エージェントが評価される環境条件を自動的に選択するカリキュラム学習プロセスによってどのように拡張できるかを示す。 環境条件は、現在の進化エージェントの能力レベルに難易度を調整し、進化エージェントの弱点に挑戦するために選択される。 このメソッドはドメインの知識を必要とせず、追加のハイパーパラメータも導入しない。 その結果,提案手法が従来のアルゴリズムよりも優れており,変動にロバストな解を生成することを実証した。

We demonstrate how an evolutionary algorithm can be extended with a curriculum learning process that selects automatically the environmental conditions in which the evolving agents are evaluated. The environmental conditions are selected so to adjust the level of difficulty to the ability level of the current evolving agents and so to challenge the weaknesses of the evolving agents. The method does not require domain knowledge and does not introduce additional hyperparameters. The results collected on two benchmark problems, that require to solve a task in significantly varying environmental conditions, demonstrate that the method proposed outperforms conventional algorithms and generates solutions that are robust to variations
翻訳日:2023-04-10 22:01:21 公開日:2021-02-17
# リビア高等教育システムにおけるeラーニング導入の課題

Challenges of Applying E-Learning in the Libyan Higher Education System ( http://arxiv.org/abs/2102.08545v1 )

ライセンス: Link先を確認
Entisar Alhadi Al Ghawail and Sadok Ben Yahia and Mohamed A. Alrshah(参考訳) 授業におけるICTの導入は, 教育の質の向上, 効果的な知識管理の促進, 高等教育における知識提供の促進に極めて重要である。 リビアのいくつかの大学はすでに教室でe-learningの利用を開始しているが、多くの課題が採用を妨げている。 本稿では,リビアにおけるeラーニングの導入に直面する障害を見つけ,その解決策を概説する。 さらに、リビアの高等教育システムにおけるE-ラーニングの導入の可能性について、質的および定量的アプローチの両方を用いて強調する。 質問者およびインタビューは、データ収集に焦点を絞ったグループで使用されてきた。 アル・アスマラヤ・イスラム大学の教師と学生がこの研究のサンプルに選ばれた。 本稿では,ict と e-learning に関する知識の欠如,ict インフラの欠如,金融支援の欠如,教員や学生が ict と e-learning を使用するのを妨げる課題を明らかにする。 しかし,大学におけるICTとeラーニングの活用に対する関心は,環境の不適合にもかかわらず高い。

The adoption of ICT in classrooms is very important in order to improve education quality, promote effective management of knowledge, and improve delivery of knowledge in higher education. Some of the Libyan universities have already started using E-learning in classrooms, but many challenges are still hindering that adoption. This paper endeavors to find the obstacles that may face the adoption of E-learning in Libya and sketches out the possible solutions. Further, it highlights the potentials for the adoption of E-learning in the higher education system in Libya using both qualitative and quantitative approaches. Both questioner and interview have been used on a focused group to collect the data. Teachers and students at Al Asmarya Islamic University have been selected as a sample for this study. This paper reveals that the challenges hindering teachers and students from using ICT and E-learning are: the lack of knowledge about ICT and E-learning, the lack of ICT infrastructure, and the lack of financial support. However, the participants show a high level of interest in applying the ICT and E-learning in the university despite the unsuitability of the environment.
翻訳日:2023-04-10 22:00:44 公開日:2021-02-17
# ニューラルネットワークのディープコンディショニング処理

A Deep Conditioning Treatment of Neural Networks ( http://arxiv.org/abs/2002.01523v3 )

ライセンス: Link先を確認
Naman Agarwal and Pranjal Awasthi and Satyen Kale(参考訳) ランダムに初期化された過パラメータニューラルネットワークのトレーニングにおける深度の役割について検討する。 本稿では,入力データの特定のカーネル行列の条件付けを改善することにより,ニューラルネットワークのトレーニング性を向上させることを示す。 この結果は、ある正規化の下で任意の非線型活性化関数が成り立つ。 私たちは、ニューラルネットワークの上位層のみをトレーニングするための結果のバージョンと、ニューラルネットワークの接点カーネルを介してすべてのレイヤをトレーニングするためのバージョンを提供します。 これらの一般的な結果の応用として、多種多様な非線形アクティベーションを持つディープランダムニューラルネットワークの学習能力が、深さで指数関数的に低下することを示すdas et al.(2019)の結果の一般化を提案する。 さらに,Bartlett et al. (2019b)の結果を通じて,深層ニューラルネットワークにおいて良性過剰適合が生じることを示す。 我々はまた、ReLUの正規化バージョンが、ディープニューラルネットワークのトレーニングにおけるバッチ正規化のようなより複雑な操作の代替となる、という実験的な証拠を与える。

We study the role of depth in training randomly initialized overparameterized neural networks. We give a general result showing that depth improves trainability of neural networks by improving the conditioning of certain kernel matrices of the input data. This result holds for arbitrary non-linear activation functions under a certain normalization. We provide versions of the result that hold for training just the top layer of the neural network, as well as for training all layers, via the neural tangent kernel. As applications of these general results, we provide a generalization of the results of Das et al. (2019) showing that learnability of deep random neural networks with a large class of non-linear activations degrades exponentially with depth. We also show how benign overfitting can occur in deep neural networks via the results of Bartlett et al. (2019b). We also give experimental evidence that normalized versions of ReLU are a viable alternative to more complex operations like Batch Normalization in training deep neural networks.
翻訳日:2023-01-04 02:42:33 公開日:2021-02-17
# seshat: 音声データのアノテーションキャンペーンを管理し検証するツール

Seshat: A tool for managing and verifying annotation campaigns of audio data ( http://arxiv.org/abs/2003.01472v2 )

ライセンス: Link先を確認
Hadrien Titeux (LSCP, CoML), Rachid Riad (LSCP, CoML), Xuan-Nga Cao (LSCP, CoML), Nicolas Hamilakis (LSCP, CoML), Kris Madden (CoML), Alejandrina Cristia (LSCP), Anne-Catherine Bachoud-L\'evi (INSERM, PSL, UPEC M\'edecine), Emmanuel Dupoux (LSCP, CoML, PSL, Inria, CNRS, EHESS)(参考訳) 本稿では,音声コーパスのアノテーションを効率的に管理するオープンソースソフトウェアSeshatを紹介する。 Seshatソフトウェアにより、ユーザーは、注釈付き出力ファイルのフォーマットや命名規則に準拠しながら、大きなオーディオコーパスのアノテーションを簡単にカスタマイズおよび管理できる。 さらに、パーソナライズされたパーサに実装可能な特定のルールに従うアノテーションの内容をチェックする手順も含まれている。 最後に、セシャールは分類とセグメンテーションの相違を考慮した$\gamma$測度と関連するアノテータ契約を自動的に計算する二重アノテーションモードを提案する。

We introduce Seshat, a new, simple and open-source software to efficiently manage annotations of speech corpora. The Seshat software allows users to easily customise and manage annotations of large audio corpora while ensuring compliance with the formatting and naming conventions of the annotated output files. In addition, it includes procedures for checking the content of annotations following specific rules that can be implemented in personalised parsers. Finally, we propose a double-annotation mode, for which Seshat computes automatically an associated inter-annotator agreement with the $\gamma$ measure taking into account the categorisation and segmentation discrepancies.
翻訳日:2022-12-26 22:42:59 公開日:2021-02-17
# 1クラス新規性検出のためのコンパクト潜時空間における識別的多レベル再構成

Discriminative Multi-level Reconstruction under Compact Latent Space for One-Class Novelty Detection ( http://arxiv.org/abs/2003.01665v3 )

ライセンス: Link先を確認
Jaewoo Park, Yoon Gyo Jung, Andrew Beng Jin Teoh(参考訳) 一クラスのノベルティ検出では、モデルがクラス内のデータのみを学習して、クラス外のインスタンスを分離する。 Autoencoder (AE) の変種は、クラス内のデータをコンパクトにモデル化してのみ再構成することを目的としている。 しかし、不適切な方法でのコンパクトなモデリングは、クラス内のデータの潜在表現を崩壊させ、その再構成によって性能が劣化する可能性がある。 さらに,高次元データの復元誤差を適切に測定するには,データの高レベルなセマンティクスをキャプチャする計量が必要である。 そこで本研究では,クラス内のデータのコンパクトかつ非破壊的な潜在表現を学習し,それらを微細かつ排他的に再構成する識別コンパクトAE(DCAE)を提案する。 DCAE。 a) コンパクトな潜伏空間を、生成的対向ネットの内部的な識別層を通して、クラス内のデータを客観的に表現するように強制する。 (b) ディープエンコーダの脆弱性に基づき、クラス外のインスタンスは、同じコンパクトな潜在空間にエンコードされ、クラス内のデータ復元の品質を犠牲にすることなく、貧弱に再構築される。 c) 推論において、リコンストラクションエラーは、内部判別子によってキャプチャされたクラスセマンティクスに基づいて、クエリとリコンストラクションとの相似性を計算する新しいメトリックによって測定される。 公開画像データセットの大規模な実験により,提案モデルの有効性が,新規性および逆例検出の両面で検証された。

In one-class novelty detection, a model learns solely on the in-class data to single out out-class instances. Autoencoder (AE) variants aim to compactly model the in-class data to reconstruct it exclusively, thus differentiating the in-class from out-class by the reconstruction error. However, compact modeling in an improper way might collapse the latent representations of the in-class data and thus their reconstruction, which would lead to performance deterioration. Moreover, to properly measure the reconstruction error of high-dimensional data, a metric is required that captures high-level semantics of the data. To this end, we propose Discriminative Compact AE (DCAE) that learns both compact and collapse-free latent representations of the in-class data, thereby reconstructing them both finely and exclusively. In DCAE, (a) we force a compact latent space to bijectively represent the in-class data by reconstructing them through internal discriminative layers of generative adversarial nets. (b) Based on the deep encoder's vulnerability to open set risk, out-class instances are encoded into the same compact latent space and reconstructed poorly without sacrificing the quality of in-class data reconstruction. (c) In inference, the reconstruction error is measured by a novel metric that computes the dissimilarity between a query and its reconstruction based on the class semantics captured by the internal discriminator. Extensive experiments on public image datasets validate the effectiveness of our proposed model on both novelty and adversarial example detection, delivering state-of-the-art performance.
翻訳日:2022-12-26 21:51:58 公開日:2021-02-17
# モーメントの方法が 素晴らしいのか? --GANはどのように分布を学習できるか

Making Method of Moments Great Again? -- How can GANs learn distributions ( http://arxiv.org/abs/2003.04033v3 )

ライセンス: Link先を確認
Yuanzhi Li, Zehao Dou(参考訳) generative adversarial network (gans) は複雑な実世界の分布を学ぶために広く使われているモデルである。 GANでは、ジェネレータのトレーニングが停止するのは、判別器がジェネレータの出力とトレーニングの一連の例を区別できない場合である。 gansの中心的な疑問は、トレーニングが終了すると、生成したディストリビューションが実際にターゲットディストリビューションに近いかどうか、トレーニングプロセスがそのような構成に効率的に到達する方法についてである。 本稿では,この生成・判別訓練過程を理解するための理論的結果について述べる。 我々は, GANS訓練の初期段階において, 判別器が発電機の出力と目標分布との間の低次モーメントを一致させようとしていることを実証的に観察した。 さらに、これらの経験的モーメントを多項式的に多くのトレーニング例に合わせるだけで、2層ニューラルネットワークで生成できるものを含む顕著な分布のクラスを学習できることが証明できる。

Generative Adversarial Networks (GANs) are widely used models to learn complex real-world distributions. In GANs, the training of the generator usually stops when the discriminator can no longer distinguish the generator's output from the set of training examples. A central question of GANs is that when the training stops, whether the generated distribution is actually close to the target distribution, and how the training process reaches to such configurations efficiently? In this paper, we established a theoretical results towards understanding this generator-discriminator training process. We empirically observe that during the earlier stage of the GANs training, the discriminator is trying to force the generator to match the low degree moments between the generator's output and the target distribution. Moreover, only by matching these empirical moments over polynomially many training examples, we prove that the generator can already learn notable class of distributions, including those that can be generated by two-layer neural networks.
翻訳日:2022-12-25 08:08:36 公開日:2021-02-17
# 新型コロナウイルスパンデミックにおけるヘラクレス自律走行車の役割--接触品輸送のための自律ロジスティック車両

The Role of the Hercules Autonomous Vehicle During the COVID-19 Pandemic: An Autonomous Logistic Vehicle for Contactless Goods Transportation ( http://arxiv.org/abs/2004.07480v2 )

ライセンス: Link先を確認
Tianyu Liu, Qinghai Liao, Lu Gan, Fulong Ma, Jie Cheng, Xupeng Xie, Zhe Wang, Yingbing Chen, Yilong Zhu, Shuyang Zhang, Zhengyong Chen, Yang Liu, Meng Xie, Yang Yu, Zitong Guo, Guang Li, Peidong Yuan, Dong Han, Yuying Chen, Haoyang Ye, Jianhao Jiao, Peng Yun, Zhenhua Xu, Hengli Wang, Huaiyang Huang, Sukai Wang, Peide Cai, Yuxiang Sun, Yandong Liu, Lujia Wang, Ming Liu(参考訳) 2020年初め以降、新型コロナウイルス感染症(COVID-19)は世界中で急速に拡大している。 この記事の執筆時点で、この病気は世界中の223か国で報告されており、1億800万人以上が感染し、240万人以上の死者を出した(https://covid19.who.int/, accessed on 2021年2月17日)。 人対人感染を避けることは、パンデミックをコントロールし予防するための効果的なアプローチである。 しかし、日常生活で商品を輸送するなど、日常的な活動の多くは必然的に対人接触を伴う。 自動ロジスティック車を使って接触のない商品輸送を達成すれば、この問題を軽減できる。 例えば、ドライバーと顧客の間でウイルスが感染するリスクを減らすことができる。 また、多くの国では、パンデミック時のウイルス感染(小売業、ケータリングなど)を減らすため、厳しいロックダウン措置を講じている。 自動運転車は人間が購入した商品を配達できるので、人間が外出せずに商品を入手できる。 これらの要求は、新型コロナウイルス(COVID-19)パンデミックの間、接触のない商品輸送のために、Herculesという名前の自動運転車を開発する動機となる。 車両は様々な状況下で実世界の配送作業を通じて評価される。

Since early 2020, the coronavirus disease 2019 (COVID-19) has spread rapidly across the world. As at the date of writing this article, the disease has been globally reported in 223 countries and regions, infected over 108 million people and caused over 2.4 million deaths (https://covid19.who.int/, accessed on Feb. 17, 2021). Avoiding person-to-person transmission is an effective approach to control and prevent the pandemic. However, many daily activities, such as transporting goods in our daily life, inevitably involve person-to-person contact. Using an autonomous logistic vehicle to achieve contact-less goods transportation could alleviate this issue. For example, it can reduce the risk of virus transmission between the driver and customers. Moreover, many countries have imposed tough lockdown measures to reduce the virus transmission (e.g., retail, catering) during the pandemic, which causes inconveniences for human daily life. Autonomous vehicle can deliver the goods bought by humans, so that humans can get the goods without going out. These demands motivate us to develop an autonomous vehicle, named as Hercules, for contact-less goods transportation during the COVID-19 pandemic. The vehicle is evaluated through real-world delivering tasks under various traffic conditions.
翻訳日:2022-12-12 22:04:20 公開日:2021-02-17
# SWIFT:超高速でロバストなプライバシー保護機械学習

SWIFT: Super-fast and Robust Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2005.10296v3 )

ライセンス: Link先を確認
Nishat Koti, Mahak Pancholi, Arpita Patra, Ajith Suresh(参考訳) データプライバシを維持しながら、プライベートデータ上で機械学習(ML)計算を実行する、いわゆるプライバシ保護機械学習~(PPML)は、突発的な研究分野である。 近年,PPML は Secure Outsourced Computation~(SOC) パラダイムの採用に向けて,計算量の多いため,目に見えるシフトを経験している。 socパラダイムでは、計算処理は、従量制でサービスを提供する強力で特別な装備のサーバー群にアウトソースされる。 本研究では,SOC設定における様々なMLアルゴリズムに対する堅牢なPPMLフレームワークであるSWIFTを提案する。 非常に望ましい機能であるロバスト性は、サービス拒否を恐れることなく、ユーザ参加を促します。 私たちのフレームワークの核心は、極めて効率が高く、悪質な3つのサードパーティの計算(3PC)がリングの上にあり、誠実なマジョリティ設定で保証された出力配信(GOD)を提供する。 我々の知る限り、SWIFTは3PC設定における最初の堅牢で効率的なPPMLフレームワークです。 SWIFT は最もよく知られている 3PC フレームワーク BLAZE (Patra et al. NDSS'20) と同じくらいの速さ(場合によっては非常に優れている)である。 3PCフレームワークを4つのパーティ(4PC)に拡張します。 この体制では、SWIFT は最もよく知られている4PCフレームワーク Trident (Chaudhari et al. NDSS'20) と同じくらい高速で、最もよく知られている4PCフレームワーク FLASH (Byali et al. PETS'20) の2倍高速である。 WAN設定の64ビットリング上で、ロジスティック回帰やVGG16やLeNetといったディープニューラルネットワークなどの一般的なMLアルゴリズムをベンチマークすることで、我々のフレームワークの実践的妥当性を実証する。 深層nnでは,3pcのオーバヘッドを発生せず,4pcの2倍の改善が得られながら,セキュリティ保証の改善が図られている。

Performing machine learning (ML) computation on private data while maintaining data privacy, aka Privacy-preserving Machine Learning~(PPML), is an emergent field of research. Recently, PPML has seen a visible shift towards the adoption of the Secure Outsourced Computation~(SOC) paradigm due to the heavy computation that it entails. In the SOC paradigm, computation is outsourced to a set of powerful and specially equipped servers that provide service on a pay-per-use basis. In this work, we propose SWIFT, a robust PPML framework for a range of ML algorithms in SOC setting, that guarantees output delivery to the users irrespective of any adversarial behaviour. Robustness, a highly desirable feature, evokes user participation without the fear of denial of service. At the heart of our framework lies a highly-efficient, maliciously-secure, three-party computation (3PC) over rings that provides guaranteed output delivery (GOD) in the honest-majority setting. To the best of our knowledge, SWIFT is the first robust and efficient PPML framework in the 3PC setting. SWIFT is as fast as (and is strictly better in some cases than) the best-known 3PC framework BLAZE (Patra et al. NDSS'20), which only achieves fairness. We extend our 3PC framework for four parties (4PC). In this regime, SWIFT is as fast as the best known fair 4PC framework Trident (Chaudhari et al. NDSS'20) and twice faster than the best-known robust 4PC framework FLASH (Byali et al. PETS'20). We demonstrate our framework's practical relevance by benchmarking popular ML algorithms such as Logistic Regression and deep Neural Networks such as VGG16 and LeNet, both over a 64-bit ring in a WAN setting. For deep NN, our results testify to our claims that we provide improved security guarantee while incurring no additional overhead for 3PC and obtaining 2x improvement for 4PC.
翻訳日:2022-12-01 06:16:24 公開日:2021-02-17
# おそらくほぼ正しい制約付き学習

Probably Approximately Correct Constrained Learning ( http://arxiv.org/abs/2006.05487v2 )

ライセンス: Link先を確認
Luiz F. O. Chamon and Alejandro Ribeiro(参考訳) 学習ソリューションが社会的、産業的、医療的な領域において重要な応用に到達するにつれ、その行動を調整する必要性が高まっている。 現在、明示的な調整がなければ、学習は偏見があり、安全でない、偏見のないソリューションにつながるという証拠がたくさんある。 これらの問題に取り組むため,我々は,おそらくほぼ正しい(pac)学習枠組みに基づく制約付き学習の一般化理論を開発した。 特に,経験的リスク最小化法(ERM)の制約付き規則を用いて,任意のPAC学習可能なクラスもPAC制約付き学習可能であるという意味で,要求を課すことは学習問題を難しくするものではないことを示す。 しかし、典型的なパラメトリゼーションモデルでは、この学習者は、実現可能な解を得ることさえ困難である制約付き非凸最適化プログラムを解く。 この問題を克服するために,制約付き学習の実証的な二重問題もまたPAC制約付き学習者であり,制約なしの問題を解くことのみに基づく実用的な制約付き学習アルゴリズムに導かれることを示した。 この解の一般化特性を解析し、制約付き学習が公平で堅牢な分類における問題にどのように対処できるかを説明する。

As learning solutions reach critical applications in social, industrial, and medical domains, the need to curtail their behavior has become paramount. There is now ample evidence that without explicit tailoring, learning can lead to biased, unsafe, and prejudiced solutions. To tackle these problems, we develop a generalization theory of constrained learning based on the probably approximately correct (PAC) learning framework. In particular, we show that imposing requirements does not make a learning problem harder in the sense that any PAC learnable class is also PAC constrained learnable using a constrained counterpart of the empirical risk minimization (ERM) rule. For typical parametrized models, however, this learner involves solving a constrained non-convex optimization program for which even obtaining a feasible solution is challenging. To overcome this issue, we prove that under mild conditions the empirical dual problem of constrained learning is also a PAC constrained learner that now leads to a practical constrained learning algorithm based solely on solving unconstrained problems. We analyze the generalization properties of this solution and use it to illustrate how constrained learning can address problems in fair and robust classification.
翻訳日:2022-11-23 14:37:14 公開日:2021-02-17
# 自然言語推論の生体内質問応答への伝達性

Transferability of Natural Language Inference to Biomedical Question Answering ( http://arxiv.org/abs/2007.00217v4 )

ライセンス: Link先を確認
Minbyul Jeong, Mujeen Sung, Gangwoo Kim, Donghyeon Kim, Wonjin Yoon, Jaehyo Yoo, Jaewoo Kang(参考訳) バイオメディカルな質問応答(QA)は、データの不足とドメインの専門知識の要求のために難しい課題である。 これらの問題に対処するために、事前訓練された言語モデルが使用されている。 近年,文ペア間の学習関係は一般のQAの性能向上に寄与することが証明されている。 本稿では,生物医学的QAに自然言語推論(NLI)の知識を伝達するためにBioBERTを適用することに焦点を当てる。 我々は,NLIデータセットでトレーニングしたBioBERTが,Yes/No (+5.59%), Factoid (+0.53%), List type (+13.58%) の質問に対して,以前の課題 (BioASQ 7B Phase B) と比較して,より優れたパフォーマンスが得られることを観察した。 第8回BioASQ Challenge (Phase B) において, 高い成績を収めたシーケンシャルトランスファー学習法を提案する。 逐次転送学習では,タスクを微調整する順序が重要である。 ファクトイドおよびリスト型質問の形式がSQuAD(Stanford Question Answering Dataset)の形式に変換された場合、抽出されたQA設定の不可解な率を測定する。

Biomedical question answering (QA) is a challenging task due to the scarcity of data and the requirement of domain expertise. Pre-trained language models have been used to address these issues. Recently, learning relationships between sentence pairs has been proved to improve performance in general QA. In this paper, we focus on applying BioBERT to transfer the knowledge of natural language inference (NLI) to biomedical QA. We observe that BioBERT trained on the NLI dataset obtains better performance on Yes/No (+5.59%), Factoid (+0.53%), List type (+13.58%) questions compared to performance obtained in a previous challenge (BioASQ 7B Phase B). We present a sequential transfer learning method that significantly performed well in the 8th BioASQ Challenge (Phase B). In sequential transfer learning, the order in which tasks are fine-tuned is important. We measure an unanswerable rate of the extractive QA setting when the formats of factoid and list type questions are converted to the format of the Stanford Question Answering Dataset (SQuAD).
翻訳日:2022-11-14 23:01:32 公開日:2021-02-17
# 分散シェープリー値の効率的な計算と解析

Efficient computation and analysis of distributional Shapley values ( http://arxiv.org/abs/2007.01357v3 )

ライセンス: Link先を確認
Yongchan Kwon, Manuel A. Rivas, James Zou(参考訳) 分散データ共有値(DShapley)は、機械学習における個々のダムの寄与を定量化するための原則的フレームワークとして最近提案されている。 DShapleyは、Shapley値の基本的なゲーム理論の概念を統計的フレームワークに発展させ、学習アルゴリズムに有用な(あるいは有害な)データポイントを特定するために応用することができる。 しかし,DShapleyの推定には計算コストがかかるため,実際に使用する上では大きな課題となる可能性がある。 さらに、この値がデータ特性にどう依存するかの数学的解析はほとんど行われていない。 本稿では、線形回帰、二項分類、非パラメトリック密度推定の標準問題に対するDShapleyの最初の解析式を導出する。 これらの解析形式は、従来の最先端手法よりも数桁高速なDShapleyを推定する新しいアルゴリズムを提供する。 さらに、この式は直接解釈可能であり、異なる種類のデータに対してどのように値が変化するかに関する定量的な洞察を提供する。 本稿では,複数の実データと合成データに対するアプローチの実用性を示す。

Distributional data Shapley value (DShapley) has recently been proposed as a principled framework to quantify the contribution of individual datum in machine learning. DShapley develops the foundational game theory concept of Shapley values into a statistical framework and can be applied to identify data points that are useful (or harmful) to a learning algorithm. Estimating DShapley is computationally expensive, however, and this can be a major challenge to using it in practice. Moreover, there has been little mathematical analyses of how this value depends on data characteristics. In this paper, we derive the first analytic expressions for DShapley for the canonical problems of linear regression, binary classification, and non-parametric density estimation. These analytic forms provide new algorithms to estimate DShapley that are several orders of magnitude faster than previous state-of-the-art methods. Furthermore, our formulas are directly interpretable and provide quantitative insights into how the value varies for different types of data. We demonstrate the practical efficacy of our approach on multiple real and synthetic datasets.
翻訳日:2022-11-14 13:35:19 公開日:2021-02-17
# 因果的近位治療を効率的に探索する学習

Learning to search efficiently for causally near-optimal treatments ( http://arxiv.org/abs/2007.00973v2 )

ライセンス: Link先を確認
Samuel H{\aa}kansson, Viktor Lindblom, Omer Gottesman, Fredrik D. Johansson(参考訳) 効果的な治療を見つけるには、しばしば試行錯誤による検索が必要である。 不要な臨床試験の数を最小化することで、この検索をより効率的にすることで、コストと患者の苦痛を軽減できる。 我々は, 因果推論フレームワークを用いて, 最小限の試行で最適に近い治療法を見つけるための方針を学ぶことで, この問題を定式化する。 本研究では,観測データから学習するモデルに基づく動的プログラミングアルゴリズムを提案する。 時間の複雑さを軽減するため、近最適制約を拘束する欲望アルゴリズムを提案する。 これらの手法は, 人工的および実世界の医療データに基づいて評価し, モデルレス強化学習と比較した。 提案手法は,検索時間と治療効果のより透明なトレードオフを提供しながら,モデルフリーのベースラインと良好に比較できる。

Finding an effective medical treatment often requires a search by trial and error. Making this search more efficient by minimizing the number of unnecessary trials could lower both costs and patient suffering. We formalize this problem as learning a policy for finding a near-optimal treatment in a minimum number of trials using a causal inference framework. We give a model-based dynamic programming algorithm which learns from observational data while being robust to unmeasured confounding. To reduce time complexity, we suggest a greedy algorithm which bounds the near-optimality constraint. The methods are evaluated on synthetic and real-world healthcare data and compared to model-free reinforcement learning. We find that our methods compare favorably to the model-free baseline while offering a more transparent trade-off between search time and treatment efficacy.
翻訳日:2022-11-14 13:15:37 公開日:2021-02-17
# ニューラルアーキテクチャ探索のための符号化に関する研究

A Study on Encodings for Neural Architecture Search ( http://arxiv.org/abs/2007.04965v2 )

ライセンス: Link先を確認
Colin White, Willie Neiswanger, Sam Nolen, Yash Savani(参考訳) neural architecture search (nas)はここ数年にわたって広く研究されてきた。 一般的なアプローチは、検索空間内の各ニューラルネットワークを有向非巡回グラフ(dag)として表現し、隣接行列と演算のリストをハイパーパラメータの集合としてエンコードすることですべてのdagを探索する。 最近の研究は、各アーキテクチャのエンコード方法の小さな変更でさえ、NASアルゴリズムのパフォーマンスに大きな影響を及ぼすことを示した。 本稿では,nasに対するアーキテクチャエンコーディングの効果に関する最初の形式的研究として,理論的根拠と経験的研究を紹介する。 まず,アーキテクチャエンコーディングを形式的に定義し,検討したエンコーディングのスケーラビリティに関する理論的特徴付けを行い,nasアルゴリズムが採用する主エンコーディング依存サブルーチンを特定した。 この実験は、先行研究のアブレーション研究として機能し、アルゴリズムとエンコードに基づく貢献を解消し、将来の作業のためのガイドラインとなる。 私たちの結果は、nasエンコーディングが全体的なパフォーマンスに大きな影響を与える重要な設計決定であることを示している。 私たちのコードはhttps://github.com/naszilla/nas-encodingsで利用可能です。

Neural architecture search (NAS) has been extensively studied in the past few years. A popular approach is to represent each neural architecture in the search space as a directed acyclic graph (DAG), and then search over all DAGs by encoding the adjacency matrix and list of operations as a set of hyperparameters. Recent work has demonstrated that even small changes to the way each architecture is encoded can have a significant effect on the performance of NAS algorithms. In this work, we present the first formal study on the effect of architecture encodings for NAS, including a theoretical grounding and an empirical study. First we formally define architecture encodings and give a theoretical characterization on the scalability of the encodings we study Then we identify the main encoding-dependent subroutines which NAS algorithms employ, running experiments to show which encodings work best with each subroutine for many popular algorithms. The experiments act as an ablation study for prior work, disentangling the algorithmic and encoding-based contributions, as well as a guideline for future work. Our results demonstrate that NAS encodings are an important design decision which can have a significant impact on overall performance. Our code is available at https://github.com/naszilla/nas-encodings.
翻訳日:2022-11-12 03:05:16 公開日:2021-02-17
# 線形力学系のブラックボックス制御

Black-Box Control for Linear Dynamical Systems ( http://arxiv.org/abs/2007.06650v3 )

ライセンス: Link先を確認
Xinyi Chen, Elad Hazan(参考訳) 我々は,リセットやオフラインシミュレーションを行わずに,一列のブラックボックス相互作用から未知の線形時間不変力学系を制御する問題を考える。 このシステムが制御可能であると仮定すると、オンライン非確率制御の設定の下で単一の軌道でsublinear regretを実現することができる最初の効率的なアルゴリズムを与える。 これは確率的LQR問題の解法であり、対向的摂動と対向的選択と凸損失関数の変更を可能にするより困難な設定である。 2^{\tilde{o}(\mathcal{l})} + \tilde{o}(\text{poly}(\mathcal{l}) t^{2/3})$ for general nonstochastic control, and $2^{\tilde{o}(\mathcal{l})} + \tilde{o}(\text{poly}(\mathcal{l}) \sqrt{t})$ for black-box lqr,ただし $\mathcal{l}$ は次元上の上限である。 重要なステップは、対向雑音に対して頑丈だが指数的なコストを発生させる新しいシステム識別法である。 そこで本研究では,オンラインのブラックボックス制御問題の複雑性を調査し,それと一致する2^{\omega(\mathcal{l})}$の低限値を与え,追加の指数的コストが避けられないことを示す。 この下限はノイズのない設定でも保持され、任意のランダム化または決定論的ブラックボックス制御方法に適用される。

We consider the problem of controlling an unknown linear time-invariant dynamical system from a single chain of black-box interactions, with no access to resets or offline simulation. Under the assumption that the system is controllable, we give the first efficient algorithm that is capable of attaining sublinear regret in a single trajectory under the setting of online nonstochastic control. This resolves an open problem on the stochastic LQR problem, and in a more challenging setting that allows for adversarial perturbations and adversarially chosen and changing convex loss functions. We give finite-time regret bounds for our algorithm on the order of $2^{\tilde{O}(\mathcal{L})} + \tilde{O}(\text{poly}(\mathcal{L}) T^{2/3})$ for general nonstochastic control, and $2^{\tilde{O}(\mathcal{L})} + \tilde{O}(\text{poly}(\mathcal{L}) \sqrt{T})$ for black-box LQR, where $\mathcal{L}$ is the system size which is an upper bound on the dimension. The crucial step is a new system identification method that is robust to adversarial noise, but incurs exponential cost. To complete the picture, we investigate the complexity of the online black-box control problem, and give a matching lower bound of $2^{\Omega(\mathcal{L})}$ on the regret, showing that the additional exponential cost is inevitable. This lower bound holds even in the noiseless setting, and applies to any, randomized or deterministic, black-box control method.
翻訳日:2022-11-10 23:05:44 公開日:2021-02-17
# CrossTransformers:空間的に認識された数ショット転送

CrossTransformers: spatially-aware few-shot transfer ( http://arxiv.org/abs/2007.11498v5 )

ライセンス: Link先を確認
Carl Doersch, Ankush Gupta, Andrew Zisserman(参考訳) 分類問題における新しいクラスや、近代視覚システムの入力$-$パフォーマンスにおけるドメインシフトのような、非常に小さなデータ$-$のタスクが急速に低下する。 本稿では,現在のビジョンシステムを支えるニューラルネットワーク表現が,新たなタスクやドメインへの転送に必要な情報を含む,トレーニングタスクを実行する上で不要な情報を失うことによって,管理の崩壊を招いていることを示す。 次にこの問題を軽減する2つの方法を提案する。 まず, 自己指導型学習を用いて, 伝達の促進を図る。 第2に,少数のラベル付き画像とラベル付きクエリを抽出し,クエリとラベル付き画像との粗い空間対応を見つけ,空間対応特徴間の距離を計算することによってクラスメンバシップを推論する,Cross Transformersという新しいニューラルネットワークアーキテクチャを提案する。 その結果、タスクやドメインシフトに対してより堅牢な分類器となり、画像Netから他の多くのビジョンデータセットへの転送を評価する最新のデータセットであるMeta-Dataset上で、最先端のパフォーマンスを実演する。

Given new tasks with very little data$-$such as new classes in a classification problem or a domain shift in the input$-$performance of modern vision systems degrades remarkably quickly. In this work, we illustrate how the neural network representations which underpin modern vision systems are subject to supervision collapse, whereby they lose any information that is not necessary for performing the training task, including information that may be necessary for transfer to new tasks or domains. We then propose two methods to mitigate this problem. First, we employ self-supervised learning to encourage general-purpose features that transfer better. Second, we propose a novel Transformer based neural network architecture called CrossTransformers, which can take a small number of labeled images and an unlabeled query, find coarse spatial correspondence between the query and the labeled images, and then infer class membership by computing distances between spatially-corresponding features. The result is a classifier that is more robust to task and domain shift, which we demonstrate via state-of-the-art performance on Meta-Dataset, a recent dataset for evaluating transfer from ImageNet to many other vision datasets.
翻訳日:2022-11-07 23:07:09 公開日:2021-02-17
# Commonsense Knowledge Graph Completionにおける帰納学習

Inductive Learning on Commonsense Knowledge Graph Completion ( http://arxiv.org/abs/2009.09263v2 )

ライセンス: Link先を確認
Bin Wang, Guangtao Wang, Jing Huang, Jiaxuan You, Jure Leskovec, C.-C. Jay Kuo(参考訳) commonsense knowledge graph (ckg) は特別なタイプの知識グラフ (kg) であり、エンティティは自由形式のテキストで構成されている。 しかし、既存のCKG補完手法のほとんどは、トレーニング時にすべてのエンティティが提示される設定に焦点を当てている。 この設定は従来のkg補完では標準であるが、ckg補完には限界がある。 テスト時には、CKGのエンティティは、不明なテキスト/名前を持つ可能性があるため、CKGのエンティティは、トレーニンググラフから切り離される可能性がある。 本稿では,未確認のエンティティがテスト時に現れるCKG完了のための帰納学習環境について検討する。 InductivEという新しい学習フレームワークを開発した。 以前のアプローチとは異なり、inductiveeは生のエンティティ属性/テキストからのエンティティ埋め込みを直接計算することで、インダクティブな学習能力を保証する。 InductiveEは、自由テキストエンコーダ、グラフエンコーダ、KG補完デコーダで構成される。 具体的には、まず、学習済み言語モデルと単語埋め込みに基づいて、各エンティティのテキスト表現を抽出する。 グラフエンコーダはゲート付きリレーショナルグラフ畳み込みニューラルネットワークであり、より情報のあるエンティティ表現学習のために密度グラフから学習する。 本研究では,意味関係エンティティ間のエッジを追加してckgを高密度化する方法を開発し,非意味エンティティに対するより支援的な情報を提供することにより,非知覚エンティティに対するエンティティ埋め込みの一般化能力を向上させる。 最後に、inductiveeはckg補完デコーダとしてconv-transeを使用している。 InductiveEは、ATOMICとConceptNetベンチマークの標準設定とインダクティブ設定の両方において、最先端のベースラインを大幅に上回っている。 InductivEは、現在の方法よりも48%以上改善されたインダクティブシナリオで特によく機能する。

Commonsense knowledge graph (CKG) is a special type of knowledge graph (KG), where entities are composed of free-form text. However, most existing CKG completion methods focus on the setting where all the entities are presented at training time. Although this setting is standard for conventional KG completion, it has limitations for CKG completion. At test time, entities in CKGs can be unseen because they may have unseen text/names and entities may be disconnected from the training graph, since CKGs are generally very sparse. Here, we propose to study the inductive learning setting for CKG completion where unseen entities may present at test time. We develop a novel learning framework named InductivE. Different from previous approaches, InductiveE ensures the inductive learning capability by directly computing entity embeddings from raw entity attributes/text. InductiveE consists of a free-text encoder, a graph encoder, and a KG completion decoder. Specifically, the free-text encoder first extracts the textual representation of each entity based on the pre-trained language model and word embedding. The graph encoder is a gated relational graph convolutional neural network that learns from a densified graph for more informative entity representation learning. We develop a method that densifies CKGs by adding edges among semantic-related entities and provide more supportive information for unseen entities, leading to better generalization ability of entity embedding for unseen entities. Finally, inductiveE employs Conv-TransE as the CKG completion decoder. Experimental results show that InductiveE significantly outperforms state-of-the-art baselines in both standard and inductive settings on ATOMIC and ConceptNet benchmarks. InductivE performs especially well on inductive scenarios where it achieves above 48% improvement over present methods.
翻訳日:2022-10-16 21:30:28 公開日:2021-02-17
# イジング相転移の教師付き学習における有限サイズスケーリング関数の出現

Emergence of a finite-size-scaling function in the supervised learning of the Ising phase transition ( http://arxiv.org/abs/2010.00351v2 )

ライセンス: Link先を確認
Dongkyu Kim and Dong-Hee Kim(参考訳) 強磁性イジングモデルにおける2次相分類の教師あり学習と2次相転移の標準有限サイズスケーリング理論との関係について検討した。 最小1自由パラメータニューラルネットモデルを用いて、訓練データセットとして使用される標準アンサンブルの教師付き学習問題を解析的に定式化する。 1つの自由パラメータだけで、大きなニューラルネットワークで観測されるネットワーク出力における普遍有限サイズスケーリング関数のデータ駆動的出現を記述することができ、理論的には、異なる基盤格子からの未確認テストデータの臨界点予測を、Ising臨界の同じ普遍性クラスで検証することができる。 また,提案した1パラメータモデルによる解釈を数値的に示すため,Landau平均場自由エネルギーの学習における臨界点の探索を,非相関な乱スケールフリーグラフと高次指数を持つ実データに適用した例を示す。

We investigate the connection between the supervised learning of the binary phase classification in the ferromagnetic Ising model and the standard finite-size-scaling theory of the second-order phase transition. Proposing a minimal one-free-parameter neural network model, we analytically formulate the supervised learning problem for the canonical ensemble being used as a training data set. We show that just one free parameter is capable enough to describe the data-driven emergence of the universal finite-size-scaling function in the network output that is observed in a large neural network, theoretically validating its critical point prediction for unseen test data from different underlying lattices yet in the same universality class of the Ising criticality. We also numerically demonstrate the interpretation with the proposed one-parameter model by providing an example of finding a critical point with the learning of the Landau mean-field free energy being applied to the real data set from the uncorrelated random scale-free graph with a large degree exponent.
翻訳日:2022-10-12 07:44:43 公開日:2021-02-17
# GATE:言語間関係とイベント抽出のためのグラフ注意変換器エンコーダ

GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and Event Extraction ( http://arxiv.org/abs/2010.03009v2 )

ライセンス: Link先を確認
Wasi Uddin Ahmad and Nanyun Peng and Kai-Wei Chang(参考訳) 言語間関係とイベント抽出の最近の進歩 グラフ畳み込みネットワーク(gcns)と普遍依存構文解析(英語版)を用いて、言語非依存の文表現を学習し、ある言語で訓練されたモデルを他の言語に適用することができる。 しかし、GCNは長い範囲の依存関係を持つ単語をモデル化するのに苦労する。 これらの課題に対処するため,我々は,構文距離の異なる単語間の依存関係を学ぶために,構造情報を明示的に融合するセルフアテンション機構を提案する。 本稿では、GATE, a {\bf G}raph {\bf A}ttention {\bf T}ransformer {\bf E}ncoderを紹介し、関係およびイベント抽出タスクにおける言語間転送性をテストする。 ACE05データセットで、英語、中国語、アラビア語の3つのタイプ型言語を含む実験を行った。 評価の結果,GATEは近年提案されている3つの手法よりも大きなマージンで優れていた。 我々の詳細な分析により,GATEは構文依存に依存しているため,言語間の移動を容易にする堅牢な表現を生成することがわかった。

Recent progress in cross-lingual relation and event extraction use graph convolutional networks (GCNs) with universal dependency parses to learn language-agnostic sentence representations such that models trained on one language can be applied to other languages. However, GCNs struggle to model words with long-range dependencies or are not directly connected in the dependency tree. To address these challenges, we propose to utilize the self-attention mechanism where we explicitly fuse structural information to learn the dependencies between words with different syntactic distances. We introduce GATE, a {\bf G}raph {\bf A}ttention {\bf T}ransformer {\bf E}ncoder, and test its cross-lingual transferability on relation and event extraction tasks. We perform experiments on the ACE05 dataset that includes three typologically different languages: English, Chinese, and Arabic. The evaluation results show that GATE outperforms three recently proposed methods by a large margin. Our detailed analysis reveals that due to the reliance on syntactic dependencies, GATE produces robust representations that facilitate transfer across languages.
翻訳日:2022-10-10 07:13:43 公開日:2021-02-17
# 一般化線形モデルに対するスペクトル初期化を伴う近似メッセージパッシング

Approximate Message Passing with Spectral Initialization for Generalized Linear Models ( http://arxiv.org/abs/2010.03460v2 )

ライセンス: Link先を確認
Marco Mondelli and Ramji Venkataramanan(参考訳) 一般化線形モデルを用いて得られた測定値から信号を推定する問題を考える。 我々は,高次元極限における AMP の性能を,適切なモデル仮定の下で簡潔に特徴付けることができ,AMP は信号入力の実験的分布に合わせることができ,幅広い種類の推定問題に対して,AMP はすべての多項式時間アルゴリズムの中で最適であると推測される。 しかし、AMPの大きな問題は、多くのモデル(位相検索など)において、基底構造信号と相関し、測定行列から独立な初期化が必要であることである。 そのような初期化が可能であると仮定すると、通常は現実的ではない。 本稿では、スペクトル推定器を用いて初期化したAMPアルゴリズムを提案する。 このような初期化では、スペクトル推定器が設計行列に複雑な方法で依存するため、標準AMP解析は失敗する。 我々の主な貢献は、高次元極限におけるスペクトル初期化によるAMPの性能の厳密な評価である。 重要な技術的アイデアは、2相人工的なAMPアルゴリズムを定義し、分析し、まずスペクトル推定器を生成し、次に真のAMPの繰り返しを近似することである。 また,提案手法の有効性を示す数値的な結果も提供する。

We consider the problem of estimating a signal from measurements obtained via a generalized linear model. We focus on estimators based on approximate message passing (AMP), a family of iterative algorithms with many appealing features: the performance of AMP in the high-dimensional limit can be succinctly characterized under suitable model assumptions; AMP can also be tailored to the empirical distribution of the signal entries, and for a wide class of estimation problems, AMP is conjectured to be optimal among all polynomial-time algorithms. However, a major issue of AMP is that in many models (such as phase retrieval), it requires an initialization correlated with the ground-truth signal and independent from the measurement matrix. Assuming that such an initialization is available is typically not realistic. In this paper, we solve this problem by proposing an AMP algorithm initialized with a spectral estimator. With such an initialization, the standard AMP analysis fails since the spectral estimator depends in a complicated way on the design matrix. Our main contribution is a rigorous characterization of the performance of AMP with spectral initialization in the high-dimensional limit. The key technical idea is to define and analyze a two-phase artificial AMP algorithm that first produces the spectral estimator, and then closely approximates the iterates of the true AMP. We also provide numerical results that demonstrate the validity of the proposed approach.
翻訳日:2022-10-09 23:02:33 公開日:2021-02-17
# 消化器内視鏡検査におけるアーティファクトおよび疾患症例の検出と分別のための深層学習

Deep learning for detection and segmentation of artefact and disease instances in gastrointestinal endoscopy ( http://arxiv.org/abs/2010.06034v2 )

ライセンス: Link先を確認
Sharib Ali, Mariia Dmitrieva, Noha Ghatwary, Sophia Bano, Gorkem Polat, Alptekin Temizel, Adrian Krenzer, Amar Hekalo, Yun Bo Guo, Bogdan Matuszewski, Mourad Gridach, Irina Voiculescu, Vishnusai Yoganand, Arnav Chavan, Aryan Raj, Nhan T. Nguyen, Dat Q. Tran, Le Duy Huynh, Nicolas Boutry, Shahadate Rezvy, Haijian Chen, Yoon Ho Choi, Anand Subramanian, Velmurugan Balasubramanian, Xiaohong W. Gao, Hongyu Hu, Yusheng Liao, Danail Stoyanov, Christian Daul, Stefano Realdon, Renato Cannizzaro, Dominique Lamarque, Terry Tran-Nguyen, Adam Bailey, Barbara Braden, James East and Jens Rittscher(参考訳) Endoscopy Computer Vision Challenge (EndoCV) は、信頼性の高いコンピュータ支援型診断内視鏡システムの開発における卓越した問題を解決するためのクラウドソーシングイニシアチブである。 内視鏡検査は中空臓器の診断・治療に広く用いられているが,内科医が直面する課題はいくつかある。 1)視覚的解釈を妨げる多種的人工物の存在、及び 2) 微妙な前駆体と癌異常の同定が困難である。 人工物は、関心の組織と混同できるため、消化管臓器に適用される深層学習法の堅牢性に影響を与えることが多い。 EndoCV2020の課題は、これらのミッションにおける研究課題に対処するために設計されている。 本稿では,トップ17チームが開発した手法の概要と,参加者が2つのサブチャリエンスのために設計した最先端手法と手法の客観的比較を行う。 一 アーティファクト検出及びセグメンテーション(ead2020)及び 二 疾患の検出及び分節(EDD2020) EAD2020およびEDD2020サブチャンジの多施設,多組織,多クラス,多モード臨床内視鏡データセットを作成した。 検出アルゴリズムのサンプル外一般化能力も評価した。 ほとんどのチームは精度の改善に重点を置いているが、臨床使用性に対する信頼性を保っている方法はわずかである。 ベストパフォーマンスなチームは、データ拡張、データ融合、最適なクラスしきい値技術を探求することで、クラス不均衡とサイズ、起源、モダリティ、発生の変動に対処するソリューションを提供した。

The Endoscopy Computer Vision Challenge (EndoCV) is a crowd-sourcing initiative to address eminent problems in developing reliable computer aided detection and diagnosis endoscopy systems and suggest a pathway for clinical translation of technologies. Whilst endoscopy is a widely used diagnostic and treatment tool for hollow-organs, there are several core challenges often faced by endoscopists, mainly: 1) presence of multi-class artefacts that hinder their visual interpretation, and 2) difficulty in identifying subtle precancerous precursors and cancer abnormalities. Artefacts often affect the robustness of deep learning methods applied to the gastrointestinal tract organs as they can be confused with tissue of interest. EndoCV2020 challenges are designed to address research questions in these remits. In this paper, we present a summary of methods developed by the top 17 teams and provide an objective comparison of state-of-the-art methods and methods designed by the participants for two sub-challenges: i) artefact detection and segmentation (EAD2020), and ii) disease detection and segmentation (EDD2020). Multi-center, multi-organ, multi-class, and multi-modal clinical endoscopy datasets were compiled for both EAD2020 and EDD2020 sub-challenges. The out-of-sample generalization ability of detection algorithms was also evaluated. Whilst most teams focused on accuracy improvements, only a few methods hold credibility for clinical usability. The best performing teams provided solutions to tackle class imbalance, and variabilities in size, origin, modality and occurrences by exploring data augmentation, data fusion, and optimal class thresholding techniques.
翻訳日:2022-10-08 05:29:44 公開日:2021-02-17
# GTOPX宇宙ミッションベンチマーク

GTOPX Space Mission Benchmarks ( http://arxiv.org/abs/2010.07517v4 )

ライセンス: Link先を確認
Martin Schlueter, Mehdi Neshat, Mohamed Wahib, Masaharu Munetomo, Markus Wagner(参考訳) このコントリビューションでは、欧州宇宙機関(esa)が公開したgtopデータベースの拡張であるgtopx space mission benchmark collectionを紹介する。 GTOPXは、実際の惑星間空間軌道設計問題を表す10個のベンチマークインスタンスで構成される。 オリジナルのGTOPコレクションに関しては、GTOPXには、混合整数と多目的特性を備えた3つの新しい問題インスタンスが含まれている。 GTOPXは、単純化されたユーザハンドリング、統一されたベンチマーク関数呼び出し、およびオリジナルのGTOP実装に対する小さなバグ修正を可能にする。 さらに、GTOPXは、オリジナルのC++ソースコードから、動的リンクライブラリに基づいてPythonとMatlabにリンクされ、3つのプログラミング言語でベンチマーク結果の高速かつ正確な再現が保証される。 GTOPXで表される宇宙ミッションの軌道設計問題は、非常に非線形で解決が難しいことが知られている。 したがって、GTOPXコレクションは特に、高度な(メタ)ヒューリスティックおよびハイブリッド最適化アルゴリズムをテストに導入したい研究者を対象としている。 本稿の目的は,新たに利用可能なgtopxベンチマークソフトウェアに関するマニュアルとリファレンスを提供することである。

This contribution introduces the GTOPX space mission benchmark collection, which is an extension of GTOP database published by the European Space Agency (ESA). GTOPX consists of ten individual benchmark instances representing real-world interplanetary space trajectory design problems. In regard to the original GTOP collection, GTOPX includes three new problem instances featuring mixed-integer and multi-objective properties. GTOPX enables a simplified user handling, unified benchmark function call and some minor bug corrections to the original GTOP implementation. Furthermore, GTOPX is linked from it's original C++ source code to Python and Matlab based on dynamic link libraries, assuring computationally fast and accurate reproduction of the benchmark results in all three programming languages. Space mission trajectory design problems as those represented in GTOPX are known to be highly non-linear and difficult to solve. The GTOPX collection, therefore, aims particularly at researchers wishing to put advanced (meta)heuristic and hybrid optimization algorithms to the test. The goal of this paper is to provide researchers with a manual and reference to the newly available GTOPX benchmark software.
翻訳日:2022-10-07 03:34:22 公開日:2021-02-17
# eqspike:神経形態形成のためのスパイク駆動平衡伝播

EqSpike: Spike-driven Equilibrium Propagation for Neuromorphic Implementations ( http://arxiv.org/abs/2010.07859v3 )

ライセンス: Link先を確認
Erwann Martin, Maxence Ernoult, J\'er\'emie Laydevant, Shuai Li, Damien Querlioz, Teodora Petrisor, Julie Grollier(参考訳) ニューロモルフィックシステムの局所的な制約の中で実装できるスパイクベースの学習アルゴリズムを見つけることは、高い精度を達成しつつも、非常に難しい課題である。 平衡伝播は、局所的な計算のみを含むので、バックプロパゲーションに代わる有望な方法であるが、ハードウェア指向の研究は、これまでレートベースのネットワークに焦点を当ててきた。 本研究では、Equilibrium Propagationによって学習されたニューロモルフィックシステムと互換性のある、EqSpikeと呼ばれるスパイキングニューラルネットワークアルゴリズムを開発する。 シミュレーションにより、MNISTで97.6%の検定精度が得られ、これはレートベースの平衡伝播と似ており、ニューラルネットワークをスパイクするための代替学習技術と好適に比較できる。 シリコンニューロモルフィック技術で実装されたEqSpikeは、GPUと比較して、推論とトレーニングのエネルギー消費をそれぞれ3桁と2桁に削減できることを示した。 最後に、学習中にEqSpikeの重み付けがSpike Timing Dependent Plasticity(スパイクタイミング依存プラスチック)の形を示し、生物学との結びつきを浮き彫りにする。

Finding spike-based learning algorithms that can be implemented within the local constraints of neuromorphic systems, while achieving high accuracy, remains a formidable challenge. Equilibrium Propagation is a promising alternative to backpropagation as it only involves local computations, but hardware-oriented studies have so far focused on rate-based networks. In this work, we develop a spiking neural network algorithm called EqSpike, compatible with neuromorphic systems, which learns by Equilibrium Propagation. Through simulations, we obtain a test recognition accuracy of 97.6% on MNIST, similar to rate-based Equilibrium Propagation, and comparing favourably to alternative learning techniques for spiking neural networks. We show that EqSpike implemented in silicon neuromorphic technology could reduce the energy consumption of inference and training respectively by three orders and two orders of magnitude compared to GPUs. Finally, we also show that during learning, EqSpike weight updates exhibit a form of Spike Timing Dependent Plasticity, highlighting a possible connection with biology.
翻訳日:2022-10-07 03:34:03 公開日:2021-02-17
# 多層隣接点マージモデルを用いたグラフ埋め込み

Graph embedding using multi-layer adjacent point merging model ( http://arxiv.org/abs/2010.14773v2 )

ライセンス: Link先を確認
Jianming Huang, Hiroyuki Kasai(参考訳) グラフ分類タスクでは、従来のカーネルメソッドの多くはグラフ間の類似度を測定することに重点を置いている。 これらの手法はグラフ同型問題の解法において大きな成功を収めた。 しかし、いくつかの分類問題では、グラフクラスはグラフ全体の位相的類似性だけでなく、構成部分グラフパターンにも依存する。 そこで本研究では,多層隣接点マージモデルを用いた新しいグラフ埋め込み手法を提案する。 この埋め込み手法により、列車データから異なるサブグラフパターンを抽出できる。 そこで,本手法のロバスト性を高める特徴選択のためのフレキシブル損失関数を提案する。 最後に,提案手法が最先端手法よりも優れていることを示す数値評価を行った。

For graph classification tasks, many traditional kernel methods focus on measuring the similarity between graphs. These methods have achieved great success on resolving graph isomorphism problems. However, in some classification problems, the graph class depends on not only the topological similarity of the whole graph, but also constituent subgraph patterns. To this end, we propose a novel graph embedding method using a multi-layer adjacent point merging model. This embedding method allows us to extract different subgraph patterns from train-data. Then we present a flexible loss function for feature selection which enhances the robustness of our method for different classification problems. Finally, numerical evaluations demonstrate that our proposed method outperforms many state-of-the-art methods.
翻訳日:2022-10-02 05:48:35 公開日:2021-02-17
# グループ依存ラベル雑音による公正分類

Fair Classification with Group-Dependent Label Noise ( http://arxiv.org/abs/2011.00379v2 )

ライセンス: Link先を確認
Jialu Wang, Yang Liu, Caleb Levy(参考訳) 本研究は,学習ラベルがランダムノイズで劣化し,破損率がラベルクラスと保護されたサブグループのメンバシップ関数の両方に依存するような環境で,公平な分類器の訓練方法を検討する。 不均質なラベルノイズモデルは、アノテーションを生成する際に特定のグループに対して系統的なバイアスを与える。 まず,不均質および集団依存の誤差率を考慮せずに,人口格差対策に公平な制約を課すことで,その正確性と公平性の両方を低減できることを示す分析結果を提示した。 我々の実験は、これらの問題を実際にも示している。 我々は,不均質なラベルノイズによる落とし穴を回避するために,厳密に定義されたサーロゲート損失関数を用いて経験的リスク最小化を行うことで,これらの問題に対処する。 提案手法の有効性に関する理論的および実証的な正当性を提供する。 私たちはその結果を、適切なケアをせずにバイアス付きデータセットに公平さを課すことが、少なくとも良い結果をもたらすという重要な例だと考えています。

This work examines how to train fair classifiers in settings where training labels are corrupted with random noise, and where the error rates of corruption depend both on the label class and on the membership function for a protected subgroup. Heterogeneous label noise models systematic biases towards particular groups when generating annotations. We begin by presenting analytical results which show that naively imposing parity constraints on demographic disparity measures, without accounting for heterogeneous and group-dependent error rates, can decrease both the accuracy and the fairness of the resulting classifier. Our experiments demonstrate these issues arise in practice as well. We address these problems by performing empirical risk minimization with carefully defined surrogate loss functions and surrogate constraints that help avoid the pitfalls introduced by heterogeneous label noise. We provide both theoretical and empirical justifications for the efficacy of our methods. We view our results as an important example of how imposing fairness on biased data sets without proper care can do at least as much harm as it does good.
翻訳日:2022-10-01 04:39:23 公開日:2021-02-17
# 6gネットワーク:シャノンを超えて意味と目標指向のコミュニケーションへ

6G Networks: Beyond Shannon Towards Semantic and Goal-Oriented Communications ( http://arxiv.org/abs/2011.14844v3 )

ライセンス: Link先を確認
Emilio Calvanese Strinati and Sergio Barbarossa(参考訳) 本研究の目的は,将来の6Gネットワークにおけるセマンティックおよびゴール指向の側面を含めることによって,システムの有効性と持続可能性の観点から大きな飛躍をもたらす,という考え方を促進することである。 セマンティック通信は、パケットによって伝達される意味に関係なく、各送信パケットの正しい受信を保証するという共通のシャノンパラダイムを超えている。 意味を伝えるためにコミュニケーションが発生したり、目標を達成するために通信が発生したとき、本当に重要なのは、パケットの正しい受信/解釈が目標達成に与える影響である。 意味的かつ目標指向の側面に注目し、それらを組み合わせて、関連する情報、すなわち送信者が意図する意味を回復したり、目標を達成するのに必要な情報を識別するのに役立ちます。 知識表現と推論ツールを機械学習アルゴリズムと組み合わせることで、現在の機械学習アルゴリズムがより良い解釈能力とコントラスト逆攻撃を達成するための意味論的学習戦略を構築することができる。 6Gセマンティックネットワークは、ネットワークの端にセマンティックラーニングメカニズムを持ち込むことができ、同時にセマンティックラーニングは6Gネットワークの効率と持続可能性を改善するのに役立つ。

The goal of this paper is to promote the idea that including semantic and goal-oriented aspects in future 6G networks can produce a significant leap forward in terms of system effectiveness and sustainability. Semantic communication goes beyond the common Shannon paradigm of guaranteeing the correct reception of each single transmitted packet, irrespective of the meaning conveyed by the packet. The idea is that, whenever communication occurs to convey meaning or to accomplish a goal, what really matters is the impact that the correct reception/interpretation of a packet is going to have on the goal accomplishment. Focusing on semantic and goal-oriented aspects, and possibly combining them, helps to identify the relevant information, i.e. the information strictly necessary to recover the meaning intended by the transmitter or to accomplish a goal. Combining knowledge representation and reasoning tools with machine learning algorithms paves the way to build semantic learning strategies enabling current machine learning algorithms to achieve better interpretation capabilities and contrast adversarial attacks. 6G semantic networks can bring semantic learning mechanisms at the edge of the network and, at the same time, semantic learning can help 6G networks to improve their efficiency and sustainability.
翻訳日:2022-09-29 23:24:46 公開日:2021-02-17
# 密結合Lidar-Visual-Inertial Odometryのための統一多モードランドマーク追跡

Unified Multi-Modal Landmark Tracking for Tightly Coupled Lidar-Visual-Inertial Odometry ( http://arxiv.org/abs/2011.06838v3 )

ライセンス: Link先を確認
David Wisth, Marco Camurri, Sandipan Das, Maurice Fallon(参考訳) 本稿では,単一の統合係数グラフ内で視覚,ライダー,慣性情報を共同で最適化する,モバイルプラットフォームのための効率的なマルチセンサオドメトリシステムを提案する。 これは固定ラグスムーシングを使用してフルフレームレートでリアルタイムに実行される。 このような密接な統合を実現するために,ライダーポイント雲から3次元線および平面プリミティブを抽出する新しい手法を提案する。 このアプローチは、プリミティブをランドマークとして扱い、複数のスキャンでそれらを追跡することで、典型的なフレーム間トラッキングメソッドの最適化を克服する。 ライダーとカメラフレームの微妙な同期により、ライダー機能と標準的な視覚機能とIMUの真の統合が可能となる。 3D機能の軽量な定式化により、単一のCPU上でリアルタイム実行が可能になる。 提案システムは,ロボットによる地下探査や動的移動式ハンドヘルドデバイスによる屋外走査など,さまざまなプラットフォームやシナリオで,96分から2.4kmの走行距離で試験されてきた。 これらのテストシーケンスでは、過度に制約された幾何学(ライダーに影響する)と、積極的な照明変化(視覚に影響する)によるテクスチャのない領域のどちらかによって障害が発生する。 これらの条件下では、因子グラフはハードスイッチを使わずに各センサモードから得られる最良の情報を使用する。

We present an efficient multi-sensor odometry system for mobile platforms that jointly optimizes visual, lidar, and inertial information within a single integrated factor graph. This runs in real-time at full framerate using fixed lag smoothing. To perform such tight integration, a new method to extract 3D line and planar primitives from lidar point clouds is presented. This approach overcomes the suboptimality of typical frame-to-frame tracking methods by treating the primitives as landmarks and tracking them over multiple scans. True integration of lidar features with standard visual features and IMU is made possible using a subtle passive synchronization of lidar and camera frames. The lightweight formulation of the 3D features allows for real-time execution on a single CPU. Our proposed system has been tested on a variety of platforms and scenarios, including underground exploration with a legged robot and outdoor scanning with a dynamically moving handheld device, for a total duration of 96 min and 2.4 km traveled distance. In these test sequences, using only one exteroceptive sensor leads to failure due to either underconstrained geometry (affecting lidar) or textureless areas caused by aggressive lighting changes (affecting vision). In these conditions, our factor graph naturally uses the best information available from each sensor modality without any hard switches.
翻訳日:2022-09-26 00:27:56 公開日:2021-02-17
# QuerYD:高品質なテキストと音声ナレーションを備えたビデオデータセット

QuerYD: A video dataset with high-quality text and audio narrations ( http://arxiv.org/abs/2011.11071v2 )

ライセンス: Link先を確認
Andreea-Maria Oncescu, Jo\~ao F. Henriques, Yang Liu, Andrew Zisserman, Samuel Albanie(参考訳) ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。 私たちのデータセットのユニークな特徴は、ビデオ毎に2つのオーディオトラックが利用可能であることです。 このデータセットは、既存のyoutubeビデオに音声によるナレーションを付けて視覚障害者を支援するボランティアプロジェクトyoudescribeに基づいている。 この成長を続けるビデオコレクションには、高精細で時間的に整ったオーディオとテキストのアノテーションが含まれている。 内容記述は対話よりも関連性が高く、多くの表面的あるいは非形式的記述を含むことが観察できる以前の記述の試みよりも詳細である。 QuerYDデータセットの有用性を示すために、検索やイベントのローカライゼーションのための強力なモデルのトレーニングとベンチマークに使用できることを示す。 データ、コード、モデルは公開されており、QuerYDが、自然言語や音声によるビデオ理解に関するさらなる研究を刺激することを期待しています。

We introduce QuerYD, a new large-scale dataset for retrieval and event localisation in video. A unique feature of our dataset is the availability of two audio tracks for each video: the original audio, and a high-quality spoken description of the visual content. The dataset is based on YouDescribe, a volunteer project that assists visually-impaired people by attaching voiced narrations to existing YouTube videos. This ever-growing collection of videos contains highly detailed, temporally aligned audio and text annotations. The content descriptions are more relevant than dialogue, and more detailed than previous description attempts, which can be observed to contain many superficial or uninformative descriptions. To demonstrate the utility of the QuerYD dataset, we show that it can be used to train and benchmark strong models for retrieval and event localisation. Data, code and models are made publicly available, and we hope that QuerYD inspires further research on video understanding with written and spoken natural language.
翻訳日:2022-09-22 12:10:22 公開日:2021-02-17
# (参考訳) 高次認知の深層学習のための誘導バイアス

Inductive Biases for Deep Learning of Higher-Level Cognition ( http://arxiv.org/abs/2011.15091v3 )

ライセンス: CC BY 4.0
Anirudh Goyal, Yoshua Bengio(参考訳) 興味深い仮説は、人間と動物の知性は(ヒューリスティックスの百科事典リストではなく)いくつかの原則によって説明できるということである。 もしその仮説が正しければ、私たち自身の知性を理解し、インテリジェントマシンを構築するのがより簡単になります。 物理学と同様に、原理そのものは脳のような複雑なシステムの振る舞いを予測するのに十分ではなく、人間のような知能をシミュレートするには相当な計算が必要かもしれない。 この仮説は、人間や動物が利用する誘導バイアスの研究が、これらの原則を明確にし、AI研究や神経科学理論にインスピレーションを与えるのに役立つことを示唆している。 ディープラーニングはすでに、いくつかの重要な帰納的バイアスを利用しており、この研究はより大きなリストを考察し、主に高レベルかつ逐次的な意識的処理に関するものに焦点を当てている。 これらの特定の原則を明確にする目的は、柔軟な分散と体系的一般化という観点から、人間の能力の恩恵を受けるaiシステムを構築するのに役立つ可能性があることである。

A fascinating hypothesis is that human and animal intelligence could be explained by a few principles (rather than an encyclopedic list of heuristics). If that hypothesis was correct, we could more easily both understand our own intelligence and build intelligent machines. Just like in physics, the principles themselves would not be sufficient to predict the behavior of complex systems like brains, and substantial computation might be needed to simulate human-like intelligence. This hypothesis would suggest that studying the kind of inductive biases that humans and animals exploit could help both clarify these principles and provide inspiration for AI research and neuroscience theories. Deep learning already exploits several key inductive biases, and this work considers a larger list, focusing on those which concern mostly higher-level and sequential conscious processing. The objective of clarifying these particular principles is that they could potentially help us build AI systems benefiting from humans' abilities in terms of flexible out-of-distribution and systematic generalization, which is currently an area where a large gap exists between state-of-the-art machine learning and human intelligence.
翻訳日:2021-06-06 23:04:11 公開日:2021-02-17
# グラフ構造側観察による逆線形コンテキスト帯域

Adversarial Linear Contextual Bandits with Graph-Structured Side Observations ( http://arxiv.org/abs/2012.05756v3 )

ライセンス: Link先を確認
Lingda Wang, Bingcong Li, Huozhi Zhou, Georgios B. Giannakis, Lav R. Varshney, Zhizhen Zhao(参考訳) 本稿では,最も一般的な側面情報である \emph{contexts} と \emph{side observed} の2つのカテゴリを利用する,対角的多腕包帯の変種である,対角的背景包帯について検討する。 この設定において、学習エージェントは、$d$-dimensionalコンテキストベクトルで提示された後、一連の$k$アクションから繰り返し選択する。 エージェントは選択されたアクションの損失を発生させ、観察するだけでなく、一連のフィードバックグラフとして符号化された観測構造における隣り合うアクションの損失も観察する。 この設定は、コンテキストとグラフ構造化された側観察の両方が利用できるソーシャルネットワークの様々なアプリケーションをモデル化する。 2つの効率的なアルゴリズムが \texttt{EXP3} に基づいて開発された。 軽度条件下では、無方向性フィードバックグラフに対して、最初のアルゴリズムである \texttt{EXP3-LGC-U} が次数$\mathcal{O}(\sqrt{(K+\alpha(G)d)T\log{K}})$オーバーザタイム水平線$T$, ここで、$\alpha(G)$はフィードバックグラフの平均 \emph{independence number} となる。 有向グラフの設定についても、もう少し弱い結果が示されます。 第2のアルゴリズムである \textt{exp3-lgc-ix} は特別な問題のクラスのために開発され、後悔は有向および無向フィードバックグラフに対して$\mathcal{o}(\sqrt{\alpha(g)dt\log{k}\log(kt)})$となる。 数値実験は提案アルゴリズムの効率を相関させる。

This paper studies the adversarial graphical contextual bandits, a variant of adversarial multi-armed bandits that leverage two categories of the most common side information: \emph{contexts} and \emph{side observations}. In this setting, a learning agent repeatedly chooses from a set of $K$ actions after being presented with a $d$-dimensional context vector. The agent not only incurs and observes the loss of the chosen action, but also observes the losses of its neighboring actions in the observation structures, which are encoded as a series of feedback graphs. This setting models a variety of applications in social networks, where both contexts and graph-structured side observations are available. Two efficient algorithms are developed based on \texttt{EXP3}. Under mild conditions, our analysis shows that for undirected feedback graphs the first algorithm, \texttt{EXP3-LGC-U}, achieves the regret of order $\mathcal{O}(\sqrt{(K+\alpha(G)d)T\log{K}})$ over the time horizon $T$, where $\alpha(G)$ is the average \emph{independence number} of the feedback graphs. A slightly weaker result is presented for the directed graph setting as well. The second algorithm, \texttt{EXP3-LGC-IX}, is developed for a special class of problems, for which the regret is reduced to $\mathcal{O}(\sqrt{\alpha(G)dT\log{K}\log(KT)})$ for both directed as well as undirected feedback graphs. Numerical tests corroborate the efficiency of proposed algorithms.
翻訳日:2021-05-15 06:17:05 公開日:2021-02-17
# (参考訳) 自己教師付き表現のための情報保存コントラスト学習

Information-Preserving Contrastive Learning for Self-Supervised Representations ( http://arxiv.org/abs/2012.09962v2 )

ライセンス: CC BY 4.0
Tianhong Li, Lijie Fan, Yuan Yuan, Hao He, Yonglong Tian, Dina Katabi(参考訳) 対照的な学習は、監督なしで有用な表現を学ぶのに非常に効果的である。 しかし、対照的な学習には限界がある。 下流タスクとは無関係なショートカットを学習し、関連する情報を破棄する。 過去の研究は、ショートカットをなくすカスタムデータ拡張によって、この制限に対処してきた。 しかし、このソリューションは、例えば、無線信号など、人間が解釈できないデータモダリティでは機能しない。 このようなモダリティに対して、信号にどのショートカットが存在するか、どのように排除できるかを人間が推測することは困難である。 解釈可能なデータであっても、時々ショートカットを削除するのは望ましくない。 ショートカットはダウンストリームタスクとは無関係かもしれないが、他のタスクにとって重要である。 この場合、ショートカット情報と他のダウンストリームタスクに関連する情報の両方をキャプチャする表現を学習することが望ましい。 本稿では,情報保存コントラスト学習(IPCL)について述べる。 実験により,IPCLが学習した表現は,異なるモダリティと複数の下流タスクをサポートする上で,比較学習よりも優れることを示した。

Contrastive learning is very effective at learning useful representations without supervision. Yet contrastive learning has its limitations. It may learn a shortcut that is irrelevant to the downstream task, and discard relevant information. Past work has addressed this limitation via custom data augmentations that eliminate the shortcut. This solution however does not work for data modalities that are not interpretable by humans, e.g., radio signals. For such modalities, it is hard for a human to guess which shortcuts may exist in the signal, or how they can be eliminated. Even for interpretable data, sometimes eliminating the shortcut may be undesirable. The shortcut may be irrelevant to one downstream task but important to another. In this case, it is desirable to learn a representation that captures both the shortcut information and the information relevant to the other downstream task. This paper presents information-preserving contrastive learning (IPCL), a new framework for unsupervised representation learning that preserves relevant information even in the presence of shortcuts. We empirically show that the representations learned by IPCL outperforms contrastive learning in supporting different modalities and multiple diverse downstream tasks.
翻訳日:2021-05-02 09:37:01 公開日:2021-02-17
# (参考訳) CIZSL++: 創造性に触発されたゼロショット学習

CIZSL++: Creativity Inspired Generative Zero-Shot Learning ( http://arxiv.org/abs/2101.00173v2 )

ライセンス: CC BY 4.0
Mohamed Elhoseiny, Kai Yi, Mohamed Elfeki(参考訳) ゼロショット学習(ZSL)は、クラスレベルの記述からトレーニング例のない未確認カテゴリを理解することを目的としている。 zslの識別能力を向上させるために,人間の創造性心理学から着想を得て,目立たないカテゴリの視覚学習プロセスをモデル化し,新しい芸術を創造する。 まず,CIZSL-v1を創造的ZSLモデルとして提案する。 ZSLと人間の創造性は、ZSLが目に見えないものを認識することであり、創造性は目に見えないものを創造することである。 創造性に触発された学習信号を導入し,視覚的特徴世代を視覚的特徴世代から視覚的特徴世代へ慎重に逸脱させながら,見知らぬクラスへの知識伝達を可能にした。 第二に、CIZSL-v2はゼロショット学習のためのCIZSL-v1の改良版として提案されている。 CIZSL-v2は、目に見えないクラスに対する追加の帰納的損失と、セマンティックガイド付き判別器による研究からなる。 CUBおよびNABirdsデータセット上のノイズの多いテキストから一般化ZSLの課題において、CIZSLの損失が生成ZSLモデルを改善することを実証的に示す。 また、AwA2、aPY、SUNデータセット上でのAttributeベースのZSLに対するアプローチの利点を示す。 また,CIZSL-v2はCIZSL-v1と比較して性能が向上した。

Zero-shot learning (ZSL) aims at understanding unseen categories with no training examples from class-level descriptions. To improve the discriminative power of ZSL, we model the visual learning process of unseen categories with inspiration from the psychology of human creativity for producing novel art. First, we propose CIZSL-v1 as a creativity inspired model for generative ZSL. We relate ZSL to human creativity by observing that ZSL is about recognizing the unseen, and creativity is about creating a likable unseen. We introduce a learning signal inspired by creativity literature that explores the unseen space with hallucinated class-descriptions and encourages careful deviation of their visual feature generations from seen classes while allowing knowledge transfer from seen to unseen classes. Second, CIZSL-v2 is proposed as an improved version of CIZSL-v1 for generative zero-shot learning. CIZSL-v2 consists of an investigation of additional inductive losses for unseen classes along with a semantic guided discriminator. Empirically, we show consistently that CIZSL losses can improve generative ZSL models on the challenging task of generalized ZSL from a noisy text on CUB and NABirds datasets. We also show the advantage of our approach to Attribute-based ZSL on AwA2, aPY, and SUN datasets. We also show that CIZSL-v2 has improved performance compared to CIZSL-v1.
翻訳日:2021-04-17 13:05:53 公開日:2021-02-17
# スーパービジョンのない小さな事例から一般政策を学ぶ

Learning General Policies from Small Examples Without Supervision ( http://arxiv.org/abs/2101.00692v2 )

ライセンス: Link先を確認
Guillem Franc\`es, Blai Bonet, Hector Geffner(参考訳) 汎用計画とは、計画ドメインの複数のインスタンスを一度に解決する一般的なポリシーの計算に関するものである。 まず, 定性的数値計画問題 (QNP) の形で適切な抽象化をサンプル計画から学習し, 一般政策はプランナーを用いて学習したQNPから得られる。 本稿では,サンプルプランやqnpプランナーを必要とせず,より表現力のある汎用ポリシーを計算するための代替手法を提案する。 新しい定式化は非常に単純で、機械学習でより標準的な言葉でキャスティングできる: 一般的な文法を用いて、計画例の述語から大きくて有限な特徴のプールが定義され、"良い"と"悪い"状態遷移とゴールを非ゴールから分離するために、機能の小さなサブセットが求められている。 このような「分離面」を「良い」あるいは「悪い」とラベル付けしながら発見する問題は、重み付き最大SAT問題として表される単一の組合せ最適化問題として共同で解決される。 与えられた例(おそらくは最適でない)を解決するような与えられた特徴空間において最も単純なポリシーを探す利点は、多くの領域が最適である一般的でコンパクトなポリシーを持たないことである。 このアプローチは多くのベンチマークドメインに対して一般的なポリシーをもたらす。

Generalized planning is concerned with the computation of general policies that solve multiple instances of a planning domain all at once. It has been recently shown that these policies can be computed in two steps: first, a suitable abstraction in the form of a qualitative numerical planning problem (QNP) is learned from sample plans, then the general policies are obtained from the learned QNP using a planner. In this work, we introduce an alternative approach for computing more expressive general policies which does not require sample plans or a QNP planner. The new formulation is very simple and can be cast in terms that are more standard in machine learning: a large but finite pool of features is defined from the predicates in the planning examples using a general grammar, and a small subset of features is sought for separating "good" from "bad" state transitions, and goals from non-goals. The problems of finding such a "separating surface" while labeling the transitions as "good" or "bad" are jointly addressed as a single combinatorial optimization problem expressed as a Weighted Max-SAT problem. The advantage of looking for the simplest policy in the given feature space that solves the given examples, possibly non-optimally, is that many domains have no general, compact policies that are optimal. The approach yields general policies for a number of benchmark domains.
翻訳日:2021-04-12 11:38:38 公開日:2021-02-17
# clear:回帰タスクのための適応型連続学習フレームワーク

CLeaR: An Adaptive Continual Learning Framework for Regression Tasks ( http://arxiv.org/abs/2101.00926v2 )

ライセンス: Link先を確認
Yujiang He, Bernhard Sick(参考訳) 破滅的な忘れは、トレーニングされたニューラルネットワークモデルが、新しいタスクで再トレーニングされたときに、これまで学んだタスクを徐々に忘れることを意味する。 忘れられる問題を克服することは、機械学習の大きな問題である。 多くの連続学習アルゴリズムは、ラベル付きサンプルが頻繁に現れる分類タスクの漸進的な学習において非常に成功している。 しかし、現在我々が知る限り、回帰タスクにおける破滅的な忘れる問題に対処する研究は存在しない。 この問題は、再生可能エネルギー予測のようないくつかの応用において主要な制約の1つとして浮上している。 本稿では,問題関連定義を明確にし,目標を予測し,継続的な学習によって自らを更新できる新しい方法論フレームワークを提案する。 このフレームワークはニューラルネットワークとバッファを予測し、アプリケーション内の非定常データストリームから新たに収集されたデータを格納する。 フレームワークが特定したデータストリームの確率分布の変化は、順次学習される。 このフレームワークはclear(continual learning for regression tasks)と呼ばれ、特定のアプリケーションシナリオのためにコンポーネントを柔軟にカスタマイズすることができる。 我々は,CLeaRフレームワークの適合誤差(トレーニング),予測誤差(テスト),忘れ率の2つの実験セットを設計した。 1つ目は、超パラメータがCLeaRフレームワークにどのように影響するかを研究するための人工時系列に基づいている。 2つ目は、実際のアプリケーションでCLeaRフレームワークのパフォーマンスを評価するために、ヨーロッパの風力発電所から収集されたデータで設計されている。 実験の結果,CLeaRフレームワークはデータストリームの知識を継続的に取得し,予測精度を向上させることができることがわかった。 この記事は、フレームワークを拡張する要件から生じるさらなる研究課題を締めくくっている。

Catastrophic forgetting means that a trained neural network model gradually forgets the previously learned tasks when being retrained on new tasks. Overcoming the forgetting problem is a major problem in machine learning. Numerous continual learning algorithms are very successful in incremental learning of classification tasks, where new samples with their labels appear frequently. However, there is currently no research that addresses the catastrophic forgetting problem in regression tasks as far as we know. This problem has emerged as one of the primary constraints in some applications, such as renewable energy forecasts. This article clarifies problem-related definitions and proposes a new methodological framework that can forecast targets and update itself by means of continual learning. The framework consists of forecasting neural networks and buffers, which store newly collected data from a non-stationary data stream in an application. The changed probability distribution of the data stream, which the framework has identified, will be learned sequentially. The framework is called CLeaR (Continual Learning for Regression Tasks), where components can be flexibly customized for a specific application scenario. We design two sets of experiments to evaluate the CLeaR framework concerning fitting error (training), prediction error (test), and forgetting ratio. The first one is based on an artificial time series to explore how hyperparameters affect the CLeaR framework. The second one is designed with data collected from European wind farms to evaluate the CLeaR framework's performance in a real-world application. The experimental results demonstrate that the CLeaR framework can continually acquire knowledge in the data stream and improve the prediction accuracy. The article concludes with further research issues arising from requirements to extend the framework.
翻訳日:2021-04-11 22:54:19 公開日:2021-02-17
# エネルギーベースのモデルをトレーニングする方法

How to Train Your Energy-Based Models ( http://arxiv.org/abs/2101.03288v2 )

ライセンス: Link先を確認
Yang Song and Diederik P. Kingma(参考訳) 非正規化確率モデルとしても知られるエネルギーベースモデル(EBMs)は、未知の正規化定数まで確率密度や質量関数を指定する。 他の多くの確率モデルとは異なり、ESMは正規化定数のトラクタビリティに制限を課さないため、パラメータ化がより柔軟であり、確率分布のより表現力のある族をモデル化することができる。 しかし、ESMの未知の正規化定数は特に訓練を困難にしている。 私たちの目標は、ebmトレーニングの現代的なアプローチをフレンドリーに紹介することにあります。 まず,マルコフ連鎖モンテカルロ(MCMC)による最大可能性トレーニングについて解説し,スコアマッチング(SM)やノイズコンストラシティブ推定(NCE)などのMCMCフリーアプローチについて詳しく述べる。 我々は,これら3つのアプローチの理論的関連に注目し,現在も活発に研究されている代替訓練方法に関する簡単な調査を行った。 本チュートリアルは,ESMの適用や研究プロジェクト開始を希望する生成モデルの基本的理解者を対象としている。

Energy-Based Models (EBMs), also known as non-normalized probabilistic models, specify probability density or mass functions up to an unknown normalizing constant. Unlike most other probabilistic models, EBMs do not place a restriction on the tractability of the normalizing constant, thus are more flexible to parameterize and can model a more expressive family of probability distributions. However, the unknown normalizing constant of EBMs makes training particularly difficult. Our goal is to provide a friendly introduction to modern approaches for EBM training. We start by explaining maximum likelihood training with Markov chain Monte Carlo (MCMC), and proceed to elaborate on MCMC-free approaches, including Score Matching (SM) and Noise Constrastive Estimation (NCE). We highlight theoretical connections among these three approaches, and end with a brief survey on alternative training methods, which are still under active research. Our tutorial is targeted at an audience with basic understanding of generative models who want to apply EBMs or start a research project in this direction.
翻訳日:2021-04-09 07:26:54 公開日:2021-02-17
# (参考訳) 臨床的実体の学習と文脈言語モデルと明示的文脈との関係

Jointly Learning Clinical Entities and Relations with Contextual Language Models and Explicit Context ( http://arxiv.org/abs/2102.11031v1 )

ライセンス: CC BY 4.0
Paul Barry, Sam Henry, Meliha Yetisgen, Bridget McInnes, Ozlem Uzuner(参考訳) 我々は,コンテキスト情報の多タスク学習フレームワークへの明示的な統合が,名前付きエンティティ認識 (NER) と関係抽出 (RE) の併用学習における性能向上のための文脈の重要性を強調することを仮定する。 我々の研究は、エンティティを周囲のコンテキストから分割し、それぞれの独立したセグメントを使用してコンテキスト表現を構築することによって、この仮説を証明する。 この関係表現により、NERとREの両方のタスクにおいて、ほぼ最先端(SOTA)のパフォーマンスを達成し、49.07 F1でエンドツーエンドのNER & REでSOTA REシステムに打ち勝つことができる。

We hypothesize that explicit integration of contextual information into an Multi-task Learning framework would emphasize the significance of context for boosting performance in jointly learning Named Entity Recognition (NER) and Relation Extraction (RE). Our work proves this hypothesis by segmenting entities from their surrounding context and by building contextual representations using each independent segment. This relation representation allows for a joint NER/RE system that achieves near state-of-the-art (SOTA) performance on both NER and RE tasks while beating the SOTA RE system at end-to-end NER & RE with a 49.07 F1.
翻訳日:2021-04-06 03:52:37 公開日:2021-02-17
# (参考訳) 異なる音符種別の自動識別性能

Performance of Automatic De-identification Across Different Note Types ( http://arxiv.org/abs/2102.11032v1 )

ライセンス: CC BY 4.0
Nicholas Dobbins, David Wayne, Kahyun Lee, \"Ozlem Uzuner, Meliha Yetisgen(参考訳) フリーテキスト臨床ノートは、患者のケアのあらゆる側面を詳述し、品質改善と保証イニシアチブの促進と、臨床研究の進展を促進する大きな可能性を秘めている。 しかし、患者のプライバシと機密性に関する懸念は、研究のための臨床ノートの使用を制限する。 結果として、これらのノートに記録された情報は、ほとんどの研究者にとって利用できないままである。 脱識別(de-id)、すなわち、個人が特定した保護された健康情報(PHI)の特定と削除は、臨床物語へのアクセスを改善する方法の1つである。 しかし、異なるデータソースと医療専門分野にまたがるphiを一貫して検出できる、市販の非識別システムは限られている。 本稿では,米国ワシントン大学 (UW) が, 外部機関 (Partners Healthcare) と同一機関 (UW) のデータに基づいて, モデルが訓練された場合の, さまざまなノートにNeuroNER1と呼ばれる最先端のde-idシステムの性能を示す。 PHIのレベルとノートのタイプで結果を示す。

Free-text clinical notes detail all aspects of patient care and have great potential to facilitate quality improvement and assurance initiatives as well as advance clinical research. However, concerns about patient privacy and confidentiality limit the use of clinical notes for research. As a result, the information documented in these notes remains unavailable for most researchers. De-identification (de-id), i.e., locating and removing personally identifying protected health information (PHI), is one way of improving access to clinical narratives. However, there are limited off-the-shelf de-identification systems able to consistently detect PHI across different data sources and medical specialties. In this abstract, we present the performance of a state-of-the art de-id system called NeuroNER1 on a diverse set of notes from University of Washington (UW) when the models are trained on data from an external institution (Partners Healthcare) vs. from the same institution (UW). We present results at the level of PHI and note types.
翻訳日:2021-04-06 03:47:03 公開日:2021-02-17
# (参考訳) IFoodCloud:中国の食品安全に関する世論のリアルタイムセンチメント分析プラットフォーム

IFoodCloud: A Platform for Real-time Sentiment Analysis of Public Opinion about Food Safety in China ( http://arxiv.org/abs/2102.11033v1 )

ライセンス: CC BY 4.0
Dachuan Zhang, Haoyang Zhang, Zhisheng Wei, Yan Li, Zhiheng Mao, Chunmeng He, Haorui Ma, Xin Zeng, Xiaoling Xie, Xingran Kou and Bingwen Zhang(参考訳) インターネットには、食品汚染、食品病、農業汚染、不規則な食品の流通、食品生産の問題など、食品の安全性に関する多くの世論が含まれている。 食品安全に関する世論を体系的に収集し分析するために,中国における食品安全に関する世論のリアルタイム感情分析プラットフォームであるifoodcloudを開発した。 食品安全事件の世論の傾向、世論の感情、地域的関心の相違を調査するのに使用できる3100以上の公的情報源からデータを収集する。 同時に、IFoodCloudと統合された複数の辞書ベースおよびディープラーニングベースのアルゴリズムを用いた感情分類モデルを構築し、特定の食品安全インシデントに対する大衆の感情を理解する前例のない素早い手段を提供した。 ベストモデルのF1スコアは0.9737。 さらに,実例を3つ提示して,適用性と堅牢性を示す。 ifoodcloudは、食品安全監督とリスクコミュニケーションのサイエンタイズを促進する貴重なツールと考えられる。

The Internet contains a wealth of public opinion on food safety, including views on food adulteration, food-borne diseases, agricultural pollution, irregular food distribution, and food production issues. In order to systematically collect and analyse public opinion on food safety, we developed IFoodCloud, a platform for the real-time sentiment analysis of public opinion on food safety in China. It collects data from more than 3,100 public sources that can be used to explore public opinion trends, public sentiment, and regional attention differences of food safety incidents. At the same time, we constructed a sentiment classification model using multiple lexicon-based and deep learning-based algorithms integrated with IFoodCloud that provide an unprecedented rapid means of understanding the public sentiment toward specific food safety incidents. Our best model's F1-score achieved 0.9737. Further, three real-world cases are presented to demonstrate the application and robustness. IFoodCloud could be considered a valuable tool for promote scientisation of food safety supervision and risk communication.
翻訳日:2021-04-06 03:44:10 公開日:2021-02-17
# Pairwise Markov Chainsを用いた高速テキストセグメンテーション

Highly Fast Text Segmentation With Pairwise Markov Chains ( http://arxiv.org/abs/2102.11037v1 )

ライセンス: Link先を確認
Elie Azeraf, Emmanuel Monfrini, Emmanuel Vignon, Wojciech Pieczynski(参考訳) 自然言語処理(NLP)モデルの現在のトレンドは、可能な限り最高のモデルを構築するために、より多くのデータを使用しています。 これは、より高価な計算コストとトレーニング時間、展開の困難、そしてこれらのモデルの炭素フットプリントに対する懸念が将来重要な問題であることを示している。 この傾向に対して、我々の目標は、余分なデータを必要としないNLPモデルを開発し、トレーニング時間を最小化することです。 そこで本稿では,NLPセグメンテーションタスクのためのマルコフ連鎖モデルであるHidden Markov Chain(HMC)とPairwise Markov Chain(PMC)について検討する。 これらのモデルをPOSタグ、名前付きエンティティ認識、チャンキングの3つの古典的アプリケーションに適用する。 テキストセグメンテーションの特定の課題にこれらのモデルを適応させる独自の手法を開発し、非常に短いトレーニングと実行時間で関連するパフォーマンスを得る。 PMCは、条件付きランダムフィールド(CRF)によって得られたものと同等の結果を得る。 さらに, PMC のトレーニング時間は CRF の30倍も短く, 本モデルの有効性を検証した。

Natural Language Processing (NLP) models' current trend consists of using increasingly more extra-data to build the best models as possible. It implies more expensive computational costs and training time, difficulties for deployment, and worries about these models' carbon footprint reveal a critical problem in the future. Against this trend, our goal is to develop NLP models requiring no extra-data and minimizing training time. To do so, in this paper, we explore Markov chain models, Hidden Markov Chain (HMC) and Pairwise Markov Chain (PMC), for NLP segmentation tasks. We apply these models for three classic applications: POS Tagging, Named-Entity-Recognition, and Chunking. We develop an original method to adapt these models for text segmentation's specific challenges to obtain relevant performances with very short training and execution times. PMC achieves equivalent results to those obtained by Conditional Random Fields (CRF), one of the most applied models for these tasks when no extra-data are used. Moreover, PMC has training times 30 times shorter than the CRF ones, which validates this model given our objectives.
翻訳日:2021-04-05 00:42:22 公開日:2021-02-17
# Hidden Neural Markov Chainフレームワークの紹介

Introducing the Hidden Neural Markov Chain framework ( http://arxiv.org/abs/2102.11038v1 )

ライセンス: Link先を確認
Elie Azeraf, Emmanuel Monfrini, Emmanuel Vignon, Wojciech Pieczynski(参考訳) 今日では、ニューラルネットワークモデルはコンピュータビジョンや音声処理など、多くの分野で最先端の結果を達成する。 特に自然言語処理(NLP)タスク、リカレントニューラルネットワーク(RNN)とその拡張のために、Long Short Term Memory(LSTM)ネットワークとGated Recurrent Unit(GRU)が最もよく使われているモデルであり、「長期」シーケンス処理を備えている。 しかしながら、多くの研究がRNNの拡張と改善を作成している場合、ニューラルネットワークによるシーケンシャルなデータ処理を“長期的”な方法で開発することに重点を置いているものはほとんどない。 本稿では,ニューラルモデルの新しいファミリーであるHNMC(Hidden Neural Markov Chain)フレームワークを提案する。 それらはRNNではなく、確率的グラフィカルモデルであるHidden Markov Model (HMM)に基づいている。 この神経拡張は、最近のHMM復元のためのエントロピックフォワードバックワードアルゴリズムのおかげで可能である。 我々は,古典的HNMC,HNMC2,HNMC-CNの3つのモデルを提案する。 モデル全体の構成を説明した後、Chunking、Part-Of-Speech Tagging、Named Entity Recognitionといったシーケンスラベリングタスクの古典的なRNNとBidirectional RNN(BiRNN)モデルと比較した。 どの実験でも、アーキテクチャや組み込みメソッドが何であれ、提案するモデルの1つが最良の結果を得ます。 これはこの新しいニューラルネットワークシーケンシャルフレームワークの可能性を示し、新しいモデルへの道を開くことができ、最終的には一般的なBiLSTMやBiGRUと競合する可能性がある。

Nowadays, neural network models achieve state-of-the-art results in many areas as computer vision or speech processing. For sequential data, especially for Natural Language Processing (NLP) tasks, Recurrent Neural Networks (RNNs) and their extensions, the Long Short Term Memory (LSTM) network and the Gated Recurrent Unit (GRU), are among the most used models, having a "term-to-term" sequence processing. However, if many works create extensions and improvements of the RNN, few have focused on developing other ways for sequential data processing with neural networks in a "term-to-term" way. This paper proposes the original Hidden Neural Markov Chain (HNMC) framework, a new family of sequential neural models. They are not based on the RNN but on the Hidden Markov Model (HMM), a probabilistic graphical model. This neural extension is possible thanks to the recent Entropic Forward-Backward algorithm for HMM restoration. We propose three different models: the classic HNMC, the HNMC2, and the HNMC-CN. After describing our models' whole construction, we compare them with classic RNN and Bidirectional RNN (BiRNN) models for some sequence labeling tasks: Chunking, Part-Of-Speech Tagging, and Named Entity Recognition. For every experiment, whatever the architecture or the embedding method used, one of our proposed models has the best results. It shows this new neural sequential framework's potential, which can open the way to new models, and might eventually compete with the prevalent BiLSTM and BiGRU.
翻訳日:2021-04-05 00:42:03 公開日:2021-02-17
# 線形時間における木の最小射影線型化

Minimum projective linearizations of trees in linear time ( http://arxiv.org/abs/2102.03277v2 )

ライセンス: Link先を確認
Llu\'is Alemany-Puig, Juan Luis Esteban, Ramon Ferrer-i-Cancho(参考訳) 最小線形配置問題(MLA)は、グラフの頂点から整数への写像 $\pi$ を求め、$\sum_{uv\in E}|\pi(u) - \pi(v)|$ を最小化する。 木の場合、多項式時間で問題を解くための様々なアルゴリズムが利用可能であり、最もよく知られた実行時間は$n=|V|$である。 MLA の変種には、アレンジメントがある種の射影性のクラスに制約されるものがある。 Iordanskii と後に Hochberg と Stallmann (HS) が提案した$O(n)$-time アルゴリズムは、アレンジが平面であるように制約されたときに問題を解決する。 また、射影に制約のあるルート木の線形配置についても検討する。 Gildea と Temperley (GT) は、プロジェクティビティ制約のアルゴリズムをスケッチした。 対照的に、パークとレヴィは、gt のアルゴリズムは $o(n \log d_{max})$ で実行され、ここで $d_{max}$ は最大次数であるが十分な詳細は示されていないと主張した。 ここでは、平面ケースに対するHSのアルゴリズムの誤差を補正し、射影ケースとの関係を示し、$O(n)$-timeで必然的に実行される射影ケースに対するアルゴリズムを導出する。

The minimum linear arrangement problem (MLA) consists of finding a mapping $\pi$ from vertices of a graph to integers that minimizes $\sum_{uv\in E}|\pi(u) - \pi(v)|$. For trees, various algorithms are available to solve the problem in polynomial time; the best known runs in subquadratic time in $n=|V|$. There exist variants of the MLA in which the arrangements are constrained to certain classes of projectivity. Iordanskii, and later Hochberg and Stallmann (HS), put forward $O(n)$-time algorithms that solve the problem when arrangements are constrained to be planar. We also consider linear arrangements of rooted trees that are constrained to be projective. Gildea and Temperley (GT) sketched an algorithm for the projectivity constraint which, as they claimed, runs in $O(n)$ but did not provide any justification of its cost. In contrast, Park and Levy claimed that GT's algorithm runs in $O(n \log d_{max})$ where $d_{max}$ is the maximum degree but did not provide sufficient detail. Here we correct an error in HS's algorithm for the planar case, show its relationship with the projective case, and derive an algorithm for the projective case that runs undoubtlessly in $O(n)$-time.
翻訳日:2021-04-05 00:31:18 公開日:2021-02-17
# 双曲型ディープニューラルネットワーク:調査

Hyperbolic Deep Neural Networks: A Survey ( http://arxiv.org/abs/2101.04562v3 )

ライセンス: Link先を確認
Wei Peng, Tuomas Varanka, Abdelrahman Mostafa, Henglin Shi, Guoying Zhao(参考訳) 近年,知識グラフや同義語階層などのデータモデリング能力が高く,階層構造を持つため,双曲空間における深層表現学習の勢いが高まっている。 本稿では,このモデルを双曲型深層ニューラルネットワークと呼ぶ。 このような双曲型ニューラルアーキテクチャは、ユークリッド空間のそれと同等の物理的解釈可能性を持つ劇的にコンパクトなモデルをもたらす可能性がある。 本稿では,双曲型ディープ・ニューラルネット構築における神経成分に関する文献と,双曲型ディープ・ニューラルネット構築における主要なディープ・アプローチの一般化を包括的かつ包括的に検討する。 また、いくつかの公開データセット上でのさまざまな機械学習タスクに関する現在のアプリケーションや、洞察に富んだ観察、オープンクエストの特定、将来有望な方向性も提示する。

Recently, there has been a rising surge of momentum for deep representation learning in hyperbolic spaces due to theirhigh capacity of modeling data like knowledge graphs or synonym hierarchies, possessing hierarchical structure. We refer to the model as hyperbolic deep neural network in this paper. Such a hyperbolic neural architecture potentially leads to drastically compact model withmuch more physical interpretability than its counterpart in Euclidean space. To stimulate future research, this paper presents acoherent and comprehensive review of the literature around the neural components in the construction of hyperbolic deep neuralnetworks, as well as the generalization of the leading deep approaches to the Hyperbolic space. It also presents current applicationsaround various machine learning tasks on several publicly available datasets, together with insightful observations and identifying openquestions and promising future directions.
翻訳日:2021-04-04 01:50:51 公開日:2021-02-17
# Intact-VAE:未観察埋没時の治療効果の推定

Intact-VAE: Estimating Treatment Effects under Unobserved Confounding ( http://arxiv.org/abs/2101.06662v2 )

ライセンス: Link先を確認
Pengzhou Wu and Kenji Fukumizu(参考訳) 因果推論の重要な問題として,治療効果の同定と推定について検討した。 共同創設者を潜在変数として表現し,治療効果の同定に十分な予後スコアに動機づけられた変異型オートエンコーダ(vae)の新たな変種であるalt-vaeを提案する。 理論的には、ある条件下では、治療効果はモデルによって同定され、さらに、我々のモデル(表現の決定性)の識別性に基づいて、我々のvaeは治療群に対してバランスの取れた一貫した推定子であることが示されている。 半)合成データセットの実験は、様々な設定で最先端のパフォーマンスを示す。

As an important problem of causal inference, we discuss the identification and estimation of treatment effects under unobserved confounding. Representing the confounder as a latent variable, we propose Intact-VAE, a new variant of variational autoencoder (VAE), motivated by the prognostic score that is sufficient for identifying treatment effects. We theoretically show that, under certain settings, treatment effects are identified by our model, and further, based on the identifiability of our model (i.e., determinacy of representation), our VAE is a consistent estimator with representation balanced for treatment groups. Experiments on (semi-)synthetic datasets show state-of-the-art performance under diverse settings.
翻訳日:2021-03-27 20:19:59 公開日:2021-02-17
# (参考訳) ジョイントエンティティと関係抽出のためのトリガー・センスメモリフローフレームワーク

A Trigger-Sense Memory Flow Framework for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2101.10213v2 )

ライセンス: CC BY 4.0
Yongliang Shen, Xinyin Ma, Yechun Tang, Weiming Lu(参考訳) 統合エンティティと関係抽出フレームワークは、エンティティ認識と関係抽出を同時に行う統一モデルを構築し、これら2つのタスク間の依存関係を利用してパイプラインモデルが抱えるエラー伝搬問題を緩和する。 共同エンティティと関係抽出に関する現在の取り組みは、パラメータ共有、共同復号化、その他のアドホックなトリック(例えば、半マルコフ決定プロセスとしてモデル化され、マルチラウンド読解タスクとしてキャストされる)を通じて、エンティティ認識と関係抽出の相互作用を強化することに焦点を当てている。 しかし、テーブル上にはまだ2つの問題があります。 第一に、ほとんどのメソッドが利用する相互作用は、まだ弱く一方向であり、2つのタスク間の相互依存性をモデル化できない。 第二に、関係トリガーはほとんどの方法によって無視され、人間が文内の関係を抽出する理由を説明するのに役立つ。 関係抽出には不可欠ですが 見過ごされています そこで本研究では,結合エンティティと関係抽出のためのトリガー・センスメモリフローフレームワーク(trimf)を提案する。 エンティティ認識と関係抽出タスクで学習したカテゴリ表現を記憶するためのメモリモジュールを構築する。 そこで我々は,エンティティ認識と関係抽出の双方向相互作用を強化するため,マルチレベルメモリフローアテンション機構を設計する。 さらに,人間のアノテーションを使わずに,トリガセンサモジュールを通じて文中の関係性トリガ情報を高めることで,モデル性能の向上とより優れた解釈によるモデル予測を実現する。 実験の結果,SciERCではF1から52.44%(+3.2%),ACE05では66.49%(+4.9%),CoNLL04では72.35%(+0.6%),ADEでは80.66%(+2.3%)であった。

Joint entity and relation extraction framework constructs a unified model to perform entity recognition and relation extraction simultaneously, which can exploit the dependency between the two tasks to mitigate the error propagation problem suffered by the pipeline model. Current efforts on joint entity and relation extraction focus on enhancing the interaction between entity recognition and relation extraction through parameter sharing, joint decoding, or other ad-hoc tricks (e.g., modeled as a semi-Markov decision process, cast as a multi-round reading comprehension task). However, there are still two issues on the table. First, the interaction utilized by most methods is still weak and uni-directional, which is unable to model the mutual dependency between the two tasks. Second, relation triggers are ignored by most methods, which can help explain why humans would extract a relation in the sentence. They're essential for relation extraction but overlooked. To this end, we present a Trigger-Sense Memory Flow Framework (TriMF) for joint entity and relation extraction. We build a memory module to remember category representations learned in entity recognition and relation extraction tasks. And based on it, we design a multi-level memory flow attention mechanism to enhance the bi-directional interaction between entity recognition and relation extraction. Moreover, without any human annotations, our model can enhance relation trigger information in a sentence through a trigger sensor module, which improves the model performance and makes model predictions with better interpretation. Experiment results show that our proposed framework achieves state-of-the-art results by improves the relation F1 to 52.44% (+3.2%) on SciERC, 66.49% (+4.9%) on ACE05, 72.35% (+0.6%) on CoNLL04 and 80.66% (+2.3%) on ADE.
翻訳日:2021-03-15 03:30:36 公開日:2021-02-17
# エンドツーエンドの音声認識モデルはコンテキストを気にするだろうか?

Do End-to-End Speech Recognition Models Care About Context? ( http://arxiv.org/abs/2102.09928v1 )

ライセンス: Link先を確認
Lasse Borgholt, Jakob Drachmann Havtorn, \v{Z}eljko Agi\'c, Anders S{\o}gaard, Lars Maal{\o}e, Christian Igel(参考訳) エンドツーエンド音声認識の最も一般的なパラダイムは、コネクショニスト時間分類(CTC)とアテンションベースのエンコーダデコーダ(AED)モデルである。 後者は暗黙の言語モデルを学ぶのに適していると論じられている。 この仮説を時間的コンテキスト感度の測定によって検証し、オーディオ入力におけるコンテキスト情報の量を制限する際にモデルがどのように機能するかを評価します。 AEDモデルの方がコンテキストに敏感であることは明らかだが,CTCモデルに自己注意を加えることで,そのギャップを埋めることができる。 さらに、文脈情報が制約された場合にも同様に2つのモデルが機能する。 最後に, 従来の研究とは対照的に, CTCモデルは外部言語モデルの助けなしに, WSJ や LibriSpeech に対して高い競争力を持つことを示す。

The two most common paradigms for end-to-end speech recognition are connectionist temporal classification (CTC) and attention-based encoder-decoder (AED) models. It has been argued that the latter is better suited for learning an implicit language model. We test this hypothesis by measuring temporal context sensitivity and evaluate how the models perform when we constrain the amount of contextual information in the audio input. We find that the AED model is indeed more context sensitive, but that the gap can be closed by adding self-attention to the CTC model. Furthermore, the two models perform similarly when contextual information is constrained. Finally, in contrast to previous research, our results show that the CTC model is highly competitive on WSJ and LibriSpeech without the help of an external language model.
翻訳日:2021-02-22 13:33:26 公開日:2021-02-17
# (参考訳) マルチモーダル自然言語処理のための脳波脳活動のデコード

Decoding EEG Brain Activity for Multi-Modal Natural Language Processing ( http://arxiv.org/abs/2102.08655v1 )

ライセンス: CC BY 4.0
Nora Hollenstein, Cedric Renggli, Benjamin Glaus, Maria Barrett, Marius Troendle, Nicolas Langer, Ce Zhang(参考訳) 最近まで、読書からの人間の行動データは、主に人間の認知を理解する研究者にとって関心のあるものだった。 しかし、これらの人間の言語処理信号は、機械学習に基づく自然言語処理タスクにも有用である。 この目的のために脳波の脳活動を使用することは、まだほとんど未解明です。 本稿では,脳波脳活動データによる自然言語処理タスク改善の可能性を体系的に解析する最初の大規模研究を行い,信号の特徴が最も有益であることを示す。 テキスト入力とEEG機能から共同で学習するマルチモーダル機械学習アーキテクチャを提案する。 脳波信号を周波数帯域にフィルタリングすることはブロードバンド信号よりも有益であることがわかった。 さらに、さまざまな単語埋め込みタイプでは、EEGデータは二項および三項の感情分類を改善し、複数のベースラインを上回ります。 関係検出などの複雑なタスクには、さらなる研究が必要である。 最後に、EEGデータは、限られたトレーニングデータが利用できる場合に特に有望であることを示している。

Until recently, human behavioral data from reading has mainly been of interest to researchers to understand human cognition. However, these human language processing signals can also be beneficial in machine learning-based natural language processing tasks. Using EEG brain activity to this purpose is largely unexplored as of yet. In this paper, we present the first large-scale study of systematically analyzing the potential of EEG brain activity data for improving natural language processing tasks, with a special focus on which features of the signal are most beneficial. We present a multi-modal machine learning architecture that learns jointly from textual input as well as from EEG features. We find that filtering the EEG signals into frequency bands is more beneficial than using the broadband signal. Moreover, for a range of word embedding types, EEG data improves binary and ternary sentiment classification and outperforms multiple baselines. For more complex tasks such as relation detection, further research is needed. Finally, EEG data shows to be particularly promising when limited training data is available.
翻訳日:2021-02-21 12:59:46 公開日:2021-02-17
# (参考訳) コンセプト12M: Webスケールの画像テキストプリトレーニングをプッシュして、ロングテールのビジュアルコンセプトを認識する

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts ( http://arxiv.org/abs/2102.08981v1 )

ライセンス: CC BY 4.0
Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut(参考訳) 大規模画像キャプションと視覚的質問応答データセットの可用性は、視覚と言語による事前学習の成功に大きく貢献している。 しかし、これらのデータセットはしばしば、元のターゲットタスク(例えば、イメージキャプション生成)から継承される制限的な要件で収集され、結果として生じるデータセットのスケールと多様性が制限される。 我々は,概念キャプション3M (CC3M) [Sharma et al.]で使用されるデータ収集パイプラインを緩和することにより,視覚と言語による事前学習データの限界を推し進める。 概念的12M(Conceptual 12M, CC12M)は、画像とテキストのペアが1200万あり、視覚と言語の事前学習に使用される。 このデータセットを解析し、複数の下流タスクにおけるCC3Mに対する有効性を、長い尾の視覚的認識に重点を置いて評価する。 定量的および定性的な結果は、nocapsとConceptual Captionsベンチマークの両方で最新の結果が示すように、ビジョンおよび言語タスクの事前トレーニングデータをスケールアップするメリットを明確に示しています。

The availability of large-scale image captioning and visual question answering datasets has contributed significantly to recent successes in vision-and-language pre-training. However, these datasets are often collected with overrestrictive requirements, inherited from their original target tasks (e.g., image caption generation), which limit the resulting dataset scale and diversity. We take a step further in pushing the limits of vision-and-language pre-training data by relaxing the data collection pipeline used in Conceptual Captions 3M (CC3M) [Sharma et al. 2018] and introduce the Conceptual 12M (CC12M), a dataset with 12 million image-text pairs specifically meant to be used for vision-and-language pre-training. We perform an analysis of this dataset, as well as benchmark its effectiveness against CC3M on multiple downstream tasks with an emphasis on long-tail visual recognition. The quantitative and qualitative results clearly illustrate the benefit of scaling up pre-training data for vision-and-language tasks, as indicated by the new state-of-the-art results on both the nocaps and Conceptual Captions benchmarks.
翻訳日:2021-02-20 05:55:14 公開日:2021-02-17
# (参考訳) 衛星画像とステーションベース土壌パラメータを用いたイチゴ収量・価格予測のための深層学習手法

Deep Learning Approaches for Forecasting Strawberry Yields and Prices Using Satellite Images and Station-Based Soil Parameters ( http://arxiv.org/abs/2102.09024v1 )

ライセンス: CC BY 4.0
Mohita Chaudhary, Mohamed Sadok Gastli, Lobna Nassar, Fakhri Karray(参考訳) 新鮮な農産物の収量と価格を予測する計算ツールは、伝統的な機械学習アプローチや時系列モデリングに基づいている。 本稿では,カリフォルニア州サンタバーバラ郡のイチゴ収量と価格を予測するためのディープラーニングアルゴリズムに基づく代替手法を提案する。 提案した予測モデルの構築には,まず,その複合深層学習成分を用いた局面型アンサンブルモデル(ATT-CNN-LSTM-SeriesNet_Ens)と,その入力としてサンタバーバラの局面型土壌温度および湿度データを用いて学習し,出力として対応するイチゴ収量または価格を用いた畳み込みニューラルネットワークLSTM(Att-CNN-LSTM)の3段階からなる。 第二に、Convolutional NeuralNetwork LSTM(CNN-LSTM)モデルのアンサンブルモデルであるリモートセンシングアンサンブルモデル(SIM_CNN-LSTM_Ens)は、出力と同じ歩留まりと価格にマップされた入力と同じ郡の衛星画像を使用して訓練およびテストされます。 これら2つのアンサンブルは、イチゴの収量や価格を予測し、予測誤差を最小限に抑え、モデル相関の最高値を5週間先延ばしして予測し、最後に、投票アンサンブルを導入することで、利回りと価格の最終的な予測値を得る。 集計されたパフォーマンス測定(AGM)に基づいて、この投票アンサンブルは、最高のパフォーマンスコンポーネントモデルと比較して予測性能を5%向上させるだけでなく、文献で見つかったディープラーニング(DL)アンサンブルモデルよりも33%高く、予測利回りは21%高いことが判明しました。

Computational tools for forecasting yields and prices for fresh produce have been based on traditional machine learning approaches or time series modelling. We propose here an alternate approach based on deep learning algorithms for forecasting strawberry yields and prices in Santa Barbara county, California. Building the proposed forecasting model comprises three stages: first, the station-based ensemble model (ATT-CNN-LSTM-SeriesNet_Ens) with its compound deep learning components, SeriesNet with Gated Recurrent Unit (GRU) and Convolutional Neural Network LSTM with Attention layer (Att-CNN-LSTM), are trained and tested using the station-based soil temperature and moisture data of SantaBarbara as input and the corresponding strawberry yields or prices as output. Secondly, the remote sensing ensemble model (SIM_CNN-LSTM_Ens), which is an ensemble model of Convolutional NeuralNetwork LSTM (CNN-LSTM) models, is trained and tested using satellite images of the same county as input mapped to the same yields and prices as output. These two ensembles forecast strawberry yields and prices with minimal forecasting errors and highest model correlation for five weeks ahead forecasts.Finally, the forecasts of these two models are ensembled to have a final forecasted value for yields and prices by introducing a voting ensemble. Based on an aggregated performance measure (AGM), it is found that this voting ensemble not only enhances the forecasting performance by 5% compared to its best performing component model but also outperforms the Deep Learning (DL) ensemble model found in literature by 33% for forecasting yields and 21% for forecasting prices
翻訳日:2021-02-20 05:25:38 公開日:2021-02-17
# (参考訳) BORE:密度比推定によるベイズ最適化

BORE: Bayesian Optimization by Density-Ratio Estimation ( http://arxiv.org/abs/2102.09009v1 )

ライセンス: CC BY 4.0
Louis C. Tiao, Aaron Klein, Matthias Seeger, Edwin V. Bonilla, Cedric Archambeau, Fabio Ramos(参考訳) ベイズ最適化(BO)は最も効果的で広く使われているブラックボックス最適化手法の一つである。 BOは、獲得関数にエンコードされた探索・探索トレードオフ基準に従ってソリューションを提案し、その多くは確率的代理モデルの後方予測から計算される。 主なものは、期待される改善(EI)機能である。 予測の分析的扱いやすさを確保する必要性は、しばしばboの効率と適用性を阻害する限界をもたらす。 本稿では,クラス確率推定と密度比推定の関係と,密度比とEIとのあまり知られていない関係を基盤として,EIの計算を二元分類問題として投げかける。 トラクタビリティの制約を回避することによって、この改革は表現力、汎用性、スケーラビリティの点で、特に多くの利点を提供します。

Bayesian optimization (BO) is among the most effective and widely-used blackbox optimization methods. BO proposes solutions according to an explore-exploit trade-off criterion encoded in an acquisition function, many of which are computed from the posterior predictive of a probabilistic surrogate model. Prevalent among these is the expected improvement (EI) function. The need to ensure analytical tractability of the predictive often poses limitations that can hinder the efficiency and applicability of BO. In this paper, we cast the computation of EI as a binary classification problem, building on the link between class-probability estimation and density-ratio estimation, and the lesser-known link between density-ratios and EI. By circumventing the tractability constraints, this reformulation provides numerous advantages, not least in terms of expressiveness, versatility, and scalability.
翻訳日:2021-02-20 04:11:18 公開日:2021-02-17
# (参考訳) Differential Private Hogwild! 分散ローカルデータセットを乗り越える

Differential Private Hogwild! over Distributed Local Data Sets ( http://arxiv.org/abs/2102.09030v1 )

ライセンス: CC BY 4.0
Marten van Dijk, Nhuong V. Nguyen, Toan N. Nguyen, Lam M. Nguyen and Phuong Ha Nguyen(参考訳) 私たちはHogwildを検討します! クライアントがガウシアンベースの差分プライバシー(DP)を使用してローカルSGDイテレーションを使用する設定は、(1)グローバルモデル(ローカルSGD更新をグローバルモデルに集約する集中型サーバーと一丸となって対話することによって)に共同で収束し、(2)各ローカルデータセットを外部世界(クライアントとサーバーのインタラクションを監視できる他のすべてのクライアントを含む)に対して差分プライベートに保つことを目的としています。 局所データセットが$(\epsilon,\delta)$-dp であるようなサンプルサイズシーケンスの広いクラス(各ラウンドの局所 sgd イテレーションの数を定義する)に対して、中央サーバとのラウンドインタラクション毎に付加されたガウスノイズの標準偏差 $\sigma$ が少なくとも $\sqrt{2(\epsilon+ \ln(1/\delta))/\epsilon}$ であることを示す。

We consider the Hogwild! setting where clients use local SGD iterations with Gaussian based Differential Privacy (DP) for their own local data sets with the aim of (1) jointly converging to a global model (by interacting at a round to round basis with a centralized server that aggregates local SGD updates into a global model) while (2) keeping each local data set differentially private with respect to the outside world (this includes all other clients who can monitor client-server interactions). We show for a broad class of sample size sequences (this defines the number of local SGD iterations for each round) that a local data set is $(\epsilon,\delta)$-DP if the standard deviation $\sigma$ of the added Gaussian noise per round interaction with the centralized server is at least $\sqrt{2(\epsilon+ \ln(1/\delta))/\epsilon}$.
翻訳日:2021-02-20 01:34:08 公開日:2021-02-17
# (参考訳) 推定・サンプリングのための深度極値コプラー

Deep Extreme Value Copulas for Estimation and Sampling ( http://arxiv.org/abs/2102.09042v1 )

ライセンス: CC BY 4.0
Ali Hasan, Khalil Elkhalil, Joao M. Pereira, Sina Farsiu, Jose H. Blanchet, Vahid Tarokh(参考訳) 本稿では,高次元極値分布の分布関数をモデル化する新しい手法を提案する。 ピカンズ依存関数は尾の共変量間の関係をモデル化し、その必要特性を満たすように設計されたニューラルネットワークを用いてこの関数を学習する。 さらに,極端分布のスペクトル表現を復元する新しい手法を提案し,極端コプラからのサンプリングのための生成モデルを提案する。 提案手法の有効性と将来性を示す数値的な例を示す。

We propose a new method for modeling the distribution function of high dimensional extreme value distributions. The Pickands dependence function models the relationship between the covariates in the tails, and we learn this function using a neural network that is designed to satisfy its required properties. Moreover, we present new methods for recovering the spectral representation of extreme distributions and propose a generative model for sampling from extreme copulas. Numerical examples are provided demonstrating the efficacy and promise of our proposed methods.
翻訳日:2021-02-20 01:04:08 公開日:2021-02-17
# (参考訳) Contrast-Aware Generative Adversarial Networks を用いた高機能磁気共鳴画像合成

Enhanced Magnetic Resonance Image Synthesis with Contrast-Aware Generative Adversarial Networks ( http://arxiv.org/abs/2102.09386v1 )

ライセンス: CC BY 4.0
Jonas Denck, Jens Guehring, Andreas Maier, Eva Rothgang(参考訳) 磁気共鳴イメージング(MRI)試験は通常、信頼性の高い診断に必要な複数のMRパルスシーケンスの取得で構成されています。 各シーケンスはmr画像のコントラスト、信号対雑音比、解像度、スキャン時間に影響する複数の取得パラメータを通じてパラメータ化することができる。 生成的ディープラーニングモデルの台頭に伴い、MR画像合成のためのアプローチが開発され、追加のMRコントラストを合成したり、合成データを生成したり、AIトレーニングのための既存のデータを拡張することができる。 しかし, MR画像合成における現在の生成的アプローチは, 特定の取得パラメータ値のセットを持つ画像に対してのみ訓練されており, 様々な取得パラメータ設定のセットとして, それらの手法の臨床的価値を制限している。 そこで我々はGAN(Generative Adversarial Network)を訓練し,様々な獲得パラメータ(反復時間,エコー時間,画像方向)に基づいて合成MR膝画像を生成する。 このアプローチにより、調整可能な画像コントラストでMR画像を合成できます。 ビジュアルチューリングテストでは、2人の専門家が実際のMR画像と合成画像の40.5%を誤ってラベル付けし、生成された合成画像と実際のMR画像の画質が同等であることを示した。 この研究は、得られたMRコントラストをプレビューすることで、MRシーケンスのパラメータ化の間、放射線学者や技術者を支援することができ、放射線学トレーニングの貴重なツールとなり、AIトレーニングをサポートするためにカスタマイズされたデータ生成に使用できる。

A Magnetic Resonance Imaging (MRI) exam typically consists of the acquisition of multiple MR pulse sequences, which are required for a reliable diagnosis. Each sequence can be parameterized through multiple acquisition parameters affecting MR image contrast, signal-to-noise ratio, resolution, or scan time. With the rise of generative deep learning models, approaches for the synthesis of MR images are developed to either synthesize additional MR contrasts, generate synthetic data, or augment existing data for AI training. However, current generative approaches for the synthesis of MR images are only trained on images with a specific set of acquisition parameter values, limiting the clinical value of these methods as various sets of acquisition parameter settings are used in clinical practice. Therefore, we trained a generative adversarial network (GAN) to generate synthetic MR knee images conditioned on various acquisition parameters (repetition time, echo time, image orientation). This approach enables us to synthesize MR images with adjustable image contrast. In a visual Turing test, two experts mislabeled 40.5% of real and synthetic MR images, demonstrating that the image quality of the generated synthetic and real MR images is comparable. This work can support radiologists and technologists during the parameterization of MR sequences by previewing the yielded MR contrast, can serve as a valuable tool for radiology training, and can be used for customized data generation to support AI training.
翻訳日:2021-02-19 23:48:13 公開日:2021-02-17
# (参考訳) 動きに基づく視覚物体認識のためのグリッドセルパス統合

Grid Cell Path Integration For Movement-Based Visual Object Recognition ( http://arxiv.org/abs/2102.09076v1 )

ライセンス: CC BY 4.0
Niels Leadholm (1 and 2), Marcus Lewis (1), Subutai Ahmad (1) ((1) Numenta, (2) The University of Oxford)(参考訳) 格子細胞は、脳が世界の物理空間をモデル化し、経路統合を通して効果的にナビゲートし、自己移動の情報を用いて自己位置を更新することを可能にする。 最近の提案では、脳は視覚を含む多様な感覚のモードにおける物体の構造を理解するのに同様のメカニズムを使用することが示唆されている。 マシンビジョンでは、サケードなどの画像の知覚サンプルのシーケンスを与えられたオブジェクト認識は、シーケンスが一貫性のある固定されたパターンに従わない場合の困難な問題です。 我々は、任意の入力列が与えられたオブジェクトの信頼性認識を支援するために、格子セルによる皮質ネットワークへの経路統合について検討する。 我々のネットワーク(GridCellNet)は、グリッドセル計算を用いて視覚情報を統合し、動きに基づいて予測を行う。 ローカルなHebbian可塑性ルールを使用して、いくつかの例(ショットラーニング)から迅速に学習し、画像機能パッチのシーケンスだけを与えられたMNIST桁を認識するタスクを検討します。 我々はGridCellNetとk-Nearest Neighbour(k-NN)分類器、およびリカレントニューラルネットワーク(RNN)を比較した。 我々はGridCellNetが確実に分類を行い、未確認例と全く新しいシーケンストラジェクトリの両方に一般化できることを示す。 さらに,入力空間のごく一部をサンプリングして推論が成功し,わずかな動きで画像の残りの部分を予測可能なグリッドセルネットで再構築できることを示した。 アクティブセンサを用いた動的移動エージェントは,ナビゲーションだけでなく,視覚物体の効率的な認識や特徴予測にもグリッドセル表現を利用することができる。

Grid cells enable the brain to model the physical space of the world and navigate effectively via path integration, updating self-position using information from self-movement. Recent proposals suggest that the brain might use similar mechanisms to understand the structure of objects in diverse sensory modalities, including vision. In machine vision, object recognition given a sequence of sensory samples of an image, such as saccades, is a challenging problem when the sequence does not follow a consistent, fixed pattern - yet this is something humans do naturally and effortlessly. We explore how grid cell-based path integration in a cortical network can support reliable recognition of objects given an arbitrary sequence of inputs. Our network (GridCellNet) uses grid cell computations to integrate visual information and make predictions based on movements. We use local Hebbian plasticity rules to learn rapidly from a handful of examples (few-shot learning), and consider the task of recognizing MNIST digits given only a sequence of image feature patches. We compare GridCellNet to k-Nearest Neighbour (k-NN) classifiers as well as recurrent neural networks (RNNs), both of which lack explicit mechanisms for handling arbitrary sequences of input samples. We show that GridCellNet can reliably perform classification, generalizing to both unseen examples and completely novel sequence trajectories. We further show that inference is often successful after sampling a fraction of the input space, enabling the predictive GridCellNet to reconstruct the rest of the image given just a few movements. We propose that dynamically moving agents with active sensors can use grid cell representations not only for navigation, but also for efficient recognition and feature prediction of seen objects.
翻訳日:2021-02-19 22:39:33 公開日:2021-02-17
# (参考訳) 新しい補助療法へのワンショットアクション認識

One-shot action recognition towards novel assistive therapies ( http://arxiv.org/abs/2102.08997v1 )

ライセンス: CC BY-SA 4.0
Alberto Sabater, Laura Santos, Jose Santos-Victor, Alexandre Bernardino, Luis Montesano, Ana C. Murillo(参考訳) ワンショットのアクション認識は、特にターゲットビデオがターゲットアクションの1つまたは1つ以上の繰り返しを含むことができる場合、難しい問題である。 この問題に対するソリューションは、アクティビティビデオの自動処理を必要とする多くの現実世界のアプリケーションで使用できる。 特に、この研究は、アクション模倣ゲームを含む医療療法の自動分析によって動機づけられます。 提案手法では,不均質な動作データ条件を標準化し,最終1ショット(あるいは少数ショット)動作認識のための時間畳み込みネットワークを用いた記述的動作表現を生成する前処理ステップが組み込まれている。 この手法は、NTU-120のワンショットアクション認識の課題に関する最新の結果を達成します。 また,自閉症者に対する治療支援のための映像自動解析の活用事例について評価した。 有望な結果は、この種の野生での応用に適合性を示し、患者の評価とモニタリングに必須の量的および質的措置を提供する。

One-shot action recognition is a challenging problem, especially when the target video can contain one, more or none repetitions of the target action. Solutions to this problem can be used in many real world applications that require automated processing of activity videos. In particular, this work is motivated by the automated analysis of medical therapies that involve action imitation games. The presented approach incorporates a pre-processing step that standardizes heterogeneous motion data conditions and generates descriptive movement representations with a Temporal Convolutional Network for a final one-shot (or few-shot) action recognition. Our method achieves state-of-the-art results on the public NTU-120 one-shot action recognition challenge. Besides, we evaluate the approach on a real use-case of automated video analysis for therapy support with autistic people. The promising results prove its suitability for this kind of application in the wild, providing both quantitative and qualitative measures, essential for the patient evaluation and monitoring.
翻訳日:2021-02-19 22:11:57 公開日:2021-02-17
# (参考訳) 深部ニューラルネットワークの階層的対角ロバスト性向上

Improving Hierarchical Adversarial Robustness of Deep Neural Networks ( http://arxiv.org/abs/2102.09012v1 )

ライセンス: CC BY 4.0
Avery Ma, Aladin Virmaux, Kevin Scaman, Juwei Lu(参考訳) すべての逆例は同じ結果をもたらしますか? 歩行者を車として分類する自動運転システムは、例えばバスよりもはるかに危険で致命的な行動を引き起こす可能性がある。 この重要な問題に対処するために、階層的対角的堅牢性の概念を導入する。 クラスを粗いレベルラベルにグループ化できるデータセットが与えられると、階層的な逆行例を粗いレベルでの誤分類につながるものとして定義する。 階層的攻撃に対するニューラルネットワークの抵抗性を向上させるために,1つの分類タスクを1つの粗く複数の細かい分類タスクに分解する階層的可逆的ロバスト(har)ネットワーク設計を導入する。 エンドツーエンドの学習アプローチの代替として、HAR が CIFAR-10 および CIFAR-100 データセットに対する $\ell_2$ および $\ell_{\infty}$ 境界付き階層攻撃に対するネットワークの堅牢性を大幅に改善することを示します。

Do all adversarial examples have the same consequences? An autonomous driving system misclassifying a pedestrian as a car may induce a far more dangerous -- and even potentially lethal -- behavior than, for instance, a car as a bus. In order to better tackle this important problematic, we introduce the concept of hierarchical adversarial robustness. Given a dataset whose classes can be grouped into coarse-level labels, we define hierarchical adversarial examples as the ones leading to a misclassification at the coarse level. To improve the resistance of neural networks to hierarchical attacks, we introduce a hierarchical adversarially robust (HAR) network design that decomposes a single classification task into one coarse and multiple fine classification tasks, before being specifically trained by adversarial defense techniques. As an alternative to an end-to-end learning approach, we show that HAR significantly improves the robustness of the network against $\ell_2$ and $\ell_{\infty}$ bounded hierarchical attacks on the CIFAR-10 and CIFAR-100 dataset.
翻訳日:2021-02-19 19:55:02 公開日:2021-02-17
# (参考訳) 自動学習アルゴリズムによる大規模ハイパーパラメータの最適化

Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm ( http://arxiv.org/abs/2102.09026v1 )

ライセンス: CC0 1.0
Bin Gu, Guodong Liu, Yanfu Zhang, Xiang Geng, Heng Huang(参考訳) 現代の機械学習アルゴリズムは、モデル一般化可能性の観点から重要な役割を果たす複数の(1から数千)ハイパーパラメータをチューニングする。 ブラックボックス最適化とグラデーションベースのアルゴリズムは、ハイパーパラメータ最適化に対する2つの優勢なアプローチである。 両方のアプローチからのすべての利点を継承する新しいハイパーパラメータ最適化技術を設計する方法は、まだオープンな問題です。 本稿では,この問題に対処するため,ゼロ次超勾配(hozog)を用いた新しいハイパーパラメータ最適化手法を提案する。 具体的には、aがブラックボックス最適化アルゴリズム(ディープニューラルネットワークなど)であるaに基づく制約付き最適化問題としてハイパーパラメータ最適化を正確に定式化する。 次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。 HOZOGを用いたハイパーパラメータ最適化の実現可能性解析を提供します。 最後に,3つの代表的ハイパーパラメータ(サイズは1~1250)に対する実験結果から,HOZOGの利点を,最先端のハイパーパラメータ最適化手法と比較して,シンプルさ,スケーラビリティ,柔軟性,有効性,効率性を示す。

Modern machine learning algorithms usually involve tuning multiple (from one to thousands) hyperparameters which play a pivotal role in terms of model generalizability. Black-box optimization and gradient-based algorithms are two dominant approaches to hyperparameter optimization while they have totally distinct advantages. How to design a new hyperparameter optimization technique inheriting all benefits from both approaches is still an open problem. To address this challenging problem, in this paper, we propose a new hyperparameter optimization method with zeroth-order hyper-gradients (HOZOG). Specifically, we first exactly formulate hyperparameter optimization as an A-based constrained optimization problem, where A is a black-box optimization algorithm (such as deep neural network). Then, we use the average zeroth-order hyper-gradients to update hyperparameters. We provide the feasibility analysis of using HOZOG to achieve hyperparameter optimization. Finally, the experimental results on three representative hyperparameter (the size is from 1 to 1250) optimization tasks demonstrate the benefits of HOZOG in terms of simplicity, scalability, flexibility, effectiveness and efficiency compared with the state-of-the-art hyperparameter optimization methods.
翻訳日:2021-02-19 19:36:40 公開日:2021-02-17
# (参考訳) 変動量子分類器のための局所最適化器の性能評価

Evaluating the Performance of Some Local Optimizers for Variational Quantum Classifiers ( http://arxiv.org/abs/2102.08949v1 )

ライセンス: CC BY 4.0
Nisheeth Joshi, Pragya Katyayan, Syed Afroz Ahmed(参考訳) 本稿では,量子変分回路における局所最適化器の性能と役割について検討する。 2つの最も人気のあるオプティマイザの性能について検討し、それらの結果をいくつかの古典的機械学習アルゴリズムと比較した。 私たちが研究で使用した古典的なアルゴリズムは、サポートベクターマシン(SVM)、グラデーションブースト(GB)、ランダムフォレスト(RF)です。 これらは2つの局所最適化器viz aqgdとcobylaを用いた変分量子分類器(vqc)と比較された。 VQC、IBM Quantum Experience、IBM Qiskitの実験には、古典的な機械学習モデルでは、sci-kitの学習が使用された。 その結果、ノイズの多い即時スケール量子マシン上の機械学習は、古典的なマシンと同様の結果を生成できることが示された。 実験では,人気のあるレストラン感情分析データセットを用いた。 このデータセットから抽出した特徴をPCAを適用した後、特徴セットを5つの特徴に減らした。 量子MLモデルは、EfficientSU2変分回路を用いて100エポックと150エポックを用いて訓練された。 全体としては4つのQuantum MLモデルがトレーニングされ、3つのクラシックMLモデルがトレーニングされた。 標準評価尺度viz,精度,精度,リコール,f-scoreを用いて,トレーニングモデルの性能評価を行った。 AQGDオプティマイザをベースとした100Epochのモデルは他のモデルよりも優れた性能を示した。 精度は77%、f-score 0.785であり、すべての訓練されたモデルで最高であった。

In this paper, we have studied the performance and role of local optimizers in quantum variational circuits. We studied the performance of the two most popular optimizers and compared their results with some popular classical machine learning algorithms. The classical algorithms we used in our study are support vector machine (SVM), gradient boosting (GB), and random forest (RF). These were compared with a variational quantum classifier (VQC) using two sets of local optimizers viz AQGD and COBYLA. For experimenting with VQC, IBM Quantum Experience and IBM Qiskit was used while for classical machine learning models, sci-kit learn was used. The results show that machine learning on noisy immediate scale quantum machines can produce comparable results as on classical machines. For our experiments, we have used a popular restaurant sentiment analysis dataset. The extracted features from this dataset and then after applying PCA reduced the feature set into 5 features. Quantum ML models were trained using 100 epochs and 150 epochs on using EfficientSU2 variational circuit. Overall, four Quantum ML models were trained and three Classical ML models were trained. The performance of the trained models was evaluated using standard evaluation measures viz, Accuracy, Precision, Recall, F-Score. In all the cases AQGD optimizer-based model with 100 Epochs performed better than all other models. It produced an accuracy of 77% and an F-Score of 0.785 which were highest across all the trained models.
翻訳日:2021-02-19 15:42:46 公開日:2021-02-17
# BEDS:Baging ensemble Deep segmentation for nucleus segmentation with test stage stain augmentation

BEDS: Bagging ensemble deep segmentation for nucleus segmentation with testing stage stain augmentation ( http://arxiv.org/abs/2102.08990v1 )

ライセンス: Link先を確認
Xing Li, Haichun Yang, Jiaxin He, Aadarsh Jha, Agnes B. Fogo, Lee E. Wheless, Shilin Zhao, Yuankai Huo(参考訳) 結果のばらつきを減らすことは、深層学習に基づく医療画像分析に不可欠な課題です。 ブートストラップ集約(Bootstrap aggregating)は、弱い学習者が強力な学習者になるための標準アンサンブルアルゴリズムである。 ランダムフォレストは、ディープラーニング時代以前の最も強力な機械学習アルゴリズムの1つであり、その優れたパフォーマンスは、袋詰めされた決定木(弱い学習者)によって駆動されます。 ランダムフォレスト手法に触発されて,複数のu-netを訓練データで訓練し,密度の高い核を病理画像に分割する簡易なバグングアンサンブル深層セグメンテーション (beds) 法を提案する。 本研究の貢献は,(1)核セグメンテーションのための自己センブル学習フレームワークの開発,(2)自己センブル学習によるテストステージ強化の集約,(3)自己センブルとテストステージ染色強化が優れたセグメンテーション性能のための補完的戦略であるという考えの解明,の3つである。 実装の詳細: https://github.com/xingli1102/BEDs。

Reducing outcome variance is an essential task in deep learning based medical image analysis. Bootstrap aggregating, also known as bagging, is a canonical ensemble algorithm for aggregating weak learners to become a strong learner. Random forest is one of the most powerful machine learning algorithms before deep learning era, whose superior performance is driven by fitting bagged decision trees (weak learners). Inspired by the random forest technique, we propose a simple bagging ensemble deep segmentation (BEDs) method to train multiple U-Nets with partial training data to segment dense nuclei on pathological images. The contributions of this study are three-fold: (1) developing a self-ensemble learning framework for nucleus segmentation; (2) aggregating testing stage augmentation with self-ensemble learning; and (3) elucidating the idea that self-ensemble and testing stage stain augmentation are complementary strategies for a superior segmentation performance. Implementation Detail: https://github.com/xingli1102/BEDs.
翻訳日:2021-02-19 14:35:11 公開日:2021-02-17
# ドメイン印象: ソースデータフリーなドメイン適応方法

Domain Impression: A Source Data Free Domain Adaptation Method ( http://arxiv.org/abs/2102.09003v1 )

ライセンス: Link先を確認
Vinod K Kurmi and Venkatesh K Subramanian and Vinay P Namboodiri(参考訳) 教師なしドメイン適応メソッドは、ソースデータセットがすべてのラベルで利用可能であると仮定して、ラベルなしターゲットセットの適応問題を解決する。 しかし,実例では実際のサンプルの入手が必ずしも可能であるとは限らない。 メモリの制約、プライバシの懸念、データ共有の課題などによる可能性がある。 この実用的なシナリオはドメイン適応問題にボトルネックをもたらします。 本稿では、ソースデータを必要としないドメイン適応手法を提案することで、この困難なシナリオに対処する。 ソースデータの代わりに、ソースデータに基づいてトレーニングされた分類器のみを提供しています。 提案手法は、ソースクラスからサンプルを生成するためにトレーニングされた分類器を使用する生成フレームワークに基づいている。 学習した分類器のエネルギーベースモデリングを用いて,データの共有分布を学習する。 同時に、ターゲットドメインに対して新しい分類器も適応される。 異なる実験環境下で様々なアブレーション解析を行い,提案手法が極めて新しいシナリオにおいて,ベースラインモデルよりも優れた結果が得られることを示す。

Unsupervised Domain adaptation methods solve the adaptation problem for an unlabeled target set, assuming that the source dataset is available with all labels. However, the availability of actual source samples is not always possible in practical cases. It could be due to memory constraints, privacy concerns, and challenges in sharing data. This practical scenario creates a bottleneck in the domain adaptation problem. This paper addresses this challenging scenario by proposing a domain adaptation technique that does not need any source data. Instead of the source data, we are only provided with a classifier that is trained on the source data. Our proposed approach is based on a generative framework, where the trained classifier is used for generating samples from the source classes. We learn the joint distribution of data by using the energy-based modeling of the trained classifier. At the same time, a new classifier is also adapted for the target domain. We perform various ablation analysis under different experimental setups and demonstrate that the proposed approach achieves better results than the baseline models in this extremely novel scenario.
翻訳日:2021-02-19 14:32:52 公開日:2021-02-17
# 距離相関を用いたベイズ最適化

Using Distance Correlation for Efficient Bayesian Optimization ( http://arxiv.org/abs/2102.08993v1 )

ライセンス: Link先を確認
Takuya Kanazawa(参考訳) 本稿では,ガウス過程と距離相関を組み合わせたベイズ最適化($\textsf{GP-DC}$)を提案する。 探索と搾取を自動的にバランスさせ、手動のパラメータチューニングを必要としない。 複数のベンチマーク関数で$\textsf{GP-DC}$を評価し、$\textsf{GP-UCB}$やmax-valueエントロピー探索のような最先端のメソッドよりも優れていることを観察します。 また、$\textsf{GP-DC}$を適用し、逐次積分観測を可変積分範囲で最適化し、合成と実世界の両方のデータセットに対する経験的効率を検証する。

We propose a novel approach for Bayesian optimization, called $\textsf{GP-DC}$, which combines Gaussian processes with distance correlation. It balances exploration and exploitation automatically, and requires no manual parameter tuning. We evaluate $\textsf{GP-DC}$ on a number of benchmark functions and observe that it outperforms state-of-the-art methods such as $\textsf{GP-UCB}$ and max-value entropy search, as well as the classical expected improvement heuristic. We also apply $\textsf{GP-DC}$ to optimize sequential integral observations with a variable integration range and verify its empirical efficiency on both synthetic and real-world datasets.
翻訳日:2021-02-19 14:31:19 公開日:2021-02-17
# 量子機械学習における一般化:量子情報の観点から

Generalization in Quantum Machine Learning: a Quantum Information Perspective ( http://arxiv.org/abs/2102.08991v1 )

ライセンス: Link先を確認
Leonardo Banchi, Jason Pereira, Stefano Pirandola(参考訳) 量子演算が古典データか量子チャネルのいずれかを分類するために使用されるとき、一般化の機械学習の問題を研究し、両方の場合において、特定のクラス$c$を量子状態上の測定値$\rho(x)$を介して入力に$x$を割り当てる方法を学ぶ。 訓練された量子モデルは、以前に見えないデータの正しいクラスを予測できるときに一般化します。 量子分類器の精度と一般化能力は、量子埋め込み$Q$と古典的な入力空間$X$またはクラス空間$C$の間の(R\'enyi)相互情報$I(C{:}Q)$と$I_2(X{:}Q)$に依存することを示す。 上記の特徴に基づいて, ヒルベルト空間の次元, ノイズ量, 無視された情報量, 例えば, プール層などといった分類精度と一般化に, $q$ の異なる性質がどのように影響するかを示す。 さらに、精度と一般化の間のさまざまなトレードオフを調べることができる情報ボトルネック原理の量子バージョンを紹介します。

We study the machine learning problem of generalization when quantum operations are used to classify either classical data or quantum channels, where in both cases the task is to learn from data how to assign a certain class $c$ to inputs $x$ via measurements on a quantum state $\rho(x)$. A trained quantum model generalizes when it is able to predict the correct class for previously unseen data. We show that the accuracy and generalization capability of quantum classifiers depend on the (R\'enyi) mutual informations $I(C{:}Q)$ and $I_2(X{:}Q)$ between the quantum embedding $Q$ and the classical input space $X$ or class space $C$. Based on the above characterization, we then show how different properties of $Q$ affect classification accuracy and generalization, such as the dimension of the Hilbert space, the amount of noise, and the amount of neglected information via, e.g., pooling layers. Moreover, we introduce a quantum version of the Information Bottleneck principle that allows us to explore the various tradeoffs between accuracy and generalization.
翻訳日:2021-02-19 14:26:44 公開日:2021-02-17
# NFCNN:画像認識のためのノイズ融合畳み込みニューラルネットワークを目指して

NFCNN: Toward a Noise Fusion Convolutional Neural Network for Image Denoising ( http://arxiv.org/abs/2102.09376v1 )

ライセンス: Link先を確認
Maoyuan Xu and Xiaoping Xie(参考訳) 深層学習に基づく手法は、画像認知における最先端のパフォーマンスを実現している。 本稿では,畳み込みニューラルネットワークにおいて,深層学習に基づく解法を提案し,核融合ブロックと呼ばれるモジュールを導入する。 このいわゆるNoise Fusion Convolutional Neural Network(NFCNN)には、そのマルチステージアーキテクチャに2つのブランチがあります。 1つの枝は潜在的なきれいなイメージを予測し、もう1つの枝は残りのイメージを予測します。 予測されたクリーン画像と予測された残留画像とを入力の一部として2段階毎に融合ブロックを包含し、融合結果を次の段階に出力する。 NFCNNは融合ブロックのために魅力的なテクスチャ保存能力を持っています。 nfcnnの訓練には, 消失する勾配や爆発する勾配問題を回避するための段階的教師付き訓練戦略が採用されている。 実験結果は、NFCNNがいくつかの最先端のアルゴリズムと比較して競合的な消音結果を実行できることを示しています。

Deep learning based methods have achieved the state-of-the-art performance in image denoising. In this paper, a deep learning based denoising method is proposed and a module called fusion block is introduced in the convolutional neural network. For this so-called Noise Fusion Convolutional Neural Network (NFCNN), there are two branches in its multi-stage architecture. One branch aims to predict the latent clean image, while the other one predicts the residual image. A fusion block is contained between every two stages by taking the predicted clean image and the predicted residual image as a part of inputs, and it outputs a fused result to the next stage. NFCNN has an attractive texture preserving ability because of the fusion block. To train NFCNN, a stage-wise supervised training strategy is adopted to avoid the vanishing gradient and exploding gradient problems. Experimental results show that NFCNN is able to perform competitive denoising results when compared with some state-of-the-art algorithms.
翻訳日:2021-02-19 14:23:44 公開日:2021-02-17
# 等変球面デコンボリューション:球面データから学習の分離配向分布関数

Equivariant Spherical Deconvolution: Learning Sparse Orientation Distribution Functions from Spherical Data ( http://arxiv.org/abs/2102.09462v1 )

ライセンス: Link先を確認
Axel Elaldi, Neel Dey, Heejong Kim, Guido Gerig(参考訳) 本稿では,単位球面上で定義される非負スカラー場のスパースデコンボリューションのための回転等価非監視学習フレームワークを提案する。 複数のピークを持つ球状信号はDiffusion MRI(dMRI)で自然発生し、それぞれのボクセルは白色物質のような異方性組織構造に対応する1つ以上の信号源から構成される。 空間的およびスペクトル的な部分的揮発のために、臨床的に実現可能なdMRIは、クロスファイバーホワイトマター構成を解決するのに苦労し、基礎となるファイバー方向を回復する球状脱コンボリューション方法論の広範な発展をもたらす。 しかし、これらの方法は典型的には線形であり、小さな交叉角と部分体積分数の推定に苦しむ。 本研究では,非監視球面畳み込みネットワークを用いて非線形に繊維構造を推定し,球面回転と等価性を保証した現在の手法を改善する。 実験により,本提案は,一般的なベースラインに対する競合性能を実証する広範なシングルシェルおよびマルチシェル合成ベンチマークを用いて検証した。 次に、トラクトメーターベンチマークデータセットを用いて、繊維トラクトグラフィー測定における下流性能の改善を示す。 最後に,人体のマルチシェルデータセットを用いたトラクトグラフィーと部分体積推定による下流改善について述べる。

We present a rotation-equivariant unsupervised learning framework for the sparse deconvolution of non-negative scalar fields defined on the unit sphere. Spherical signals with multiple peaks naturally arise in Diffusion MRI (dMRI), where each voxel consists of one or more signal sources corresponding to anisotropic tissue structure such as white matter. Due to spatial and spectral partial voluming, clinically-feasible dMRI struggles to resolve crossing-fiber white matter configurations, leading to extensive development in spherical deconvolution methodology to recover underlying fiber directions. However, these methods are typically linear and struggle with small crossing-angles and partial volume fraction estimation. In this work, we improve on current methodologies by nonlinearly estimating fiber structures via unsupervised spherical convolutional networks with guaranteed equivariance to spherical rotation. Experimentally, we first validate our proposition via extensive single and multi-shell synthetic benchmarks demonstrating competitive performance against common baselines. We then show improved downstream performance on fiber tractography measures on the Tractometer benchmark dataset. Finally, we show downstream improvements in terms of tractography and partial volume estimation on a multi-shell dataset of human subjects.
翻訳日:2021-02-19 14:22:58 公開日:2021-02-17
# 不整合制約集合の効率的な診断アルゴリズム

An Efficient Diagnosis Algorithm for Inconsistent Constraint Sets ( http://arxiv.org/abs/2102.09005v1 )

ライセンス: Link先を確認
Alexander Felfernig and Monika Schubert and Christoph Zehentner(参考訳) 制約集合は異なる文脈で矛盾することがある。 例えば、設定セッションでは、顧客の要求のセットが構成知識ベースと矛盾する可能性があります。 別の例は、基本的な制約が一連のテストケースと矛盾する可能性がある構成知識ベースのエンジニアリングフェーズです。 このような状況では、一貫性を回復するために削除しなければならない最小限の欠陥制約セットの識別をサポートする技術が求められています。 本論文では,過度制約問題における障害制約の最小セットを同定する分割・整列型診断アルゴリズム(FastDiag)を提案する。 このアルゴリズムは、リード(推奨)診断の効率的な識別が重要であるシナリオに特に適用されます。 FastDiagのパフォーマンスとヒットセットの競合方向の計算を比較し、私たちのアプローチの利点を示す詳細なパフォーマンス分析を提示します。

Constraint sets can become inconsistent in different contexts. For example, during a configuration session the set of customer requirements can become inconsistent with the configuration knowledge base. Another example is the engineering phase of a configuration knowledge base where the underlying constraints can become inconsistent with a set of test cases. In such situations we are in the need of techniques that support the identification of minimal sets of faulty constraints that have to be deleted in order to restore consistency. In this paper we introduce a divide-and-conquer based diagnosis algorithm (FastDiag) which identifies minimal sets of faulty constraints in an over-constrained problem. This algorithm is specifically applicable in scenarios where the efficient identification of leading (preferred) diagnoses is crucial. We compare the performance of FastDiag with the conflict-directed calculation of hitting sets and present an in-depth performance analysis that shows the advantages of our approach.
翻訳日:2021-02-19 14:21:19 公開日:2021-02-17
# Equine Facial Action Unitの自動検出

Automated Detection of Equine Facial Action Units ( http://arxiv.org/abs/2102.08983v1 )

ライセンス: Link先を確認
Zhenghong Li, Sofia Broom\'e, Pia Haubro Andersen, Hedvig Kjellstr\"om(参考訳) 最近開発されたEquine Facial Action Coding System (EquiFACS)は、馬の顔のアクションユニットを正確にかつ徹底的に手動でラベル付けする方法を提供する。 このプロセスの一部を自動化するために,画像からEquiFACS単位を自動的に検出するDeep Learning-based法を提案する。 まず、複数のオブジェクト検出器を訓練して、事前定義された関心領域(roi)を検出し、関連する各領域のアクションユニットにバイナリ分類器を適用する。 我々は、通常のcnnと、人間の顔行動単位認識から転送されるよりカスタマイズされたモデルの両方を実験する。 目および下面領域の9つのアクションユニットで、適切な初期結果が示されます。

The recently developed Equine Facial Action Coding System (EquiFACS) provides a precise and exhaustive, but laborious, manual labelling method of facial action units of the horse. To automate parts of this process, we propose a Deep Learning-based method to detect EquiFACS units automatically from images. We use a cascade framework; we firstly train several object detectors to detect the predefined Region-of-Interest (ROI), and secondly apply binary classifiers for each action unit in related regions. We experiment with both regular CNNs and a more tailored model transferred from human facial action unit recognition. Promising initial results are presented for nine action units in the eye and lower face regions.
翻訳日:2021-02-19 14:21:06 公開日:2021-02-17
# Spacewalker:軽量マークアップ拡張と集団遺伝的プログラミングによるUI設計の迅速な探索

Spacewalker: Rapid UI Design Exploration Using Lightweight Markup Enhancement and Crowd Genetic Programming ( http://arxiv.org/abs/2102.09039v1 )

ライセンス: Link先を確認
Mingyuan Zhong, Gang Li, Yang Li(参考訳) ユーザーインターフェース設計は、幅広いオプションを検討するデザイナーが関与する複雑なタスクです。 統合サポートを備えた最適なWeb UIのために、設計者が大きなデザインスペースを迅速に検索できるツールであるSpacewalkerを紹介します。 デザイナーはまず、私たちが設計したシンプルなマークアップ拡張を使用して、典型的なHTMLページで探索したい属性をアノテートします。 Spacewalkerはアノテーション付きHTML仕様を解析し、Web UIのさまざまな構成をインテリジェントに生成し、評価のためにクラウドワーカーに配布する。 信頼性の高いフィードバックを得るためには,ui設計をペアで比較することで,群集労働者の反応に対応する遺伝的アルゴリズムを強化した。 私たちの実験に基づいて、spacewalkerはデザイナーが慣れ親しんだ言語を使って、uiの大きなデザインスペースを効果的に検索し、最小限のコストで設計を迅速に改善できます。

User interface design is a complex task that involves designers examining a wide range of options. We present Spacewalker, a tool that allows designers to rapidly search a large design space for an optimal web UI with integrated support. Designers first annotate each attribute they want to explore in a typical HTML page, using a simple markup extension we designed. Spacewalker then parses the annotated HTML specification, and intelligently generates and distributes various configurations of the web UI to crowd workers for evaluation. We enhanced a genetic algorithm to accommodate crowd worker responses from pairwise comparison of UI designs, which is crucial for obtaining reliable feedback. Based on our experiments, Spacewalker allows designers to effectively search a large design space of a UI, using the language they are familiar with, and improve their design rapidly at a minimal cost.
翻訳日:2021-02-19 14:15:46 公開日:2021-02-17
# FIXME:クラウドでのハイブリッドアプローチによるソフトウェア信頼性の向上

FIXME: Enhance Software Reliability with Hybrid Approaches in Cloud ( http://arxiv.org/abs/2102.09336v1 )

ライセンス: Link先を確認
Jinho Hwang, Larisa Shwartz, Qing Wang, Raghav Batta, Harshit Kumar, Michael Nidd(参考訳) クラウドでの信頼性の約束により、より多くの企業がクラウドに移行する。 クラウドにおける継続的インテグレーション/デプロイ(CICD)のプロセスは、アプリケーションを確実に管理する必要があるサイト信頼性エンジニア(SRE)と、より速く、より透過的に価値を提供する必要がある開発者をつなぐ。 SREは開発者に開発問題をフィードバックし、開発者は修正をコミットしてCICDを再デプロイする。 リリースサイクルはこれまで以上に継続的であるため、本番環境へのコードはより高速で自動化されます。 この高いレベルのアジリティを提供するために、クラウドプラットフォームは、仮想化のより深い層で柔軟性に直面してより複雑になります。 しかし、これらすべての複雑さで信頼性は無料ではありません。 ソフトウェアエンジニアとSREは仮想化レイヤから幅広い情報スペクトルを扱う必要があります。 したがって、SREのパフォーマンス指標である平均回復時間(MTTR)を減らすために、真の正の証拠と相関した情報を提供することは、問題の根本原因を迅速に特定することが重要である。 類似性、知識、統計に基づくアプローチは有効であるが、データ量や型の増加に伴い、個々のアプローチは異なるデータソースのセマンティック関係の相関に限られている。 本稿では,企業におけるハイブリッド診断手法によるソフトウェア信頼性向上のためのFIXMEを提案する。 以上の結果から,ハイブリッド診断手法は精度が約17%向上した。 この結果は,高ダイナミックなクラウド環境においてハイブリッド診断を開発する実践者および研究者の双方にとって有用である。

With the promise of reliability in cloud, more enterprises are migrating to cloud. The process of continuous integration/deployment (CICD) in cloud connects developers who need to deliver value faster and more transparently with site reliability engineers (SREs) who need to manage applications reliably. SREs feed back development issues to developers, and developers commit fixes and trigger CICD to redeploy. The release cycle is more continuous than ever, thus the code to production is faster and more automated. To provide this higher level agility, the cloud platforms become more complex in the face of flexibility with deeper layers of virtualization. However, reliability does not come for free with all these complexities. Software engineers and SREs need to deal with wider information spectrum from virtualized layers. Therefore, providing correlated information with true positive evidences is critical to identify the root cause of issues quickly in order to reduce mean time to recover (MTTR), performance metrics for SREs. Similarity, knowledge, or statistics driven approaches have been effective, but with increasing data volume and types, an individual approach is limited to correlate semantic relations of different data sources. In this paper, we introduce FIXME to enhance software reliability with hybrid diagnosis approaches for enterprises. Our evaluation results show using hybrid diagnosis approach is about 17% better in precision. The results are helpful for both practitioners and researchers to develop hybrid diagnosis in the highly dynamic cloud environment.
翻訳日:2021-02-19 14:15:30 公開日:2021-02-17
# モバイル・コンピューティング・フォトグラフィー:ツアー

Mobile Computational Photography: A Tour ( http://arxiv.org/abs/2102.09000v1 )

ライセンス: Link先を確認
Mauricio Delbracio, Damien Kelly, Michael S. Brown, Peyman Milanfar(参考訳) 最初の携帯電話はたった20年前に販売されたばかりで、携帯電話で写真を撮るのは奇妙で、オンラインで写真をシェアするのは聞いたことがない。 今日、スマートフォンは電話よりもカメラが多い。 どうしてこんなことが起きたの? この変換は、小さなフォームファクター、モバイルカメラから素晴らしい画像を作る科学と工学の進歩によって実現された。 機械学習を含む現代のアルゴリズムとコンピューティングの進歩は、写真撮影のルールを変更し、キャプチャ、後処理、ストレージ、共有の新しいモードをもたらしました。 本稿では,モバイル・コンピューティング・フォトグラフィーの簡単な歴史を述べるとともに,バースト・フォトグラフィー,ノイズ低減,超解像といった重要な技術要素について述べる。 それぞれのステップで、人間の視覚システムとナイーブな平行線を描くことができる。

The first mobile camera phone was sold only 20 years ago, when taking pictures with one's phone was an oddity, and sharing pictures online was unheard of. Today, the smartphone is more camera than phone. How did this happen? This transformation was enabled by advances in computational photography -the science and engineering of making great images from small form factor, mobile cameras. Modern algorithmic and computing advances, including machine learning, have changed the rules of photography, bringing to it new modes of capture, post-processing, storage, and sharing. In this paper, we give a brief history of mobile computational photography and describe some of the key technological components, including burst photography, noise reduction, and super-resolution. At each step, we may draw naive parallels to the human visual system.
翻訳日:2021-02-19 14:14:14 公開日:2021-02-17
# 電力グリッドにおける偽データインジェクション攻撃検出のための敵対的レジリエント深層ニューラルネットワーク

Towards Adversarial-Resilient Deep Neural Networks for False Data Injection Attack Detection in Power Grids ( http://arxiv.org/abs/2102.09057v1 )

ライセンス: Link先を確認
Jiangnan Li, Yingyuan Yang, Jinyuan Stella Sun, Kevin Tomsovic, Hairong Qi(参考訳) 偽データ注入攻撃(FDIA)は、電力システムの状態推定において重要なセキュリティ問題です。 近年、機械学習(ML)技術、特にディープニューラルネットワーク(DNN)がFDIA検出のための文献で提案されている。 しかし、彼らは、異なるMLアプリケーションにおけるDNNの信頼性を脅かすことが示された敵対的攻撃のリスクを考慮していない。 本稿では,敵攻撃によるFDIA検出に用いるDNNの脆弱性を評価し,防御的アプローチについて検討する。 いくつかの代表的な防御機構を分析し,fdia検出に固有の限界があることを実証した。 次に,学習と推論の両方にランダム入力パディングを導入することで,fdiaの逆回復性dnn検出フレームワークを設計する。 IEEE標準パワーシステムに基づく広範なシミュレーションは、DNNの検出性能にほとんど影響を及ぼさずに、我々のフレームワークが敵対攻撃の有効性を大幅に低下させることを示しています。

False data injection attack (FDIA) is a critical security issue in power system state estimation. In recent years, machine learning (ML) techniques, especially deep neural networks (DNNs), have been proposed in the literature for FDIA detection. However, they have not considered the risk of adversarial attacks, which were shown to be threatening to DNN's reliability in different ML applications. In this paper, we evaluate the vulnerability of DNNs used for FDIA detection through adversarial attacks and study the defensive approaches. We analyze several representative adversarial defense mechanisms and demonstrate that they have intrinsic limitations in FDIA detection. We then design an adversarial-resilient DNN detection framework for FDIA by introducing random input padding in both the training and inference phases. Extensive simulations based on an IEEE standard power system show that our framework greatly reduces the effectiveness of adversarial attacks while having little impact on the detection performance of the DNNs.
翻訳日:2021-02-19 14:13:39 公開日:2021-02-17
# TCN: Web テーブル解釈のためのテーブル畳み込みネットワーク

TCN: Table Convolutional Network for Web Table Interpretation ( http://arxiv.org/abs/2102.09460v1 )

ライセンス: Link先を確認
Daheng Wang, Prashant Shiralkar, Colin Lockard, Binxuan Huang, Xin Luna Dong, Meng Jiang(参考訳) 半構造化Webページからの情報抽出は、知識グラフの強化に有用なロングテールな事実を提供する。 リレーショナルWebテーブルは、豊富で多様な知識の追加のエンティティと属性を含む重要なコンポーネントです。 しかし,文脈情報が少ないため,関係表から知識を抽出することは困難である。 既存の作業はテーブルセルを線形化し、同じテーブルで関連するセル情報のみをキャプチャするBERTのような深い言語モデルの修正に大きく依存します。 本研究では,表内情報と表間情報の両方を考慮した新しい関係表表現学習手法を提案する。 一方,提案するテーブル畳み込みネットワークモデルでは,アテンション機構を用いて,同じ行や列の最も情報性の高いテーブル内セルに適応的に焦点を合わせ,その一方で,異なるテーブルをまたがるセル間の様々なタイプの暗黙的接続から,テーブル間のコンテキスト情報を集約する。 具体的には, (i) と同じ値のセル, (ii) 同一のスキーマ位置のセル, (iii) 同一ページのトピックにリンクされたセルに対して, 3つの新しいアグリゲーションモジュールを提案する。 さらに,コラムタイプとペアワイズコラム関係を共同で予測するための教師付きマルチタスクトレーニング目標と,プレトレーニングのためのテーブルセルリカバリ目標を考案する。 実Webテーブルデータセットを用いた実験では,F1の+4.8%,F1の+4.1%,ペアワイズカラム関係予測の+4.1%で競合ベースラインを上回った。

Information extraction from semi-structured webpages provides valuable long-tailed facts for augmenting knowledge graph. Relational Web tables are a critical component containing additional entities and attributes of rich and diverse knowledge. However, extracting knowledge from relational tables is challenging because of sparse contextual information. Existing work linearize table cells and heavily rely on modifying deep language models such as BERT which only captures related cells information in the same table. In this work, we propose a novel relational table representation learning approach considering both the intra- and inter-table contextual information. On one hand, the proposed Table Convolutional Network model employs the attention mechanism to adaptively focus on the most informative intra-table cells of the same row or column; and, on the other hand, it aggregates inter-table contextual information from various types of implicit connections between cells across different tables. Specifically, we propose three novel aggregation modules for (i) cells of the same value, (ii) cells of the same schema position, and (iii) cells linked to the same page topic. We further devise a supervised multi-task training objective for jointly predicting column type and pairwise column relation, as well as a table cell recovery objective for pre-training. Experiments on real Web table datasets demonstrate our method can outperform competitive baselines by +4.8% of F1 for column type prediction and by +4.1% of F1 for pairwise column relation prediction.
翻訳日:2021-02-19 14:11:43 公開日:2021-02-17
# 平均ロギング確率の収束下における平均結果の反事実推論

Counterfactual Inference of the Mean Outcome under a Convergence of Average Logging Probability ( http://arxiv.org/abs/2102.08975v1 )

ライセンス: Link先を確認
Masahiro Kato(参考訳) 効率的な平均治療効果推定や多腕バンディットアルゴリズムを含む適応実験は、社会実験、臨床試験、オンライン広告最適化など様々な応用で注目を集めている。 本稿では,適応実験で得られたサンプルから,アクションの平均結果を推定する。 因果推論において、行動の平均的な結果には重要な役割があり、その推定は重要なタスクであり、平均的な治療効果の推定とオフポリシー値推定はその変種である。 適応実験では、過去の観測に基づいて、アクション(ログング確率)を選択する確率を順次更新することができる。 このロギングの確率は過去の観測に依存するため、サンプルはしばしば独立ではなく、同じ分布(すなわちd)である。 漸近的に正常な推定器の開発は困難である。 この問題の典型的なアプローチは、ロギング確率が時間不変関数に収束すると仮定することである。 しかし、この仮定は、ロギング確率が変動したり、ある期間にゼロになったりするなど、様々なアプリケーションで制限される。 この制限を緩和するために、平均ロギング確率が時間不変関数に収束する別の仮定を提案し、二重ロバスト(dr)推定子の漸近正規性を示す。 この仮定の下では、ロギング確率自体が変動したり、ある作用に対してゼロとなることがある。 また,シミュレーションにより経験的特性を示す。

Adaptive experiments, including efficient average treatment effect estimation and multi-armed bandit algorithms, have garnered attention in various applications, such as social experiments, clinical trials, and online advertisement optimization. This paper considers estimating the mean outcome of an action from samples obtained in adaptive experiments. In causal inference, the mean outcome of an action has a crucial role, and the estimation is an essential task, where the average treatment effect estimation and off-policy value estimation are its variants. In adaptive experiments, the probability of choosing an action (logging probability) is allowed to be sequentially updated based on past observations. Due to this logging probability depending on the past observations, the samples are often not independent and identically distributed (i.i.d.), making developing an asymptotically normal estimator difficult. A typical approach for this problem is to assume that the logging probability converges in a time-invariant function. However, this assumption is restrictive in various applications, such as when the logging probability fluctuates or becomes zero at some periods. To mitigate this limitation, we propose another assumption that the average logging probability converges to a time-invariant function and show the doubly robust (DR) estimator's asymptotic normality. Under the assumption, the logging probability itself can fluctuate or be zero for some actions. We also show the empirical properties by simulations.
翻訳日:2021-02-19 14:10:22 公開日:2021-02-17
# 不変表現学習ネットワークを用いたアクティブ触覚探索における脳波ベーステクスチャ粗さ分類

EEG-based Texture Roughness Classification in Active Tactile Exploration with Invariant Representation Learning Networks ( http://arxiv.org/abs/2102.08976v1 )

ライセンス: Link先を確認
Ozan Ozdenizci, Safaa Eldeeb, Andac Demir, Deniz Erdogmus, Murat Akcakaya(参考訳) 日常の活動中、人間は手を使って周囲の物体を把握し、知覚や運動の目的にも使われる感覚情報を知覚する。 複数の皮質脳領域は、知覚処理中の知覚認識、知覚および運動実行に関与することが知られている。 様々な研究が人間の感覚運動制御の領域に特に焦点を当てているが、運動実行と感覚処理の関係と処理は未だ完全には理解されていない。 本研究の主な目的は, 運動運動パターンの違いを最小限に抑えつつ, 同時に記録された脳波データを用いて, 触覚探索中に粗さレベルが異なるテクスチャ面を識別することである。 本研究では,8人の健常者を対象に,手指の先端を触りながら,粗さの異なる3種類のテクスチャ面を擦ったり叩いたりする実験を行った。 異なるテクスチャ面の脳波に基づく分類を行い、同時に運動運動条件(例えば、ルーブやタップ)の判別性を最小化する、敵対的不変表現学習ニューラルネットワークアーキテクチャを用いる。 提案手法は,学習表現からの移動関連変動を抑えつつ,最大70%の精度で3つの異なるテクスチャ面を識別できることが示唆された。

During daily activities, humans use their hands to grasp surrounding objects and perceive sensory information which are also employed for perceptual and motor goals. Multiple cortical brain regions are known to be responsible for sensory recognition, perception and motor execution during sensorimotor processing. While various research studies particularly focus on the domain of human sensorimotor control, the relation and processing between motor execution and sensory processing is not yet fully understood. Main goal of our work is to discriminate textured surfaces varying in their roughness levels during active tactile exploration using simultaneously recorded electroencephalogram (EEG) data, while minimizing the variance of distinct motor exploration movement patterns. We perform an experimental study with eight healthy participants who were instructed to use the tip of their dominant hand index finger while rubbing or tapping three different textured surfaces with varying levels of roughness. We use an adversarial invariant representation learning neural network architecture that performs EEG-based classification of different textured surfaces, while simultaneously minimizing the discriminability of motor movement conditions (i.e., rub or tap). Results show that the proposed approach can discriminate between three different textured surfaces with accuracies up to 70%, while suppressing movement related variability from learned representations.
翻訳日:2021-02-19 14:10:02 公開日:2021-02-17
# 物理インフォームドグラフィカル学習法による三相分布線パラメータの推定

Estimate Three-Phase Distribution Line Parameters With Physics-Informed Graphical Learning Method ( http://arxiv.org/abs/2102.09023v1 )

ライセンス: Link先を確認
Wenyu Wang, Nanpeng Yu(参考訳) ネットワークパラメータの正確な推定は、電力流通システムのモデリング、監視、制御に不可欠である。 本稿では,三相配電系統のネットワークパラメータを推定する物理式グラフィカル学習アルゴリズムを開発した。 提案アルゴリズムは, 利用可能なスマートメータデータのみを用いて, 一次分布線セグメントの3相直列抵抗と反応性を推定する。 まず,従来のグラフィカルニューラルネットワーク(GNN)におけるブラックボックス深層ニューラルネットワークを置き換えるパラメトリック物理モデルを開発した。 次に,ネットワークパラメータに対する損失関数の勾配を導出し,確率的勾配降下(sgd)を用いて物理パラメータを推定する。 ネットワークパラメータの事前知識は、推定の精度をさらに向上させると考えられる。 その結果,提案アルゴリズムは精度が高く,既存の手法よりも優れていることがわかった。

Accurate estimates of network parameters are essential for modeling, monitoring, and control in power distribution systems. In this paper, we develop a physics-informed graphical learning algorithm to estimate network parameters of three-phase power distribution systems. Our proposed algorithm uses only readily available smart meter data to estimate the three-phase series resistance and reactance of the primary distribution line segments. We first develop a parametric physics-based model to replace the black-box deep neural networks in the conventional graphical neural network (GNN). Then we derive the gradient of the loss function with respect to the network parameters and use stochastic gradient descent (SGD) to estimate the physical parameters. Prior knowledge of network parameters is also considered to further improve the accuracy of estimation. Comprehensive numerical study results show that our proposed algorithm yields high accuracy and outperforms existing methods.
翻訳日:2021-02-19 14:09:40 公開日:2021-02-17
# 部分モジュラリティによる連成連続・離散モデル選択

Joint Continuous and Discrete Model Selection via Submodularity ( http://arxiv.org/abs/2102.09029v1 )

ライセンス: Link先を確認
Jonathan Bunton and Paulo Tabuada(参考訳) 機械学習のモデル選択問題では、意味のある構造を持つ優れたモデルに対する欲求は、典型的には正規化された最適化問題によって表される。 しかし、多くのシナリオでは、意味のある構造はいくつかの離散空間で指定され、難しい非凸最適化問題を引き起こす。 本稿では、構造促進正規化器によるモデル選択問題と、連続的および離散的な引数で定義されるサブモジュラ関数最小化を関連づける。 特に、部分モジュラリティ理論を利用して、離散的および連続的な最適化ルーチンの非依存的な組み合わせで正確に効率的に解けるこれらの問題のクラスを同定する。 我々は、ロバスト最適化によって動機づけられた特定の問題クラスに対して、単純な連続的あるいは離散的な制約をいかに扱うかを示す。 最後に,いくつかの概念実証例を用いて理論結果を数値的に検証し,最先端アルゴリズムと比較した。

In model selection problems for machine learning, the desire for a well-performing model with meaningful structure is typically expressed through a regularized optimization problem. In many scenarios, however, the meaningful structure is specified in some discrete space, leading to difficult nonconvex optimization problems. In this paper, we relate the model selection problem with structure-promoting regularizers to submodular function minimization defined with continuous and discrete arguments. In particular, we leverage submodularity theory to identify a class of these problems that can be solved exactly and efficiently with an agnostic combination of discrete and continuous optimization routines. We show how simple continuous or discrete constraints can also be handled for certain problem classes, motivated by robust optimization. Finally, we numerically validate our theoretical results with several proof-of-concept examples, comparing against state-of-the-art algorithms.
翻訳日:2021-02-19 14:09:26 公開日:2021-02-17
# SRDTI:拡散テンソルMRIのためのディープラーニングによる超解像

SRDTI: Deep learning-based super-resolution for diffusion tensor MRI ( http://arxiv.org/abs/2102.09069v1 )

ライセンス: Link先を確認
Qiyuan Tian, Ziyu Li, Qiuyun Fan, Chanon Ngamsombat, Yuxin Hu, Congyu Liao, Fuyixue Wang, Kawin Setsompop, Jonathan R. Polimeni, Berkin Bilgic, Susie Y. Huang(参考訳) 高分解能拡散テンソルイメージング(DTI)は、微細神経解剖学的構造における組織微細構造の探索に有用であるが、長い走査時間と信号-雑音比は、サブミリ波分解能でDTIを取得する上で重要な障壁となる。 そこで本研究では,低解像度DWIから高分解能拡散強調画像(DWI)を合成する深層学習型超解像法「SRDTI」を提案する。 SRDTIは、深層畳み込みニューラルネットワーク(CNN)、残留学習およびマルチコントラストイメージングを採用し、トリリナーおよび立方スプライン補間よりも高解像度の地上真実に近い豊富なテキストの詳細と微細な情報で高品質の結果を生成します。

High-resolution diffusion tensor imaging (DTI) is beneficial for probing tissue microstructure in fine neuroanatomical structures, but long scan times and limited signal-to-noise ratio pose significant barriers to acquiring DTI at sub-millimeter resolution. To address this challenge, we propose a deep learning-based super-resolution method entitled "SRDTI" to synthesize high-resolution diffusion-weighted images (DWIs) from low-resolution DWIs. SRDTI employs a deep convolutional neural network (CNN), residual learning and multi-contrast imaging, and generates high-quality results with rich textural details and microstructural information, which are more similar to high-resolution ground truth than those from trilinear and cubic spline interpolation.
翻訳日:2021-02-19 14:09:12 公開日:2021-02-17
# (参考訳) エラストグラフィーとBモード乳房超音波画像のエンサンブル転送学習

Ensemble Transfer Learning of Elastography and B-mode Breast Ultrasound Images ( http://arxiv.org/abs/2102.08567v1 )

ライセンス: CC BY 4.0
Sampa Misra, Seungwan Jeon, Ravi Managuli, Seiyon Lee, Gyuwon Kim, Seungchul Lee, Richard G Barr, and Chulhong Kim(参考訳) 良性および悪性の乳腺病変のコンピュータ支援検出(cad)は,乳房超音波画像診断においてますます必要となる。 CADシステムは、医療専門家によって認識された画像の特徴に頼っているが、ディープラーニング(DL)手法はデータから自動的に特徴を抽出する。 DLの課題は、DLモデルを訓練するために利用可能な胸部米国の画像の不足です。 本稿では、Bモード乳房US(B-US)および歪みエラストグラフィー乳房US(SE-US)画像を用いて良性および悪性乳癌を分類するアンサンブル転送学習モデルを提案する。 このモデルは、AlexNetとResNetモデルのセマンティック機能を組み合わせ、悪性腫瘍から良性を分類します。 B-US画像とSE-US画像の両方を用いて腫瘍を訓練し分類する。 生検にて42例, 悪性腫瘍43例を対象とし, 85例のデータを回顧的に収集した。 各患者は複数のB-US画像と対応するSE-US画像を有し,総データセットは261B-US画像と261SE-US画像を含んでいた。 実験結果から, このアンサンブルモデルでは感度88.89%, 特異性91.10%が得られた。 提案手法のこれらの診断性能は手動識別と同等かそれ以上である。 そこで,本提案手法は早期乳癌の発見を容易にし,患者のケアを確実に改善する。

Computer-aided detection (CAD) of benign and malignant breast lesions becomes increasingly essential in breast ultrasound (US) imaging. The CAD systems rely on imaging features identified by the medical experts for their performance, whereas deep learning (DL) methods automatically extract features from the data. The challenge of the DL is the insufficiency of breast US images available to train the DL models. Here, we present an ensemble transfer learning model to classify benign and malignant breast tumors using B-mode breast US (B-US) and strain elastography breast US (SE-US) images. This model combines semantic features from AlexNet & ResNet models to classify benign from malignant tumors. We use both B-US and SE-US images to train the model and classify the tumors. We retrospectively gathered 85 patients' data, with 42 benign and 43 malignant cases confirmed with the biopsy. Each patient had multiple B-US and their corresponding SE-US images, and the total dataset contained 261 B-US images and 261 SE-US images. Experimental results show that our ensemble model achieves a sensitivity of 88.89% and specificity of 91.10%. These diagnostic performances of the proposed method are equivalent to or better than manual identification. Thus, our proposed ensemble learning method would facilitate detecting early breast cancer, reliably improving patient care.
翻訳日:2021-02-19 07:56:55 公開日:2021-02-17
# (参考訳) ニューラルネットワークを用いた非識別システムの転送性

Transferability of Neural Network-based De-identification Systems ( http://arxiv.org/abs/2102.08517v1 )

ライセンス: CC BY 4.0
Kahyun Lee, Nicholas J. Dobbins, Bridget McInnes, Meliha Yetisgen, \"Ozlem Uzuner(参考訳) 方法と材料:領域一般化の有無にかかわらず、ニューラルネットワークに基づく非同定システム-テムの転送可能性を検討した。 本論文で開発した新しいJDL(Joint-Domain Learning)アプローチと、文献からの最新のドメイン一般化アプローチCommon-Specific Decomposition(CSD)アプローチの2つのドメイン一般化アプローチを使用した。 まず、1つの外部ソースからトランスフェラビリティを測定した。 第2に,2つの外部ソースを用いて,同一機関の異なる音符タイプを再現するドメイン間の非識別モデルの転送性を改善することができるか評価した。 第3に、ドメイン内トレーニングデータを持つ2つの外部ソースを用いて、ドメイン内トレーニングデータが十分な場合であっても、外部ソースデータが有用かどうかを検討した。 最後に, 施設間における非識別モジュールの転送可能性について検討した。 結果と結論: 単一の外部ソースからの転送性が一貫性のない再スルトを与えました。 追加の外部ソースを使用することで、F1スコアは約80%を得ることができたが、ドメインの一般化は転送可能性を改善するのに必ずしも役に立たなかった。 また、必要なトレーニングデータの量を減らしたり、パフォーマンスを向上させることで、インドメイントレーニングデータが利用可能であった場合でも、外部ソースが有用であることが分かりました。 機関間での転送性はノートタイプとアノテーションラベルによって異なっていた。 別の機関の外部の情報源も、さらなる性能向上に役立った。

Methods and Materials: We investigated transferability of neural network-based de-identification sys-tems with and without domain generalization. We used two domain generalization approaches: a novel approach Joint-Domain Learning (JDL) as developed in this paper, and a state-of-the-art domain general-ization approach Common-Specific Decomposition (CSD) from the literature. First, we measured trans-ferability from a single external source. Second, we used two external sources and evaluated whether domain generalization can improve transferability of de-identification models across domains which rep-resent different note types from the same institution. Third, using two external sources with in-domain training data, we studied whether external source data are useful even in cases where sufficient in-domain training data are available. Finally, we investigated transferability of the de-identification mod-els across institutions. Results and Conclusions: We found transferability from a single external source gave inconsistent re-sults. Using additional external sources consistently yielded an F1-score of approximately 80%, but domain generalization was not always helpful to improve transferability. We also found that external sources were useful even in cases where in-domain training data were available by reducing the amount of needed in-domain training data or by improving performance. Transferability across institutions was differed by note type and annotation label. External sources from a different institution were also useful to further improve performance.
翻訳日:2021-02-19 07:36:14 公開日:2021-02-17
# (参考訳) 深いボルツマン機械のモード支援継手訓練

Mode-Assisted Joint Training of Deep Boltzmann Machines ( http://arxiv.org/abs/2102.08562v1 )

ライセンス: CC BY 4.0
Haik Manukian and Massimiliano Di Ventra(参考訳) 制限ボルツマンマシン(RBM)の深い拡張は、深ボルツマンマシン(DBM)として知られている、複雑な確率分布のコンパクトな表現として役立つことができる機械学習モデルの表現力のあるファミリです。 しかし、教師なし設定でdbmsを共同訓練することは大変な作業であることが証明されている。 近年提案手法であるmode-assisted trainingはrbmsの教師なしトレーニングの改善に大きな成功を収めている。 ここでは、モードアシストトレーニングのパフォーマンス向上が、DBMにとってさらに劇的であることを示す。 実際、モードアシストアルゴリズムと共同で訓練されたDBMは、最先端のトレーニング手順と比較して桁違いに低い総パラメータ数で同じデータセットを表現でき、また、RBMについてもファンインネットワークトポロジが導入された。 このパラメータの大幅な節約は、このトレーニングメソッドをハードウェア実装にも非常に魅力的にします。

The deep extension of the restricted Boltzmann machine (RBM), known as the deep Boltzmann machine (DBM), is an expressive family of machine learning models which can serve as compact representations of complex probability distributions. However, jointly training DBMs in the unsupervised setting has proven to be a formidable task. A recent technique we have proposed, called mode-assisted training, has shown great success in improving the unsupervised training of RBMs. Here, we show that the performance gains of the mode-assisted training are even more dramatic for DBMs. In fact, DBMs jointly trained with the mode-assisted algorithm can represent the same data set with orders of magnitude lower number of total parameters compared to state-of-the-art training procedures and even with respect to RBMs, provided a fan-in network topology is also introduced. This substantial saving in number of parameters makes this training method very appealing also for hardware implementations.
翻訳日:2021-02-19 07:22:02 公開日:2021-02-17
# (参考訳) StatEcoNet: 種分布モデルのための統計生態ニューラルネットワーク

StatEcoNet: Statistical Ecology Neural Networks for Species Distribution Modeling ( http://arxiv.org/abs/2102.08534v1 )

ライセンス: CC BY 4.0
Eugene Seo, Rebecca A. Hutchinson, Xiao Fu, Chelsea Li, Tyler A. Hallman, John Kilbride, W. Douglas Robinson(参考訳) 本稿では、計算持続可能性と統計生態学のコアタスクである種分布モデリング(SDM)に焦点を当てる。 SDMでは、景観上の種の発生パターンは、一連の場所における観察に基づいて環境特性によって予測される。 最初は、SDMはバイナリ分類の問題であるように見え、それに取り組むために古典的なツール(例えば、ロジスティック回帰、サポートベクターマシン、ニューラルネットワーク)を採用する傾向があります。 しかし、野生動物調査は、種の観察に構造化ノイズ(特にアンダーカウント)を導入します。 これらの観測誤差はSDMを体系的にバイアスする。 本稿では,SDMのユニークな課題を解決するため,StatEcoNetというフレームワークを提案する。 具体的には、統計生態学におけるグラフィカルな生成モデルを用いて、提案した計算フレームワークの骨格として機能し、ニューラルネットワークを慎重に統合する。 関連するアプローチに対するstateconetの利点は、鳥種データと同様にシミュレーションデータセット上で実証されている。 SDMは生態学と天然資源管理にとって重要なツールであるため、StatEcoNetは、脅威のある種の研究と保全など、社会的に重大な影響を与える幅広いアプリケーションに、計算および分析能力の増強を提供する可能性がある。

This paper focuses on a core task in computational sustainability and statistical ecology: species distribution modeling (SDM). In SDM, the occurrence pattern of a species on a landscape is predicted by environmental features based on observations at a set of locations. At first, SDM may appear to be a binary classification problem, and one might be inclined to employ classic tools (e.g., logistic regression, support vector machines, neural networks) to tackle it. However, wildlife surveys introduce structured noise (especially under-counting) in the species observations. If unaccounted for, these observation errors systematically bias SDMs. To address the unique challenges of SDM, this paper proposes a framework called StatEcoNet. Specifically, this work employs a graphical generative model in statistical ecology to serve as the skeleton of the proposed computational framework and carefully integrates neural networks under the framework. The advantages of StatEcoNet over related approaches are demonstrated on simulated datasets as well as bird species data. Since SDMs are critical tools for ecological science and natural resource management, StatEcoNet may offer boosted computational and analytical powers to a wide range of applications that have significant social impacts, e.g., the study and conservation of threatened species.
翻訳日:2021-02-19 07:12:13 公開日:2021-02-17
# (参考訳) 2人プレイのゼロサムマルコフゲームにおける効率的なポリシーグラデーション手法

Provably Efficient Policy Gradient Methods for Two-Player Zero-Sum Markov Games ( http://arxiv.org/abs/2102.08903v1 )

ライセンス: CC BY 4.0
Yulai Zhao, Yuandong Tian, Jason D. Lee, Simon S. Du(参考訳) ポリシーグラデーション法は、実際には超人的なパフォーマンスを達成するために2プレイヤーゼロサムゲームの解決に広く使用されています。 しかし、ほぼ最適のソリューションと、必要なサンプルとイテレーションの数を明らかに見つけることができるとき、それはわかりにくいままです。 本論文では,関数近似を状態全体の一般化に用いる2プレイヤーゼロサムゲームを解くための自然政策グラディエントアルゴリズムの自然拡張について研究する。 我々は,サンプル数,反復数,集中係数,近似誤差の観点から,アルゴリズムの性能を徹底的に評価する。 我々の知る限り、これは2プレイヤゼロサムマルコフゲームに対する関数近似を用いたポリシー勾配法の最初の定量的解析である。

Policy gradient methods are widely used in solving two-player zero-sum games to achieve superhuman performance in practice. However, it remains elusive when they can provably find a near-optimal solution and how many samples and iterations are needed. The current paper studies natural extensions of Natural Policy Gradient algorithm for solving two-player zero-sum games where function approximation is used for generalization across states. We thoroughly characterize the algorithms' performance in terms of the number of samples, number of iterations, concentrability coefficients, and approximation error. To our knowledge, this is the first quantitative analysis of policy gradient methods with function approximation for two-player zero-sum Markov games.
翻訳日:2021-02-19 06:54:50 公開日:2021-02-17
# (参考訳) 文脈強化型識別システム

A Context-Enhanced De-identification System ( http://arxiv.org/abs/2102.08513v1 )

ライセンス: CC BY 4.0
Kahyun Lee, Mehmet Kayaalp, Sam Henry, \"Ozlem Uzuner(参考訳) 現在の最先端の非識別システムを含む、現代のエンティティ認識システムは、条件付きランダムフィールド(CRF)シーケンスオプティマイザによって強化された双方向長短期メモリ(biLSTM)ユニットに基づいている。 これらのシステムは入力文を文単位で処理する。 このアプローチは,システムによる文境界への依存性の捕捉を防止し,正確な文境界検出を前提とした。 文境界の検出は特に臨床報告において問題となる可能性があるため、文境界をまたいだ依存性と共参照が豊富である。 本研究では,これらの制約を克服するために,現在最先端の非識別システムであるNeuroNERの枠組みに基づく新しいシステムを構築した。 この新システムは、文境界を使わずに、前後n-gramの文脈埋め込みを組み込む。 本システムでは,文境界上の依存関係を捕捉し,文境界検出問題を完全に回避する。 このシステムは、深い接着特性と入力の関連する部分をキャプチャするための注意メカニズムで強化しました。 CEDIシステムは、2006 i2b2 de-identificationデータセット、2014 i2b2 shared task de-identificationデータセット、2016 CEGS N-GRID de-identificationデータセット(p<0.01)でNuroNERを上回っている。 全てのデータセットは、英語の物語的臨床報告から構成されるが、吐出サマリーから精神医学的なノートまで様々に異なるノートタイプを含んでいる。 深い付着の特徴および注意のメカニズムとのCEDIを更に高めることは性能を高めます。

Many modern entity recognition systems, including the current state-of-the-art de-identification systems, are based on bidirectional long short-term memory (biLSTM) units augmented by a conditional random field (CRF) sequence optimizer. These systems process the input sentence by sentence. This approach prevents the systems from capturing dependencies over sentence boundaries and makes accurate sentence boundary detection a prerequisite. Since sentence boundary detection can be problematic especially in clinical reports, where dependencies and co-references across sentence boundaries are abundant, these systems have clear limitations. In this study, we built a new system on the framework of one of the current state-of-the-art de-identification systems, NeuroNER, to overcome these limitations. This new system incorporates context embeddings through forward and backward n-grams without using sentence boundaries. Our context-enhanced de-identification (CEDI) system captures dependencies over sentence boundaries and bypasses the sentence boundary detection problem altogether. We enhanced this system with deep affix features and an attention mechanism to capture the pertinent parts of the input. The CEDI system outperforms NeuroNER on the 2006 i2b2 de-identification challenge dataset, the 2014 i2b2 shared task de-identification dataset, and the 2016 CEGS N-GRID de-identification dataset (p<0.01). All datasets comprise narrative clinical reports in English but contain different note types varying from discharge summaries to psychiatric notes. Enhancing CEDI with deep affix features and the attention mechanism further increased performance.
翻訳日:2021-02-19 06:53:52 公開日:2021-02-17
# (参考訳) scidr at sdu-2020: ideas -- identifying and disambiguating daily acronyms for scientific domain

SciDr at SDU-2020: IDEAS -- Identifying and Disambiguating Everyday Acronyms for Scientific Domain ( http://arxiv.org/abs/2102.08818v1 )

ライセンス: CC BY 4.0
Aadarsh Singh and Priyanshu Kumar(参考訳) SDUワークショップで実施された頭字語識別(AI)と頭字語曖昧化(AD)の共有タスクのために提出されたシステムを紹介します。 私たちは主にBERTとSciBERTで実験します。 また、AIにおけるアンサンブル能力とともに「BIOless」タグ付けとブレンドの有効性を評価します。 ADでは、問題をスパン予測タスクとして定式化し、さまざまなトレーニングテクニックを実験し、外部データの使用を活用します。 当社のシステムはAIとADのタスクでそれぞれ11位と3位にランクされます。

We present our systems submitted for the shared tasks of Acronym Identification (AI) and Acronym Disambiguation (AD) held under Workshop on SDU. We mainly experiment with BERT and SciBERT. In addition, we assess the effectiveness of "BIOless" tagging and blending along with the prowess of ensembling in AI. For AD, we formulate the problem as a span prediction task, experiment with different training techniques and also leverage the use of external data. Our systems rank 11th and 3rd in AI and AD tasks respectively.
翻訳日:2021-02-19 06:16:45 公開日:2021-02-17
# (参考訳) 遺伝学的に最適化された余命の予測

Genetically Optimized Prediction of Remaining Useful Life ( http://arxiv.org/abs/2102.08845v1 )

ライセンス: CC BY 4.0
Shaashwat Agrawal, Sagnik Sarkar, Gautam Srivastava, Praveen Kumar Reddy Maddikunta, Thippa Reddy Gadekallu(参考訳) 有効寿命予測(RUL)の適用は、エネルギー最適化、費用対効果、リスク軽減の観点から非常に重要である。 既存のRUL予測アルゴリズムは、主にディープラーニングフレームワークを構成する。 本稿では、LSTMとGRUモデルを実装し、得られた結果と、提案された遺伝子訓練ニューラルネットワークを比較します。 現在のモデルは最適化と学習のためにAdamとSGDにのみ依存している。 モデルはこれらのオプティマイザとうまく機能しているが、予後予測の不確実性でさえも大きな損失をもたらす可能性がある。 遺伝的アルゴリズムを用いた他の最適化層を追加することによって,予測の整合性の向上を期待する。 ハイパーパラメータ - 学習率とバッチサイズは手動容量を超えて最適化されます。 これらのモデルと提案されたアーキテクチャは、nasaのターボファンジェットエンジンデータセットでテストされている。 最適化されたアーキテクチャは、与えられたハイパーパラメータを自律的に予測し、優れた結果を提供する。

The application of remaining useful life (RUL) prediction has taken great importance in terms of energy optimization, cost-effectiveness, and risk mitigation. The existing RUL prediction algorithms mostly constitute deep learning frameworks. In this paper, we implement LSTM and GRU models and compare the obtained results with a proposed genetically trained neural network. The current models solely depend on Adam and SGD for optimization and learning. Although the models have worked well with these optimizers, even little uncertainties in prognostics prediction can result in huge losses. We hope to improve the consistency of the predictions by adding another layer of optimization using Genetic Algorithms. The hyper-parameters - learning rate and batch size are optimized beyond manual capacity. These models and the proposed architecture are tested on the NASA Turbofan Jet Engine dataset. The optimized architecture can predict the given hyper-parameters autonomously and provide superior results.
翻訳日:2021-02-19 05:16:31 公開日:2021-02-17
# (参考訳) 画像時系列からのクロップマッピング:マルチスケールラベル階層を用いた深層学習

Crop mapping from image time series: deep learning with multi-scale label hierarchies ( http://arxiv.org/abs/2102.08820v1 )

ライセンス: CC BY 4.0
Mehmet Ozgur Turkoglu, Stefano D'Aronco, Gregor Perich, Frank Liebisch, Constantin Streit, Konrad Schindler, Jan Dirk Wegner(参考訳) 本研究の目的は,衛星画像時系列の分類による農業作物の地図作成である。 農業分野の専門家は、果樹園のような粗いクラス(果樹園)をより細かいもの(リンゴ、洋ナシ、ブドウなど)に分類する階層的な木構造で組織された作物型ラベルを扱っている。 本研究では,この知識を活かした作物分類手法を開発し,希少作物のマッピングを大幅に改善する。 3レベルのラベル階層は畳み込みニューラルネットワーク(convRNN)にエンコードされ、各ピクセルに対してモデルは異なるレベルの粒度で3つのラベルを予測する。 このエンドツーエンドのトレーニング可能な階層的ネットワークアーキテクチャにより、モデルは粗いレベル(例えば果樹園)でレアクラス(例えばリンゴ、ナシ)の共同特徴表現を学ぶことができ、細粒度の分類性能を高めることができる。 さらに、異なる粒度でのラベル付けは、分類スコアに応じて出力を調整することも可能であり、高い信頼度を持つ粗いラベルは、細粒度であるが不確定なラベルよりも農業実践に有用である。 我々は,提案手法を新たに公開する大規模データセット上で検証する。 zuericrop はスイスのチューリッヒ州とトゥールガウ州で50 km x 48 km の面積をカバーしており、48の作物のクラスにまたがる116'000の個別の畑と、センチネル-2からの28,000のイメージパッチがある。 提案する階層型convrnnモデルと,不均衡クラス分散のための手法を含む複数のベースラインを比較した。 階層的アプローチは、F1スコアの少なくとも9.9ポイントよりも優れている。

The aim of this paper is to map agricultural crops by classifying satellite image time series. Domain experts in agriculture work with crop type labels that are organised in a hierarchical tree structure, where coarse classes (like orchards) are subdivided into finer ones (like apples, pears, vines, etc.). We develop a crop classification method that exploits this expert knowledge and significantly improves the mapping of rare crop types. The three-level label hierarchy is encoded in a convolutional, recurrent neural network (convRNN), such that for each pixel the model predicts three labels at different level of granularity. This end-to-end trainable, hierarchical network architecture allows the model to learn joint feature representations of rare classes (e.g., apples, pears) at a coarser level (e.g., orchard), thereby boosting classification performance at the fine-grained level. Additionally, labelling at different granularity also makes it possible to adjust the output according to the classification scores; as coarser labels with high confidence are sometimes more useful for agricultural practice than fine-grained but very uncertain labels. We validate the proposed method on a new, large dataset that we make public. ZueriCrop covers an area of 50 km x 48 km in the Swiss cantons of Zurich and Thurgau with a total of 116'000 individual fields spanning 48 crop classes, and 28,000 (multi-temporal) image patches from Sentinel-2. We compare our proposed hierarchical convRNN model with several baselines, including methods designed for imbalanced class distributions. The hierarchical approach performs superior by at least 9.9 percentage points in F1-score.
翻訳日:2021-02-19 04:22:46 公開日:2021-02-17
# (参考訳) THEaiTRE 1.0:演劇脚本のインタラクティブな生成

THEaiTRE 1.0: Interactive generation of theatre play scripts ( http://arxiv.org/abs/2102.08892v1 )

ライセンス: CC BY 4.0
Rudolf Rosa and Tom\'a\v{s} Musil and Ond\v{r}ej Du\v{s}ek and Dominik Jurko and Patr\'icia Schmidtov\'a and David Mare\v{c}ek and Ond\v{r}ej Bojar and Tom Kocmi and Daniel Hrbek and David Ko\v{s}\v{t}\'ak and Martina Kinsk\'a and Marie Nov\'akov\'a and Josef Dole\v{z}al and Kl\'ara Voseck\'a and Tom\'a\v{s} Studen\'ik and Petr \v{Z}abka(参考訳) 演劇脚本をインタラクティブに生成するためのシステムの最初のバージョンを紹介します。 このシステムは、いくつかの調整を施したバニラGPT-2モデルに基づいており、実際に遭遇した特定の問題をターゲットにしている。 また、遭遇した他の問題をリストアップしますが、システムの将来のバージョンでのみ解決する予定です。 提示されたシステムは、2021年2月に初演予定の演劇脚本の作成に使用された。

We present the first version of a system for interactive generation of theatre play scripts. The system is based on a vanilla GPT-2 model with several adjustments, targeting specific issues we encountered in practice. We also list other issues we encountered but plan to only solve in a future version of the system. The presented system was used to generate a theatre play script planned for premiere in February 2021.
翻訳日:2021-02-19 04:21:30 公開日:2021-02-17
# (参考訳) NODE-SELECT : 選択的伝播法に基づくグラフニューラルネットワーク

NODE-SELECT: A Graph Neural Network Based On A Selective Propagation Technique ( http://arxiv.org/abs/2102.08588v1 )

ライセンス: CC BY-SA 4.0
Steph-Yves Louis, Alireza Nasiri, Fatima J. Rolland, Cameron Mitro, and Jianjun Hu(参考訳) ノード分類のための多種多様なグラフニューラルネットワーク(GNN)が存在するが、メッセージパッシング手順中に効果的にノイズ伝搬をターゲットするメカニズムを採用するのは少数のみである。 さらに、グラフニューラルネットワークに大きく影響する非常に重要な課題は、アプリケーションをより大きなグラフに制限するスケーラビリティの問題である。 本論文では,最適な共有フィットノードのみが情報を伝播できるサブセット層を用いた効率的なグラフニューラルネットワークであるNODE-SELECTを提案する。 提案手法であるNODE-SELECTは,各層に並列に積み重ねる選択機構を持つことで,拡散するノイズを低減し,実世界グラフに見られる制限共有の概念を適応させることができる。 当社のNODE-SELECTは、ノイズ実験における既存のGNNフレームワークを大幅に上回り、異なるベンチマークデータセット上のノイズのない実験における最先端の結果と一致しました。

While there exists a wide variety of graph neural networks (GNN) for node classification, only a minority of them adopt mechanisms that effectively target noise propagation during the message-passing procedure. Additionally, a very important challenge that significantly affects graph neural networks is the issue of scalability which limits their application to larger graphs. In this paper we propose our method named NODE-SELECT: an efficient graph neural network that uses subsetting layers which only allow the best sharing-fitting nodes to propagate their information. By having a selection mechanism within each layer which we stack in parallel, our proposed method NODE-SELECT is able to both reduce the amount noise propagated and adapt the restrictive sharing concept observed in real world graphs. Our NODE-SELECT significantly outperformed existing GNN frameworks in noise experiments and matched state-of-the art results in experiments without noise over different benchmark datasets.
翻訳日:2021-02-19 04:14:30 公開日:2021-02-17
# (参考訳) 食選択に影響を及ぼすソーシャルティーの形成 : キャンパスワイド縦断的研究

Formation of Social Ties Influences Food Choice: A Campus-Wide Longitudinal Study ( http://arxiv.org/abs/2102.08755v1 )

ライセンス: CC BY 4.0
Kristina Gligori\'c, Ryen W. White, Emre K{\i}c{\i}man, Eric Horvitz, Arnaud Chiolero, Robert West(参考訳) 栄養は長期的な健康の重要な決定要因であり、社会的影響は長い間栄養の重要な決定要因であると理論化されてきた。 調査などの伝統的な方法を用いた栄養学における社会的影響の仮定的役割の定量化は、通常、小規模で研究期間の短いため困難である。 Ecole Polytechnique Federale de Lausanne(EPFL)大学のキャンパスで8年間に生産された食品購入3800万件のログを、クラウド上での購入に使用されるスマートカードを通じて匿名化された個人に関連付けている。 食事選択が健康な人との食事選択が、健康な人と不健康な人との食事選択にどのような影響があるのか? To estimate causal effects from the passively observed log data, we control confounds in a matched quasi-experimental design: we identify focal users who at first do not have any regular eating partners but then start eating with a fixed partner regularly, and we match focal users into comparison pairs such that paired users are nearly identical with respect to covariates measured before acquiring the partner, where the two focal users' new eating partners diverge in the healthiness of their respective food choice. 健康な食事のパートナーを取得する焦点のユーザは、健康な食事のパートナーを取得する焦点のユーザよりも、健康的な食べ物に対する習慣を大きく変えます。 さらに, 食品選択の健康度によって, 購入頻度が大きく影響を受ける食品を同定した。 研究では、主な成果に加えて、受動的に感知された食品購入ログの有用性を実証し、公衆衛生介入と食品の提供の設計を知らせる可能性がある。

Nutrition is a key determinant of long-term health, and social influence has long been theorized to be a key determinant of nutrition. It has been difficult to quantify the postulated role of social influence on nutrition using traditional methods such as surveys, due to the typically small scale and short duration of studies. To overcome these limitations, we leverage a novel source of data: logs of 38 million food purchases made over an 8-year period on the Ecole Polytechnique Federale de Lausanne (EPFL) university campus, linked to anonymized individuals via the smartcards used to make on-campus purchases. In a longitudinal observational study, we ask: How is a person's food choice affected by eating with someone else whose own food choice is healthy vs. unhealthy? To estimate causal effects from the passively observed log data, we control confounds in a matched quasi-experimental design: we identify focal users who at first do not have any regular eating partners but then start eating with a fixed partner regularly, and we match focal users into comparison pairs such that paired users are nearly identical with respect to covariates measured before acquiring the partner, where the two focal users' new eating partners diverge in the healthiness of their respective food choice. A difference-in-differences analysis of the paired data yields clear evidence of social influence: focal users acquiring a healthy-eating partner change their habits significantly more toward healthy foods than focal users acquiring an unhealthy-eating partner. We further identify foods whose purchase frequency is impacted significantly by the eating partner's healthiness of food choice. Beyond the main results, the work demonstrates the utility of passively sensed food purchase logs for deriving insights, with the potential of informing the design of public health interventions and food offerings.
翻訳日:2021-02-19 03:58:46 公開日:2021-02-17
# (参考訳) ロボットナビゲーションにおける快適性をモデル化するグラフニューラルネットワーク

A Graph Neural Network to Model User Comfort in Robot Navigation ( http://arxiv.org/abs/2102.08863v1 )

ライセンス: CC BY-SA 4.0
Pilar Bachiller and Daniel Rodriguez-Criado and Ronit R. Jorvekar and Pablo Bustos and Diego R. Faria and Luis J. Manso(参考訳) 自律ナビゲーションは、アシストロボットやサービスロボットにとって重要なスキルだ。 成功するためには、ロボットは移動中の人間の破壊を最小限に抑える必要がある。 これは人々がどのように行動し、社会的慣例に従うかを予測することを意味する。 個人の空間を乱すのを避けるため、人々の道や交流はこれらの社会的慣習の例である。 本稿では,人やロボットの動きを考慮し,グラフニューラルネットワークを用いてロボットの破壊をモデル化し,経路計画アルゴリズムを用いてモデルを構築する。 本稿では,ロボットと人間の移動を考慮したデータセットsocnav1の進化と,異なるグラフニューラルネットワークブロックを用いてテストした新たなシナリオからグラフへの変換について述べる。 トレーニングされたモデルは、データセットで人間に近いパフォーマンスを達成する。 その正確性に加えて、アプローチの主な利点は、手作りモデルと比較して考慮することができる社会的要因の数の観点から、そのスケーラビリティである。

Autonomous navigation is a key skill for assistive and service robots. To be successful, robots have to minimise the disruption caused to humans while moving. This implies predicting how people will move and complying with social conventions. Avoiding disrupting personal spaces, people's paths and interactions are examples of these social conventions. This paper leverages Graph Neural Networks to model robot disruption considering the movement of the humans and the robot so that the model built can be used by path planning algorithms. Along with the model, this paper presents an evolution of the dataset SocNav1 which considers the movement of the robot and the humans, and an updated scenario-to-graph transformation which is tested using different Graph Neural Network blocks. The model trained achieves close-to-human performance in the dataset. In addition to its accuracy, the main advantage of the approach is its scalability in terms of the number of social factors that can be considered in comparison with handcrafted models.
翻訳日:2021-02-19 03:28:46 公開日:2021-02-17
# (参考訳) 分布の射影族を表現するための確率論的論理プログラミングの漸近解析

An asymptotic analysis of probabilistic logic programming with implications for expressing projective families of distributions ( http://arxiv.org/abs/2102.08777v1 )

ライセンス: CC BY 4.0
Felix Weitk\"amper(参考訳) 近年, 領域の大きさに比例した統計的関係表現のスケーリング挙動や, ドメインサイズ依存と昇降推論の関係についての研究が増えている。 特に、統計関係表現の漸近的挙動は精査され、射影性はドメインサイズ独立の最も強い形態として分離された。 この貢献により、分布意味論に基づくすべての確率論理プログラムは、確率的事実に対する範囲制限項のみからなる確率的論理プログラムと同等であることが示された。 有限モデル理論からの古典的結果の適用を容易にするために,確率的事実に対する任意の論理理論として定義される抽象分布意味論を導入し,確率的論理プログラミングの基礎となる分布意味論にギャップを橋渡しする。 この表現において、範囲制限論理プログラムは、量子化子のない理論に対応し、漸近量化子の結果を使用不能にする。 射影的分布群を誘導する確率論的論理プログラムは、実際にはこのクラスによって捕捉され、確率論的論理プログラムの表現性、および確率論的規則の無症状行動に対する興味深い結果を推測することができる。

Over the last years, there has been increasing research on the scaling behaviour of statistical relational representations with the size of the domain, and on the connections between domain size dependence and lifted inference. In particular, the asymptotic behaviour of statistical relational representations has come under scrutiny, and projectivity was isolated as the strongest form of domain size independence. In this contribution we show that every probabilistic logic program under the distribution semantics is asymptotically equivalent to a probabilistic logic program consisting only of range-restricted clauses over probabilistic facts. To facilitate the application of classical results from finite model theory, we introduce the abstract distribution semantics, defined as an arbitrary logical theory over probabilistic facts to bridge the gap to the distribution semantics underlying probabilistic logic programming. In this representation, range-restricted logic programs correspond to quantifier-free theories, making asymptotic quantifier results avilable for use. We can conclude that every probabilistic logic program inducing a projective family of distributions is in fact captured by this class, and we can infer interesting consequences for the expressivity of probabilistic logic programs as well as for the asymptotic behaviour of probabilistic rules.
翻訳日:2021-02-19 03:12:24 公開日:2021-02-17
# (参考訳) IoTDevID:IoTにおけるデバイス識別のための振る舞いに基づくフィンガープリント手法

IoTDevID: A Behaviour-Based Fingerprinting Method for Device Identification in the IoT ( http://arxiv.org/abs/2102.08866v1 )

ライセンス: CC BY 4.0
Kahraman Kostas, Mike Just, Michael A. Lones(参考訳) デバイス識別はIoTデバイスのネットワークを保護する1つの方法であり、疑わしいと識別されたデバイスがネットワークから隔離される。 ネットワークパケットに基づくIoTデバイスの動作をモデル化する機械学習を用いたデバイス識別のための,新たなフィンガープリント手法であるIoTDevIDを提案する。 提案手法では,従来からある機能の組み合わせを改良し,データ拡張による不均衡なデバイスデータ処理のアプローチを含む。 さらに,グループデータアグリゲーションによるデバイス識別の強化方法を示す。 本研究では,100デバイス以上のデータを含む3つのパブリックIoTデータセットを用いて,最近の2つの識別方法との比較評価を行う。 評価の結果,f1-scoreが99%以上向上し,データアグリゲーションによる改善がみられた。

Device identification is one way to secure a network of IoT devices, whereby devices identified as suspicious can subsequently be isolated from a network. We introduce a novel fingerprinting method, IoTDevID, for device identification that uses machine learning to model the behaviour of IoT devices based on network packets. Our method uses an enhanced combination of features from previous work and includes an approach for dealing with unbalanced device data via data augmentation. We further demonstrate how to enhance device identification via a group-wise data aggregation. We provide a comparative evaluation of our method against two recent identification methods using three public IoT datasets which together contain data from over 100 devices. Through our evaluation we demonstrate improved performance over previous results with F1-scores above 99%, with considerable improvement gained from data aggregation.
翻訳日:2021-02-19 02:56:03 公開日:2021-02-17
# (参考訳) 薄血スミア画像におけるマラリアライフサイクル分類のためのデータセットとベンチマーク

A Dataset and Benchmark for Malaria Life-Cycle Classification in Thin Blood Smear Images ( http://arxiv.org/abs/2102.08708v1 )

ライセンス: CC BY 4.0
Qazi Ammar Arshad, Mohsen Ali, Saeed-ul Hassan, Chen Chen, Ayisha Imran, Ghulam Rasul, Waqas Sultani(参考訳) マラリア顕微鏡、寄生虫Plasmodiumを検出するステンド血液スライドの顕微鏡検査は、生命を脅かす病気のマラリアを検出するための金標準であると考えられています。 プラスミジウム寄生虫の検出には熟練した検査官が必要で、スライド全体を完全に通過するのに最大10分から15分かかる。 未発達または資源不足の地域では熟練した医療専門家が不足しているため、多くの患者は誤診され、避けられない合併症や不適切な薬が生じる。 染色フィルム写真中のプラスモジウム寄生虫を自動的に検出(局在化)する深層学習法を考案し,医療従事者を補完することを提案する。 データセットのアンバランスな性質を扱うために、2段階のアプローチを採用しています。 最初の段階は、血液細胞を検出し、健康的または感染しただけに分類するように訓練されています。 第2段階は、検出された各細胞をさらにライフサイクルステージに分類するように訓練される。 機械学習に基づくマラリア顕微鏡の研究を容易にするために,新しい大規模顕微鏡画像マラリアデータセットを提案する。 血液サンプルの異なるGiemsa染色スライドの345の顕微鏡画像から30万細胞がタグ付けされています。 大規模な実験は、データセット上でVGG、DenseNet、ResNetなど、さまざまなCNNバックボーンを使用して行われる。 実験と分析の結果,2段階のアプローチはマラリア検出の1段階のアプローチよりも有効であることが判明した。 このアプローチのユーザビリティを確保するために,我々は,地域病院が調査や教育目的で利用するモバイルアプリも開発した。 データセット、そのアノテーション、実装コードは、論文の発行時にリリースされる予定だ。

Malaria microscopy, microscopic examination of stained blood slides to detect parasite Plasmodium, is considered to be a gold-standard for detecting life-threatening disease malaria. Detecting the plasmodium parasite requires a skilled examiner and may take up to 10 to 15 minutes to completely go through the whole slide. Due to a lack of skilled medical professionals in the underdeveloped or resource deficient regions, many cases go misdiagnosed; resulting in unavoidable complications and/or undue medication. We propose to complement the medical professionals by creating a deep learning-based method to automatically detect (localize) the plasmodium parasites in the photograph of stained film. To handle the unbalanced nature of the dataset, we adopt a two-stage approach. Where the first stage is trained to detect blood cells and classify them into just healthy or infected. The second stage is trained to classify each detected cell further into the life-cycle stage. To facilitate the research in machine learning-based malaria microscopy, we introduce a new large scale microscopic image malaria dataset. Thirty-eight thousand cells are tagged from the 345 microscopic images of different Giemsa-stained slides of blood samples. Extensive experimentation is performed using different CNN backbones including VGG, DenseNet, and ResNet on this dataset. Our experiments and analysis reveal that the two-stage approach works better than the one-stage approach for malaria detection. To ensure the usability of our approach, we have also developed a mobile app that will be used by local hospitals for investigation and educational purposes. The dataset, its annotations, and implementation codes will be released upon publication of the paper.
翻訳日:2021-02-19 02:41:22 公開日:2021-02-17
# (参考訳) ニューラルアーキテクチャとハードウェアアクセラレータの共設計再考

Rethinking Co-design of Neural Architectures and Hardware Accelerators ( http://arxiv.org/abs/2102.08619v1 )

ライセンス: CC BY 4.0
Yanqi Zhou, Xuanyi Dong, Berkin Akin, Mingxing Tan, Daiyi Peng, Tianjian Meng, Amir Yazdanbakhsh, Da Huang, Ravi Narayanaswami, James Laudon(参考訳) ニューラルアーキテクチャとハードウェアアクセラレーターは、ディープラーニングの進歩の推進力として2つある。 以前は、固定モデルアーキテクチャや固定ハードウェアのモデルアーキテクチャが与えられた場合、ハードウェアを最適化しようとしていた。 そして、この先行研究で探索されたハードウェアアーキテクチャはFPGAである。 本研究は,業界標準エッジアクセラレータ上でのハードウェアおよびソフトウェア構成の最適化を目標とする。 我々は,ニューラルアーキテクチャとハードウェアアクセラレータの協調設計の重要性と戦略を体系的に研究する。 1) 対象とするハードウェアアーキテクチャをフル活用するためにソフトウェア検索空間をカスタマイズしなければならないこと,2) モデルアーキテクチャとハードウェアアーキテクチャの検索を,両世界のベストを達成するために共同で行うこと,3) 異なるユースケースが,非常に異なる検索結果をもたらすこと,の3つの観察を行う。 提案手法は,従来のプラットフォーム認識型ニューラルネットワーク検索,手作業によるモデル,およびimagenet top-1精度の約1%の遅延目標に対する最先端の効率性に一貫して優れることを示す。 本手法は,モデルアーキテクチャとハードウェアアクセラレータ構成を併用することで,エッジアクセラレータのエネルギー消費を,同じ精度制約下で最大2倍削減することができる。

Neural architectures and hardware accelerators have been two driving forces for the progress in deep learning. Previous works typically attempt to optimize hardware given a fixed model architecture or model architecture given fixed hardware. And the dominant hardware architecture explored in this prior work is FPGAs. In our work, we target the optimization of hardware and software configurations on an industry-standard edge accelerator. We systematically study the importance and strategies of co-designing neural architectures and hardware accelerators. We make three observations: 1) the software search space has to be customized to fully leverage the targeted hardware architecture, 2) the search for the model architecture and hardware architecture should be done jointly to achieve the best of both worlds, and 3) different use cases lead to very different search outcomes. Our experiments show that the joint search method consistently outperforms previous platform-aware neural architecture search, manually crafted models, and the state-of-the-art EfficientNet on all latency targets by around 1% on ImageNet top-1 accuracy. Our method can reduce energy consumption of an edge accelerator by up to 2x under the same accuracy constraint, when co-adapting the model architecture and hardware accelerator configurations.
翻訳日:2021-02-19 01:30:29 公開日:2021-02-17
# (参考訳) ランダムウォーク上の1次元畳み込みによるグラフ学習

Graph Learning with 1D Convolutions on Random Walks ( http://arxiv.org/abs/2102.08786v1 )

ライセンス: CC BY 4.0
Jan Toenshoff, Martin Ritzert, Hinrikus Wolf, Martin Grohe(参考訳) 我々は,グラフ学習のためのニューラルネットワークアーキテクチャであるCRaWl (CNNs for Random Walks)を提案する。 通常の1次元CNNを用いたランダムウォークによって誘導される小さなサブグラフの処理シーケンスに基づいている。 したがって、CRaWlは典型的なメッセージパッシンググラフニューラルネットワークアーキテクチャと根本的に異なる。 グラフレットカーネルやモチーフカウントなどの小さなサブグラフをカウントする技術にインスパイアされ、高度に効率的でスケーラブルなニューラルネットワークアーキテクチャでランダムウォークベースのテクニックと組み合わせられる。 我々は、CRaWlがグラフ学習のためのベンチマークデータセットを多用し、最先端のGNNアーキテクチャに適合または優れることを示す。

We propose CRaWl (CNNs for Random Walks), a novel neural network architecture for graph learning. It is based on processing sequences of small subgraphs induced by random walks with standard 1D CNNs. Thus, CRaWl is fundamentally different from typical message passing graph neural network architectures. It is inspired by techniques counting small subgraphs, such as the graphlet kernel and motif counting, and combines them with random walk based techniques in a highly efficient and scalable neural architecture. We demonstrate empirically that CRaWl matches or outperforms state-of-the-art GNN architectures across a multitude of benchmark datasets for graph learning.
翻訳日:2021-02-19 01:11:14 公開日:2021-02-17
# (参考訳) ppAUC: セキュアな3部計算による曲線下のプライバシー保護エリア

ppAUC: Privacy Preserving Area Under the Curve with Secure 3-Party Computation ( http://arxiv.org/abs/2102.08788v1 )

ライセンス: CC BY 4.0
Ali Burak \"Unal, Nico Pfeifer, Mete Akg\"un(参考訳) さまざまな機械学習モデルの品質を比較するためのパフォーマンス指標としてのAUCの計算は多くの研究プロジェクトの最終段階の1つである。 これらのメソッドの多くはプライバシに敏感なデータに基づいてトレーニングされており、$\epsilon$-differential privacy、federated machine learning、暗号化アプローチに基づくメソッドなど、データセットが一箇所で共有または評価できない場合、いくつかの異なるアプローチがある。 この設定では、ラベルにはプライバシーに敏感な情報も含まれているため、グローバルなAUCを計算することも問題となる。 この問題に対処するためには$\epsilon$-differential privacyに基づくアプローチがありましたが、私たちの知る限り、正確なプライバシー保護ソリューションは導入されていません。 本稿では,2つの秘密共有値の比較,2つの秘密共有値の選択,モジュラスとディビジョンの変換,プール元のテストサンプルで得られる正確なaucの計算を行うための新しい手法であるprivacy preservation auc(ppauc)というmpcベースのフレームワークを提案する。 我々は,精度・リコール曲線の下での正確な面積の計算に ppAUC を用い,予測信頼度値間の関係においても受信特性曲線を演算する。 ppaucの正確性を証明するために,急性骨髄性白血病治療反応予測訓練モデルの評価に適用し,合成データを用いた実験によりその拡張性を評価する。 実験により, 平文領域のプールテストサンプルから得られるような, 両方の評価指標を, プライバシ保護方式で, 全く同じAUCを効率的に計算できることが確認された。 当社のソリューションは、安全な計算を実行するサーバーの少なくとも1つに対して、半正直な破損に対するセキュリティを提供します。

Computing an AUC as a performance measure to compare the quality of different machine learning models is one of the final steps of many research projects. Many of these methods are trained on privacy-sensitive data and there are several different approaches like $\epsilon$-differential privacy, federated machine learning and methods based on cryptographic approaches if the datasets cannot be shared or evaluated jointly at one place. In this setting, it can also be a problem to compute the global AUC, since the labels might also contain privacy-sensitive information. There have been approaches based on $\epsilon$-differential privacy to deal with this problem, but to the best of our knowledge, no exact privacy preserving solution has been introduced. In this paper, we propose an MPC-based framework, called privacy preserving AUC (ppAUC), with novel methods for comparing two secret-shared values, selecting between two secret-shared values, converting the modulus and performing division to compute the exact AUC as one could obtain on the pooled original test samples. We employ ppAUC in the computation of the exact area under precision-recall curve and receiver operating characteristic curve even for ties between prediction confidence values. To prove the correctness of ppAUC, we apply it to evaluate a model trained to predict acute myeloid leukemia therapy response and we also assess its scalability via experiments on synthetic data. The experiments show that we efficiently compute exactly the same AUC with both evaluation metrics in a privacy preserving manner as one can obtain on the pooled test samples in the plaintext domain. Our solution provides security against semi-honest corruption of at most one of the servers performing the secure computation.
翻訳日:2021-02-19 00:45:27 公開日:2021-02-17
# (参考訳) 独自の最適解による高速グラフ学習

Fast Graph Learning with Unique Optimal Solutions ( http://arxiv.org/abs/2102.08530v1 )

ライセンス: CC BY 4.0
Sami Abu-El-Haija, Valentino Crespi, Greg Ver Steeg, Aram Galstyan(参考訳) グラフ表現学習(GRL)は前例のない速度で進んでいます。 しかし、多くの結果はアーキテクチャや目的、トレーニングスキームの設計とチューニングに頼っている。 既知のクローズドフォームソリューションで対流目標を最適化する効率的なGLL法を提案します。 グローバル最適リリースへのコンバーゼンス保証 ハイパーパラメータとアーキテクチャチューニングによる実践者。 しかし,提案手法は,GRLタスクにおける競合性や最先端性を実現し,桁違いの高速化を実現している。 私たちの目的の設計行列($\mathbf{M}$)は計算するのに高価ですが、$\mathbf{M}$の明示的な計算を避けながら、ランダム行列理論から線形時間の近似解への結果を利用します。 コードはオンラインです: http://github.com/samihaija/tf-fsvd

Graph Representation Learning (GRL) has been advancing at an unprecedented rate. However, many results rely on careful design and tuning of architectures, objectives, and training schemes. We propose efficient GRL methods that optimize convexified objectives with known closed form solutions. Guaranteed convergence to a global optimum releases practitioners from hyper-parameter and architecture tuning. Nevertheless, our proposed method achieves competitive or state-of-the-art performance on popular GRL tasks while providing orders of magnitude speedup. Although the design matrix ($\mathbf{M}$) of our objective is expensive to compute, we exploit results from random matrix theory to approximate solutions in linear time while avoiding an explicit calculation of $\mathbf{M}$. Our code is online: http://github.com/samihaija/tf-fsvd
翻訳日:2021-02-18 22:25:32 公開日:2021-02-17
# (参考訳) 公衆顔画像を用いたゲノムデータセットの個人再同定

Re-identification of Individuals in Genomic Datasets Using Public Face Images ( http://arxiv.org/abs/2102.08557v1 )

ライセンス: CC BY 4.0
Rajagopal Venkatesaramani, Bradley A. Malin, Yevgeniy Vorobeychik(参考訳) DNAシークエンシングは、医療と消費者への直接的な設定の両方で、ますます一般的になっています。 発見を促進するために、収集されたゲノムデータはしばしば非識別化され、OpenSNPなどの公開リポジトリまたはアクセス制御リポジトリを介して研究者と共有される。 しかし、近年の研究では、ゲノムデータは高解像度の3次元顔画像と効果的にマッチングできることが示唆されており、ますます普及する公衆顔画像が共有ゲノムデータにリンクされ、それによってゲノムデータ内の個人を再同定することが懸念されている。 これらの調査はそのような攻撃の可能性を示しているが、彼らはリンクを行う者は極めて正確なデータにアクセスできると仮定している。 これは実際にはそうではないことを考えると、それは攻撃の実用的な性質に疑問を投げかけます。 そこで,本研究では,この再識別リスクを,実顔画像を用いた場合のリンク攻撃がいかに成功するか,そして,その関連した再識別リスクを個人によりよく制御させる方法について検討する。 再同定の真のリスクは、以前の文献が示唆するよりも、ほとんどの個人にとってかなり小さいと考えられる。 さらに、少量の注意深く作られたノイズを画像に追加することで、再識別の成功と共有画像の品質のトレードオフを制御できることを実証します。

DNA sequencing is becoming increasingly commonplace, both in medical and direct-to-consumer settings. To promote discovery, collected genomic data is often de-identified and shared, either in public repositories, such as OpenSNP, or with researchers through access-controlled repositories. However, recent studies have suggested that genomic data can be effectively matched to high-resolution three-dimensional face images, which raises a concern that the increasingly ubiquitous public face images can be linked to shared genomic data, thereby re-identifying individuals in the genomic data. While these investigations illustrate the possibility of such an attack, they assume that those performing the linkage have access to extremely well-curated data. Given that this is unlikely to be the case in practice, it calls into question the pragmatic nature of the attack. As such, we systematically study this re-identification risk from two perspectives: first, we investigate how successful such linkage attacks can be when real face images are used, and second, we consider how we can empower individuals to have better control over the associated re-identification risk. We observe that the true risk of re-identification is likely substantially smaller for most individuals than prior literature suggests. In addition, we demonstrate that the addition of a small amount of carefully crafted noise to images can enable a controlled trade-off between re-identification success and the quality of shared images, with risk typically significantly lowered even with noise that is imperceptible to humans.
翻訳日:2021-02-18 22:03:07 公開日:2021-02-17
# (参考訳) DESED-FLとURBAN-FL:音のイベント検出のためのフェデレーション学習データセット

DESED-FL and URBAN-FL: Federated Learning Datasets for Sound Event Detection ( http://arxiv.org/abs/2102.08833v1 )

ライセンス: CC BY-SA 4.0
David S. Johnson, Wolfgang Lorenz, Michael Taenzer, Stylianos Mimilakis, Sascha Grollmisch, Jakob Abe{\ss}er, Hanna Lukashevich(参考訳) 近年,環境環境における音イベント検出(sed)の研究が注目されている。 大量の(プライベート)国内または都市のオーディオデータは、重要なロジスティクスおよびプライバシーの懸念を引き起こします。 これらのタスクの本質的に分散された性質により、フェデレーションラーニング(FL)は、プライバシー問題を緩和しながら大規模なデータを活用するための有望なアプローチとなります。 FLも最近注目されているが、私たちの知る限り、SEDのためのFLについての研究はない。 このギャップに対処し、この分野のさらなる研究を促進するために、国内および都市環境でSED用の新しいFLデータセットを作成および公開します。 さらに,3つのディープニューラルネットワークアーキテクチャに対して,FLコンテキストにおけるデータセットのベースライン結果を提供する。 その結果、FLはSEDにとって有望なアプローチであるが、分散クライアントエッジデバイス固有の分散データ分散の課題に直面していることがわかった。

Research on sound event detection (SED) in environmental settings has seen increased attention in recent years. Large amounts of (private) domestic or urban audio data raise significant logistical and privacy concerns. The inherently distributed nature of these tasks, make federated learning (FL) a promising approach to take advantage of large-scale data while mitigating privacy issues. While FL has also seen increased attention recently, to the best of our knowledge there is no research towards FL for SED. To address this gap and foster further research in this field, we create and publish novel FL datasets for SED in domestic and urban environments. Furthermore, we provide baseline results on the datasets in a FL context for three deep neural network architectures. The results indicate that FL is a promising approach for SED, but faces challenges with divergent data distributions inherent to distributed client edge devices.
翻訳日:2021-02-18 21:41:16 公開日:2021-02-17
# (参考訳) 異なるプライベート相関クラスタリング

Differentially Private Correlation Clustering ( http://arxiv.org/abs/2102.08885v1 )

ライセンス: CC BY 4.0
Mark Bun, Marek Eli\'a\v{s}, Janardhan Kulkarni(参考訳) 相関クラスタリングは教師なし機械学習で広く使われている手法である。 個人のプライバシーが懸念されるアプリケーションに動機づけられて、微分プライベート相関クラスタリングの研究を開始します。 本論文では, 最適コストと比較し, 二次加算誤差を実現するアルゴリズムを提案する。 対照的に、既存の非プライベートアルゴリズムの簡単な適応は、すべて自明な二次誤差につながる。 最後に、相関クラスタリングのための任意の純粋微分プライベートアルゴリズムが$\Omega(n)$の加算誤差を必要とすることを示す下界を与える。

Correlation clustering is a widely used technique in unsupervised machine learning. Motivated by applications where individual privacy is a concern, we initiate the study of differentially private correlation clustering. We propose an algorithm that achieves subquadratic additive error compared to the optimal cost. In contrast, straightforward adaptations of existing non-private algorithms all lead to a trivial quadratic error. Finally, we give a lower bound showing that any pure differentially private algorithm for correlation clustering requires additive error of $\Omega(n)$.
翻訳日:2021-02-18 21:28:00 公開日:2021-02-17
# (参考訳) 補助タスクによるFew-shot Conformal Prediction

Few-shot Conformal Prediction with Auxiliary Tasks ( http://arxiv.org/abs/2102.08898v1 )

ライセンス: CC BY 4.0
Adam Fisch, Tal Schuster, Tommi Jaakkola, Regina Barzilay(参考訳) 対象タスクがトレーニングに利用可能なデータに制限がある場合に,コンフォメーション予測を行うための新しい手法を開発した。 共形予測は、1つの予測の代わりに少数の有望な出力候補を識別し、そのセットが高い確率で正しい答えを含むことを保証する。 しかし、トレーニングデータに制限がある場合、予測セットは容易に使用不能になる。 本研究では,補助タスクの交換可能なコレクションに対するメタラーニングパラダイムとして,共形予測をキャストすることで,望ましい限界保証を維持しつつ,より厳密な予測セットを得る。 当社のコンフォーマリゼーションアルゴリズムは、基礎となるモデル、学習アルゴリズム、またはデータセットの選択に、シンプルで高速で非依存です。 本手法は,自然言語処理,コンピュータビジョン,薬物発見のための計算化学において,数発の分類と回帰タスクにまたがる効果を示す。

We develop a novel approach to conformal prediction when the target task has limited data available for training. Conformal prediction identifies a small set of promising output candidates in place of a single prediction, with guarantees that the set contains the correct answer with high probability. When training data is limited, however, the predicted set can easily become unusably large. In this work, we obtain substantially tighter prediction sets while maintaining desirable marginal guarantees by casting conformal prediction as a meta-learning paradigm over exchangeable collections of auxiliary tasks. Our conformalization algorithm is simple, fast, and agnostic to the choice of underlying model, learning algorithm, or dataset. We demonstrate the effectiveness of this approach across a number of few-shot classification and regression tasks in natural language processing, computer vision, and computational chemistry for drug discovery.
翻訳日:2021-02-18 21:08:52 公開日:2021-02-17
# (参考訳) ビデオセマンティックセグメンテーションのための時間記憶注意

Temporal Memory Attention for Video Semantic Segmentation ( http://arxiv.org/abs/2102.08643v1 )

ライセンス: CC BY 4.0
Hao Wang, Weining Wang, Jing Liu(参考訳) ビデオセマンティックセグメンテーションは、ビデオシーケンスのフレーム間の複雑な時間的関係を利用する必要がある。 以前の作品は通常、計算コストのかかる時間的関係を利用するために正確な光の流れを利用する。 本論文では,完全光フロー予測を必要とせず,自己保持機構に基づいて,ビデオシーケンス上の長期時間関係を適応的に統合するための時間記憶アテンションネットワーク(TMANet)を提案する。 特に,現在のフレームの時間情報を記憶するために,過去の複数のフレームを用いたメモリを構築する。 次に,現在のフレームとメモリの関係を捉え,現在のフレームの表現を高めるための時間的メモリ注意モジュールを提案する。 本手法は、都市景観における80.3% mIoUと、ResNet-50を用いたCamVidにおける76.5% mIoUの2つの挑戦的なビデオセマンティックセグメンテーションデータセットにおいて、最新のパフォーマンスを実現する。

Video semantic segmentation requires to utilize the complex temporal relations between frames of the video sequence. Previous works usually exploit accurate optical flow to leverage the temporal relations, which suffer much from heavy computational cost. In this paper, we propose a Temporal Memory Attention Network (TMANet) to adaptively integrate the long-range temporal relations over the video sequence based on the self-attention mechanism without exhaustive optical flow prediction. Specially, we construct a memory using several past frames to store the temporal information of the current frame. We then propose a temporal memory attention module to capture the relation between the current frame and the memory to enhance the representation of the current frame. Our method achieves new state-of-the-art performances on two challenging video semantic segmentation datasets, particularly 80.3% mIoU on Cityscapes and 76.5% mIoU on CamVid with ResNet-50.
翻訳日:2021-02-18 20:43:43 公開日:2021-02-17
# (参考訳) この製品を欲しがるが、異なる : 合成クエリ拡張によるマルチモーダル検索

I Want This Product but Different : Multimodal Retrieval with Synthetic Query Expansion ( http://arxiv.org/abs/2102.08871v1 )

ライセンス: CC BY 4.0
Ivona Tautkute and Tomasz Trzcinski(参考訳) 本稿では,マルチモーダルクエリ(視覚入力と自然言語フィードバックの付加的な意味情報を組み合わせたクエリ)を用いたメディア検索の問題に対処する。 画像入力とテキスト入力の両方から意味情報をキャプチャする合成画像を用いてマルチモーダルクエリを拡張することで,この課題を解決するSynthTriplet GANフレームワークを提案する。 本稿では,合成画像をアンカーとして使用し,生成画像と対象画像の埋め込み距離を直接最適化する新しいトリプルトマイニング手法を提案する。 本手法は,カスタマイズとユーザフィードバックに着目した合成画像を用いた検索イラストの付加価値を別にして,他のマルチモーダル生成手法を大きく超え,マルチモーダル検索タスクにおける成果の状態を実現できることを示す。 また,他の検索手法とは対照的に,本手法は説明可能な埋め込みを提供する。

This paper addresses the problem of media retrieval using a multimodal query (a query which combines visual input with additional semantic information in natural language feedback). We propose a SynthTriplet GAN framework which resolves this task by expanding the multimodal query with a synthetically generated image that captures semantic information from both image and text input. We introduce a novel triplet mining method that uses a synthetic image as an anchor to directly optimize for embedding distances of generated and target images. We demonstrate that apart from the added value of retrieval illustration with synthetic image with the focus on customization and user feedback, the proposed method greatly surpasses other multimodal generation methods and achieves state of the art results in the multimodal retrieval task. We also show that in contrast to other retrieval methods, our method provides explainable embeddings.
翻訳日:2021-02-18 20:35:57 公開日:2021-02-17
# (参考訳) Cross-SEAN:COVID-19フェイクニュース検出のためのクロススタイル半スーパービジョンニューラルアテンションモデル

Cross-SEAN: A Cross-Stitch Semi-Supervised Neural Attention Model for COVID-19 Fake News Detection ( http://arxiv.org/abs/2102.08924v1 )

ライセンス: CC BY 4.0
William Scott Paka, Rachit Bansal, Abhay Kaushik, Shubhashis Sengupta, Tanmoy Chakraborty(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中に広がる中、偽ニュースやソーシャルメディアの誤報が相次いだ。 公衆衛生と安全に信頼できる情報が不可欠である現在、新型コロナウイルス関連の偽ニュースは事実よりも急速に広まっている。 新型コロナウイルスのパンデミックなどの間、フェイクニュースは知的混乱を引き起こすだけでなく、人々の命を危険にさらす可能性があります。 これにより、ソーシャルメディア上での誤報の拡散を即時に取り込む必要がある。 偽ツイートと偽ツイートをラベル付けした最初のcovid-19twitterフェイクニュースデータセットであるctfを紹介します。 また、多量の不整合データを活用したクロスステッチベースのセミスーパーバイザーエンドツーエンドの神経注意モデルCross-SEANを提案する。 cross-seanは、外部の知識から学ぶフェイクニュースを部分的に一般化する。 クロスセブンと偽ニュース検出手法を比較検討した。 我々は、CTFで0.95$ F1スコアを達成し、最高のベースラインを$ 9\%$で上回ることを観察する。 また,偽ツイートをリアルタイムに検出するクロスseanベースのchromeエクステンションであるchrome-seanも開発した。

As the COVID-19 pandemic sweeps across the world, it has been accompanied by a tsunami of fake news and misinformation on social media. At the time when reliable information is vital for public health and safety, COVID-19 related fake news has been spreading even faster than the facts. During times such as the COVID-19 pandemic, fake news can not only cause intellectual confusion but can also place lives of people at risk. This calls for an immediate need to contain the spread of such misinformation on social media. We introduce CTF, the first COVID-19 Twitter fake news dataset with labeled genuine and fake tweets. Additionally, we propose Cross-SEAN, a cross-stitch based semi-supervised end-to-end neural attention model, which leverages the large amount of unlabelled data. Cross-SEAN partially generalises to emerging fake news as it learns from relevant external knowledge. We compare Cross-SEAN with seven state-of-the-art fake news detection methods. We observe that it achieves $0.95$ F1 Score on CTF, outperforming the best baseline by $9\%$. We also develop Chrome-SEAN, a Cross-SEAN based chrome extension for real-time detection of fake tweets.
翻訳日:2021-02-18 20:21:41 公開日:2021-02-17
# (参考訳) ビジョンに基づく深層強化学習におけるデータ拡張の時間的問題

Time Matters in Using Data Augmentation for Vision-based Deep Reinforcement Learning ( http://arxiv.org/abs/2102.08581v1 )

ライセンス: CC BY 4.0
Byungchan Ko and Jungseul Ok(参考訳) コンピュータビジョンからのデータ拡張技術は、視覚に基づく強化学習におけるデータ効率と一般化性能を改善するための正規化手法として広く考えられている。 私たちは、トレーニングやテストで解決すべきタスクによって、拡張を使用するタイミングを変動させます。 Open AI Procgen Benchmarkの実験によると、拡張によって課される正規化がテストのみに有効であれば、サンプルと計算の複雑さの観点からトレーニング中に使用するよりも、トレーニング後の拡張を促進すべきである。 このような強化がトレーニングプロセスに支障をきたす可能性があることに留意する。 逆に、一般化だけでなく、データ効率の観点からも、トレーニング期間全体を通じて、トレーニングに有用な正規化を提供する拡張は、そのメリットを完全に活用する必要がある。 これらの現象は、強化学習におけるデータ増強の有用なタイミング制御を示唆している。

Data augmentation technique from computer vision has been widely considered as a regularization method to improve data efficiency and generalization performance in vision-based reinforcement learning. We variate the timing of using augmentation, which is, in turn, critical depending on tasks to be solved in training and testing. According to our experiments on Open AI Procgen Benchmark, if the regularization imposed by augmentation is helpful only in testing, it is better to procrastinate the augmentation after training than to use it during training in terms of sample and computation complexity. We note that some of such augmentations can disturb the training process. Conversely, an augmentation providing regularization useful in training needs to be used during the whole training period to fully utilize its benefit in terms of not only generalization but also data efficiency. These phenomena suggest a useful timing control of data augmentation in reinforcement learning.
翻訳日:2021-02-18 20:20:41 公開日:2021-02-17
# (参考訳) 完全なオンライン模造学習

Fully General Online Imitation Learning ( http://arxiv.org/abs/2102.08686v1 )

ライセンス: CC BY 4.0
Michael K. Cohen, Marcus Hutter, Neel Nanda(参考訳) 模倣学習では、模倣者とデモ者は、環境との過去の相互作用が与えられた行動を選択するためのポリシーです。 もし我々が模倣者を実行するなら、デモ参加者がずっと行動していた場合と同様の方法でイベントが展開されることを望んでいるでしょう。 既存の作業では、これを実現するための正式なガイダンスは提供されておらず、代わりに再起動する環境にフォーカスを限定し、異常に簡単に学習でき、ミスの重要性を便利に制限します。 私たちは、(確率的)環境とデモレーターが決してリセットされず、トレーニングの目的でさえ、完全に一般的な設定に対処します。 我々の新しい保守的ベイズ模倣学習者は、利用可能な各アクションの確率を過小評価し、残りの確率でより多くのデータを求める。 主な結果:もしデモ参加者がずっと行動していたら、イベントがありそうになかったら、そのイベントの確率は、代わりに(当初は全く無知な)イミテータを実行するときに、上から境界づけられる。 一方、デモレータへのクエリは、急速に周波数が低下する。

In imitation learning, imitators and demonstrators are policies for picking actions given past interactions with the environment. If we run an imitator, we probably want events to unfold similarly to the way they would have if the demonstrator had been acting the whole time. No existing work provides formal guidance in how this might be accomplished, instead restricting focus to environments that restart, making learning unusually easy, and conveniently limiting the significance of any mistake. We address a fully general setting, in which the (stochastic) environment and demonstrator never reset, not even for training purposes. Our new conservative Bayesian imitation learner underestimates the probabilities of each available action, and queries for more data with the remaining probability. Our main result: if an event would have been unlikely had the demonstrator acted the whole time, that event's likelihood can be bounded above when running the (initially totally ignorant) imitator instead. Meanwhile, queries to the demonstrator rapidly diminish in frequency.
翻訳日:2021-02-18 19:51:46 公開日:2021-02-17
# (参考訳) 木構造マルコフ確率場のロバスト推定

Robust Estimation of Tree Structured Markov Random Fields ( http://arxiv.org/abs/2102.08554v1 )

ライセンス: CC BY 4.0
Ashish Katiyar, Soumya Basu, Vatsal Shah, Constantine Caramanis(参考訳) 木構造マルコフ確率場(MRF)を未知の雑音で観測した場合に共通の支持を持つ離散確率変数で学習する問題について検討する。 観測におけるノイズの存在が本来の木構造を難解にするため、ノイズ観測時の木構造mcfの回復可能性の程度に疑問が持たれる。 一般的なノイズモデルでは、基礎となる木の構造は、葉のノードのそれぞれが親や兄弟と区別できない同値クラスまでしか回復できず、葉のクラスターを形成することが示されています。 コントリブドノイズモデルによる識別不能性が生じると、各ノードの値が不平等で未知の確率を持つ支持部で一様値に変化する自然k-ary対称チャネルノイズモデルが研究される。 ここで、答えはもっと微妙なものになる。 2 の支持サイズと二進対称チャネル雑音モデルにより,葉のクラスターは識別不能であることを示す。 支持サイズ3以上から、葉クラスタの回復可能性は、その中のノードのジョイント確率質量関数によって決定される。 葉クラスタの回復性に必要かつ十分な条件を導出することにより、回収可能性の正確な評価を行う。 この条件が満たされると木を回復するアルゴリズムを提供し、この条件に失敗した葉のクラスタまで木を回復する。

We study the problem of learning tree-structured Markov random fields (MRF) on discrete random variables with common support when the observations are corrupted by unknown noise. As the presence of noise in the observations obfuscates the original tree structure, the extent of recoverability of the tree-structured MRFs under noisy observations is brought into question. We show that in a general noise model, the underlying tree structure can be recovered only up to an equivalence class where each of the leaf nodes is indistinguishable from its parent and siblings, forming a leaf cluster. As the indistinguishability arises due to contrived noise models, we study the natural k-ary symmetric channel noise model where the value of each node is changed to a uniform value in the support with an unequal and unknown probability. Here, the answer becomes much more nuanced. We show that with a support size of 2, and the binary symmetric channel noise model, the leaf clusters remain indistinguishable. From support size 3 and up, the recoverability of a leaf cluster is dictated by the joint probability mass function of the nodes within it. We provide a precise characterization of recoverability by deriving a necessary and sufficient condition for the recoverability of a leaf cluster. We provide an algorithm that recovers the tree if this condition is satisfied, and recovers the tree up to the leaf clusters failing this condition.
翻訳日:2021-02-18 18:03:36 公開日:2021-02-17
# (参考訳) 分散誘導政策勾配法の収束性とサンプル効率について

On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method ( http://arxiv.org/abs/2102.08607v1 )

ライセンス: CC BY 4.0
Junyu Zhang, Chengzhuo Ni, Zheng Yu, Csaba Szepesvari, Mengdi Wang(参考訳) 政策勾配は、例えばREINFORCEのようなリッチな強化学習(RL)手法をもたらす。 しかし、最も知られているサンプル複雑性の結果、$\epsilon$-optimalポリシーを見つけるための方法は$\mathcal{O}(\epsilon^{-3})$であり、これは準最適である。 本稿では, 1次ポリシー最適化法の基本収束特性とサンプル効率について検討する。 我々は、報酬の累積合計だけでなく、政策の長期訪問分布上の一般的なユーティリティ関数を最大化することができる政策勾配法の一般化変形に焦点を当てています。 この問題の隠蔽凸の性質を生かし, 構成最適化から手法を活用することにより, グローバル最適解に適切に収束する政策の系列を改善し, $\tilde{\mathcal{O}}(\epsilon^{-2})$サンプルを用いて$\epsilon$-optimal Policyを求める, 確率的増分誘導ポリシー勾配(SIVR-PG)アプローチを提案する。

Policy gradient gives rise to a rich class of reinforcement learning (RL) methods, for example the REINFORCE. Yet the best known sample complexity result for such methods to find an $\epsilon$-optimal policy is $\mathcal{O}(\epsilon^{-3})$, which is suboptimal. In this paper, we study the fundamental convergence properties and sample efficiency of first-order policy optimization method. We focus on a generalized variant of policy gradient method, which is able to maximize not only a cumulative sum of rewards but also a general utility function over a policy's long-term visiting distribution. By exploiting the problem's hidden convex nature and leveraging techniques from composition optimization, we propose a Stochastic Incremental Variance-Reduced Policy Gradient (SIVR-PG) approach that improves a sequence of policies to provably converge to the global optimal solution and finds an $\epsilon$-optimal policy using $\tilde{\mathcal{O}}(\epsilon^{-2})$ samples.
翻訳日:2021-02-18 18:02:38 公開日:2021-02-17
# (参考訳) Sinkhorn Label Allocation:Annealed Self-Trainingによる半監督型分類

Sinkhorn Label Allocation: Semi-Supervised Classification via Annealed Self-Training ( http://arxiv.org/abs/2102.08622v1 )

ライセンス: CC BY-SA 4.0
Kai Sheng Tai, Peter Bailis, Gregory Valiant(参考訳) セルフトレーニングは、学習者がラベルのないデータに関する予測をトレーニング中の監督として使用する半教師付き学習の標準的なアプローチです。 本稿では,このラベル割り当てプロセスを,実例とクラス間の最適な移動問題として再解釈し,クラスにサンプルを割り当てるコストは,分類器の現在の予測によって媒介される。 この定式化はラベル割り当ての実用的なアニーリング戦略を促進し、フレキシブルな上限制約によってクラス比率に事前知識を含めることができる。 これらの代入問題の解は、シンクホーン反復を用いて効率的に近似することができ、標準確率最適化アルゴリズムの内部ループで使うことができる。 我々は,CIFAR-10,CIFAR-100,SVHNデータセットに対するアルゴリズムの有効性を,最先端の自己学習アルゴリズムであるFixMatchと比較した。 さらに,提案アルゴリズムと既存の信頼度しきい値付き自己学習手法の相互関係を,最適化におけるホモトピー手法の文脈で解明する。 コードはhttps://github.com/stanford-futuredata/sinkhorn-label-allocationで入手できます。

Self-training is a standard approach to semi-supervised learning where the learner's own predictions on unlabeled data are used as supervision during training. In this paper, we reinterpret this label assignment process as an optimal transportation problem between examples and classes, wherein the cost of assigning an example to a class is mediated by the current predictions of the classifier. This formulation facilitates a practical annealing strategy for label assignment and allows for the inclusion of prior knowledge on class proportions via flexible upper bound constraints. The solutions to these assignment problems can be efficiently approximated using Sinkhorn iteration, thus enabling their use in the inner loop of standard stochastic optimization algorithms. We demonstrate the effectiveness of our algorithm on the CIFAR-10, CIFAR-100, and SVHN datasets in comparison with FixMatch, a state-of-the-art self-training algorithm. Additionally, we elucidate connections between our proposed algorithm and existing confidence thresholded self-training approaches in the context of homotopy methods in optimization. Our code is available at https://github.com/stanford-futuredata/sinkhorn-label-allocation.
翻訳日:2021-02-18 18:01:27 公開日:2021-02-17
# (参考訳) クラス認識アライメントを用いたロバストドメインフリードメイン一般化

Robust Domain-Free Domain Generalization with Class-aware Alignment ( http://arxiv.org/abs/2102.08897v1 )

ライセンス: CC BY 4.0
Wenyu Zhang, Mohamed Ragab, Ramon Sagarna(参考訳) ディープニューラルネットワークは、さまざまな学習タスクで最先端のパフォーマンスを示していますが、それらのパフォーマンスは、トレーニングとテストの分布が同じであるという仮定に依存しています。 ドメインの一般化は、データ分散のシフトの対象となる対象ドメインを一般化できる堅牢なモデルを構築するために複数のソースドメインを使用することで、この問題に対処します。 本論文では, ソースドメインラベルを必要とせずに, 未確認テストドメインの一般化性能を向上させるためのモデルに依存しない手法であるDomain-Free Domain Generalization (DFDG)を提案する。 DFDGは新しい戦略を用いてドメイン不変なクラス差別的特徴を学習する。 サンプルのクラス関係をクラス条件ソフトラベルで調整し、画像分類ネットワークのポストホック解析のために伝統的に開発された塩分マップを使用して、トレーニング入力から表面観察を取り除く。 DFDGは時系列センサーおよびイメージ分類の公共データセットの競争性能を得ます。

While deep neural networks demonstrate state-of-the-art performance on a variety of learning tasks, their performance relies on the assumption that train and test distributions are the same, which may not hold in real-world applications. Domain generalization addresses this issue by employing multiple source domains to build robust models that can generalize to unseen target domains subject to shifts in data distribution. In this paper, we propose Domain-Free Domain Generalization (DFDG), a model-agnostic method to achieve better generalization performance on the unseen test domain without the need for source domain labels. DFDG uses novel strategies to learn domain-invariant class-discriminative features. It aligns class relationships of samples through class-conditional soft labels, and uses saliency maps, traditionally developed for post-hoc analysis of image classification networks, to remove superficial observations from training inputs. DFDG obtains competitive performance on both time series sensor and image classification public datasets.
翻訳日:2021-02-18 17:43:53 公開日:2021-02-17
# (参考訳) POLA: 適応学習率によるオンライン時系列予測

POLA: Online Time Series Prediction by Adaptive Learning Rates ( http://arxiv.org/abs/2102.08907v1 )

ライセンス: CC BY 4.0
Wenyu Zhang(参考訳) ストリーミング時系列データのオンライン予測は、下流の決定が将来の正確な予測に依存する多くの現実世界のアプリケーションに実用的です。 動的環境でのデプロイでは、モデルがオーバーフィットすることなく、データ分布の変化に迅速に適応する必要があります。 繰り返しニューラルネットワークモデルの学習速度を自動的に調整し、時系列パターンの変化に適応するPOLA(Predicting Online by Learning Rate Adaptation)を提案する。 pola meta-learns the learning rate of the stochastic gradient descent (sgd) algorithm by assimilating the prequential or interleaved-test-then-train evaluation scheme for online prediction (英語) よく使われる3つのニューラルネットワークモデルにまたがる2つの実世界のデータセット上でPOLAを評価する。 POLAは、他のオンライン予測方法よりも総合的に、あるいは優れた予測性能を示す。

Online prediction for streaming time series data has practical use for many real-world applications where downstream decisions depend on accurate forecasts for the future. Deployment in dynamic environments requires models to adapt quickly to changing data distributions without overfitting. We propose POLA (Predicting Online by Learning rate Adaptation) to automatically regulate the learning rate of recurrent neural network models to adapt to changing time series patterns across time. POLA meta-learns the learning rate of the stochastic gradient descent (SGD) algorithm by assimilating the prequential or interleaved-test-then-train evaluation scheme for online prediction. We evaluate POLA on two real-world datasets across three commonly-used recurrent neural network models. POLA demonstrates overall comparable or better predictive performance over other online prediction methods.
翻訳日:2021-02-18 17:32:54 公開日:2021-02-17
# (参考訳) エゴスフィア空間記憶の終端

End-to-End Egospheric Spatial Memory ( http://arxiv.org/abs/2102.07764v2 )

ライセンス: CC BY 4.0
Daniel Lenton, Stephen James, Ronald Clark, Andrew J. Davison(参考訳) 空間記憶、または特定の場所やオブジェクトを記憶し、記憶する能力は、実際の環境でタスクを実行する自律エージェントの能力の中心です。 しかし、既存のほとんどの人工記憶モジュールは空間情報の保存にあまり適していない。 Egospheric Spatial Memory (ESM) は、エージェントの周りの自我圏内のメモリをエンコードし、表現力のある3D表現を可能にする。 esmは、模倣または強化学習によってエンドツーエンドでトレーニングすることができ、ドローンおよびマニピュレータのバイスモータ制御タスクの他のメモリベースラインに対するトレーニング効率と最終的なパフォーマンスの両方を改善する。 明示的なエゴセントリックジオメトリにより、学習したコントローラとローカル障害物回避のような他の学習されていないモダリティをシームレスに組み合わせることができます。 さらに、ESMが画像レベルとマップレベルの推論モダリティを自然に組み合わせたScanNetデータセット上のセマンティックセグメンテーションへの適用を示す。 実験により,ESMは空間的推論を具体化するための一般的な計算グラフを提供し,モジュールはリアルタイムマッピングシステムと微分可能なメモリアーキテクチャのブリッジを形成することを示した。 https://github.com/ivy-dl/Memory

Spatial memory, or the ability to remember and recall specific locations and objects, is central to autonomous agents' ability to carry out tasks in real environments. However, most existing artificial memory modules are not very adept at storing spatial information. We propose a parameter-free module, Egospheric Spatial Memory (ESM), which encodes the memory in an ego-sphere around the agent, enabling expressive 3D representations. ESM can be trained end-to-end via either imitation or reinforcement learning, and improves both training efficiency and final performance against other memory baselines on both drone and manipulator visuomotor control tasks. The explicit egocentric geometry also enables us to seamlessly combine the learned controller with other non-learned modalities, such as local obstacle avoidance. We further show applications to semantic segmentation on the ScanNet dataset, where ESM naturally combines image-level and map-level inference modalities. Through our broad set of experiments, we show that ESM provides a general computation graph for embodied spatial reasoning, and the module forms a bridge between real-time mapping systems and differentiable memory architectures. Implementation at: https://github.com/ivy-dl/memory.
翻訳日:2021-02-18 17:20:45 公開日:2021-02-17
# (参考訳) RMIX: 協調強化学習エージェントの学習リスク感知政策

RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement Learning Agents ( http://arxiv.org/abs/2102.08159v2 )

ライセンス: CC BY 4.0
Wei Qiu, Xinrun Wang, Runsheng Yu, Xu He, Rundong Wang, Bo An, Svetlana Obraztsova, Zinovi Rabinovich(参考訳) 現在の価値に基づくマルチエージェント強化学習手法は,分散実行(ctde)による集中型トレーニングを通じて個人の行動を指導するために,個別のq値を最適化する。 しかし、このような予想、すなわちリスクニュートラルなQ値は、報酬のランダム性や環境の不確実性のためにCTDEでも十分ではないため、複雑な環境での調整エージェントの訓練にこれらの方法の失敗を引き起こします。 そこで本研究では, 学習したQ値の分布について, CVaR(Conditional Value at Risk)を指標とした新たな協調的MARL法RMIXを提案する。 具体的には、まず個人の戻り分布を学習し、分散実行のためのCVaRを解析的に計算する。 そこで,実行時の確率的結果の時間的性質を扱うために,リスクレベルチューニングのための動的リスクレベル予測器を提案する。 最後に,集中トレーニング中のTD誤差のターゲット推定にCVaR値を用いてCVaRポリシを最適化し,CVaR値を補助的局所報酬として,量子回帰損失による局所分布の更新を行う。 実験により,本手法はStarCraft IIタスクの課題に対して,最先端の手法よりも優れ,協調性の向上とサンプル効率の向上を実証した。

Current value-based multi-agent reinforcement learning methods optimize individual Q values to guide individuals' behaviours via centralized training with decentralized execution (CTDE). However, such expected, i.e., risk-neutral, Q value is not sufficient even with CTDE due to the randomness of rewards and the uncertainty in environments, which causes the failure of these methods to train coordinating agents in complex environments. To address these issues, we propose RMIX, a novel cooperative MARL method with the Conditional Value at Risk (CVaR) measure over the learned distributions of individuals' Q values. Specifically, we first learn the return distributions of individuals to analytically calculate CVaR for decentralized execution. Then, to handle the temporal nature of the stochastic outcomes during executions, we propose a dynamic risk level predictor for risk level tuning. Finally, we optimize the CVaR policies with CVaR values used to estimate the target in TD error during centralized training and the CVaR values are used as auxiliary local rewards to update the local distribution via Quantile Regression loss. Empirically, we show that our method significantly outperforms state-of-the-art methods on challenging StarCraft II tasks, demonstrating enhanced coordination and improved sample efficiency.
翻訳日:2021-02-18 16:48:13 公開日:2021-02-17
# (参考訳) 深層学習による暗号通貨価格分類における技術取引とソーシャルメディア指標について

On Technical Trading and Social Media Indicators in Cryptocurrencies' Price Classification Through Deep Learning ( http://arxiv.org/abs/2102.08189v2 )

ライセンス: CC BY 4.0
Marco Ortu, Nicola Uras, Claudio Conversano, Giuseppe Destefanis, Silvia Bartolucci(参考訳) 深層学習アルゴリズムを用いて、2017年1月から2021年1月までの時間別および日次データの暗号通貨価格変動の予測可能性を分析することを目的としている。 実験では,技術指標のみの制限モデルと,技術指標,トレーディング指標,ソーシャルメディア指標の非制限モデルを考慮して,技術指標,トレーディング指標,ソーシャルメディア指標の3つの機能を用いた。 取引・ソーシャルメディア指標の考慮が、古典的な技術的変数(価格のリターンなど)とともに、暗号通貨価格の変化の予測に顕著な改善をもたらすかどうかを検証した。 我々は、bitcoinとethereumの2つの暗号通貨の量と価値(この研究の時点で)について調査を行った。 時系列分類問題によく用いられる4つの機械学習アルゴリズムを実装した。マルチレイヤパーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、Long Short Term Memory(LSTM)、Attention Long Short Term Memory(ALSTM)である。 テスト試料の分散問題を検討するために, 高度なブートストラップ法を用いて実験を考案し, より信頼性の高いモデルの性能評価を可能にした。 さらに,実装アルゴリズムごとに最適なハイパーパラメータを求めるためにグリッド探索法が用いられた。 この研究は、時間ごとの結果に基づいて、制限のないモデルが制限されたモデルを上回ることを示している。 古典的な技術指標への取引指標の追加は、制限モデルのための51-55%の範囲から、制限なしモデルのための67-84%まで、ビットコインとイーサリアム価格の変更予測の精度を向上させます。

This work aims to analyse the predictability of price movements of cryptocurrencies on both hourly and daily data observed from January 2017 to January 2021, using deep learning algorithms. For our experiments, we used three sets of features: technical, trading and social media indicators, considering a restricted model of only technical indicators and an unrestricted model with technical, trading and social media indicators. We verified whether the consideration of trading and social media indicators, along with the classic technical variables (such as price's returns), leads to a significative improvement in the prediction of cryptocurrencies price's changes. We conducted the study on the two highest cryptocurrencies in volume and value (at the time of the study): Bitcoin and Ethereum. We implemented four different machine learning algorithms typically used in time-series classification problems: Multi Layers Perceptron (MLP), Convolutional Neural Network (CNN), Long Short Term Memory (LSTM) neural network and Attention Long Short Term Memory (ALSTM). We devised the experiments using the advanced bootstrap technique to consider the variance problem on test samples, which allowed us to evaluate a more reliable estimate of the model's performance. Furthermore, the Grid Search technique was used to find the best hyperparameters values for each implemented algorithm. The study shows that, based on the hourly frequency results, the unrestricted model outperforms the restricted one. The addition of the trading indicators to the classic technical indicators improves the accuracy of Bitcoin and Ethereum price's changes prediction, with an increase of accuracy from a range of 51-55% for the restricted model, to 67-84% for the unrestricted model.
翻訳日:2021-02-18 16:08:13 公開日:2021-02-17
# (参考訳) ルーティングゲームにおけるカオスへのフォロー・ザ・レギュラライズド・リーダールート

Follow-the-Regularized-Leader Routes to Chaos in Routing Games ( http://arxiv.org/abs/2102.07974v2 )

ライセンス: CC BY 4.0
Jakub Bielawski, Thiparat Chotibut, Fryderyk Falniowski, Grzegorz Kosiorowski, Micha{\l} Misiurewicz, Georgios Piliouras(参考訳) ゲームにおけるフォロー・ザ・レギュラライズ・リーダー(FoReL)ダイナミクスのカオス行動の出現について検討する。 我々は、混雑ゲームにおける人口増加やコストスケールの影響に焦点を当て、乗算重み更新ダイナミクスにおける不安定でカオスな挙動に関する最近の結果を、はるかに大きなクラスのFoReLダイナミクスに一般化する。 我々は、2つの並列リンクと任意の固定学習率を持つ単純な線形非原子混雑ゲームであっても、ゲームが完全に対称でない限り、人口サイズやコストの規模が増加し、学習ダイナミクスが不安定になり、最終的にカオスになり、Li-Yorkeと正の位相エントロピーの意味で。 さらに,同ゲームにおける安定なナッシュ平衡とカオスの共存など,新しい非標準現象の存在を示す。 また、別のカオスアクタが破壊されるにつれて、カオスアクタの同時作成も観察する。 最後に、FoReLダイナミクスは奇妙で非平衡であるが、時間平均はまだ学習率の選択とコストのスケールの正確な平衡に収束していることを証明している。

We study the emergence of chaotic behavior of Follow-the-Regularized Leader (FoReL) dynamics in games. We focus on the effects of increasing the population size or the scale of costs in congestion games, and generalize recent results on unstable, chaotic behaviors in the Multiplicative Weights Update dynamics to a much larger class of FoReL dynamics. We establish that, even in simple linear non-atomic congestion games with two parallel links and any fixed learning rate, unless the game is fully symmetric, increasing the population size or the scale of costs causes learning dynamics to become unstable and eventually chaotic, in the sense of Li-Yorke and positive topological entropy. Furthermore, we show the existence of novel non-standard phenomena such as the coexistence of stable Nash equilibria and chaos in the same game. We also observe the simultaneous creation of a chaotic attractor as another chaotic attractor gets destroyed. Lastly, although FoReL dynamics can be strange and non-equilibrating, we prove that the time average still converges to an exact equilibrium for any choice of learning rate and any scale of costs.
翻訳日:2021-02-18 16:07:00 公開日:2021-02-17
# 四元数をもつ完全連結層を超えて:1/n$パラメータを持つ超複素乗算のパラメータ化

Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with $1/n$ Parameters ( http://arxiv.org/abs/2102.08597v1 )

ライセンス: Link先を確認
Aston Zhang, Yi Tay, Shuai Zhang, Alvin Chan, Anh Tuan Luu, Siu Cheung Hui, Jie Fu(参考訳) 最近の研究は、超複素空間における表現学習の合理的な成功を示している。 具体的には、フルコネクテッド層における実値行列乗算をクォータニオンのハミルトン積に置き換える「クォータニオン付きフルコネクテッド層」(4次元超複素数)は、1/4の学習可能なパラメータでパラメータを節約し、さまざまなアプリケーションで匹敵するパフォーマンスを実現します。 しかし、一つの重要な点は、超複素空間が定義済みの次元(4d、8d、16d)でしか存在しないことである。 これにより、超複素乗算を利用するモデルの柔軟性が制限される。 そこで本論文では,超複素乗算のパラメータ化を提案し,モデルが事前に定義されているかどうかに関わらず,データから乗算ルールを学習できるようにする。 その結果,hamilton 製品を利用するだけでなく,任意の nd hypercomplex 空間での操作を学習し,完全連結層に比べて任意に 1/n$ の学習可能なパラメータを用いたアーキテクチャの柔軟性が向上した。 自然言語推論, 機械翻訳, テキストスタイル変換, および対象動詞合意に対するLSTMおよびTransformerモデルの適用実験は, 提案手法のアーキテクチャ的柔軟性と有効性を示すものである。

Recent works have demonstrated reasonable success of representation learning in hypercomplex space. Specifically, "fully-connected layers with Quaternions" (4D hypercomplex numbers), which replace real-valued matrix multiplications in fully-connected layers with Hamilton products of Quaternions, both enjoy parameter savings with only 1/4 learnable parameters and achieve comparable performance in various applications. However, one key caveat is that hypercomplex space only exists at very few predefined dimensions (4D, 8D, and 16D). This restricts the flexibility of models that leverage hypercomplex multiplications. To this end, we propose parameterizing hypercomplex multiplications, allowing models to learn multiplication rules from data regardless of whether such rules are predefined. As a result, our method not only subsumes the Hamilton product, but also learns to operate on any arbitrary nD hypercomplex space, providing more architectural flexibility using arbitrarily $1/n$ learnable parameters compared with the fully-connected layer counterpart. Experiments of applications to the LSTM and Transformer models on natural language inference, machine translation, text style transfer, and subject verb agreement demonstrate architectural flexibility and effectiveness of the proposed approach.
翻訳日:2021-02-18 14:53:18 公開日:2021-02-17
# ConTraKG:知識グラフを用いた視覚物体認識のためのコントラストベース変換学習

ConTraKG: Contrastive-based Transfer Learning for Visual Object Recognition using Knowledge Graphs ( http://arxiv.org/abs/2102.08747v1 )

ライセンス: Link先を確認
Sebastian Monka, Lavdim Halilaj, Stefan Schmid, Achim Rettinger(参考訳) ディープラーニング技術はコンピュータビジョンタスクにおいて高い精度を達成する。 しかし、それらの精度は、ドメインの変更に直面した場合、すなわち、トレーニングドメインとは異なるドメインで使用されるとすぐに著しく低下します。 例えば、ドイツで道路標識を認識するように訓練された道路標識認識モデルは、中国のような道路標識標準の異なる国では性能が悪い。 ドメインやコンテキストに関する事前の知識に基づいて、クロスドメイン転送学習を可能にするニューロシンボリックアプローチであるConTraKGを提案する。 知識グラフは、そのような事前知識を符号化する媒体として機能し、埋め込み手法によって密度の高いベクトル表現に変換される。 5相のトレーニングパイプラインを使用して,ディープニューラルネットワークを訓練し,その視覚埋め込み空間を,コントラスト損失関数に基づいて知識グラフの領域不変埋め込み空間に応じて調整する。 これにより、ニューラルネットワークは、知識グラフにすでに表現されている異なるターゲットドメインからのトレーニングデータを組み込むことができる。 我々は、アプローチの正確性を決定するために、一連の経験的評価を行います。 その結果,ConTraKGは従来のドメイン変更処理手法よりもはるかに精度が高いことがわかった。 ネットワークが両方のドメインでトレーニングされる転送学習セットアップでは、contrakgはソースドメインでテストした場合で21%、ターゲットドメインでテストした場合15%、標準アプローチと比較して精度が21%向上する。 さらに、トレーニング対象データのわずか10%で、完全なターゲットデータで訓練されたクロスエントロピーベースのモデルと同じ精度を実現します。

Deep learning techniques achieve high accuracy in computer vision tasks. However, their accuracy suffers considerably when they face a domain change, i.e., as soon as they are used in a domain that differs from their training domain. For example, a road sign recognition model trained to recognize road signs in Germany performs poorly in countries with different road sign standards like China. We propose ConTraKG, a neuro-symbolic approach that enables cross-domain transfer learning based on prior knowledge about the domain or context. A knowledge graph serves as a medium for encoding such prior knowledge, which is then transformed into a dense vector representation via embedding methods. Using a five-phase training pipeline, we train the deep neural network to adjust its visual embedding space according to the domain-invariant embedding space of the knowledge graph based on a contrastive loss function. This allows the neural network to incorporate training data from different target domains that are already represented in the knowledge graph. We conduct a series of empirical evaluations to determine the accuracy of our approach. The results show that ConTraKG is significantly more accurate than the conventional approach for dealing with domain changes. In a transfer learning setup, where the network is trained on both domains, ConTraKG achieves 21% higher accuracy when tested on the source domain and 15% when tested on the target domain compared to the standard approach. Moreover, with only 10% of the target data for training, it achieves the same accuracy as the cross-entropy-based model trained on the full target data.
翻訳日:2021-02-18 14:52:50 公開日:2021-02-17
# オープン検索会話マシン読み取り

Open-Retrieval Conversational Machine Reading ( http://arxiv.org/abs/2102.08633v1 )

ライセンス: Link先を確認
Yifan Gao, Jingjing Li, Michael R. Lyu, Irwin King(参考訳) 対話型機械読取では、システムは自然言語規則を解釈し、「私はVAの医療給付を受ける資格がありますか? 「そして、元の質問に答えるために答えが必要なフォローアップの明確化の質問を尋ねる。 しかし、既存の作品では、各質問に対してルールテキストが提供されると仮定し、実際のシナリオにおいて必須の検索ステップを無視します。 本研究では,対話型機械読解のオープンリトリーバル設定を提案し,検討する。 オープン検索設定では、関連するルールテキストが不明であるため、システムはルールテキストのコレクションから質問に関連する証拠を取得し、複数の検索されたルールテキストに従ってユーザーのハイレベルな質問に答える必要があります。 本稿では,ルールテキスト中の条件を談話セグメンテーションを通じて抽出し,ユーザ質問に直接回答するためにマルチパッセージ推論を行うマルチパッセージ談話対応推論ネットワークであるmudernを提案する。 OR-ShARCデータセットで、MUDERNは最先端のパフォーマンスを達成し、既存のシングルパス対話機械読み取りモデルだけでなく、新しいマルチパス対話機械読み取りベースラインを大きくマージンで上回ります。 さらに、この新しい環境と私たちのモデルに関する新しい洞察を提供するために、詳細な分析を行います。

In conversational machine reading, systems need to interpret natural language rules, answer high-level questions such as "May I qualify for VA health care benefits?", and ask follow-up clarification questions whose answer is necessary to answer the original question. However, existing works assume the rule text is provided for each user question, which neglects the essential retrieval step in real scenarios. In this work, we propose and investigate an open-retrieval setting of conversational machine reading. In the open-retrieval setting, the relevant rule texts are unknown so that a system needs to retrieve question-relevant evidence from a collection of rule texts, and answer users' high-level questions according to multiple retrieved rule texts in a conversational manner. We propose MUDERN, a Multi-passage Discourse-aware Entailment Reasoning Network which extracts conditions in the rule texts through discourse segmentation, conducts multi-passage entailment reasoning to answer user questions directly, or asks clarification follow-up questions to inquiry more information. On our created OR-ShARC dataset, MUDERN achieves the state-of-the-art performance, outperforming existing single-passage conversational machine reading models as well as a new multi-passage conversational machine reading baseline by a large margin. In addition, we conduct in-depth analyses to provide new insights into this new setting and our model.
翻訳日:2021-02-18 14:52:27 公開日:2021-02-17
# 正規化のためのマッドリングラベル : 一般化への新しいアプローチ

Muddling Labels for Regularization, a novel approach to generalization ( http://arxiv.org/abs/2102.08769v1 )

ライセンス: Link先を確認
Karim Lounici, Katia Meziani and Benjamin Riu(参考訳) 一般化は機械学習の中心的な問題である。 実際、ほとんどの予測方法は、一般化を達成するために通常保留の \textit{validation}データセット上で実行されるハイパーパラメータの注意深いキャリブレーションを必要とする。 本論文の主な目標は、データ分割なしに一般化を実現する新しいアプローチを導入することである。これは、モデルがオーバーフィットする傾向を直接定量化する新しいリスク尺度に基づいている。 この新しいアプローチの直観と利点を十分に理解するために、これを新しい基準を開発する単純な線形回帰モデル(Y=X\beta+\xi$)で説明する。 この基準が真の一般化リスクのよいプロキシであることを強調します。 次に、複数の構造(相関、疎度など)を同時に取り組むさまざまな手順を導き出します。 特に、これらの手順 \textbf{concomitantly} はモデルを訓練し、ハイパーパラメータをキャリブレーションする。 さらに、基準が微分可能なw.r.tである場合、これらの手順は古典的な勾配降下法を介して実施することができる。 ハイパーパラメータです 数値実験により,我々の手法は計算可能であり,一般の手法(Ridge,LASSO,Elastic-Netとグリッドサーチクロスバリデーションを併用)と比較できることがわかった。 さらに2つの追加タスクでベースラインを上回り、$\beta$のリカバリとサポートをサポートする。 さらに、私たちの手順は、実験したすべてのデータセットで同じままの初期パラメータの校正に関する専門知識を必要としません。

Generalization is a central problem in Machine Learning. Indeed most prediction methods require careful calibration of hyperparameters usually carried out on a hold-out \textit{validation} dataset to achieve generalization. The main goal of this paper is to introduce a novel approach to achieve generalization without any data splitting, which is based on a new risk measure which directly quantifies a model's tendency to overfit. To fully understand the intuition and advantages of this new approach, we illustrate it in the simple linear regression model ($Y=X\beta+\xi$) where we develop a new criterion. We highlight how this criterion is a good proxy for the true generalization risk. Next, we derive different procedures which tackle several structures simultaneously (correlation, sparsity,...). Noticeably, these procedures \textbf{concomitantly} train the model and calibrate the hyperparameters. In addition, these procedures can be implemented via classical gradient descent methods when the criterion is differentiable w.r.t. the hyperparameters. Our numerical experiments reveal that our procedures are computationally feasible and compare favorably to the popular approach (Ridge, LASSO and Elastic-Net combined with grid-search cross-validation) in term of generalization. They also outperform the baseline on two additional tasks: estimation and support recovery of $\beta$. Moreover, our procedures do not require any expertise for the calibration of the initial parameters which remain the same for all the datasets we experimented on.
翻訳日:2021-02-18 14:52:00 公開日:2021-02-17
# 時系列予測・画像・映像分類のための深部エコー状態ネットワークのポストホックな説明可能性について

On the Post-hoc Explainability of Deep Echo State Networks for Time Series Forecasting, Image and Video Classification ( http://arxiv.org/abs/2102.08634v1 )

ライセンス: Link先を確認
Alejandro Barredo Arrieta, Sergio Gil-Lopez, Ibai La\~na, Miren Nekane Bilbao, Javier Del Ser(参考訳) その開始以来、貯水池コンピューティングパラダイムの下での学習技術は、他のアプローチに必要な計算オーバーヘッドなしに、リカレントシステムのための優れたモデリング能力を示してきた。 それらのうち、エコー状態ネットワークの様々なフレーバーは、学習アルゴリズムの単純さと計算効率のために、時間を通じて多くのスターを惹きつけてきた。 しかし、これらの利点は、エコー状態ネットワークが一般的な聴衆に容易に説明できないブラックボックスモデルのままであるという事実を補うものではない。 本研究では,時間系列,画像,映像データを用いた学習タスクに適用した場合のエコー状態ネットワークの説明可能性について検討した。 具体的には,これら再帰モデルが把握する知識,すなわち潜在記憶,時間パターン,画素欠落効果について理解可能な情報を抽出できる3つの手法を提案する。 潜在的なメモリは、時間的情報を格納するモデルの能力における貯水池のサイズの影響に関連する問題に対処する一方、時間的パターンは、モデルが経時的に捉えた反復関係を明らかにする。 最後に、ピクセル不在効果は、画像およびビデオ分類にエコー状態ネットワークモデルを使用する場合、与えられたピクセル不在の効果を評価することを試みます。 時系列モデリング、画像、および関連する文献、ビデオ分類で初めて、適用可能性の3つの異なるドメインで提案された一連の技術の利点を紹介します。 以上の結果から,提案手法は,これらのモデルの動作方法の理解だけでなく,データから受け継がれた問題を検出する診断ツールとしても機能することが明らかとなった。 隠された偏見の存在)。

Since their inception, learning techniques under the Reservoir Computing paradigm have shown a great modeling capability for recurrent systems without the computing overheads required for other approaches. Among them, different flavors of echo state networks have attracted many stares through time, mainly due to the simplicity and computational efficiency of their learning algorithm. However, these advantages do not compensate for the fact that echo state networks remain as black-box models whose decisions cannot be easily explained to the general audience. This work addresses this issue by conducting an explainability study of Echo State Networks when applied to learning tasks with time series, image and video data. Specifically, the study proposes three different techniques capable of eliciting understandable information about the knowledge grasped by these recurrent models, namely, potential memory, temporal patterns and pixel absence effect. Potential memory addresses questions related to the effect of the reservoir size in the capability of the model to store temporal information, whereas temporal patterns unveils the recurrent relationships captured by the model over time. Finally, pixel absence effect attempts at evaluating the effect of the absence of a given pixel when the echo state network model is used for image and video classification. We showcase the benefits of our proposed suite of techniques over three different domains of applicability: time series modeling, image and, for the first time in the related literature, video classification. Our results reveal that the proposed techniques not only allow for a informed understanding of the way these models work, but also serve as diagnostic tools capable of detecting issues inherited from data (e.g. presence of hidden bias).
翻訳日:2021-02-18 14:51:36 公開日:2021-02-17
# 剛体3次元シーンフローの弱教師付き学習

Weakly Supervised Learning of Rigid 3D Scene Flow ( http://arxiv.org/abs/2102.08945v1 )

ライセンス: Link先を確認
Zan Gojcic, Or Litany, Andreas Wieser, Leonidas J. Guibas, Tolga Birdal(参考訳) 本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。 提案手法のコアとなるのは,他の3次元タスクと連動して3次元シーンフローを考慮し,‘textbf{object-level}’を推論できる深層アーキテクチャである。 このオブジェクトレベルの抽象化により、単純なバイナリバックグラウンドセグメンテーションマスクとエゴモーションアノテーションにより、密なシーンフロー監視の要件を緩和できます。 我々の軽度の監視要件は、最近リリースされた高密度なシーンフローアノテーションを含まない自動運転のための大規模データ収集に適している。 結果として,本モデルは,ポイントワイズフローのような低レベルな手掛かりと,剛性のある物体のレベルでの総合的なシーン理解のような高レベルな手掛かりを提供する。 さらに,予測された厳密なシーンフローを精査するテスト時間最適化を提案する。 4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。 ソースコードとトレーニング済みモデルを \url{github.com/zgojcic/Rigid3DSceneFlow} でリリースします。

We propose a data-driven scene flow estimation algorithm exploiting the observation that many 3D scenes can be explained by a collection of agents moving as rigid bodies. At the core of our method lies a deep architecture able to reason at the \textbf{object-level} by considering 3D scene flow in conjunction with other 3D tasks. This object level abstraction, enables us to relax the requirement for dense scene flow supervision with simpler binary background segmentation mask and ego-motion annotations. Our mild supervision requirements make our method well suited for recently released massive data collections for autonomous driving, which do not contain dense scene flow annotations. As output, our model provides low-level cues like pointwise flow and higher-level cues such as holistic scene understanding at the level of rigid objects. We further propose a test-time optimization refining the predicted rigid scene flow. We showcase the effectiveness and generalization capacity of our method on four different autonomous driving datasets. We release our source code and pre-trained models under \url{github.com/zgojcic/Rigid3DSceneFlow}.
翻訳日:2021-02-18 14:51:09 公開日:2021-02-17
# S2-BNN: 誘導分布校正による自己監督型実と1ビットニューラルネットワークのギャップを埋める

S2-BNN: Bridging the Gap Between Self-Supervised Real and 1-bit Neural Networks via Guided Distribution Calibration ( http://arxiv.org/abs/2102.08946v1 )

ライセンス: Link先を確認
Zhiqiang Shen and Zechun Liu and Jie Qin and Lei Huang and Kwang-Ting Cheng and Marios Savvides(参考訳) これまでの研究は、実価値ネットワーク上での自己監督学習を主目的とし、多くの有望な結果を達成してきた。 しかし、より困難なバイナリニューラルネットワーク(BNN)では、このタスクはまだコミュニティで十分に検討されていません。 本稿では、重みと活性化の両方がバイナリである学習ネットワーク、人間の注釈付きラベルなしで、このより困難なシナリオに焦点を当てます。 バックボーンネットワークは,比較的限られた能力と表現能力を有するため,BNNの競合精度を満足するものではない。 そこで本研究では, 既存の自己監視手法を直接適用し, 性能の低下を引き起こすのではなく, 最終的な予測分布上で, 実値から2値のネットワークを蒸留する, 損失を最小化し, 望ましい精度を得る, 新たな指導的学習パラダイムを提案する。 提案手法は,bnn上で5.5~15%の絶対利得で,単純なコントラスト学習ベースラインを向上できる。 さらに,ラベルのないトレーニングでは,BNNが実数値モデルと同様の予測分布を復元することは困難であることを明らかにした。 したがって、それらの校正方法は、パフォーマンスの低下に対処するための鍵です。 大規模なImageNetと下流データセットで大規模な実験を行う。 提案手法は、単純なコントラスト学習ベースラインよりも大幅に改善され、多くの主流教師付きBNN手法に匹敵する。 コードは利用可能になる。

Previous studies dominantly target at self-supervised learning on real-valued networks and have achieved many promising results. However, on the more challenging binary neural networks (BNNs), this task has not yet been fully explored in the community. In this paper, we focus on this more difficult scenario: learning networks where both weights and activations are binary, meanwhile, without any human annotated labels. We observe that the commonly used contrastive objective is not satisfying on BNNs for competitive accuracy, since the backbone network contains relatively limited capacity and representation ability. Hence instead of directly applying existing self-supervised methods, which cause a severe decline in performance, we present a novel guided learning paradigm from real-valued to distill binary networks on the final prediction distribution, to minimize the loss and obtain desirable accuracy. Our proposed method can boost the simple contrastive learning baseline by an absolute gain of 5.5~15% on BNNs. We further reveal that it is difficult for BNNs to recover the similar predictive distributions as real-valued models when training without labels. Thus, how to calibrate them is key to address the degradation in performance. Extensive experiments are conducted on the large-scale ImageNet and downstream datasets. Our method achieves substantial improvement over the simple contrastive learning baseline, and is even comparable to many mainstream supervised BNN methods. Code will be made available.
翻訳日:2021-02-18 14:50:51 公開日:2021-02-17
# 対向ロバスト性と最適化バイアスのギャップを埋める

Bridging the Gap Between Adversarial Robustness and Optimization Bias ( http://arxiv.org/abs/2102.08868v1 )

ライセンス: Link先を確認
Fartash Faghri, Cristina Vasconcelos, David J. Fleet, Fabian Pedregosa, Nicolas Le Roux(参考訳) 敵意の強固さは、ディープラーニングにおいてオープンな課題であり、しばしば敵意のトレーニングを用いて取り組まれる。 対数トレーニングは計算コストがかかり、標準一般化と対数ロバスト性の間のトレードオフを伴う交互最適化が伴う。 最大ロバストな分類器と最小ノルム解を連結した既知の結果を再検討し、オプティマイザの暗黙のバイアスに関する最近の結果と組み合わせることで、敵対的なトレーニングなしで堅牢なモデルを訓練する。 まず,特定の条件下では,最適化の暗黙のバイアスを用いて過パラメータモデルのトレーニングを行うことで,完全な標準精度とある程度の堅牢性を達成できることを示す。 その体制では、オプティマイザのタイプとモデルが堅牢である攻撃との間に直接的な関係があります。 次に,ロバストモデルの設計におけるアーキテクチャの役割について検討する。 特に、線形畳み込みモデルの堅牢性を特徴づけ、フーリエ-$\ell_\infty$ノルム上の制約を受ける攻撃に抵抗することを示した。 この結果は、フーリエ領域に集中する傾向にある$\ell_p$-bounded adversarial perturbationsの特性を説明する。 これはフーリエ領域において、人間の知覚の周波数依存性の感度に触発された新しい攻撃に繋がる。 我々は,最近のCIFAR-10モデルのFourier-$\ell_\infty$ロバスト性を評価する。

Adversarial robustness is an open challenge in deep learning, most often tackled using adversarial training. Adversarial training is computationally costly, involving alternated optimization with a trade-off between standard generalization and adversarial robustness. We explore training robust models without adversarial training by revisiting a known result linking maximally robust classifiers and minimum norm solutions, and combining it with recent results on the implicit bias of optimizers. First, we show that, under certain conditions, it is possible to achieve both perfect standard accuracy and a certain degree of robustness without a trade-off, simply by training an overparameterized model using the implicit bias of the optimization. In that regime, there is a direct relationship between the type of the optimizer and the attack to which the model is robust. Second, we investigate the role of the architecture in designing robust models. In particular, we characterize the robustness of linear convolutional models, showing that they resist attacks subject to a constraint on the Fourier-$\ell_\infty$ norm. This result explains the property of $\ell_p$-bounded adversarial perturbations that tend to be concentrated in the Fourier domain. This leads us to a novel attack in the Fourier domain that is inspired by the well-known frequency-dependent sensitivity of human perception. We evaluate Fourier-$\ell_\infty$ robustness of recent CIFAR-10 models with robust training and visualize adversarial perturbations.
翻訳日:2021-02-18 14:50:27 公開日:2021-02-17
# ルールベース対話管理への事前学習モデルの統合

Integrating Pre-trained Model into Rule-based Dialogue Management ( http://arxiv.org/abs/2102.08553v1 )

ライセンス: Link先を確認
Jun Quan, Meng Yang, Qiang Gan, Deyi Xiong, Yiming Liu, Yuchen Dong, Fangxin Ouyang, Jun Tian, Ruiling Deng, Yongzhi Li, Yang Yang and Daxin Jiang(参考訳) ルールベースの対話管理は、その解釈のための産業タスク指向対話システムのための最も人気のあるソリューションです。 しかし、シナリオがますます複雑になると、開発者は対話ロジックを維持するのが難しくなります。 一方で、データ駆動対話システム(通常はエンドツーエンド構造を持つ)は学術研究で人気があり、複雑な会話を扱うのが容易であるが、そのような方法には十分なトレーニングデータが必要であり、その動作は解釈できない。 本稿では,ルールベースとデータ駆動型対話マネージャ(dm)の両方の強みを活用する手法を提案する。 最初にCarina Dialog System(CDS、Microsoftが構築した高度な産業用対話システム)のDMを紹介します。 次に,dm をシナリオ変更に対してスケーラブルにトレーニング可能にする "モデルトリガー" 設計を提案する。 さらに,事前学習したモデルを統合し,dmに限定的な能力を持たせる。 実験結果から,本手法の有効性と有効性を示した。

Rule-based dialogue management is still the most popular solution for industrial task-oriented dialogue systems for their interpretablility. However, it is hard for developers to maintain the dialogue logic when the scenarios get more and more complex. On the other hand, data-driven dialogue systems, usually with end-to-end structures, are popular in academic research and easier to deal with complex conversations, but such methods require plenty of training data and the behaviors are less interpretable. In this paper, we propose a method to leverages the strength of both rule-based and data-driven dialogue managers (DM). We firstly introduce the DM of Carina Dialog System (CDS, an advanced industrial dialogue system built by Microsoft). Then we propose the "model-trigger" design to make the DM trainable thus scalable to scenario changes. Furthermore, we integrate pre-trained models and empower the DM with few-shot capability. The experimental results demonstrate the effectiveness and strong few-shot capability of our method.
翻訳日:2021-02-18 14:50:01 公開日:2021-02-17
# エンティティ中心の視点から見たオープンドメインテーブル・トゥ・テキスト生成の信頼性に向けて

Towards Faithfulness in Open Domain Table-to-text Generation from an Entity-centric View ( http://arxiv.org/abs/2102.08585v1 )

ライセンス: Link先を確認
Tianyu Liu, Xin Zheng, Baobao Chang and Zhifang Sui(参考訳) オープンなドメインテーブル・トゥ・テキスト生成では、不誠実な生成は通常、任意の入力テーブルレコードにアライメントできない幻覚コンテンツを含むことに気づく。 したがって,2つのエンティティ中心の指標による生成忠実性を評価することを試みる。表記録のカバレッジとテキスト中の幻覚的実体の比率であり,どちらも人間の判断と強い一致を示す。 次に,これらの指標に基づいて,忠実な生成におけるエンティティ情報の利用可能性を示す学習データ品質と生成忠実度の関係を定量的に解析する。 本研究の目的は,1) 強化計画ベースモデルと教師なしモデルの両方を含む補助エンティティ情報を組み込んだ強化学習と,2) 忠実度ランキングに基づくトレーニングインスタンス選択という2つの手法を提案することである。 これらのアプローチは,完全なデータセット設定とショット学習設定の両方において,自動評価と人間評価の両方によって,生成精度を向上させる。

In open domain table-to-text generation, we notice that the unfaithful generation usually contains hallucinated content which can not be aligned to any input table record. We thus try to evaluate the generation faithfulness with two entity-centric metrics: table record coverage and the ratio of hallucinated entities in text, both of which are shown to have strong agreement with human judgements. Then based on these metrics, we quantitatively analyze the correlation between training data quality and generation fidelity which indicates the potential usage of entity information in faithful generation. Motivated by these findings, we propose two methods for faithful generation: 1) augmented training by incorporating the auxiliary entity information, including both an augmented plan-based model and an unsupervised model and 2) training instance selection based on faithfulness ranking. We show these approaches improve generation fidelity in both full dataset setting and few shot learning settings by both automatic and human evaluations.
翻訳日:2021-02-18 14:49:46 公開日:2021-02-17
# Sparsely Factored Neural Machine Translation

Sparsely Factored Neural Machine Translation ( http://arxiv.org/abs/2102.08934v1 )

ライセンス: Link先を確認
Noe Casas, Jose A. R. Fonollosa, Marta R. Costa-juss\`a(参考訳) 言語情報をニューラルマシン翻訳システムに組み込む標準的なアプローチは、組み込むべき注釈付き特徴(例えば、)ごとに別々の語彙を維持することである。 POSタグ、依存性関係ラベル)を埋め込んで、各サブワードをその属する単語に集約します。 しかし、この手法は、すべての単語に密でないアノテーションスキームに容易に対応できない。 そこで本研究では,ドメイン外データの大幅な改善と,ドメイン内データに匹敵する品質を示す手法を提案する。 低リソースシナリオの場合、実験はバスク語やドイツ語のような形態素豊かな言語で行われる。

The standard approach to incorporate linguistic information to neural machine translation systems consists in maintaining separate vocabularies for each of the annotated features to be incorporated (e.g. POS tags, dependency relation label), embed them, and then aggregate them with each subword in the word they belong to. This approach, however, cannot easily accommodate annotation schemes that are not dense for every word. We propose a method suited for such a case, showing large improvements in out-of-domain data, and comparable quality for the in-domain data. Experiments are performed in morphologically-rich languages like Basque and German, for the case of low-resource scenarios.
翻訳日:2021-02-18 14:49:30 公開日:2021-02-17
# コンテキストスキップグラム:コンテキスト情報を用いた単語表現のトレーニング

Contextual Skipgram: Training Word Representation Using Context Information ( http://arxiv.org/abs/2102.08565v1 )

ライセンス: Link先を確認
Dongjae Kim, Jong-Kook Kim(参考訳) スキップグラム(SG)モデルは、非構造化テキストデータから中心語を取り巻く単語を予測して単語表現を学習する。 しかし、コンテキストウィンドウ内の全ての単語が中心語の意味に寄与するわけではない。 例えば、関連する単語がコンテキストウィンドウにある場合、sgモデルがより良い品質表現を学ぶことを妨げる可能性がある。 本稿では,文脈情報を利用して単語表現を生成するSGの拡張版を提案する。 提案手法であるコンテキスト・スキップ・グラムは,単語中心と文脈情報の両方を用いて文脈単語を予測できる。 このシンプルなアイデアは、トレーニングプロセスにおける無関係な単語の影響を減らし、最終的なパフォーマンスを高めるのに役立つ

The skip-gram (SG) model learns word representation by predicting the words surrounding a center word from unstructured text data. However, not all words in the context window contribute to the meaning of the center word. For example, less relevant words could be in the context window, hindering the SG model from learning a better quality representation. In this paper, we propose an enhanced version of the SG that leverages context information to produce word representation. The proposed model, Contextual Skip-gram, is designed to predict contextual words with both the center words and the context information. This simple idea helps to reduce the impact of irrelevant words on the training process, thus enhancing the final performance
翻訳日:2021-02-18 14:48:59 公開日:2021-02-17
# エコーチャンバーの外:パフォーマンスリスクを最適化する

Outside the Echo Chamber: Optimizing the Performative Risk ( http://arxiv.org/abs/2102.08570v1 )

ライセンス: Link先を確認
John Miller, Juan C. Perdomo, Tijana Zrnic(参考訳) 実行予測では、予測は意思決定を導くので、将来のデータの分布に影響を与えることができる。 これまでは、反復的再訓練の固定点である、性能的に安定なモデルを見つけることに焦点を当ててきた。 しかし、安定したソリューションは、モデルのデプロイ時に意思決定者が経験する損失、実行リスクの観点から評価した場合の最適とは程遠い。 本稿では,パフォーマンスの安定性よりも注意を移し,パフォーマンスのリスクを直接最適化することに注力する。 本研究では,損失関数の性質の自然集合と,損失のみの凸性から従わない特性である実効的リスクが凸となるモデル誘起分布シフトを同定する。 さらに,我々の構造的仮定を利用して,導関数のない凸最適化法よりも優れたサンプル効率で性能的リスクを最適化するアルゴリズムを開発した。

In performative prediction, predictions guide decision-making and hence can influence the distribution of future data. To date, work on performative prediction has focused on finding performatively stable models, which are the fixed points of repeated retraining. However, stable solutions can be far from optimal when evaluated in terms of the performative risk, the loss experienced by the decision maker when deploying a model. In this paper, we shift attention beyond performative stability and focus on optimizing the performative risk directly. We identify a natural set of properties of the loss function and model-induced distribution shift under which the performative risk is convex, a property which does not follow from convexity of the loss alone. Furthermore, we develop algorithms that leverage our structural assumptions to optimize the performative risk with better sample efficiency than generic methods for derivative-free convex optimization.
翻訳日:2021-02-18 14:48:33 公開日:2021-02-17
# Centroid Transformers: 注意で抽象化を学ぶ

Centroid Transformers: Learning to Abstract with Attention ( http://arxiv.org/abs/2102.08606v1 )

ライセンス: Link先を確認
Lemeng Wu, Xingchao Liu, Qiang Liu(参考訳) トランスフォーマーのキーブロックとしてのセルフアテンションは、入力から特徴を抽出する強力なメカニズムである。 本質的には、入力の要素間のペアワイズ関係を推測し、入力ペア間の情報を伝達することによって入力を修正するために自己注意が行うもの。 その結果、入力を N 出力にマップし、二次 $O(N^2)$ メモリと時間の複雑さをキャストします。 我々は、N の入力を M にマッピングする自己注意の一般化である centroid attention を提案し、入力のキー情報がより少ない出力(centroids と呼ばれる)で要約されるように$(M\leq N)$ を出力する。 本研究では,入力に対するクラスタリング目的関数の勾配降下更新ルールを償却することにより,注意とクラスタリングの基盤となる関係を明らかにする。 入力をセンタロイドに圧縮することにより,予測に有用な鍵情報を抽出するとともに,アテンションモジュールとそれに続くレイヤの計算量を削減する。 本手法は,抽象的テキスト要約,3次元視覚,画像処理など,様々なアプリケーションに適用する。 実験の結果, 標準変圧器に対する提案手法の有効性が実証された。

Self-attention, as the key block of transformers, is a powerful mechanism for extracting features from the inputs. In essence, what self-attention does to infer the pairwise relations between the elements of the inputs, and modify the inputs by propagating information between input pairs. As a result, it maps inputs to N outputs and casts a quadratic $O(N^2)$ memory and time complexity. We propose centroid attention, a generalization of self-attention that maps N inputs to M outputs $(M\leq N)$, such that the key information in the inputs are summarized in the smaller number of outputs (called centroids). We design centroid attention by amortizing the gradient descent update rule of a clustering objective function on the inputs, which reveals an underlying connection between attention and clustering. By compressing the inputs to the centroids, we extract the key information useful for prediction and also reduce the computation of the attention module and the subsequent layers. We apply our method to various applications, including abstractive text summarization, 3D vision, and image processing. Empirical results demonstrate the effectiveness of our method over the standard transformers.
翻訳日:2021-02-18 14:48:20 公開日:2021-02-17
# PACベイズ境界の非ランダム化に関する一般枠組み

A General Framework for the Derandomization of PAC-Bayesian Bounds ( http://arxiv.org/abs/2102.08649v1 )

ライセンス: Link先を確認
Paul Viallard (LHC), Pascal Germain, Amaury Habrard (LHC), Emilie Morvant (LHC)(参考訳) PAC-ベイズ境界は、ランダム化分類器の一般化能力を研究する際に、厳密で情報的であることが知られている。 しかし、ニューラルネットワークのようなある種の決定論的モデルに適用する場合、それらはゆるくコストのかかる非ランダム化ステップを必要とする。 このステップの代替として、3つの新しいpac-ベイズ一般化境界を導入し、これは原点を点的に持つため、通常の平均解析ではなく、1つの仮説に対して保証を提供する。 私たちの境界はかなり一般的で、パラメータ化可能であり、ランダム化アルゴリズムに依存するさまざまな機械学習設定に対して、新しい洞察を提供する。 本研究では,ニューラルネットワークの訓練分析における理論的結果の有用性について述べる。

PAC-Bayesian bounds are known to be tight and informative when studying the generalization ability of randomized classifiers. However, when applied to some family of deterministic models such as neural networks, they require a loose and costly derandomization step. As an alternative to this step, we introduce three new PAC-Bayesian generalization bounds that have the originality to be pointwise, meaning that they provide guarantees over one single hypothesis instead of the usual averaged analysis. Our bounds are rather general, potentially parameterizable, and provide novel insights for various machine learning settings that rely on randomized algorithms. We illustrate the interest of our theoretical result for the analysis of neural network training.
翻訳日:2021-02-18 14:48:02 公開日:2021-02-17
# Binary Classifiersに基づくアンバイアス推定:最大可能性アプローチ

Unbiased Estimations based on Binary Classifiers: A Maximum Likelihood Approach ( http://arxiv.org/abs/2102.08659v1 )

ライセンス: Link先を確認
Marco J.H. Puts and Piet J.H. Daas(参考訳) 正の項目の一定の割合でトレーニングされたバイナリ分類器は、正の項目の比率が異なるデータセットに適用するとバイアスをもたらす。 この問題に対処するためのほとんどのソリューションは、後者の分布に関する情報が知られていると仮定します。 しかし、この比率がターゲット変数である場合、これは必ずしもそうではない。 本稿では,データセットにおける正の正の正の正の正の正の比率を最大で推定し,合成および実世界のデータに対して検証する。

Binary classifiers trained on a certain proportion of positive items introduce a bias when applied to data sets with different proportions of positive items. Most solutions for dealing with this issue assume that some information on the latter distribution is known. However, this is not always the case, certainly when this proportion is the target variable. In this paper a maximum likelihood estimator for the true proportion of positives in data sets is suggested and tested on synthetic and real world data.
翻訳日:2021-02-18 14:47:51 公開日:2021-02-17
# 群同変条件ニューラルプロセス

Group Equivariant Conditional Neural Processes ( http://arxiv.org/abs/2102.08759v1 )

ライセンス: Link先を確認
Makoto Kawano, Wataru Kumagai, Akiyoshi Sannai, Yusuke Iwasawa and Yutaka Matsuo(参考訳) 本論文では、従来の条件神経プロセス(CNP)のようなデータセットにおける置換不変性を持つメタラーニング手法であるEquivCNP(EquivCNP)と、データ空間における変換等価性について述べる。 回転やスケーリング等分散のような群同値を組み込むことで、実世界のデータの対称性を考えることができる。 置換不変写像と群同変写像の分解定理を与え、群対称性を扱うために無限次元の潜在空間を持つ EquivCNP を構成する。 本稿では,リー群畳み込み層を用いたアーキテクチャを実践的に構築する。 翻訳等価性を有するEquivCNPは、従来のCNPと同等の性能を1D回帰タスクで達成できることを示した。 さらに,適切なリー群同値を組み込んだEquivCNPは,適切なリー群同値を選択することにより,画像補完タスクのゼロショット一般化を実現できることを示す。

We present the group equivariant conditional neural process (EquivCNP), a meta-learning method with permutation invariance in a data set as in conventional conditional neural processes (CNPs), and it also has transformation equivariance in data space. Incorporating group equivariance, such as rotation and scaling equivariance, provides a way to consider the symmetry of real-world data. We give a decomposition theorem for permutation-invariant and group-equivariant maps, which leads us to construct EquivCNPs with an infinite-dimensional latent space to handle group symmetries. In this paper, we build architecture using Lie group convolutional layers for practical implementation. We show that EquivCNP with translation equivariance achieves comparable performance to conventional CNPs in a 1D regression task. Moreover, we demonstrate that incorporating an appropriate Lie group equivariance, EquivCNP is capable of zero-shot generalization for an image-completion task by selecting an appropriate Lie group equivariance.
翻訳日:2021-02-18 14:47:36 公開日:2021-02-17
# 地理統計的学習 : 挑戦と機会

Geostatistical Learning: Challenges and Opportunities ( http://arxiv.org/abs/2102.08791v1 )

ライセンス: Link先を確認
J\'ulio Hoffimann, Maciel Zortea, Breno de Carvalho, Bianca Zadrozny(参考訳) 統計的学習理論は機械学習の応用の基礎となり、コンピュータビジョン、自然言語処理、その他の科学分野における様々な応用が成功した。 しかし、この理論は、地理空間設定における統計的学習のユニークな課題を考慮に入れていない。 例えば、モデル誤差は独立であり、地理空間(a.a.)で同一に分布しているとは仮定できないことはよく知られている。 地域化) 空間的相関による変数、そして、地球物理学的プロセスによって引き起こされるトレンドは、モデルが訓練された領域と適用される領域の間の共変量シフトにつながり、結果としてデータのランダムなサンプルに依存する古典的学習方法論の使用を損なう。 本研究では,共変量シフトと空間相関の下で,学習モデルの一般化誤差を推定するための広く使われている手法を評価し,地理空間データから学習する課題を説明する。 合成ガウス過程データとニュージーランドの地球物理調査の実データを用いた実験は、いずれの手法も地理空間的文脈におけるモデル選択に適していないことを示している。 我々は,新しい手法が積極的に研究されている間,これらの手法の実践的選択に関する一般的なガイドラインを提供する。

Statistical learning theory provides the foundation to applied machine learning, and its various successful applications in computer vision, natural language processing and other scientific domains. The theory, however, does not take into account the unique challenges of performing statistical learning in geospatial settings. For instance, it is well known that model errors cannot be assumed to be independent and identically distributed in geospatial (a.k.a. regionalized) variables due to spatial correlation; and trends caused by geophysical processes lead to covariate shifts between the domain where the model was trained and the domain where it will be applied, which in turn harm the use of classical learning methodologies that rely on random samples of the data. In this work, we introduce the geostatistical (transfer) learning problem, and illustrate the challenges of learning from geospatial data by assessing widely-used methods for estimating generalization error of learning models, under covariate shift and spatial correlation. Experiments with synthetic Gaussian process data as well as with real data from geophysical surveys in New Zealand indicate that none of the methods are adequate for model selection in a geospatial context. We provide general guidelines regarding the choice of these methods in practice while new methods are being actively researched.
翻訳日:2021-02-18 14:47:22 公開日:2021-02-17
# 教師付きコンストラッシブラーニングの分別

Dissecting Supervised Constrastive Learning ( http://arxiv.org/abs/2102.08817v1 )

ライセンス: Link先を確認
Florian Graf, Christoph D. Hofer, Marc Niethammer, Roland Kwitt(参考訳) 高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。 しかし、近年の研究では、コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することが示されている。 本研究では,最小損失のエンコーダの出力空間において,表現幾何学に基本的な相違が存在するかという問題に対処する。 具体的には、軽微な仮定の下で、各クラスの表現が超球面に刻まれた正則単純体の頂点に崩壊すると、両者の損失が最小値に達することを証明する。 この構成が実際に達成されていることを示す実証的証拠を提示し、至近状態に達することは一般によい一般化性能を示す。 しかし、この2つの損失は、非常に異なる最適化挙動を示している。 データスケールに完全に適合するために必要なイテレーションの数は、教師付きコントラスト損失のためのランダムに反転したラベルの量と並べ替えられます。 これは、クロスエントロピーで訓練されたネットワークで以前に報告されたほぼ線形スケーリングとは対照的です。

Minimizing cross-entropy over the softmax scores of a linear map composed with a high-capacity encoder is arguably the most popular choice for training neural networks on supervised learning tasks. However, recent works show that one can directly optimize the encoder instead, to obtain equally (or even more) discriminative representations via a supervised variant of a contrastive objective. In this work, we address the question whether there are fundamental differences in the sought-for representation geometry in the output space of the encoder at minimal loss. Specifically, we prove, under mild assumptions, that both losses attain their minimum once the representations of each class collapse to the vertices of a regular simplex, inscribed in a hypersphere. We provide empirical evidence that this configuration is attained in practice and that reaching a close-to-optimal state typically indicates good generalization performance. Yet, the two losses show remarkably different optimization behavior. The number of iterations required to perfectly fit to data scales superlinearly with the amount of randomly flipped labels for the supervised contrastive loss. This is in contrast to the approximately linear scaling previously reported for networks trained with cross-entropy.
翻訳日:2021-02-18 14:47:00 公開日:2021-02-17
# 構造予測における厳密推論の基本限界について

On the Fundamental Limits of Exact Inference in Structured Prediction ( http://arxiv.org/abs/2102.08895v1 )

ライセンス: Link先を確認
Hanbyul Lee and Kevin Bello and Jean Honorio(参考訳) 推論は構造化予測の主要なタスクであり、自然にグラフでモデル化される。 Markovのランダムフィールドの文脈では、ノードとエッジに対応する騒々しい観測は通常関与しており、正確な推論の目標は、各ノードの未知の真のラベルを正確に回復することです。 本論文では,Globersonらによって提案された生成過程を仮定し,計算効率に関係なく正確な回復の基本的な限界に焦点をあてる。 (2015). アルゴリズムに必要な条件と最大確率推定のための十分な条件を導き出し、高い確率で正確な回復を達成し、十分な条件と必要な条件が広範囲のグラフの対数係数までタイトであることを明らかにします。 最後に,bello と honorio (2019) の計算可能な手法の基本的な限界と性能の間にはギャップがあることを示し,正確な推論のためのアルゴリズムのさらなる開発の必要性を示唆する。

Inference is a main task in structured prediction and it is naturally modeled with a graph. In the context of Markov random fields, noisy observations corresponding to nodes and edges are usually involved, and the goal of exact inference is to recover the unknown true label for each node precisely. The focus of this paper is on the fundamental limits of exact recovery irrespective of computational efficiency, assuming the generative process proposed by Globerson et al. (2015). We derive the necessary condition for any algorithm and the sufficient condition for maximum likelihood estimation to achieve exact recovery with high probability, and reveal that the sufficient and necessary conditions are tight up to a logarithmic factor for a wide range of graphs. Finally, we show that there exists a gap between the fundamental limits and the performance of the computationally tractable method of Bello and Honorio (2019), which implies the need for further development of algorithms for exact inference.
翻訳日:2021-02-18 14:46:42 公開日:2021-02-17
# 合成データはどれほど忠実か? 生成モデルの評価と評価のためのサンプルレベルメトリクス

How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating and Auditing Generative Models ( http://arxiv.org/abs/2102.08921v1 )

ライセンス: Link先を確認
Ahmed M. Alaa, Boris van Breugel, Evgeny Saveliev, Mihaela van der Schaar(参考訳) 生成モデルに対するドメインおよびモデルに依存しない評価指標の開発は重要であり、未解決の課題である。 画像合成のセットアップのみに調整された既存のメトリックのほとんどは、幅広いアプリケーションドメインにわたる生成モデルの異なる障害モードを診断する能力に制限がある。 本稿では,任意の生成モデルの忠実度,多様性,一般化性能をドメインに依存しない方法で特徴づける3次元評価指標 ($\alpha$-Precision, $\beta$-Recall, Authenticity) を提案する。 当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。 モデルがトレーニングデータをコピーする範囲を定量化する(忠実度分散トレードオフ)追加の独立した次元として一般化を導入します。これは、機密データをプライバシー要件でモデリングする際に重要なパフォーマンス指標です。 3つの計量成分は(解釈可能な)確率量に対応し、サンプルレベルのバイナリ分類によって推定される。 ここでは,黒箱モデルによって生成された個々のサンプルの品質を判断し,低品質なサンプルを廃棄し,その結果,ポストホックな方法で全体のモデル性能を向上させる。

Devising domain- and model-agnostic evaluation metrics for generative models is an important and as yet unresolved problem. Most existing metrics, which were tailored solely to the image synthesis setup, exhibit a limited capacity for diagnosing the different modes of failure of generative models across broader application domains. In this paper, we introduce a 3-dimensional evaluation metric, ($\alpha$-Precision, $\beta$-Recall, Authenticity), that characterizes the fidelity, diversity and generalization performance of any generative model in a domain-agnostic fashion. Our metric unifies statistical divergence measures with precision-recall analysis, enabling sample- and distribution-level diagnoses of model fidelity and diversity. We introduce generalization as an additional, independent dimension (to the fidelity-diversity trade-off) that quantifies the extent to which a model copies training data -- a crucial performance indicator when modeling sensitive data with requirements on privacy. The three metric components correspond to (interpretable) probabilistic quantities, and are estimated via sample-level binary classification. The sample-level nature of our metric inspires a novel use case which we call model auditing, wherein we judge the quality of individual samples generated by a (black-box) model, discarding low-quality samples and hence improving the overall model performance in a post-hoc manner.
翻訳日:2021-02-18 14:46:26 公開日:2021-02-17
# LambdaNetworks: 注意せずに長距離インタラクションをモデル化する

LambdaNetworks: Modeling Long-Range Interactions Without Attention ( http://arxiv.org/abs/2102.08602v1 )

ライセンス: Link先を確認
Irwan Bello(参考訳) 我々は、入力と構造化されたコンテキスト情報間の長距離相互作用をキャプチャするためのラムダ層 - セルフアテンテンションの代替フレームワーク - を提示する。 他のピクセルに囲まれたピクセル) Lambdaレイヤは、利用可能なコンテキストを線形関数(ラムダと呼ばれる)に変換し、これらの線形関数を各入力に個別に適用することで、そのような相互作用をキャプチャする。 線形アテンションと同様に、ラムダレイヤは高価なアテンションマップをバイパスするが、対照的に、コンテンツと位置ベースのインタラクションの両方をモデル化し、画像などの大きな構造化インプットに応用することができる。 結果として得られたニューラルネットワークアーキテクチャであるLambdaNetworksは、ImageNet分類、COCOオブジェクト検出、COCOインスタンスセグメンテーションにおける畳み込みと注目の対比を大幅に上回り、計算効率が向上した。 さらに、異なるスケールにわたるハイブリッドアーキテクチャのファミリーであるLambdaResNetsを設計し、画像分類モデルの速度-精度トレードオフを大幅に改善する。 LambdaResNetは、最新の機械学習アクセラレータの一般的なEfficientNetよりも3.2 - 4.4倍速く、ImageNetで優れた評価を得ています。 追加の130万の擬似ラベル画像でトレーニングする場合、LambdaResNetは対応するEfficientNetチェックポイントに対して最大9.5倍のスピードアップを達成します。

We present lambda layers -- an alternative framework to self-attention -- for capturing long-range interactions between an input and structured contextual information (e.g. a pixel surrounded by other pixels). Lambda layers capture such interactions by transforming available contexts into linear functions, termed lambdas, and applying these linear functions to each input separately. Similar to linear attention, lambda layers bypass expensive attention maps, but in contrast, they model both content and position-based interactions which enables their application to large structured inputs such as images. The resulting neural network architectures, LambdaNetworks, significantly outperform their convolutional and attentional counterparts on ImageNet classification, COCO object detection and COCO instance segmentation, while being more computationally efficient. Additionally, we design LambdaResNets, a family of hybrid architectures across different scales, that considerably improves the speed-accuracy tradeoff of image classification models. LambdaResNets reach excellent accuracies on ImageNet while being 3.2 - 4.4x faster than the popular EfficientNets on modern machine learning accelerators. When training with an additional 130M pseudo-labeled images, LambdaResNets achieve up to a 9.5x speed-up over the corresponding EfficientNet checkpoints.
翻訳日:2021-02-18 14:46:01 公開日:2021-02-17
# ドメインの一般化は、ドメインシフトのロバスト性に対する確率的ウェイト平均化を必要とする

Domain Generalization Needs Stochastic Weight Averaging for Robustness on Domain Shifts ( http://arxiv.org/abs/2102.08604v1 )

ライセンス: Link先を確認
Junbum Cha, Hancheol Cho, Kyungjae Lee, Seunghyun Park, Yunsung Lee, Sungrae Park(参考訳) ドメイン一般化は、複数のソースドメインからターゲットドメインを非表示にするための一般化モデルを学ぶことを目的としている。 この問題を解決するための様々なアプローチが提案されている。 しかし、最近のベンチマークでは、そのほとんどが実用的なケースでの単純な経験的リスク最小化(erm)と比較して大きな改善を提供していないことが示されている。 本稿では,ermがドメイン不変特徴学習やドメイン固有勾配正規化においてどのように機能するかを分析する。 さらに,複数の訓練領域で共有される損失谷にermが収束するのを観察し,その中心がより一般化しているという知見を得た。 センターの推定には、確率重み平均(SWA)を使用し、SWAが見えない領域に対する一般化をどのようにサポートするかを理論的に分析します。 その結果,pacs,vlcs,officehome,landscognita,domainnetなど,広く使用されているすべてのドメイン一般化ベンチマークに対して,最先端のパフォーマンスを実現することができた。 さらに分析すると、SWAがドメイン一般化タスクでどのように動作するかがわかる。

Domain generalization aims to learn a generalizable model to unseen target domains from multiple source domains. Various approaches have been proposed to address this problem. However, recent benchmarks show that most of them do not provide significant improvements compared to the simple empirical risk minimization (ERM) in practical cases. In this paper, we analyze how ERM works in views of domain-invariant feature learning and domain-specific gradient normalization. In addition, we observe that ERM converges to a loss valley shared over multiple training domains and obtain an insight that a center of the valley generalizes better. To estimate the center, we employ stochastic weight averaging (SWA) and provide theoretical analysis describing how SWA supports the generalization bound for an unseen domain. As a result, we achieve state-of-the-art performances over all of widely used domain generalization benchmarks, namely PACS, VLCS, OfficeHome, TerraIncognita, and DomainNet with large margins. Further analysis reveals how SWA operates on domain generalization tasks.
翻訳日:2021-02-18 14:45:36 公開日:2021-02-17
# ガウスVAEにおけるオーバースムーシングによる後部崩壊の予防

Preventing Posterior Collapse Induced by Oversmoothing in Gaussian VAE ( http://arxiv.org/abs/2102.08663v1 )

ライセンス: Link先を確認
Yuhta Takida, Wei-Hsiang Liao, Toshimitsu Uesaka, Shusuke Takahashi and Yuki Mitsufuji(参考訳) 可変自己エンコーダ(VAE)は、しばしば後部崩壊に苦しむが、これは学習された潜在空間が無情報になる現象である。 これはしばしばデータ分散に類似したハイパーパラメータに関連している。 このパラメータの不適切な選択が過滑性を引き起こし、線形近似ケースの後方崩壊につながることが示され、一般的なケースで経験的に検証することができる。 そこで我々は,この分散パラメータを適用してモデルの滑らかさを制御するAR-ELBO(Adaptively Regularized Evidence Lower Bound)を提案する。 さらに、分散パラメータの代替パラメータ化によりVAEを拡張し、非均一または条件付きデータ分散に対処する。 AR-ELBOで訓練されたVAE拡張は、MNISTおよびCelebAデータセットから生成された画像に対するFr\'echet受信距離(FID)を改善した。

Variational autoencoders (VAEs) often suffer from posterior collapse, which is a phenomenon in which the learned latent space becomes uninformative. This is often related to a hyperparameter resembling the data variance. It can be shown that an inappropriate choice of this parameter causes oversmoothness and leads to posterior collapse in the linearly approximated case and can be empirically verified for the general cases. Therefore, we propose AR-ELBO (Adaptively Regularized Evidence Lower BOund), which controls the smoothness of the model by adapting this variance parameter. In addition, we extend VAE with alternative parameterizations on the variance parameter to deal with non-uniform or conditional data variance. The proposed VAE extensions trained with AR-ELBO show improved Fr\'echet inception distance (FID) on images generated from the MNIST and CelebA datasets.
翻訳日:2021-02-18 14:45:19 公開日:2021-02-17
# コントラスト学習はデータ生成プロセスを反転させる

Contrastive Learning Inverts the Data Generating Process ( http://arxiv.org/abs/2102.08850v1 )

ライセンス: Link先を確認
Roland S. Zimmermann, Yash Sharma, Steffen Schneider, Matthias Bethge, Wieland Brendel(参考訳) コントラスト学習は最近、自己監督学習で大きな成功を収めています。 しかし、これまでのところ、なぜ学習された表現が多くの下流タスクに効果的に一般化するのかは、ほとんど不明である。 ここでは,よく使われるインフォアンスファミリーに属する対象を訓練したフィードフォワードモデルが,観測データの基底となる生成モデルを暗黙的に反転させることを実証する。 証明は生成モデルについて一定の統計的仮定を与えるが、これらの仮定が厳しく破られたとしても、我々の発見は実証的に成り立つことを観察する。 本理論は, コントラスト学習, 生成モデル, 非線形独立成分分析の基本的な関係を強調し, 学習表現の理解を深めるとともに, より効果的なコントラスト的損失を導出するための理論的基盤を提供する。

Contrastive learning has recently seen tremendous success in self-supervised learning. So far, however, it is largely unclear why the learned representations generalize so effectively to a large variety of downstream tasks. We here prove that feedforward models trained with objectives belonging to the commonly used InfoNCE family learn to implicitly invert the underlying generative model of the observed data. While the proofs make certain statistical assumptions about the generative model, we observe empirically that our findings hold even if these assumptions are severely violated. Our theory highlights a fundamental connection between contrastive learning, generative modeling, and nonlinear independent component analysis, thereby furthering our understanding of the learned representations as well as providing a theoretical foundation to derive more effective contrastive losses.
翻訳日:2021-02-18 14:45:05 公開日:2021-02-17
# ヘルスケアにおけるチームのメンタルモデルアライメントを推論するAIコーチ

Towards an AI Coach to Infer Team Mental Model Alignment in Healthcare ( http://arxiv.org/abs/2102.08507v1 )

ライセンス: Link先を確認
Sangwon Seo, Lauren R. Kennedy-Metz, Marco A. Zenati, Julie A. Shah, Roger D. Dias, Vaibhav V. Unhelkar(参考訳) 共有メンタルモデルはチームの成功に不可欠です。しかし、実際には、チームメンバーはさまざまな要因のためにモデルが不整合している可能性があります。 安全クリティカルな領域(航空、医療など)では、共有精神モデルの欠如は予防可能なエラーと害につながる可能性がある。 このような予防可能なエラーを緩和する目的に向けて,我々は,複雑な医療タスク実行中のチームメンバーのメンタルモデルの誤用を推測するベイズ的アプローチを提案する。 例示のアプリケーションとして、我々は2つのシミュレーションチームベースのシナリオを用いて、心臓外科における実際のチームワークから得られたアプローチを実証する。 これらのシミュレーション実験では,75%以上のリコールによるモデル誤認を推定し,手術室における人間認知の増強とチームワークの改善のためのコンピュータ支援介入を可能にするビルディングブロックを提供した。

Shared mental models are critical to team success; however, in practice, team members may have misaligned models due to a variety of factors. In safety-critical domains (e.g., aviation, healthcare), lack of shared mental models can lead to preventable errors and harm. Towards the goal of mitigating such preventable errors, here, we present a Bayesian approach to infer misalignment in team members' mental models during complex healthcare task execution. As an exemplary application, we demonstrate our approach using two simulated team-based scenarios, derived from actual teamwork in cardiac surgery. In these simulated experiments, our approach inferred model misalignment with over 75% recall, thereby providing a building block for enabling computer-assisted interventions to augment human cognition in the operating room and improve teamwork.
翻訳日:2021-02-18 14:44:37 公開日:2021-02-17
# チャンス制約強化学習のための分離プロポーショナル・Integral Lagrangian

Separated Proportional-Integral Lagrangian for Chance Constrained Reinforcement Learning ( http://arxiv.org/abs/2102.08539v1 )

ライセンス: Link先を確認
Baiyu Peng, Yao Mu, Jingliang Duan, Yang Guan, Shengbo Eben Li, Jianyu Chen(参考訳) 安全は、自動運転のような現実世界のタスクに適用される強化学習(RL)に不可欠です。 状態制約の満足度を高い確率で保証する条件制約は、不確実性のある現実環境における要件を表現するのに適している。 既存の確率制約付きRL法(ペナルティ法やラグランジアン法)は周期振動を示すか、あるいは制約を満たすことができない。 本稿では,分離比例積分ラグランジアン(spil)アルゴリズムを提案することで,これらの欠点を解決する。 制御の観点から,まずペナルティ法とラグランジアン法を比例フィードバックと積分フィードバック制御として解釈する。 次に,安全を向上しながら安定した学習プロセスを実現する比例積分ラグランジアン法を提案する。 積分オーバーシュートを防止し,保守性を低下させるために,PID制御にインスパイアされた積分分離技術を導入する。 最後に、確率制約の分析勾配をモデルに基づくポリシー最適化に活用する。 SPILの有効性は狭い車追従作業によって実証される。 実験の結果、SPILは従来の手法と比較して、安定した学習プロセスで安全性を確保しながら性能を向上させることが示された。

Safety is essential for reinforcement learning (RL) applied in real-world tasks like autonomous driving. Chance constraints which guarantee the satisfaction of state constraints at a high probability are suitable to represent the requirements in real-world environment with uncertainty. Existing chance constrained RL methods like the penalty method and the Lagrangian method either exhibit periodic oscillations or cannot satisfy the constraints. In this paper, we address these shortcomings by proposing a separated proportional-integral Lagrangian (SPIL) algorithm. Taking a control perspective, we first interpret the penalty method and the Lagrangian method as proportional feedback and integral feedback control, respectively. Then, a proportional-integral Lagrangian method is proposed to steady learning process while improving safety. To prevent integral overshooting and reduce conservatism, we introduce the integral separation technique inspired by PID control. Finally, an analytical gradient of the chance constraint is utilized for model-based policy optimization. The effectiveness of SPIL is demonstrated by a narrow car-following task. Experiments indicate that compared with previous methods, SPIL improves the performance while guaranteeing safety, with a steady learning process.
翻訳日:2021-02-18 14:44:22 公開日:2021-02-17
# 例に基づく説明とモデル入力の編集による直感的なMLモデル信頼性評価

Intuitively Assessing ML Model Reliability through Example-Based Explanations and Editing Model Inputs ( http://arxiv.org/abs/2102.08540v1 )

ライセンス: Link先を確認
Harini Suresh, Kathleen M. Lewis, John V. Guttag, Arvind Satyanarayan(参考訳) 解釈可能性メソッドは、機械学習モデルの能力に対する信頼の構築と理解を支援することを目的とする。 しかし、既存のアプローチはしばしば抽象的で複雑な視覚化に依存しており、手元のタスクにマッピングできないか、解釈に非自明なMLの専門知識を必要とする。 ここでは、モデル信頼性をより直感的に評価するための2つのインターフェースモジュールを紹介します。 モデルの不確実性をよりよく特徴づけ、推論するために、トレーニングデータセット内の特定の入力の最寄りの隣人に関する情報を生で集計します。 インタラクティブエディタを使用すると、ユーザーはこの入力を意味的に操作し、出力への影響を決定し、以前の期待と比較することができます。 心電図ビート分類ケーススタディを用いてインターフェースを評価する。 基本的特徴重視インタフェースと比較すると,9人の医師がモデルの不確実性を臨床的に関係のある要因と整合させ,その能力と限界を直感的に構築できることがわかった。

Interpretability methods aim to help users build trust in and understand the capabilities of machine learning models. However, existing approaches often rely on abstract, complex visualizations that poorly map to the task at hand or require non-trivial ML expertise to interpret. Here, we present two interface modules to facilitate a more intuitive assessment of model reliability. To help users better characterize and reason about a model's uncertainty, we visualize raw and aggregate information about a given input's nearest neighbors in the training dataset. Using an interactive editor, users can manipulate this input in semantically-meaningful ways, determine the effect on the output, and compare against their prior expectations. We evaluate our interface using an electrocardiogram beat classification case study. Compared to a baseline feature importance interface, we find that 9 physicians are better able to align the model's uncertainty with clinically relevant factors and build intuition about its capabilities and limitations.
翻訳日:2021-02-18 14:44:05 公開日:2021-02-17
# 機能的共同設立者による因果推定

Causal Estimation with Functional Confounders ( http://arxiv.org/abs/2102.08533v1 )

ライセンス: Link先を確認
Aahlad Puli, Adler J. Perotte, Rajesh Ranganath(参考訳) 因果推論は、無知と肯定性の2つの基本的な仮定に依存します。 本研究では,真の共著者の値が観測データの関数として表現される場合の因果推論を,関数的共著者(EFC)によるこの設定推定と呼ぶ。 この設定では、不可知性は満たされるが、肯定性は侵害され、因果推論は一般に不可能である。 因果効果が推定できる2つのシナリオを検討する。 まず、機能的介入と呼ばれる治療の一部に対する介入と、これらの介入に対する効果評価のための十分な条件である機能的ポジティブ性について議論する。 第2に,機能的共著者の勾配場と真の結果関数に基づく非パラメトリック効果推定条件を開発する。 これらの条件下での効果を推定するために,LODE(Level-set Orthogonal Descent Estimation)を開発した。 さらに,lodeの効果推定における誤差境界を証明し,シミュレーションおよび実データに対する評価を行い,efcの価値を実証的に示す。

Causal inference relies on two fundamental assumptions: ignorability and positivity. We study causal inference when the true confounder value can be expressed as a function of the observed data; we call this setting estimation with functional confounders (EFC). In this setting, ignorability is satisfied, however positivity is violated, and causal inference is impossible in general. We consider two scenarios where causal effects are estimable. First, we discuss interventions on a part of the treatment called functional interventions and a sufficient condition for effect estimation of these interventions called functional positivity. Second, we develop conditions for nonparametric effect estimation based on the gradient fields of the functional confounder and the true outcome function. To estimate effects under these conditions, we develop Level-set Orthogonal Descent Estimation (LODE). Further, we prove error bounds on LODE's effect estimates, evaluate our methods on simulated and real data, and empirically demonstrate the value of EFC.
翻訳日:2021-02-18 14:41:46 公開日:2021-02-17
# ガウス過程によるニューラルネットワークの非漸近近似

Non-asymptotic approximations of neural networks by Gaussian processes ( http://arxiv.org/abs/2102.08668v1 )

ライセンス: Link先を確認
Ronen Eldan and Dan Mikulincer and Tselil Schramm(参考訳) ランダム重み付き初期化において,広範ニューラルネットワークがガウス過程によって近似される範囲について検討する。 ネットワークの幅が無限大に近づくにつれて、その法則はガウス過程の法則に収束する、という確固たる事実である。 自然輸送距離で測量された無限次元関数空間において、中心極限定理の明示的な収束率を定式化する。 活性化関数が多項式であるとき、その程度は収束の速度を決定するが、非多項式活性化の場合、その速度は関数の滑らかさによって支配される。

We study the extent to which wide neural networks may be approximated by Gaussian processes when initialized with random weights. It is a well-established fact that as the width of a network goes to infinity, its law converges to that of a Gaussian process. We make this quantitative by establishing explicit convergence rates for the central limit theorem in an infinite-dimensional functional space, metrized with a natural transportation distance. We identify two regimes of interest; when the activation function is polynomial, its degree determines the rate of convergence, while for non-polynomial activations, the rate is governed by the smoothness of the function.
翻訳日:2021-02-18 14:41:31 公開日:2021-02-17
# Chance-Constrained Active Inference

Chance-Constrained Active Inference ( http://arxiv.org/abs/2102.08792v1 )

ライセンス: Link先を確認
Thijs van de Laar, Ismail Senoz, Ay\c{c}a \"Oz\c{c}elikkale, Henk Wymeersch(参考訳) Active Inference (ActInf) は、ベイジアン・サプライズに縛られた自由エネルギーを最小限に抑えることの観点から、生物学的エージェントの知覚と行動を説明する新しい理論である。 ゴール指向の行動は、基礎となる生成モデルに事前の信念を導入することによって引き起こされる。 確率変数のすべての実現を制約する事前の信念とは対照的に,制約違反の確率(典型的には小さい)を許容する確率制約による代替的アプローチを提案し,そのような制約をactinfにおける目標指向行動の内在的ドライバとしてどのように使用できるかを示す。 本稿では、例えば、ロバスト制御と経験的チャンス制約違反のトレードオフのために、ActInfが生成モデルに(優先的な)制約を課す方法を説明する。 次に、提案した解決策をメッセージパッシングフレームワーク内で解釈する。 興味深いことに、メッセージパッシングの解釈はactinfのコンテキストに関係しているだけでなく、グラフィカルモデルにおける偶然の制約を考慮できる汎用的なアプローチを提供する。 制約のあるメッセージ更新は、カスタムデリバティブを必要とせずに、簡単に他のプリオリジンのメッセージ更新ルールと組み合わせられる。 提案する確率制約付きメッセージパッシングフレームワークは、一般的に動作するモデルの探索を加速し、生成型ニューラルネットワークモデルのメッセージパッシング記述を補完するために使用できる。

Active Inference (ActInf) is an emerging theory that explains perception and action in biological agents, in terms of minimizing a free energy bound on Bayesian surprise. Goal-directed behavior is elicited by introducing prior beliefs on the underlying generative model. In contrast to prior beliefs, which constrain all realizations of a random variable, we propose an alternative approach through chance constraints, which allow for a (typically small) probability of constraint violation, and demonstrate how such constraints can be used as intrinsic drivers for goal-directed behavior in ActInf. We illustrate how chance-constrained ActInf weights all imposed (prior) constraints on the generative model, allowing e.g., for a trade-off between robust control and empirical chance constraint violation. Secondly, we interpret the proposed solution within a message passing framework. Interestingly, the message passing interpretation is not only relevant to the context of ActInf, but also provides a general purpose approach that can account for chance constraints on graphical models. The chance constraint message updates can then be readily combined with other pre-derived message update rules, without the need for custom derivations. The proposed chance-constrained message passing framework thus accelerates the search for workable models in general, and can be used to complement message-passing formulations on generative neural models.
翻訳日:2021-02-18 14:40:30 公開日:2021-02-17
# 線形関数近似による逆mdp学習における最善の後悔

Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function Approximation ( http://arxiv.org/abs/2102.08940v1 )

ライセンス: Link先を確認
Jiafan He and Dongruo Zhou and Quanquan Gu(参考訳) 本研究では,有限水平エピソディックマルコフ決定過程の強化学習について,未知の遷移確率関数が与えられた特徴写像の線形関数である対向報酬と全情報フィードバックを用いて検討する。 本稿では,ベルンシュタインボーナスを用いた楽観的ポリシー最適化アルゴリズムを提案し,$\tilde{O}(dH\sqrt{T})$ regretを達成できることを示し,$H$はエピソードの長さであり,$T$はMDPとの相互作用の数であり,$d$は特徴写像の次元であることを示す。 さらに、対数係数まで、$\tilde{\Omega}(dH\sqrt{T})$の一致する下界も証明する。 我々の知る限り、これは線形関数近似を用いた逆マルコフ決定過程に対する計算効率が良く、ほぼ最小の最適アルゴリズムである。

We study the reinforcement learning for finite-horizon episodic Markov decision processes with adversarial reward and full information feedback, where the unknown transition probability function is a linear function of a given feature mapping. We propose an optimistic policy optimization algorithm with Bernstein bonus and show that it can achieve $\tilde{O}(dH\sqrt{T})$ regret, where $H$ is the length of the episode, $T$ is the number of interaction with the MDP and $d$ is the dimension of the feature mapping. Furthermore, we also prove a matching lower bound of $\tilde{\Omega}(dH\sqrt{T})$ up to logarithmic factors. To the best of our knowledge, this is the first computationally efficient, nearly minimax optimal algorithm for adversarial Markov decision processes with linear function approximation.
翻訳日:2021-02-18 14:40:06 公開日:2021-02-17
# 高品質画像合成のための進化型GAN定式

Evolving GAN Formulations for Higher Quality Image Synthesis ( http://arxiv.org/abs/2102.08578v1 )

ライセンス: Link先を確認
Santiago Gonzalez and Mohak Kant and Risto Miikkulainen(参考訳) generative adversarial networks(gans)は、さまざまなデータモダリティにわたる複雑な生成と翻訳タスクにディープラーニングを拡張した。 トレーニングプロセスにおけるモード崩壊やその他の不安定性は、画像のような生成された結果の品質を劣化させることが多い。 本稿では2つのネットワーク毎にカスタマイズされた損失関数を発見し,GANを改善するためのTaylorGANという新しい手法を提案する。 損失関数はテイラー展開としてパラメータ化され、多目的進化を通じて最適化される。 画像間変換ベンチマークタスクでは,画像の品質を質的に改善し,2つの独立したGANパフォーマンス指標を定量的に改善する。 したがって、将来、より困難なタスクにGANを適用するための有望なアプローチを形成します。

Generative Adversarial Networks (GANs) have extended deep learning to complex generation and translation tasks across different data modalities. However, GANs are notoriously difficult to train: Mode collapse and other instabilities in the training process often degrade the quality of the generated results, such as images. This paper presents a new technique called TaylorGAN for improving GANs by discovering customized loss functions for each of its two networks. The loss functions are parameterized as Taylor expansions and optimized through multiobjective evolution. On an image-to-image translation benchmark task, this approach qualitatively improves generated image quality and quantitatively improves two independent GAN performance metrics. It therefore forms a promising approach for applying GANs to more challenging tasks in the future.
翻訳日:2021-02-18 14:39:50 公開日:2021-02-17
# マルチモーダル医用画像融合のための複合機能学習

Coupled Feature Learning for Multimodal Medical Image Fusion ( http://arxiv.org/abs/2102.08641v1 )

ライセンス: Link先を確認
Farshad G. Veshki, Nora Ouzir, Sergiy A. Vorobyov, Esa Ollila(参考訳) マルチモーダル画像融合は、取得した画像と異なるセンサーの関連情報を組み合わせることを目指しています。 医療画像では、融合画像は、標準および自動診断の両方に不可欠な役割を担います。 本稿では,結合辞書学習に基づく新しいマルチモーダル画像融合法を提案する。 提案方法は一般的であり、異なる医療用イメージングモードに使用することができる。 現在の多くの医療融合法とは異なり、提案手法は強度の減衰や臨界情報の喪失に悩まされない。 具体的には、融合する画像は、同一の支持を持つ疎表現とピアソン相関制約を用いてそれぞれ推定される結合成分と独立成分に分解される。 最適化問題を解くために交互最小化アルゴリズムが設計されている。 最後の融合ステップは、最大絶対値ルールを使用する。 MR-CT画像やMR-PET画像など,様々なマルチモーダル入力を用いて実験を行った。 その結果,最新の医用画像融合法と比較して,提案手法の競争力を示す結果が得られた。

Multimodal image fusion aims to combine relevant information from images acquired with different sensors. In medical imaging, fused images play an essential role in both standard and automated diagnosis. In this paper, we propose a novel multimodal image fusion method based on coupled dictionary learning. The proposed method is general and can be employed for different medical imaging modalities. Unlike many current medical fusion methods, the proposed approach does not suffer from intensity attenuation nor loss of critical information. Specifically, the images to be fused are decomposed into coupled and independent components estimated using sparse representations with identical supports and a Pearson correlation constraint, respectively. An alternating minimization algorithm is designed to solve the resulting optimization problem. The final fusion step uses the max-absolute-value rule. Experiments are conducted using various pairs of multimodal inputs, including real MR-CT and MR-PET images. The resulting performance and execution times show the competitiveness of the proposed method in comparison with state-of-the-art medical image fusion methods.
翻訳日:2021-02-18 14:39:37 公開日:2021-02-17
# CheXternal:胸部X線解析のための深層学習モデルの胸部X線写真への一般化と臨床応用

CheXternal: Generalization of Deep Learning Models for Chest X-ray Interpretation to Photos of Chest X-rays and External Clinical Settings ( http://arxiv.org/abs/2102.08660v1 )

ライセンス: Link先を確認
Pranav Rajpurkar, Anirudh Joshi, Anuj Pareek, Andrew Y. Ng, Matthew P. Lungren(参考訳) 近年の深層学習モデルの訓練は、正確な胸部X線解釈を提供し、放射線学の専門知識へのアクセスを高める可能性を実証している。 しかし, 臨床環境におけるデータ分布シフトによる一般化の低下は, 実装の鍵となる障壁である。 本研究では,(1)胸部X線のスマートフォン写真と(2)外部データセットを微調整することなく,8種類の胸部X線モデルの診断性能を測定した。 すべてのモデルは異なるグループによって開発され、CheXpertチャレンジに提出され、さらにチューニングすることなくデータセットのテストに再適用されました。 その結果, 胸部X線写真では, 全8モデルが, 作業成績が統計的に有意に低下したが, 放射線科医より有意に低下したのは3モデルのみであり, 外部セットでは, いずれも放射線科医より統計的に劣る例はなく, 5モデルでは放射線科医より統計的に優れていた。 胸部X線モデルでは, 臨床的に有意な分布変化がみられ, 放射線医に匹敵するものの, 他のモデルでは有意であった。 今後の作業は、データ分散シフトの存在下での一般化に影響を与えるモデルトレーニング手順とデータセットコレクションの側面を調べるべきです。

Recent advances in training deep learning models have demonstrated the potential to provide accurate chest X-ray interpretation and increase access to radiology expertise. However, poor generalization due to data distribution shifts in clinical settings is a key barrier to implementation. In this study, we measured the diagnostic performance for 8 different chest X-ray models when applied to (1) smartphone photos of chest X-rays and (2) external datasets without any finetuning. All models were developed by different groups and submitted to the CheXpert challenge, and re-applied to test datasets without further tuning. We found that (1) on photos of chest X-rays, all 8 models experienced a statistically significant drop in task performance, but only 3 performed significantly worse than radiologists on average, and (2) on the external set, none of the models performed statistically significantly worse than radiologists, and five models performed statistically significantly better than radiologists. Our results demonstrate that some chest X-ray models, under clinically relevant distribution shifts, were comparable to radiologists while other models were not. Future work should investigate aspects of model training procedures and dataset collection that influence generalization in the presence of data distribution shifts.
翻訳日:2021-02-18 14:39:27 公開日:2021-02-17
# 自己トリガーマルコフ決定過程

Self-Triggered Markov Decision Processes ( http://arxiv.org/abs/2102.08571v1 )

ライセンス: Link先を確認
Yunhan Huang and Quanyan Zhu(参考訳) 本稿では、自己トリガー制御の概念をより汎用的なMDPモデルに拡張する自己トリガー戦略によるマルコフ決定プロセス(MDP)について検討する。 この拡張は、より広い範囲のシステムに自己引き起こすポリシーの適用を広げる。 制御政策とトリガー政策の協調設計問題について検討し、2つの事前定義されたコスト基準を最適化する。 最初のコスト基準は、通信リソースの使用を減らすために、所定の更新ペナルティを従来のmdpコスト基準に組み込むことによって導入された。 この基準の下で、最適化されたルックヘッドを持つDP方程式と呼ばれる新しい動的プログラミング(DP)方程式は、この基準の下で自己トリガ政策の解決を提案した。 第2のセルフトリガー政策は、事前定義されたサブ最適化レベルを保証しながらトリガー時間を最大化することである。 両方の政策の計算と実装のための理論的基盤が確立されている。 グリッドワールドの数値例を通して,資源消費削減における2つの政策の有効性を示し,資源消費とシステム性能のトレードオフを示す。

In this paper, we study Markov Decision Processes (MDPs) with self-triggered strategies, where the idea of self-triggered control is extended to more generic MDP models. This extension broadens the application of self-triggering policies to a broader range of systems. We study the co-design problems of the control policy and the triggering policy to optimize two pre-specified cost criteria. The first cost criterion is introduced by incorporating a pre-specified update penalty into the traditional MDP cost criteria to reduce the use of communication resources. Under this criteria, a novel dynamic programming (DP) equation called DP equation with optimized lookahead to proposed to solve for the self-triggering policy under this criteria. The second self-triggering policy is to maximize the triggering time while still guaranteeing a pre-specified level of sub-optimality. Theoretical underpinnings are established for the computation and implementation of both policies. Through a gridworld numerical example, we illustrate the two policies' effectiveness in reducing sources consumption and demonstrate the trade-offs between resource consumption and system performance.
翻訳日:2021-02-18 14:39:02 公開日:2021-02-17
# 第1ターゲットと第2極性:アスペクト・センチメント・トリプルト抽出のためのターゲット・オピニオン相関の強化

First Target and Opinion then Polarity: Enhancing Target-opinion Correlation for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2102.08549v1 )

ライセンス: Link先を確認
Lianzhe Huang, Peiyi Wang, Sujian Li, Tianyu Liu, Xiaodong Zhang, Zhicong Cheng, Dawei Yin, Houfeng Wang(参考訳) Aspect Sentiment Triplet Extraction(ASTE)は、ターゲットエンティティ、関連する感情極性、および極性を合理化する意見スパンを含む文からトリプレットを抽出することを目的としています。 既存の方法は、目標対の相関関係の構築に短く、異なる感情三重項間の相互干渉を無視する。 これらの課題に対処するため、我々は、ターゲットと意見の相関性を高める新しい2段階の手法を提案する:ステージ1では、シーケンスタギングによりターゲットと意見を抽出し、ターゲットと意見のスパンを示すPerceivable Pairという名前の人工タグ群をシーケンスに挿入し、各候補のターゲットと意見の相関性を確立する。 一方,トークンの注意場を制限することにより,トリプレット間の相互干渉を低減する。 最後に、極性は知覚可能なペアの表現に従って識別される。 4つのデータセットについて実験を行い,本モデルが最先端手法よりも優れていることを示す。

Aspect Sentiment Triplet Extraction (ASTE) aims to extract triplets from a sentence, including target entities, associated sentiment polarities, and opinion spans which rationalize the polarities. Existing methods are short on building correlation between target-opinion pairs, and neglect the mutual interference among different sentiment triplets. To address these issues, we propose a novel two-stage method which enhances the correlation between targets and opinions: at stage one, we extract targets and opinions through sequence tagging; then we insert a group of artificial tags named Perceivable Pair, which indicate the span of the target and the opinion, into the sequence to establish correlation for each candidate target-opinion pair. Meanwhile, we reduce the mutual interference between triplets by restricting tokens' attention field. Finally, the polarity is identified according to the representation of the Perceivable Pair. We conduct experiments on four datasets, and the experimental results show that our model outperforms the state-of-the-art methods.
翻訳日:2021-02-18 14:38:34 公開日:2021-02-17
# 英文の語彙複雑性予測

Predicting Lexical Complexity in English Texts ( http://arxiv.org/abs/2102.08773v1 )

ライセンス: Link先を確認
Matthew Shardlow, Richard Evans and Marcos Zampieri(参考訳) ほとんどのテキスト簡略化の最初のステップは、語彙置換を実行する前に、与えられたターゲット人口のためにどの単語が複雑と見なされるかを予測することです。 このタスクは一般に複雑単語識別(CWI)と呼ばれ、しばしば教師付き分類問題としてモデル化される。 このようなシステムのトレーニングには、複雑度について単語や時折多語表現がラベル付けされる注釈付きデータセットが必要となる。 本稿では,この課題における過去の研究を解析し,複雑な単語識別データセットの特性について検討する。

The first step in most text simplification is to predict which words are considered complex for a given target population before carrying out lexical substitution. This task is commonly referred to as Complex Word Identification (CWI) and it is often modelled as a supervised classification problem. For training such systems, annotated datasets in which words and sometimes multi-word expressions are labelled regarding complexity are required. In this paper we analyze previous work carried out in this task and investigate the properties of complex word identification datasets for English.
翻訳日:2021-02-18 14:38:14 公開日:2021-02-17
# 野生のメトリクスタグ:リズムの特徴を持つ詩のコーポラの構築と注釈付け

Metrical Tagging in the Wild: Building and Annotating Poetry Corpora with Rhythmic Features ( http://arxiv.org/abs/2102.08858v1 )

ライセンス: Link先を確認
Thomas Haider(参考訳) 文学の計算研究の前提条件は、適切にデジタル化されたテキストが利用可能であることであり、理想的には信頼できるメタデータと地上真理のアノテーションがある。 詩のコーポラはいくつかの言語で存在するが、より大きなコレクションは一貫性がなく、様々な標準で符号化されているが、注釈付きコーポラは通常特定のジャンルに制限され、または特定の言語的特徴(韻律など)の分析のために設計されている。 本研究では,英語とドイツ語の大規模な詩コーパスを提供し,より小さなコーパスに韻律的特徴を付加し,ロバストな大規模解析を可能にするコーパス駆動ニューラルモデルを訓練する。 音節埋め込みを用いた BiLSTM-CRF モデルは, CRF ベースラインと異なるBERT ベースアプローチよりも優れていることを示す。 マルチタスクのセットアップでは、特定の有益なタスク関係は詩的特徴の相互依存を示す。 モデルでは, 音節のストレス, 美的感情, 韻律的尺度が相互に有益であることを共同で予測すると, 足の境界がより良く学習される。

A prerequisite for the computational study of literature is the availability of properly digitized texts, ideally with reliable meta-data and ground-truth annotation. Poetry corpora do exist for a number of languages, but larger collections lack consistency and are encoded in various standards, while annotated corpora are typically constrained to a particular genre and/or were designed for the analysis of certain linguistic features (like rhyme). In this work, we provide large poetry corpora for English and German, and annotate prosodic features in smaller corpora to train corpus driven neural models that enable robust large scale analysis. We show that BiLSTM-CRF models with syllable embeddings outperform a CRF baseline and different BERT-based approaches. In a multi-task setup, particular beneficial task relations illustrate the inter-dependence of poetic features. A model learns foot boundaries better when jointly predicting syllable stress, aesthetic emotions and verse measures benefit from each other, and we find that caesuras are quite dependent on syntax and also integral to shaping the overall measure of the line.
翻訳日:2021-02-18 14:38:05 公開日:2021-02-17
# 一般的なヘイトスピーチ検出に向けて : 障害と解決策のレビュー

Towards generalisable hate speech detection: a review on obstacles and solutions ( http://arxiv.org/abs/2102.08886v1 )

ライセンス: Link先を確認
Wenjie Yin, Arkaitz Zubiaga(参考訳) ヘイトスピーチ(英語: Hate speech)とは、民族、宗教、性的指向などのアイデンティティの実際のまたは認識された側面に基づいて、グループや個人に対して憎悪を直接攻撃または促進する有害なオンラインコンテンツの一種である。 オンラインヘイトスピーチの増加に伴い、自然言語処理タスクとしての自動検出が注目を集めている。 しかし、最近になって、既存のモデルが見当たらないデータに対して不十分に一般化していることが判明した。 本稿では,既存のヘイトスピーチ検出モデルがいかに一般化可能か,ヘイトスピーチモデルが一般化に苦しむ理由を要約し,主な障害に対処するための既存の試みを要約するとともに,ヘイトスピーチ検出の一般化を改善するための今後の研究の方向性を提案する。

Hate speech is one type of harmful online content which directly attacks or promotes hate towards a group or an individual member based on their actual or perceived aspects of identity, such as ethnicity, religion, and sexual orientation. With online hate speech on the rise, its automatic detection as a natural language processing task is gaining increasing interest. However, it is only recently that it has been shown that existing models generalise poorly to unseen data. This survey paper attempts to summarise how generalisable existing hate speech detection models are, reason why hate speech models struggle to generalise, sums up existing attempts at addressing the main obstacles, and then proposes directions of future research to improve generalisation in hate speech detection.
翻訳日:2021-02-18 14:37:45 公開日:2021-02-17
# k-Robustマルチエージェントパス探索のための対称性破壊

Symmetry Breaking for k-Robust Multi-Agent Path Finding ( http://arxiv.org/abs/2102.08689v1 )

ライセンス: Link先を確認
Zhe Chen, Daniel Harabor, Jiaoyang Li, Peter J. Stuckey(参考訳) マルチエージェントパス探索(mapf)問題の間、エージェントは予期しないイベントによって遅延する可能性がある。 このような状況に対処するために、最近の研究ではk-robust conflict-basedsearch (k-cbs):最大k遅延に対して頑健な、協調的で衝突のない計画を生成するアルゴリズムである。 本研究では,k-ロバスト計画に特有な様々な対称性の破れ制約を導入し,矛盾するエージェントのペアに対して,効率よく相反する最適な経路を見つける。 新しい制約を徹底的に説明し、(i)古典的なMAPFベンチマーク、(ii)自動化倉庫ドメイン、(iii)k-robust計画をスケジュール列車にフルに適用できる最近導入された鉄道ドメインである2019 Flatland Challengeのマップなど、さまざまなドメインで成功率の大幅な改善を報告します。

During Multi-Agent Path Finding (MAPF) problems, agents can be delayed by unexpected events. To address such situations recent work describes k-Robust Conflict-BasedSearch (k-CBS): an algorithm that produces coordinated and collision-free plan that is robust for up to k delays. In this work we introducing a variety of pairwise symmetry breaking constraints, specific to k-robust planning, that can efficiently find compatible and optimal paths for pairs of conflicting agents. We give a thorough description of the new constraints and report large improvements to success rate ina range of domains including: (i) classic MAPF benchmarks;(ii) automated warehouse domains and; (iii) on maps from the 2019 Flatland Challenge, a recently introduced railway domain where k-robust planning can be fruitfully applied to schedule trains.
翻訳日:2021-02-18 14:37:29 公開日:2021-02-17
# SPAN:手書きパラグラフ認識のための単純な予測とアライグネットワーク

SPAN: a Simple Predict & Align Network for Handwritten Paragraph Recognition ( http://arxiv.org/abs/2102.08742v1 )

ライセンス: Link先を確認
Denis Coquenet, Cl\'ement Chatelain, Thierry Paquet(参考訳) 文書解析において,非拘束手書き認識は重要な課題である。 通常、2つのステップで行われます。 まず、文書はテキスト行に分割されます。 次に、これらの線画像に光学文字認識モデルを適用する。 本研究では,パラグラフレベルでOCRを実行する完全畳み込み畳み込みネットワークであるSimple Predict & Align Networkを提案する。 このフレームワークは、分離された行の認識に使用されるのと同じくらいシンプルで、3つの一般的なデータセット(RIMES、IAM、READ 2016)で競合する結果が得られる。 提案モデルではデータセットの適応は一切必要とせず,スクラッチからトレーニングすることが可能で,セグメンテーションラベルは必要とせず,書き起こしラベルの線分も必要としない。 私たちのコードとトレーニングされたモデルウェイトはhttps://github.com/FactoDeepLearning/SPANで入手できます。

Unconstrained handwriting recognition is an essential task in document analysis. It is usually carried out in two steps. First, the document is segmented into text lines. Second, an Optical Character Recognition model is applied on these line images. We propose the Simple Predict & Align Network: an end-to-end recurrence-free Fully Convolutional Network performing OCR at paragraph level without any prior segmentation stage. The framework is as simple as the one used for the recognition of isolated lines and we achieve competitive results on three popular datasets: RIMES, IAM and READ 2016. The proposed model does not require any dataset adaptation, it can be trained from scratch, without segmentation labels, and it does not require line breaks in the transcription labels. Our code and trained model weights are available at https://github.com/FactoDeepLearning/SPAN.
翻訳日:2021-02-18 14:37:12 公開日:2021-02-17
# 長尺物体検出のためのオブジェクト中心画像の簡便かつ効果的利用

A Simple and Effective Use of Object-Centric Images for Long-Tailed Object Detection ( http://arxiv.org/abs/2102.08884v1 )

ライセンス: Link先を確認
Cheng Zhang, Tai-Yu Pan, Yandong Li, Hexiang Hu, Dong Xuan, Soravit Changpinyo, Boqing Gong, Wei-Lun Chao(参考訳) 毎日のシーンのオブジェクト周波数は、ロングテールの分布に従う。 多くのオブジェクトは、シーン中心の画像(例えば、観光、ストリートビュー)に頻繁に現れないため、正確な物体検出器を訓練できます。 対照的に、これらのオブジェクトは対象中心の画像のより高い周波数でキャプチャされ、興味のあるオブジェクトを画像化することを目的としている。 本研究では,この現象に動機づけられた物体中心画像を利用して,シーン中心画像の物体検出を改善することを提案する。 私たちは、シンプルで驚くほど効果的なフレームワークを提示します。 一方,提案手法では,入力空間とラベル空間の両方において2つの画像源間の領域ギャップを緩和し,シーン中心画像における物体検出のための有用なトレーニング例とする。 一方,本手法では,シーン中心画像のアプリケーション領域に縛り付けられながら,オブジェクト中心画像から多様なオブジェクトの外観を学習するように,オブジェクト検出器を訓練するための多段階的な手順を採用している。 LVISデータセットでは、他のクラスのパフォーマンスを犠牲にすることなく、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)精度を比較的50%(および33%)改善することができる。

Object frequencies in daily scenes follow a long-tailed distribution. Many objects do not appear frequently enough in scene-centric images (e.g., sightseeing, street views) for us to train accurate object detectors. In contrast, these objects are captured at a higher frequency in object-centric images, which are intended to picture the objects of interest. Motivated by this phenomenon, we propose to take advantage of the object-centric images to improve object detection in scene-centric images. We present a simple yet surprisingly effective framework to do so. On the one hand, our approach turns an object-centric image into a useful training example for object detection in scene-centric images by mitigating the domain gap between the two image sources in both the input and label space. On the other hand, our approach employs a multi-stage procedure to train the object detector, such that the detector learns the diverse object appearances from object-centric images while being tied to the application domain of scene-centric images. On the LVIS dataset, our approach can improve the object detection (and instance segmentation) accuracy of rare objects by 50% (and 33%) relatively, without sacrificing the performance of other classes.
翻訳日:2021-02-18 14:36:59 公開日:2021-02-17
# 対話型パッセージ検索のためのクエリリゾリューションと可読化の活用

Leveraging Query Resolution and Reading Comprehension for Conversational Passage Retrieval ( http://arxiv.org/abs/2102.08795v1 )

ライセンス: Link先を確認
Svitlana Vakulenko, Nikos Voskarides, Zhucheng Tu, Shayne Longpre(参考訳) 本稿では,TREC CAsT 2020トラックでのUvA.ILPSグループ参加について述べる。 経路探索パイプラインは, (i) BM25を用いた初期検索モジュールと, (ii) BERTランキングモデルのスコアと, 経路探索のために調整された機械理解モデルのスコアとを組み合わせた再ランクモジュールから構成される。 会話の通路検索における重要な課題は、クエリーがしばしば不特定であることだ。 そこで我々は,項分類クエリ解決モデルであるquretecを用いて,会話履歴から現在のターンクエリに欠落したコンテキストを追加してクエリ解決を行う。 最適自動走行とマニュアル走行は、対応する中央値走行を大きなマージンで上回っていることを示す。

This paper describes the participation of UvA.ILPS group at the TREC CAsT 2020 track. Our passage retrieval pipeline consists of (i) an initial retrieval module that uses BM25, and (ii) a re-ranking module that combines the score of a BERT ranking model with the score of a machine comprehension model adjusted for passage retrieval. An important challenge in conversational passage retrieval is that queries are often under-specified. Thus, we perform query resolution, that is, add missing context from the conversation history to the current turn query using QuReTeC, a term classification query resolution model. We show that our best automatic and manual runs outperform the corresponding median runs by a large margin.
翻訳日:2021-02-18 14:36:38 公開日:2021-02-17
# Firefly Neural Architecture Descent: 成長するニューラルネットワークのための一般的なアプローチ

Firefly Neural Architecture Descent: a General Approach for Growing Neural Networks ( http://arxiv.org/abs/2102.08574v1 )

ライセンス: Link先を確認
Lemeng Wu, Bo Liu, Peter Stone, Qiang Liu(参考訳) 本研究では,ネットワークのパラメータとアーキテクチャを協調的に最適化するために,ニューラルネットワークを漸進的かつ動的に成長させる汎用フレームワークであるfirefly neural architecture descendを提案する。 提案手法は最も急な降下方式で動作し,様々な候補ネットワーク構造を含む元のネットワークの機能的近傍において,最適なネットワークを反復的に発見する。 テイラー近似を使用することで、近隣の最適なネットワーク構造を勾配選択手順で見つけることができます。 連続学習における壊滅的な忘れを回避し、より広く、より深いネットワークを柔軟に成長させ、正確かつ資源効率の高い神経アーキテクチャを学習するために適用できることを示した。 経験的に、ハエの降下はニューラルアーキテクチャ探索と連続学習の両方において有望な結果をもたらす。 特に、挑戦的な連続的な画像分類タスクでは、サイズが小さいが最先端の手法で学習したネットワークよりも平均精度が高いネットワークを学習する。

We propose firefly neural architecture descent, a general framework for progressively and dynamically growing neural networks to jointly optimize the networks' parameters and architectures. Our method works in a steepest descent fashion, which iteratively finds the best network within a functional neighborhood of the original network that includes a diverse set of candidate network structures. By using Taylor approximation, the optimal network structure in the neighborhood can be found with a greedy selection procedure. We show that firefly descent can flexibly grow networks both wider and deeper, and can be applied to learn accurate but resource-efficient neural architectures that avoid catastrophic forgetting in continual learning. Empirically, firefly descent achieves promising results on both neural architecture search and continual learning. In particular, on a challenging continual image classification task, it learns networks that are smaller in size but have higher average accuracy than those learned by the state-of-the-art methods.
翻訳日:2021-02-18 14:35:59 公開日:2021-02-17
# Switch Spaces: スパースゲーティングによるプロダクトスペースの学習

Switch Spaces: Learning Product Spaces with Sparse Gating ( http://arxiv.org/abs/2102.08688v1 )

ライセンス: Link先を確認
Shuai Zhang and Yi Tay and Wenqi Jiang and Da-cheng Juan and Ce Zhang(参考訳) 適切なジオメトリの埋め込みスペースの学習は、表現学習に不可欠です。 学習した表現を効果的かつ効率的にするためには、幾何学的帰納的バイアスがデータの基本構造とうまく一致することが理想的である。 本稿では,製品空間における表現を学習するためのデータ駆動アプローチであるswitch spacesを提案する。 具体的には、積空間(または多様体)は混合曲率の空間、すなわち複数のユークリッド多様体と非ユークリッド多様体の組み合わせである。 そのためには、スペースの選択、組み合わせ、切り替えを学習するスパースなゲーティングメカニズムを導入し、専門性のある入力データに応じて切り替えることが可能です。 さらに,提案手法は,モデルのサイズに関わらず,効率が高く,計算量も一定である。 知識グラフの補完と項目レコメンデーションの実験から,提案したスイッチ空間は,新しい最先端のパフォーマンスを実現し,純積空間を上回り,最近提案されたタスク固有モデルを実現している。

Learning embedding spaces of suitable geometry is critical for representation learning. In order for learned representations to be effective and efficient, it is ideal that the geometric inductive bias aligns well with the underlying structure of the data. In this paper, we propose Switch Spaces, a data-driven approach for learning representations in product space. Specifically, product spaces (or manifolds) are spaces of mixed curvature, i.e., a combination of multiple euclidean and non-euclidean (hyperbolic, spherical) manifolds. To this end, we introduce sparse gating mechanisms that learn to choose, combine and switch spaces, allowing them to be switchable depending on the input data with specialization. Additionally, the proposed method is also efficient and has a constant computational complexity regardless of the model size. Experiments on knowledge graph completion and item recommendations show that the proposed switch space achieves new state-of-the-art performances, outperforming pure product spaces and recently proposed task-specific models.
翻訳日:2021-02-18 14:35:43 公開日:2021-02-17
# Aware Sigmoidal Optimizerのトレーニング

Training Aware Sigmoidal Optimizer ( http://arxiv.org/abs/2102.08716v1 )

ライセンス: Link先を確認
David Mac\^edo, Pedro Dreyer, Teresa Ludermir, Cleber Zanchettin(参考訳) 深層ニューラルネットワークの適切な最適化は、トレーニングを通して学習率を変更するための最適な手順がまだ不明であるため、オープンリサーチの問題である。 学習率のスケジュールを手動で定義するには、学習率の崩壊や学習率の崩壊率などのハイパーパラメータを決定するために手間のかかる試行錯誤手順が必要です。 適応学習率オプティマイザはこのプロセスを自動化するが,近年の研究では,微調整学習率スケジュールと比較して過度な改善と性能低下が示唆されている。 深層ニューラルネットワークの損失関数は局所的な最小値よりもはるかにサドルポイントのランドスケープを呈するので,2段階の自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Optimizer)を提案する。 第1段階は高学習率を使用して多数のサドルポイントを高速に横断し、第2段階は低学習率を使用して以前に見つかった局所最小点の中心にゆっくりと近づきます。 提案手法をAdam、RMSProp、Adagradなどの一般的な適応学習率スケジュールと比較した。 我々の実験では、TASOは最適(ハイパーパラメータ検証の実行)と最適(デフォルトハイパーパラメータを使用する)の両方のシナリオですべての競合する手法を上回った。

Proper optimization of deep neural networks is an open research question since an optimal procedure to change the learning rate throughout training is still unknown. Manually defining a learning rate schedule involves troublesome time-consuming try and error procedures to determine hyperparameters such as learning rate decay epochs and learning rate decay rates. Although adaptive learning rate optimizers automatize this process, recent studies suggest they may produce overffiting and reduce performance when compared to fine-tuned learning rate schedules. Considering that deep neural networks loss functions present landscapes with much more saddle points than local minima, we proposed the Training Aware Sigmoidal Optimizer (TASO), which consists of a two-phases automated learning rate schedule. The first phase uses a high learning rate to fast traverse the numerous saddle point, while the second phase uses low learning rate to slowly approach the center of the local minimum previously found. We compared the proposed approach with commonly used adaptive learning rate schedules such as Adam, RMSProp, and Adagrad. Our experiments showed that TASO outperformed all competing methods in both optimal (i.e., performing hyperparameter validation) and suboptimal (i.e., using default hyperparameters) scenarios.
翻訳日:2021-02-18 14:35:26 公開日:2021-02-17
# 離散時間切替システムモデルによる非同期Q-Learningの有限時間解析

Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time Switching System Models ( http://arxiv.org/abs/2102.08583v1 )

ライセンス: Link先を確認
Donghwan Lee(参考訳) 本稿では、離散時間切替システムの観点からQ-ラーニングアルゴリズムの収束を解析するための新しいフレームワークを開発する。 一定のステップサイズを持つ非同期q-learningを,離散時間確率的スイッチング線形系として自然に定式化できることを実証する。 主に制御理論フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。 例えば,本解析では,最大化バイアスによるq-learningの過推定現象を説明する。 制御系理論的な議論とq-learningの優れた構造に基づき、新しい誤りバウンドを用いて、q-learningの新しい有限時間解析を行う。

This paper develops a novel framework to analyze the convergence of Q-learning algorithm from a discrete-time switching system perspective. We prove that asynchronous Q-learning with a constant step-size can be naturally formulated as discrete-time stochastic switched linear systems. It offers novel and intuitive insights on Q-learning mainly based on control theoretic frameworks. For instance, the proposed analysis explains the overestimation phenomenon in Q-learning due to the maximization bias. Based on the control system theoretic argument and some nice structures of Q-learning, a new finite-time analysis of the Q-learning is given with a novel error bound.
翻訳日:2021-02-18 14:34:47 公開日:2021-02-17
# 新型コロナウイルスの緊急救急車派遣からの知見発見:名古屋市を事例として

Knowledge discovery from emergency ambulance dispatch during COVID-19: A case study of Nagoya City, Japan ( http://arxiv.org/abs/2102.08628v1 )

ライセンス: Link先を確認
Essam A. Rashed, Sachiko Kodera, Hidenobu Shirakami, Ryotetsu Kawaguchi, Kazuhiro Watanabe, Akimasa Hirata(参考訳) 医療サービス要件の正確な予測は、自然災害やパンデミックといった重要な時期における資源管理にとって重要なビッグデータ問題である。 新型コロナウイルス(COVID-19)の世界的な普及に伴い、医療システムの医療提供者の日常的な突然の変化に対処する能力に関して、いくつかの懸念が高まっています。 一つの大きな問題は、パンデミック時の救急車の派遣と制御の管理である。 本研究は,2014年4月から2020年8月にかけて,名古屋市における救急搬送データの記録を分析した。 全国的に宣言された緊急事態(SoE)を含む、パンデミック中のデータで重要な変化が観察されました。 そこで本研究では,SoEにおける緊急救急搬送回数(EAD)を推定するために,繰り返しニューラルネットワークに基づくディープラーニングフレームワークを提案する。 データの融合は、環境要因、携帯電話ユーザーのローカリゼーションデータ、およびEADの過去の歴史を含むため、知識の発見とより良いリソース管理のための一般的なフレームワークを提供します。 その結果, パンデミックなどの不確実性が高い時期におけるEAD要件の現実世界推定において, トレーニングデータのブレンドを効率的に利用できることが示唆された。

Accurate forecasting of medical service requirements is an important big data problem that is crucial for resource management in critical times such as natural disasters and pandemics. With the global spread of coronavirus disease 2019 (COVID-19), several concerns have been raised regarding the ability of medical systems to handle sudden changes in the daily routines of healthcare providers. One significant problem is the management of ambulance dispatch and control during a pandemic. To help address this problem, we first analyze ambulance dispatch data records from April 2014 to August 2020 for Nagoya City, Japan. Significant changes were observed in the data during the pandemic, including the state of emergency (SoE) declared across Japan. In this study, we propose a deep learning framework based on recurrent neural networks to estimate the number of emergency ambulance dispatches (EADs) during a SoE. The fusion of data includes environmental factors, the localization data of mobile phone users, and the past history of EADs, thereby providing a general framework for knowledge discovery and better resource management. The results indicate that the proposed blend of training data can be used efficiently in a real-world estimation of EAD requirements during periods of high uncertainties such as pandemics.
翻訳日:2021-02-18 14:34:37 公開日:2021-02-17
# 注文データによる市場深層学習

Deep Learning for Market by Order Data ( http://arxiv.org/abs/2102.08811v1 )

ライセンス: Link先を確認
Zihao Zhang, Bryan Lim and Stefan Zohren(参考訳) マーケット・バイ・オーダー(MBO)データ - ある取引所の株式の個々の取引指示の詳細フィード - は、おそらく最も粒度の細かいミクロ構造情報ソースの1つである。 リミットオーダーブック(LOB)は暗黙的にそれに由来するが、MBOデータは主にLOBモデリングに焦点を当てた現在の学術文献によって無視される。 本稿では,LOBスナップショットに直交する情報源を提供し,高周波価格変動予測のためのMBOデータの有用性を実証する。 本稿では,MBOデータに対する第1次予測分析について,データ構造を慎重に導入し,オーダーブックのレベル情報を考慮した特定正規化スキームを提示し,複数の機器によるモデルトレーニングを可能にする。 深層ニューラルネットワークを用いた予測実験により、MBO駆動モデルとLOB駆動モデルがそれぞれ同様の性能を提供する一方で、両者のアンサンブルは予測精度の改善につながることが示される。

Market by order (MBO) data - a detailed feed of individual trade instructions for a given stock on an exchange - is arguably one of the most granular sources of microstructure information. While limit order books (LOBs) are implicitly derived from it, MBO data is largely neglected by current academic literature which focuses primarily on LOB modelling. In this paper, we demonstrate the utility of MBO data for forecasting high-frequency price movements, providing an orthogonal source of information to LOB snapshots. We provide the first predictive analysis on MBO data by carefully introducing the data structure and presenting a specific normalisation scheme to consider level information in order books and to allow model training with multiple instruments. Through forecasting experiments using deep neural networks, we show that while MBO-driven and LOB-driven models individually provide similar performance, ensembles of the two can lead to improvements in forecasting accuracy -- indicating that MBO data is additive to LOB-based features.
翻訳日:2021-02-18 14:34:20 公開日:2021-02-17
# 人間認知に対する非ヒト系の認知評価のための客観的実験プロトコル

An Objective Laboratory Protocol for Evaluating Cognition of Non-Human Systems Against Human Cognition ( http://arxiv.org/abs/2102.08933v1 )

ライセンス: Link先を確認
David J. Jilk(参考訳) 本稿では,実験室環境における人間の認知に対する非人間システムの認知能力を評価するための客観的プロトコルについて述べる。 これは、人間に匹敵する認知能力を持つ非人間システムの存在は、安全と倫理の一度哲学的な質問を迅速かつ緊急にする可能性があるため、重要です。 チューリングテストなど多くの評価手法を考案しようとする過去の試みは、このニーズを満たしておらず、そのほとんどは人間の認知の単一側面や知性理論を強調したり、一般性や新奇性のために人間の能力の獲得に失敗したり、物理的世界での成功を必要としたりしている。 このプロトコルは広くベイジアンであり、その一次出力は請求に関する信頼性統計である。 さらに、特定のシステムが人間の認知に及ばない地域や範囲についての洞察を提供し、さらなる進歩や予防に役立てることができる。

In this paper I describe and reduce to practice an objective protocol for evaluating the cognitive capabilities of a non-human system against human cognition in a laboratory environment. This is important because the existence of a non-human system with cognitive capabilities comparable to those of humans might make once-philosophical questions of safety and ethics immediate and urgent. Past attempts to devise evaluation methods, such as the Turing Test and many others, have not met this need; most of them either emphasize a single aspect of human cognition or a single theory of intelligence, fail to capture the human capacity for generality and novelty, or require success in the physical world. The protocol is broadly Bayesian, in that its primary output is a confidence statistic in relation to a claim. Further, it provides insight into the areas where and to what extent a particular system falls short of human cognition, which can help to drive further progress or precautions.
翻訳日:2021-02-18 14:34:04 公開日:2021-02-17
# ATCSpeechNet:航空交通制御システムのための多言語エンドツーエンド音声認識フレームワーク

ATCSpeechNet: A multilingual end-to-end speech recognition framework for air traffic control systems ( http://arxiv.org/abs/2102.08535v1 )

ライセンス: Link先を確認
Yi Lin, Bo Yang, Linchao Li, Dongyue Guo, Jianwei Zhang, Hu Chen, Yi Zhang(参考訳) 本論文では,ATC(Air Traffic Control)システムにおけるコミュニケーション音声の人間可読テキストへの変換問題に取り組むために,ATCSpeechNet(ATCSpeechNet)と呼ばれる多言語のエンドツーエンドフレームワークを提案する。 提案するフレームワークでは,音声波形を直接テキストに変換するエンドツーエンドのパラダイムを開発して,特徴工学や辞書を使わずにマルチリンガル自動音声認識(ASR)を1つのモデルに統合することに注力する。 ATCの課題に起因する手作業による特徴工学の不足を補うために、生の波から堅牢で差別的な音声表現をキャプチャするために、音声表現学習(SRL)ネットワークが提案される。 自己監視型トレーニング戦略を採用し、ラベルのないデータからSRLネットワークを最適化し、さらに音声機能、すなわち波対機能を予測する。 エンドツーエンドアーキテクチャを改善してASRタスクを完了し、多言語ASR問題に対処するために、Graphemeベースのモデリングユニットを適用する。 ATC領域の小さな転写サンプルの問題に直面し、マスク予測を用いた教師なしアプローチを適用して、特徴-特徴過程によるラベルなしデータ上で、ASRモデルのバックボーンネットワークを事前訓練する。 最後に、SRLとASRを統合することによって、エンドツーエンドの多言語ASRフレームワークが監督された方法で策定され、生の波を1つのモデル、すなわち波対テキストのテキストに変換することができる。 ATCSpeechコーパスの実験結果から,提案手法は,58時間転写コーパスのラベル誤り率の4.20%に留まらず,非常に少ないラベル付きコーパスで高い性能を実現していることが示された。 提案手法は, ベースラインモデルと比較して, 100%以上の相対的性能向上を実現し, 転写サンプルのサイズ拡大によりさらに向上させることができる。

In this paper, a multilingual end-to-end framework, called as ATCSpeechNet, is proposed to tackle the issue of translating communication speech into human-readable text in air traffic control (ATC) systems. In the proposed framework, we focus on integrating the multilingual automatic speech recognition (ASR) into one model, in which an end-to-end paradigm is developed to convert speech waveform into text directly, without any feature engineering or lexicon. In order to make up for the deficiency of the handcrafted feature engineering caused by ATC challenges, a speech representation learning (SRL) network is proposed to capture robust and discriminative speech representations from the raw wave. The self-supervised training strategy is adopted to optimize the SRL network from unlabeled data, and further to predict the speech features, i.e., wave-to-feature. An end-to-end architecture is improved to complete the ASR task, in which a grapheme-based modeling unit is applied to address the multilingual ASR issue. Facing the problem of small transcribed samples in the ATC domain, an unsupervised approach with mask prediction is applied to pre-train the backbone network of the ASR model on unlabeled data by a feature-to-feature process. Finally, by integrating the SRL with ASR, an end-to-end multilingual ASR framework is formulated in a supervised manner, which is able to translate the raw wave into text in one model, i.e., wave-to-text. Experimental results on the ATCSpeech corpus demonstrate that the proposed approach achieves a high performance with a very small labeled corpus and less resource consumption, only 4.20% label error rate on the 58-hour transcribed corpus. Compared to the baseline model, the proposed approach obtains over 100% relative performance improvement which can be further enhanced with the increasing of the size of the transcribed samples.
翻訳日:2021-02-18 14:33:47 公開日:2021-02-17
# 高次元ロジスティック回帰のための分割モデル

Split Modeling for High-Dimensional Logistic Regression ( http://arxiv.org/abs/2102.08591v1 )

ライセンス: Link先を確認
Anthony-Alexander Christidis, Stefan Van Aelst, Ruben Zamar(参考訳) 高次元二項分類の文脈において,ロジスティック分類モデルのアンサンブルを学習するための新しい手法を提案する。 アンサンブルのモデルは、マルチ凸目的関数を最適化することにより同時に構築される。 モデル間の多様性を強制するために、目的関数はアンサンブル内のモデル間の重複を罰する。 本研究では,個々のモデルのバイアスとばらつきと相関性について検討し,アンサンブルモデルの精度と多様性のトレードオフを利用してアンサンブルを学習する方法について議論する。 他のセンシングアプローチとは対照的に、結果として得られるアンサンブルモデルはロジスティック回帰モデルとして完全に解釈可能であると同時に、広範なシミュレーション研究や遺伝子発現データ応用で示されるような優れた予測精度をもたらす。 提案手法を実装したオープンソースコンパイルソフトウェアライブラリについて概説する。

A novel method is proposed to learn an ensemble of logistic classification models in the context of high-dimensional binary classification. The models in the ensemble are built simultaneously by optimizing a multi-convex objective function. To enforce diversity between the models the objective function penalizes overlap between the models in the ensemble. We study the bias and variance of the individual models as well as their correlation and discuss how our method learns the ensemble by exploiting the accuracy-diversity trade-off for ensemble models. In contrast to other ensembling approaches, the resulting ensemble model is fully interpretable as a logistic regression model and at the same time yields excellent prediction accuracy as demonstrated in an extensive simulation study and gene expression data applications. An open-source compiled software library implementing the proposed method is briefly discussed.
翻訳日:2021-02-18 14:33:14 公開日:2021-02-17
# オープンソース環境における要件の実用性に基づく優先順位付けに向けて

Towards Utility-based Prioritization of Requirements in Open Source Environments ( http://arxiv.org/abs/2102.08638v1 )

ライセンス: Link先を確認
Alexander Felfernig and Martin Stettinger and M\"usl\"um Atas and Ralph Samer and Jennifer Nerlich and Simon Scholz and Juha Tiihonen and Mikko Raatikainen(参考訳) eclipseのようなオープンソースプロジェクトにおける要件エンジニアリングは、個々のコントリビュータに対する要件を多かれ少なかれ控えめな方法で優先順位付けしなければならないという課題に直面している。 従来の産業ソフトウェア開発プロジェクトとは対照的に、オープンソースプラットフォームのコントリビュータは、次に実装する要件を自分で決定できる。 この文脈では、優先順位付けの主な役割は、次に実装されるべき最も関連性があり、興味深い要件を見つけ出すコントリビュータを支援することで、時間のかかる、非効率な検索プロセスを回避することです。 本稿では,従来のコントリビュータやオープンソースのRequireements Engineeringシナリオにおいて,ユーティリティベースの優先順位付けアプローチをどのように活用できるかを示す。 オープンソース環境の例として、Bugzillaを使用します。 このコンテキストでは、ユーティリティベースの優先順位付けプロセスにおける依存性の考慮方法も示します。

Requirements Engineering in open source projects such as Eclipse faces the challenge of having to prioritize requirements for individual contributors in a more or less unobtrusive fashion. In contrast to conventional industrial software development projects, contributors in open source platforms can decide on their own which requirements to implement next. In this context, the main role of prioritization is to support contributors in figuring out the most relevant and interesting requirements to be implemented next and thus avoid time-consuming and inefficient search processes. In this paper, we show how utility-based prioritization approaches can be used to support contributors in conventional as well as in open source Requirements Engineering scenarios. As an example of an open source environment, we use Bugzilla. In this context, we also show how dependencies can be taken into account in utility-based prioritization processes.
翻訳日:2021-02-18 14:33:00 公開日:2021-02-17
# 商用無人航空機を用いた能動面前面化

Active Face Frontalization using Commodity Unmanned Aerial Vehicles ( http://arxiv.org/abs/2102.08542v1 )

ライセンス: Link先を確認
Nagashri Lakshminarayana, Yifang Liu, Karthik Dantu, Venu Govindaraju, Nils Napp(参考訳) 本稿では,無人航空機(uavs)が生体認証タスクに使用できる高品質の顔画像の収集を行うシステムについて述べる。 顔ベースの識別の成功は画質に大きく依存し、主な要因は正面の見方がどのようになっているかです。 顔認識ソフトウェアパイプラインは、プロセスコール {\em Frontalization} によって、正面視から正面視を合成することにより、識別率を向上させることができる。 ここでは,uavの高機動性を利用して,合成フロントカライズパイプラインのコンポーネントを用いて,前面画像の積極的な収集を行う。 フロントライゼーションエラーを定義し、UAVを導くためにフロントライゼーションビューをキャプチャするために使用できることを示します。 さらに、得られた画像ストリームにより、典型的な顔認識類似度指標のマッチング品質が向上することを示す。 このシステムは市販のハードウェアとソフトウェアコンポーネントを使って実装されており、どのROS対応UAVにも容易に転送できる。

This paper describes a system by which Unmanned Aerial Vehicles (UAVs) can gather high-quality face images that can be used in biometric identification tasks. Success in face-based identification depends in large part on the image quality, and a major factor is how frontal the view is. Face recognition software pipelines can improve identification rates by synthesizing frontal views from non-frontal views by a process call {\em frontalization}. Here we exploit the high mobility of UAVs to actively gather frontal images using components of a synthetic frontalization pipeline. We define a frontalization error and show that it can be used to guide an UAVs to capture frontal views. Further, we show that the resulting image stream improves matching quality of a typical face recognition similarity metric. The system is implemented using an off-the-shelf hardware and software components and can be easily transfered to any ROS enabled UAVs.
翻訳日:2021-02-18 14:31:31 公開日:2021-02-17
# 深部クロスモーティ(MR-CT)を用いたコーンビームCT肺腫瘍分割のための蒸留学習

Deep cross-modality (MR-CT) educed distillation learning for cone beam CT lung tumor segmentation ( http://arxiv.org/abs/2102.08556v1 )

ライセンス: Link先を確認
Jue Jiang, Sadegh Riyahi Alam, Ishita Chen, Perry Zhang, Andreas Rimner, Joseph O. Deasy, Harini Veeraraghavan(参考訳) In-treatment room cone beam Computeed tomography (CBCT) が広く普及しているにもかかわらず, 信頼性の高いセグメンテーション法が欠如しているため, CBCTは肺放射線治療における総括的修正にのみ用いられている。 正確で信頼性の高い自動分割ツールは、体積応答評価とジオメトリ誘導適応放射線療法を高めることができます。 そこで我々は,新しい深層学習CBCT肺腫瘍セグメンテーション法を開発した。 方法:CMEDLと呼ばれる私たちのアプローチの重要なアイデアは、磁気共鳴イメージング(MRI)を使用してCBCTセグメンテーションネットワークトレーニングをガイドし、トレーニング中により有益な特徴を抽出することです。 我々は,unpaired cbct と mri データセットを用いて,unpaired domain adaptation (uda) とcross-domain segmentation distillation network (sdn) からなるエンドツーエンドネットワークを訓練することでこれを実現する。 特徴蒸留は学生ネットワークを正規化し、教師ネットワークで抽出されたmriの特徴の統計的分布にマッチするcbct特徴を抽出し、背景から腫瘍のより良い分化を得る。」 また, 合成擬似MRI表現に基づいて, UDA と MR セグメンテーションネットワークを用いた別のフレームワークとの比較を行った。 全てのネットワークは毎週216個のCBCTと82個のT2重み付きターボスピンエコーMRIで訓練された。 訓練に使用されていない患者から毎週20回のCBCTで検証を行った。 トレーニングや検証に使用されていない患者から38週間のCBCTで独立したテストが行われました。 セグメンテーション精度はsdsc(surface dice similarity coefficient)とhausdroff distance at 95th percentile (hd95)で測定した。

Despite the widespread availability of in-treatment room cone beam computed tomography (CBCT) imaging, due to the lack of reliable segmentation methods, CBCT is only used for gross set up corrections in lung radiotherapies. Accurate and reliable auto-segmentation tools could potentiate volumetric response assessment and geometry-guided adaptive radiation therapies. Therefore, we developed a new deep learning CBCT lung tumor segmentation method. Methods: The key idea of our approach called cross modality educed distillation (CMEDL) is to use magnetic resonance imaging (MRI) to guide a CBCT segmentation network training to extract more informative features during training. We accomplish this by training an end-to-end network comprised of unpaired domain adaptation (UDA) and cross-domain segmentation distillation networks (SDN) using unpaired CBCT and MRI datasets. Feature distillation regularizes the student network to extract CBCT features that match the statistical distribution of MRI features extracted by the teacher network and obtain better differentiation of tumor from background.} We also compared against an alternative framework that used UDA with MR segmentation network, whereby segmentation was done on the synthesized pseudo MRI representation. All networks were trained with 216 weekly CBCTs and 82 T2-weighted turbo spin echo MRI acquired from different patient cohorts. Validation was done on 20 weekly CBCTs from patients not used in training. Independent testing was done on 38 weekly CBCTs from patients not used in training or validation. Segmentation accuracy was measured using surface Dice similarity coefficient (SDSC) and Hausdroff distance at 95th percentile (HD95) metrics.
翻訳日:2021-02-18 14:31:15 公開日:2021-02-17
# 平行輸送と形状スプラインを用いた心臓運動モデリング

Cardiac Motion Modeling with Parallel Transport and Shape Splines ( http://arxiv.org/abs/2102.08665v1 )

ライセンス: Link先を確認
Nicolas Guigui (UCA, EPIONE), Pamela Moceri (URRIS UR2CA), Maxime Sermesant (UCA, EPIONE), Xavier Pennec (UCA, EPIONE)(参考訳) 圧力や体積過負荷の場合, 形状と変形の相互作用により心機能の予測が困難になる可能性があるが, 本研究では, LDDMMフレームワークと並列輸送を用いて右心室の変形を推定する。 次に、変形の振幅の正規化手順と、完全な心臓収縮を表す第2次スプラインモデルを提案する。 314例の心エコー図から抽出した右心室の3Dメッシュを3つの疾患カテゴリと制御群に分けて適用する。 モデルパラメーターの病理に有意な差異が認められ,各疾患のダイナミックスに関する知見が明らかになった。

In cases of pressure or volume overload, probing cardiac function may be difficult because of the interactions between shape and deformations.In this work, we use the LDDMM framework and parallel transport to estimate and reorient deformations of the right ventricle. We then propose a normalization procedure for the amplitude of the deformation, and a second-order spline model to represent the full cardiac contraction. The method is applied to 3D meshes of the right ventricle extracted from echocardiographic sequences of 314 patients divided into three disease categories and a control group. We find significant differences between pathologies in the model parameters, revealing insights into the dynamics of each disease.
翻訳日:2021-02-18 14:30:45 公開日:2021-02-17
# ShaRF:一視点からの形状条件の放射場

ShaRF: Shape-conditioned Radiance Fields from a Single View ( http://arxiv.org/abs/2102.08860v1 )

ライセンス: Link先を確認
Konstantinos Rematas, Ricardo Martin-Brualla, Vittorio Ferrari(参考訳) 本稿では,単一の画像のみのオブジェクトの神経シーン表現を推定する手法を提案する。 本手法の核となるのは,物体の幾何学的足場の推定と,基礎となる放射場再構築のためのガイドとしての利用である。 我々の定式化は、まず潜在コードをボクセル化された形状にマッピングし、次に画像にレンダリングし、オブジェクトの外観を第2の潜在コードで制御する生成プロセスに基づいている。 推論中は、潜在コードとネットワークの両方を最適化して、新しいオブジェクトのテストイメージに適合させる。 形状と外観の明示的な乱れにより、1つの画像からモデルを微調整することができる。 次に、幾何学的に一貫した方法で新しいビューをレンダリングし、入力オブジェクトを忠実に表現します。 さらに,本手法はトレーニング領域外の画像(よりリアルなレンダリングやリアルな写真)に一般化することができる。 最後に、推論された幾何学的足場は、それ自体が物体の3D形状の正確な推定である。 合成画像と実画像の両方において,提案手法の有効性を示す実験を行った。

We present a method for estimating neural scenes representations of objects given only a single image. The core of our method is the estimation of a geometric scaffold for the object and its use as a guide for the reconstruction of the underlying radiance field. Our formulation is based on a generative process that first maps a latent code to a voxelized shape, and then renders it to an image, with the object appearance being controlled by a second latent code. During inference, we optimize both the latent codes and the networks to fit a test image of a new object. The explicit disentanglement of shape and appearance allows our model to be fine-tuned given a single image. We can then render new views in a geometrically consistent manner and they represent faithfully the input object. Additionally, our method is able to generalize to images outside of the training domain (more realistic renderings and even real photographs). Finally, the inferred geometric scaffold is itself an accurate estimate of the object's 3D shape. We demonstrate in several experiments the effectiveness of our approach in both synthetic and real images.
翻訳日:2021-02-18 14:30:32 公開日:2021-02-17
# 二者分割学習におけるラベル漏洩と保護

Label Leakage and Protection in Two-party Split Learning ( http://arxiv.org/abs/2102.08504v1 )

ライセンス: Link先を確認
Oscar Li and Jiankai Sun and Xin Yang and Weihao Gao and Hongyi Zhang and Junyuan Xie and Virginia Smith and Chong Wang(参考訳) 垂直連合学習では、二者分割学習が重要なトピックとなり、実際のビジネスシナリオで多くのアプリケーションを見つけました。 しかし、参加者の接地ラベルの漏れを防ぐ方法はよく研究されていない。 本稿では,オンラインビジネスアプリケーションにおける共通事例である,不均衡なバイナリ分類設定において,この質問に答えることを検討する。 まず,当事者間のコミュニケーション勾配のノルムを用いた単純な手法であるノームアタックが,参加者の接地ラベルをほとんど明らかにできることを示す。 次に,この問題を軽減するための保護手法について検討する。 そこで我々は,ラベル検出の最悪のエラーを直接最大化する原理的手法を考案した。 これは、通常の攻撃などに対してより効果的であることが証明されている。 提案手法の競合性は,他の複数のベースラインと比較して実験的に検証した。

In vertical federated learning, two-party split learning has become an important topic and has found many applications in real business scenarios. However, how to prevent the participants' ground-truth labels from possible leakage is not well studied. In this paper, we consider answering this question in an imbalanced binary classification setting, a common case in online business applications. We first show that, norm attack, a simple method that uses the norm of the communicated gradients between the parties, can largely reveal the ground-truth labels from the participants. We then discuss several protection techniques to mitigate this issue. Among them, we have designed a principled approach that directly maximizes the worst-case error of label detection. This is proved to be more effective in countering norm attack and beyond. We experimentally demonstrate the competitiveness of our proposed method compared to several other baselines.
翻訳日:2021-02-18 14:29:03 公開日:2021-02-17
# DeepWalkingの後方:埋め込みからグラフへ

DeepWalking Backwards: From Embeddings Back to Graphs ( http://arxiv.org/abs/2102.08532v1 )

ライセンス: Link先を確認
Sudhanshu Chanpuriya, Cameron Musco, Konstantinos Sotiropoulos, and Charalampos E. Tsourakakis(参考訳) 低次元ノード埋め込みはグラフデータセットの解析において重要な役割を果たす。 しかし、一般的な埋め込み手法でエンコードされている情報と、この情報が下流の機械学習タスクのパフォーマンスとどのように相関しているかを正確に研究する研究はほとんどない。 我々は、埋め込みを生成するのに使用されるグラフを(ほぼ)復元できるかどうかを調べることで、この問題に取り組む。 一般的なDeepWalk法(Perozzi et al., 2014; Qiu et al., 2018)の変種に焦点を当てて、正確な埋め込みインバージョンのためのアルゴリズム - すなわち、グラフGの低次元埋め込みから、非常に類似した埋め込みを持つグラフHを見つけることができます。 私たちは現実世界のネットワーク上で数多くの実験を行い、特定のエッジや三角形密度のようなバルク特性などのGに関する重要な情報がしばしばHで失われることを観察しています。 私たちの発見は、入力グラフにエンコードされる情報と、その情報がなぜ学習タスクに役立つのかを、より厳密に理解するための一歩です。

Low-dimensional node embeddings play a key role in analyzing graph datasets. However, little work studies exactly what information is encoded by popular embedding methods, and how this information correlates with performance in downstream machine learning tasks. We tackle this question by studying whether embeddings can be inverted to (approximately) recover the graph used to generate them. Focusing on a variant of the popular DeepWalk method (Perozzi et al., 2014; Qiu et al., 2018), we present algorithms for accurate embedding inversion - i.e., from the low-dimensional embedding of a graph G, we can find a graph H with a very similar embedding. We perform numerous experiments on real-world networks, observing that significant information about G, such as specific edges and bulk properties like triangle density, is often lost in H. However, community structure is often preserved or even enhanced. Our findings are a step towards a more rigorous understanding of exactly what information embeddings encode about the input graph, and why this information is useful for learning tasks.
翻訳日:2021-02-18 14:28:49 公開日:2021-02-17
# DO-GAN: ジェネレーティブ・アドバイザリ・ネットワークのための2つのOracleフレームワーク

DO-GAN: A Double Oracle Framework for Generative Adversarial Networks ( http://arxiv.org/abs/2102.08577v1 )

ライセンス: Link先を確認
Aye Phyu Phyu Aung, Xinrun Wang, Runsheng Yu, Bo An, Senthilnath Jayavelu, Xiaoli Li(参考訳) 本稿では,ジェネレータとディスクリミネータのオーラクルを用いて,2つのオーラクル・フレームワークをデプロイするGAN(Generative Adversarial Networks)の学習手法を提案する。 GANは基本的に発電機と判別器の間の2プレイヤーのゼロサムゲームです。 訓練gansは純粋ナッシュ平衡が存在しない可能性があり、gansが大規模戦略空間を持つため混合ナッシュ平衡を見つけることは困難である。 DO-GANでは、ダブルオラクルフレームワークをGANに拡張します。 まず, プレイヤーの戦略を, 最適応答オラクルからのジェネレータと判別器の訓練モデルとして一般化する。 次に,線形プログラムを用いてメタストラテジーを計算する。 複数生成器と識別器のベストレスポンスをメモリに格納するフレームワークの拡張性について,1) 弱支配者戦略の破砕,2) 連続学習によるネットワークに関する過去の知識の保持,の2つのソリューションを提案する。 我々は、バニラGAN、ディープ・コンボリューショナルGAN、スペクトル正規化GAN、スタックドGANなどの確立されたGANアーキテクチャに適用する。 最後に, MNIST, CIFAR-10, CelebAデータセットを用いて実験を行い, DO-GAN変異体は各GANアーキテクチャと比較して, 主観的質的評価と定量化の両面で有意な改善を示した。

In this paper, we propose a new approach to train Generative Adversarial Networks (GANs) where we deploy a double-oracle framework using the generator and discriminator oracles. GAN is essentially a two-player zero-sum game between the generator and the discriminator. Training GANs is challenging as a pure Nash equilibrium may not exist and even finding the mixed Nash equilibrium is difficult as GANs have a large-scale strategy space. In DO-GAN, we extend the double oracle framework to GANs. We first generalize the players' strategies as the trained models of generator and discriminator from the best response oracles. We then compute the meta-strategies using a linear program. For scalability of the framework where multiple generators and discriminator best responses are stored in the memory, we propose two solutions: 1) pruning the weakly-dominated players' strategies to keep the oracles from becoming intractable; 2) applying continual learning to retain the previous knowledge of the networks. We apply our framework to established GAN architectures such as vanilla GAN, Deep Convolutional GAN, Spectral Normalization GAN and Stacked GAN. Finally, we conduct experiments on MNIST, CIFAR-10 and CelebA datasets and show that DO-GAN variants have significant improvements in both subjective qualitative evaluation and quantitative metrics, compared with their respective GAN architectures.
翻訳日:2021-02-18 14:28:31 公開日:2021-02-17
# egoに基づくグラフ上の構造表現のエントロピー測度

Ego-based Entropy Measures for Structural Representations on Graphs ( http://arxiv.org/abs/2102.08735v1 )

ライセンス: Link先を確認
George Dasoulas, Giannis Nikolentzos, Kevin Scaman, Aladin Virmaux, Michalis Vazirgiannis(参考訳) グラフ構造化データの機械学習は、グラフニューラルネットワーク(GNN)の出現により、高い研究関心を集めている。 提案するgnnのほとんどはノードホモフィリに基づいており、隣接ノードは類似した特性を持つ。 しかし、多くの複雑なネットワークでは、グラフの遠い部分にあるノードは構造的に同等の特性を共有し、同様の役割(例えば、分子内の遠い原子の化学的性質、ソーシャルネットワークユーザーのタイプ)を示す。 成長する文献は、構造的に等価なノードを識別する表現を提案した。 しかし、既存の手法のほとんどは時間と空間の複雑さを必要とする。 本論文では,グラフの摂動に対して時間効率が高く堅牢な低次元構造表現を生成するための,近傍のトポロジのエントロピー測度に基づく単純なアプローチであるVNEstructを提案する。 経験的に、VNEstructは構造的役割識別タスクに堅牢性を示す。 さらに、VNEstructはグラフ構造情報を最適化に組み込むことなく、グラフ分類における最先端のパフォーマンスを実現することができる。

Machine learning on graph-structured data has attracted high research interest due to the emergence of Graph Neural Networks (GNNs). Most of the proposed GNNs are based on the node homophily, i.e neighboring nodes share similar characteristics. However, in many complex networks, nodes that lie to distant parts of the graph share structurally equivalent characteristics and exhibit similar roles (e.g chemical properties of distant atoms in a molecule, type of social network users). A growing literature proposed representations that identify structurally equivalent nodes. However, most of the existing methods require high time and space complexity. In this paper, we propose VNEstruct, a simple approach, based on entropy measures of the neighborhood's topology, for generating low-dimensional structural representations, that is time-efficient and robust to graph perturbations. Empirically, we observe that VNEstruct exhibits robustness on structural role identification tasks. Moreover, VNEstruct can achieve state-of-the-art performance on graph classification, without incorporating the graph structure information in the optimization, in contrast to GNN competitors.
翻訳日:2021-02-18 14:28:06 公開日:2021-02-17
# モビリティデータにおけるオンライン共同移動パターン予測

Online Co-movement Pattern Prediction in Mobility Data ( http://arxiv.org/abs/2102.08870v1 )

ライセンス: Link先を確認
Andreas Tritsarolis, Eva Chondrodima, Panagiotis Tampakis and Aggelos Pikrakis(参考訳) モビリティデータに対する予測分析は、アナリストが衝突、遭遇、交通渋滞などのイベントを予測するのを助けることができるため、非常に重要である。 このような分析の典型的な例は、移動物体の将来の位置を予測することを目的とした将来の位置予測である。 さらに難しいのは、協調移動パターンなど、動きの集団的行動パターンを正確に予測できることです。 本論文では,共動パターンのオンライン予測問題に対する正確な解法を提案する。 さらに詳しくは、元の問題を2つのサブ問題、すなわちFuture Location PredictionとEvolving Cluster Detectionに分割する。 さらに,提案手法の精度を算出するために,予測されたクラスタと実際のクラスタとの一致を容易にする共動パターン類似度測定法を提案する。 最後に,本ソリューションの精度を海事領域からの実際のデータセット上で実験的に実証する。

Predictive analytics over mobility data are of great importance since they can assist an analyst to predict events, such as collisions, encounters, traffic jams, etc. A typical example of such analytics is future location prediction, where the goal is to predict the future location of a moving object,given a look-ahead time. What is even more challenging is being able to accurately predict collective behavioural patterns of movement, such as co-movement patterns. In this paper, we provide an accurate solution to the problem of Online Prediction of Co-movement Patterns. In more detail, we split the original problem into two sub-problems, namely Future Location Prediction and Evolving Cluster Detection. Furthermore, in order to be able to calculate the accuracy of our solution, we propose a co-movement pattern similarity measure, which facilitates us to match the predicted clusters with the actual ones. Finally, the accuracy of our solution is demonstrated experimentally over a real dataset from the maritime domain.
翻訳日:2021-02-18 14:27:48 公開日:2021-02-17
# 平均化による確率近似の偏差不等式

Deviation inequalities for stochastic approximation by averaging ( http://arxiv.org/abs/2102.08685v1 )

ライセンス: Link先を確認
Xiequan Fan, Pierre Alquier, Paul Doukhan(参考訳) 平均化と非平均化による確率近似のモデルを含むマルコフ鎖のクラスを紹介します。 マルティンゲール近似法を用いて、これらの鎖の独立なリプシッツ関数に対する様々な偏差不等式を、マルティンゲール差の確率変数のいくつかの支配モーメント条件で確立し、その不等式を平均化による確率近似に適用する。

We introduce a class of Markov chains, that contains the model of stochastic approximation by averaging and non-averaging. Using martingale approximation method, we establish various deviation inequalities for separately Lipschitz functions of such a chain, with different moment conditions on some dominating random variables of martingale differences.Finally, we apply these inequalities to the stochastic approximation by averaging.
翻訳日:2021-02-18 14:27:35 公開日:2021-02-17
# ACTA:高齢者に対する総合的Nudge-Neurofeedbackトレーニングのためのモバイルヘルスソリューション

ACTA: A Mobile-Health Solution for Integrated Nudge-Neurofeedback Training for Senior Citizens ( http://arxiv.org/abs/2102.08692v1 )

ライセンス: Link先を確認
Giulia Cisotto, Andrea Trentini, Italo Zoppis, Alessio Zanga, Sara Manzoni, Giada Pietrabissa, Anna Guerrini Usubini, and Gianluca Castelnuovo(参考訳) 世界人口の高齢化に伴い、在宅遠隔医療とモバイルヘルスのソリューションは、アクティブで独立した高齢化を促進し、患者中心の医療へのパラダイムシフトに貢献する有望なサービスである。 本稿では,高齢者の軽度認知障害に対する高度な認知訓練を行うための,モバイルヘルスのプロトタイプであるACTA(Advanced Cognitive Training for Aging)を提案する。 ここでは、認知領域からの「ナッジ理論」と神経科学領域からの「神経フィードバック」の2つの有望なリハビリテーション戦略の統合としてのACTAの概念化を明らかにします。 さらに,ACTAでは,エコロジー環境下でのトレーニングにおいて,最も高度な機械学習技術を用いて,高齢者にカスタマイズされた完全適応型サポートを提供する。 ACTAは、現在ロンバルディア州で進行中のNudge理論に基づく認知トレーニングのための初期のモバイルヘルスプロジェクトであるSENIORの次のステップである。 SENIOR以外にも、ACTAは、独立した老化と効果的な運動認知トレーニングサポートを促進するために、高可用性、アクセシビリティ、低コスト、次世代のモバイルヘルスソリューションを表しています。

As the worldwide population gets increasingly aged, in-home telemedicine and mobile-health solutions represent promising services to promote active and independent aging and to contribute to a paradigm shift towards patient-centric healthcare. In this work, we present ACTA (Advanced Cognitive Training for Aging), a prototype mobile-health solution to provide advanced cognitive training for senior citizens with mild cognitive impairments. We disclose here the conceptualization of ACTA as the integration of two promising rehabilitation strategies: the "Nudge theory", from the cognitive domain, and the neurofeedback, from the neuroscience domain. Moreover, in ACTA we exploit the most advanced machine learning techniques to deliver customized and fully adaptive support to the elderly, while training in an ecological environment. ACTA represents the next-step beyond SENIOR, an earlier mobile-health project for cognitive training based on Nudge theory, currently ongoing in Lombardy Region. Beyond SENIOR, ACTA represents a highly-usable, accessible, low-cost, new-generation mobile-health solution to promote independent aging and effective motor-cognitive training support, while empowering the elderly in their own aging.
翻訳日:2021-02-18 14:27:25 公開日:2021-02-17
# 歌唱スタイル転送によるエンドツーエンドの歌詞認識

End-to-end lyrics Recognition with Voice to Singing Style Transfer ( http://arxiv.org/abs/2102.08575v1 )

ライセンス: Link先を確認
Sakya Basak, Shrutina Agarwal, Sriram Ganapathy, Naoya Takahashi(参考訳) モノフォニック/ポリフォニック音楽の自動転写は、大量のデータを読み込むことができないため、難しい作業です。 本論文では,自然音声をボーコーダに基づく音声合成器に基づく歌声に変換するデータ拡張法を提案する。 この手法はV2S(Voice to singing)と呼ばれ、自然な音声のF0輪郭を歌声のそれと調整することで、音声スタイルの変換を行う。 このv2sモデルに基づくスタイル転送は、高品質な歌声を生成することができ、e2e歌詞転写システムを構築するのに有用な、大きな自然音声コーパスを歌声に変換することができる。 モノフォニック歌唱音声データに関する実験では、V2Sスタイルの転送は、E2E歌詞転写システムに有意な利益(相対的に21%の改善)を提供します。 また、トランスファーラーニングや歌詞ベースの言語モデリングなどの追加コンポーネントについても議論し、歌詞の転写システムのパフォーマンスを改善します。

Automatic transcription of monophonic/polyphonic music is a challenging task due to the lack of availability of large amounts of transcribed data. In this paper, we propose a data augmentation method that converts natural speech to singing voice based on vocoder based speech synthesizer. This approach, called voice to singing (V2S), performs the voice style conversion by modulating the F0 contour of the natural speech with that of a singing voice. The V2S model based style transfer can generate good quality singing voice thereby enabling the conversion of large corpora of natural speech to singing voice that is useful in building an E2E lyrics transcription system. In our experiments on monophonic singing voice data, the V2S style transfer provides a significant gain (relative improvements of 21%) for the E2E lyrics transcription system. We also discuss additional components like transfer learning and lyrics based language modeling to improve the performance of the lyrics transcription system.
翻訳日:2021-02-18 14:26:36 公開日:2021-02-17
# パブリックデータを活用するPrivate Queryの実用的リリース

Leveraging Public Data for Practical Private Query Release ( http://arxiv.org/abs/2102.08598v1 )

ライセンス: Link先を確認
Terrance Liu, Giuseppe Vietri, Thomas Steinke, Jonathan Ullman, Zhiwei Steven Wu(参考訳) 多くの統計的問題では、プリミティブを組み込むことでパフォーマンスが大幅に向上する。 しかし、差動的プライベートクエリリリースにおける事前知識の使用は、前回の米国国勢調査のような公開データセットの形で一般的に利用可能であるにもかかわらず、未調査のままである。 プライベートデータセットに関する統計を公開することを目的として、既存のベースラインとは異なり、PMW^Pubは、関連するディストリビューションから引き出された公開データを事前情報として活用する。 我々は,米国コミュニティ調査(acs)とアダルトデータセットの理論的解析と経験的評価を行い,その手法が最先端の手法よりも優れていることを示した。 さらに、PMW^Pubは高次元データ領域によくスケールし、既存の多くのメソッドを実行することは計算的に不可能である。

In many statistical problems, incorporating priors can significantly improve performance. However, the use of prior knowledge in differentially private query release has remained underexplored, despite such priors commonly being available in the form of public datasets, such as previous US Census releases. With the goal of releasing statistics about a private dataset, we present PMW^Pub, which -- unlike existing baselines -- leverages public data drawn from a related distribution as prior information. We provide a theoretical analysis and an empirical evaluation on the American Community Survey (ACS) and ADULT datasets, which shows that our method outperforms state-of-the-art methods. Furthermore, PMW^Pub scales well to high-dimensional data domains, where running many existing methods would be computationally infeasible.
翻訳日:2021-02-18 14:26:21 公開日:2021-02-17
# ノイズアウェアエンコーダを用いた音声強調のための可変オートエンコーダ

Variational Autoencoder for Speech Enhancement with a Noise-Aware Encoder ( http://arxiv.org/abs/2102.08706v1 )

ライセンス: Link先を確認
Huajian Fang, Guillaume Carbajal, Stefan Wermter, Timo Gerkmann(参考訳) 近年,音声統計をモデル化するための音声強調のための生成変分オートエンコーダ (VAE) が提案されている。 しかし、このアプローチは訓練段階ではクリーンな音声のみを使用し、特に低信号対雑音比(SNR)でノイズの存在に特に敏感な推定を行います。 そこで,このvaeのロバスト性を高めるために,ノイズ対応エンコーダを用いて学習段階における雑音情報を含むことを提案する。 異なる雑音環境および音響環境の実記録に対する2種類のノイズデータセットを用いたアプローチを評価した。 提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。 同時に、我々のモデルは、教師付きフィードフォワードディープニューラルネットワーク(DNN)よりも、目に見えない雑音条件に最適化できることを示した。 さらに、モデル性能の堅牢性を実証し、ノイズのあるクリーンな音声トレーニングデータサイズを低減します。

Recently, a generative variational autoencoder (VAE) has been proposed for speech enhancement to model speech statistics. However, this approach only uses clean speech in the training phase, making the estimation particularly sensitive to noise presence, especially in low signal-to-noise ratios (SNRs). To increase the robustness of the VAE, we propose to include noise information in the training phase by using a noise-aware encoder trained on noisy-clean speech pairs. We evaluate our approach on real recordings of different noisy environments and acoustic conditions using two different noise datasets. We show that our proposed noise-aware VAE outperforms the standard VAE in terms of overall distortion without increasing the number of model parameters. At the same time, we demonstrate that our model is capable of generalizing to unseen noise conditions better than a supervised feedforward deep neural network (DNN). Furthermore, we demonstrate the robustness of the model performance to a reduction of the noisy-clean speech training data size.
翻訳日:2021-02-18 14:26:08 公開日:2021-02-17
# 効果的な動力学の学習による分子系の加速シミュレーション

Accelerated Simulations of Molecular Systems through Learning of their Effective Dynamics ( http://arxiv.org/abs/2102.08810v1 )

ライセンス: Link先を確認
Pantelis R. Vlachas, Julija Zavadlav, Matej Praprotnik, Petros Koumoutsakos(参考訳) 複雑な分子系の進化を理解し予測するにはシミュレーションが不可欠です。 しかし、アルゴリズムと特殊なハードウェアの進歩にもかかわらず、生体分子の構造的進化を捉えるのに必要な時間スケールにアクセスすることは大変な作業である。 本稿では,分子系の有効動力学(led)を学習することにより,最大3桁までのシミュレーション時間スケールを前進させる新しい枠組みを提案する。 ledは混合密度ネットワーク(mdn)オートエンコーダを用いた粗スケールと微スケールの確率的マッピングを採用し、長期短期記憶mdnsを用いた非マルコフ的潜在ダイナミクスを進化させる。 我々は、M\"ueller-Brown電位、Trp Cageタンパク質、およびアラニンジペプチドにおけるLEDの有効性を実証する。 LEDは説明可能な低次表現を識別し、任意の瞬間に各全原子分子軌道を生成することができる。 提案手法はシミュレーション能力の劇的な向上をもたらし,複雑な分子系の効率的なモデリングのための新たな地平線を開くものと考えられる。

Simulations are vital for understanding and predicting the evolution of complex molecular systems. However, despite advances in algorithms and special purpose hardware, accessing the timescales necessary to capture the structural evolution of bio-molecules remains a daunting task. In this work we present a novel framework to advance simulation timescales by up to three orders of magnitude, by learning the effective dynamics (LED) of molecular systems. LED augments the equation-free methodology by employing a probabilistic mapping between coarse and fine scales using mixture density network (MDN) autoencoders and evolves the non-Markovian latent dynamics using long short-term memory MDNs. We demonstrate the effectiveness of LED in the M\"ueller-Brown potential, the Trp Cage protein, and the alanine dipeptide. LED identifies explainable reduced-order representations and can generate, at any instant, the respective all-atom molecular trajectories. We believe that the proposed framework provides a dramatic increase to simulation capabilities and opens new horizons for the effective modeling of complex molecular systems.
翻訳日:2021-02-18 14:25:51 公開日:2021-02-17
# 有限次元におけるSLOPEペナルティシーケンスの効率的な設計

Efficient Designs of SLOPE Penalty Sequences in Finite Dimension ( http://arxiv.org/abs/2102.07211v2 )

ライセンス: Link先を確認
Yiliang Zhang, Zhiqi Bu(参考訳) 線形回帰では、SLOPEはラッソを分類されたL1ペナルティを介して一般化する新しい凸解析手法である:より大きな適合係数はより重くペナルティ化される。 このマグニチュード依存正規化は、Lassoの場合のようにスカラーペナルティではなく、ペナルティシーケンス $\lambda$ の入力を必要とするため、設計は計算において非常に高価である。 本稿では,平均二乗誤差を最小限に抑えるため,高次元SLOPEペナルティを設計するための2つの効率的なアルゴリズムを提案する。 ガウスデータ行列に対しては、近似メッセージパッシング法の下で1次投影勾配降下 (pgd) を提案する。 一般的なデータ行列では、k レベル SLOPE と呼ばれる SLOPE のサブクラスを設計するために 0 番目の順序 Coordinate Descent (CD) を提示する。 私たちのCDは精度と計算速度のトレードオフに役立ちます。 我々は,合成データと実世界のデータセットを広範囲に実験し,slideの性能を実証する。

In linear regression, SLOPE is a new convex analysis method that generalizes the Lasso via the sorted L1 penalty: larger fitted coefficients are penalized more heavily. This magnitude-dependent regularization requires an input of penalty sequence $\lambda$, instead of a scalar penalty as in the Lasso case, thus making the design extremely expensive in computation. In this paper, we propose two efficient algorithms to design the possibly high-dimensional SLOPE penalty, in order to minimize the mean squared error. For Gaussian data matrices, we propose a first order Projected Gradient Descent (PGD) under the Approximate Message Passing regime. For general data matrices, we present a zero-th order Coordinate Descent (CD) to design a sub-class of SLOPE, referred to as the k-level SLOPE. Our CD allows a useful trade-off between the accuracy and the computation speed. We demonstrate the performance of SLOPE with our designs via extensive experiments on synthetic data and real-world datasets.
翻訳日:2021-02-18 12:17:26 公開日:2021-02-17
# CAP-GAN:Cycle-Consistent Attentional Purificationによる対向性ロバスト性を目指して

CAP-GAN: Towards Adversarial Robustness with Cycle-consistent Attentional Purification ( http://arxiv.org/abs/2102.07304v2 )

ライセンス: Link先を確認
Mingu Kang, Trung Quang Tran, Seungju Cho, Daeyoung Kim(参考訳) 敵対攻撃は、知覚不能な摂動でターゲット分類器をだますことを目的としています。 悪意のある目的によって慎重に作られた敵の例は誤った予測につながり、破滅的な事故に繋がる。 敵攻撃の影響を軽減するため,CAP-GANと呼ばれる新しい浄化モデルを提案する。 CAP-GANは、サイクル一貫性学習の下で適切な浄化を実現するために、ピクセルレベルと特徴レベルの整合性の概念を考慮に入れている。 具体的には, 誘導注意モジュールと知識蒸留を用いて, 浄化モデルに有意義な情報を伝える。 モデルを完全に訓練すると、入力は精製モデルに投影され、クリーンな画像に変換される。 私たちは、さまざまなタイプの攻撃戦略に対する堅牢性を議論するために敵の能力を変えます。 CIFAR-10データセットでは、CAP-GANは他の前処理ベースの防御よりもブラックボックスとホワイトボックスの両方の設定で優れています。

Adversarial attack is aimed at fooling the target classifier with imperceptible perturbation. Adversarial examples, which are carefully crafted with a malicious purpose, can lead to erroneous predictions, resulting in catastrophic accidents. To mitigate the effects of adversarial attacks, we propose a novel purification model called CAP-GAN. CAP-GAN takes account of the idea of pixel-level and feature-level consistency to achieve reasonable purification under cycle-consistent learning. Specifically, we utilize the guided attention module and knowledge distillation to convey meaningful information to the purification model. Once a model is fully trained, inputs would be projected into the purification model and transformed into clean-like images. We vary the capacity of the adversary to argue the robustness against various types of attack strategies. On the CIFAR-10 dataset, CAP-GAN outperforms other pre-processing based defenses under both black-box and white-box settings.
翻訳日:2021-02-18 12:17:09 公開日:2021-02-17
# ポイントクラウド予測のための時空間グラフ-RNN

Spatio-temporal Graph-RNN for Point Cloud Prediction ( http://arxiv.org/abs/2102.07482v2 )

ライセンス: Link先を確認
Pedro Gomes, Silvia Rossi, Laura Toni(参考訳) 本稿では,将来的なクラウドフレーム予測のためのエンドツーエンド学習ネットワークを提案する。 主新規性として、初期層は点雲の位相情報を幾何学的特徴として学習し、代表時空間近傍を形成する。 このモジュールには複数のGraph-RNN細胞が続く。 各セルは、各点を処理する点ダイナミクス(すなわちRNN状態)を時空間近傍点とともに学習する。 我々は,移動桁のMINSTデータセット,合成人体運動,JPEG動体データセットを用いてネットワーク性能を検証した。 シミュレーションの結果,幾何学的特徴を無視するベースラインよりも優れることがわかった。

In this paper, we propose an end-to-end learning network to predict future point cloud frames. As main novelty, an initial layer learns topological information of point clouds as geometric features, to form representative spatio-temporal neighborhoods. This module is followed by multiple Graph-RNN cells. Each cell learns points dynamics (i.e., RNN states) processing each point jointly with the spatio-temporal neighbouring points. We tested the network performance with a MINST dataset of moving digits, a synthetic human bodies motions and JPEG dynamic bodies datasets. Simulation results demonstrate that our method outperforms baseline ones that neglect geometry features information.
翻訳日:2021-02-18 12:16:38 公開日:2021-02-17