このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200917となっている論文です。

PDF登録状況(公開日: 20200917)

TitleAuthorsAbstract論文公表日・翻訳日
# ランダム化アルゴリズムのための新しいミニマックス理論

A New Minimax Theorem for Randomized Algorithms ( http://arxiv.org/abs/2002.10802v2 )

ライセンス: Link先を確認
Shalev Ben-David, Eric Blais(参考訳) Yao (1977) の有名なミニマックスの原理は、有限領域を持つブール値関数 $f$ に対して、$f$の領域上の分布 $\mu$ が存在して、$\mu$ の入力に対する計算 $f$ の誤差 $\epsilon$ は、最悪のケース入力に対する計算 $f$ の誤差 $\epsilon$ と同程度に難しいということである。 しかし、分布 $\mu$ は対象の誤差レベル $\epsilon$ に依存する: 有界誤差に対して厳密な硬分布は小さなバイアスに難解であり、小さなバイアスレベルで厳密な硬分布は、有界誤差レベルでは厳密ではないかもしれない。 本研究では,すべてのバイアスレベルに対して同時に作用するハード分布$\mu$を提供する,新しいタイプのミニマックス定理を導入する。 本研究では,ランダム化クエリの複雑性,ランダム化通信の複雑性,ランダム化回路モデル,量子クエリと通信の複雑さ,近似多項式次数,近似logrankに対して有効であることを示す。 また、Impagliazzoのハードコア補題の改良版も証明した。 我々の証明は、フォン・ノイマンのミニマックス定理や線型計画双対性を用いる古典的なアプローチに対する2つの革新に依存している。 まず、アルゴリズムのコストとスコアを表す双線型関数の比に対するミニマックス定理をシオンのミニマックス定理を用いて証明する。 第2に、適切なスコアリングルールにより評価された「予測アルゴリズム」とみなして、低バイアスランダム化アルゴリズムを解析する新しい方法を提案する。 ランダム化アルゴリズムの予測バージョンの期待スコアは、アルゴリズムのバイアスを分析するためのよりきめ細かい方法であるように見える。 このような期待値には多くのエレガントな数学的性質があり、例えば二次数の代わりに線形に増幅することができる。 予測アルゴリズムは,小バイアスアルゴリズムのきめ細かな解析が必要となる今後の研究での利用を見込んでいる。

The celebrated minimax principle of Yao (1977) says that for any Boolean-valued function $f$ with finite domain, there is a distribution $\mu$ over the domain of $f$ such that computing $f$ to error $\epsilon$ against inputs from $\mu$ is just as hard as computing $f$ to error $\epsilon$ on worst-case inputs. Notably, however, the distribution $\mu$ depends on the target error level $\epsilon$: the hard distribution which is tight for bounded error might be trivial to solve to small bias, and the hard distribution which is tight for a small bias level might be far from tight for bounded error levels. In this work, we introduce a new type of minimax theorem which can provide a hard distribution $\mu$ that works for all bias levels at once. We show that this works for randomized query complexity, randomized communication complexity, some randomized circuit models, quantum query and communication complexities, approximate polynomial degree, and approximate logrank. We also prove an improved version of Impagliazzo's hardcore lemma. Our proofs rely on two innovations over the classical approach of using Von Neumann's minimax theorem or linear programming duality. First, we use Sion's minimax theorem to prove a minimax theorem for ratios of bilinear functions representing the cost and score of algorithms. Second, we introduce a new way to analyze low-bias randomized algorithms by viewing them as "forecasting algorithms" evaluated by a proper scoring rule. The expected score of the forecasting version of a randomized algorithm appears to be a more fine-grained way of analyzing the bias of the algorithm. We show that such expected scores have many elegant mathematical properties: for example, they can be amplified linearly instead of quadratically. We anticipate forecasting algorithms will find use in future work in which a fine-grained analysis of small-bias algorithms is required.
翻訳日:2023-06-02 00:06:40 公開日:2020-09-17
# ガウス過程状態:量子多体物理学のデータ駆動表現

Gaussian Process States: A data-driven representation of quantum many-body physics ( http://arxiv.org/abs/2002.12208v4 )

ライセンス: Link先を確認
Aldo Glielmo, Yannic Rath, Gabor Csanyi, Alessandro De Vita and George H. Booth(参考訳) 我々は、エンタングル多体量子状態を表すコンパクトな新しい非パラメトリック形式を示し、これを「ガウス過程状態」と呼ぶ。 他のアプローチとは対照的に、ベイズ統計によれば、このデータから統計的に推測される確率振幅を持つ構成的データセットの観点で、この状態を明示的に定義する。 このようにして、状態の非局所的物理的相関性は解析的に再開され、指数的複雑性がアンサッツの基盤となるが、小さなデータセットで効率的に表現される。 この状態は、非常にコンパクトで、体系的に即効性があり、サンプルに効率的であり、その範囲内で多くの既知の変動状態を表す。 量子状態の ‘universal approximator’ としても証明され、データセットのサイズを増加させることで、絡み合った多体状態をすべて捉えることができる。 この形式を直接学習できる2つの数値的アプローチ、すなわち断片化アプローチと直接変分最適化を開発し、これらのスキームをフェルミオンハバードモデルに適用する。 既存の変分アンサーゼや他の数値手法と比較して、相関量子問題の競合的あるいは優れた記述が見つかる。

We present a novel, non-parametric form for compactly representing entangled many-body quantum states, which we call a `Gaussian Process State'. In contrast to other approaches, we define this state explicitly in terms of a configurational data set, with the probability amplitudes statistically inferred from this data according to Bayesian statistics. In this way the non-local physical correlated features of the state can be analytically resummed, allowing for exponential complexity to underpin the ansatz, but efficiently represented in a small data set. The state is found to be highly compact, systematically improvable and efficient to sample, representing a large number of known variational states within its span. It is also proven to be a `universal approximator' for quantum states, able to capture any entangled many-body state with increasing data set size. We develop two numerical approaches which can learn this form directly: a fragmentation approach, and direct variational optimization, and apply these schemes to the Fermionic Hubbard model. We find competitive or superior descriptions of correlated quantum problems compared to existing state-of-the-art variational ansatzes, as well as other numerical methods.
翻訳日:2023-06-01 12:38:24 公開日:2020-09-17
# 独立量子状態及び測定装置の半デバイス非依存認証

Semi-device-independent certification of independent quantum state and measurement devices ( http://arxiv.org/abs/2003.03859v2 )

ライセンス: Link先を確認
Armin Tavakoli(参考訳) 量子デバイスが意図したように振る舞うことを証明することは、量子情報科学にとって不可欠である。 ここでは、独立デバイスを用いた準備・測定実験に基づいて、状態準備装置と測定装置の両方の認証方法を開発した。 実験者は、ヒルベルト空間次元のデバイスと知識の独立性を仮定する。 したがって、実験のどの部分も正確な特徴化は必要ない。 この認証は、曖昧な状態識別のランダム化バージョンに基づいており、任意のサイズと任意の次元の量子$t$-designsに対応する状態アンサンブルのクラスをターゲットにしている。 これらの量子設計は、任意の t$-次多項式の平均がすべての純粋状態の平均と等しい状態の集合であり、量子情報処理において最も有用な離散構造の多くに対応する。 また, 同一実験により, 測定装置の検出効率と非投影性が確認できた。 提案手法は実験で容易に実装できる。

Certifying that quantum devices behave as intended is crucial for quantum information science. Here, methods are developed for certification of both state preparation devices and measurement devices based on prepare-and-measure experiments with independent devices. The experimenter assumes the independence of the devices and knowledge of the Hilbert space dimension. Thus no precise characterisation of any part of the experiment is required. The certification is based on a randomised version of unambiguous state discrimination and targets the class of state ensembles corresponding to quantum $t$-designs of any size and any dimension. These quantum designs are sets of states over which the average of any $t$-degree polynomial equals its average over all pure states, and they accommodate many of the most useful discrete structures in quantum information processing. Furthermore, it is shown that the same experiments also certify the detection efficiency of the measurement devices, as well as their non-projective nature. The presented methods can readily be implemented in experiments.
翻訳日:2023-05-30 05:10:33 公開日:2020-09-17
# ハイブリッド量子系における線形資源を用いたスピンフォノンとスピンスピンの相互作用の促進

Enhancing spin-phonon and spin-spin interactions using linear resources in a hybrid quantum system ( http://arxiv.org/abs/2003.07151v2 )

ライセンス: Link先を確認
Peng-Bo Li, Yuan Zhou, Wei-Bo Gao, and Franco Nori(参考訳) ハイブリッドスピンメカニカルなセットアップは量子科学と技術に汎用的なプラットフォームを提供するが、スピンフォノンの改良やスピンスピン結合の改善は依然として重要な課題である。 本稿では, スピンフォノンとフォノンを介するスピン-スピン相互作用をハイブリッド・スピン・メカニカル・セットアップで指数関数的に拡張する実験可能な, 簡便な手法を提案し, 解析する。 メカニカルカンチレバーのバネ定数を時間依存ポンプで変調することにより、メカニカルモードへの可変および非線形(2フォノン)駆動を得ることができ、メカニカルゼロ点揺らぎを増幅し、スピンフォノンカップリングを直接強化することができる。 本手法では,スピン機械系を弱結合系から強結合系,超強結合系まで駆動することができる。 分散系では、この方法は、変調のないものよりも遠くの固体スピン(通常2桁大きい)とフォノンが媒介するスピンスピン-スピン相互作用を大きく向上させる。 例えば,提案手法は,大きな散逸が存在する場合でも,高忠実度を有する複数スピンの絡み合った状態の生成に適用可能であることを示す。

Hybrid spin-mechanical setups offer a versatile platform for quantum science and technology, but improving the spin-phonon as well as the spin-spin couplings of such systems remains a crucial challenge. Here, we propose and analyze an experimentally feasible and simple method for exponentially enhancing the spin-phonon, and the phonon-mediated spin-spin interactions in a hybrid spin-mechanical setup, using only \emph{ linear resources}. Through modulating the spring constant of the mechanical cantilever with a time-dependent pump, we can acquire a tunable and nonlinear (two-phonon) drive to the mechanical mode, thus amplifying the mechanical zero-point fluctuations and directly enhancing the spin-phonon coupling. Our method allows the spin-mechanical system to be driven from the weak-coupling regime to the strong-coupling regime, and even the ultrastrong coupling regime. In the dispersive regime, this method gives rise to a large enhancement of the phonon-mediated spin-spin interaction between distant solid-state spins, typically\emph{two orders of magnitude larger} than that without modulation. As an example, we show that the proposed scheme can apply to generating entangled states of multiple spins with high fidelities even in the presence of large dissipations.
翻訳日:2023-05-29 00:24:45 公開日:2020-09-17
# レッドフィールド方程式の完全正、単純、そしておそらく高精度な近似

Completely Positive, Simple, and Possibly Highly Accurate Approximation of the Redfield Equation ( http://arxiv.org/abs/2003.09063v4 )

ライセンス: Link先を確認
Dragomir Davidovic(参考訳) ここでは、第一原理から導かれたよく知られたマスター方程式であるレッドフィールド方程式に近似するリンドブラッドマスター方程式を、レッドフィールド方程式の適用範囲を著しく妥協することなく提示する。 本格的な粗粒化の代わりに、この近似は、量子系の典型的時間スケールを平均するレッドフィールド方程式の項のみを切断する。 この近似の最初のステップは、ハミルトニアン系を適切に再正規化し、環境結合による状態の利得と損失を対称性付けることである。 第2のステップでは、スペクトル密度の算術平均を幾何平均と交換し、これらの利得と損失に換算し、完全な肯定性を回復する。 この完全に正の近似 GAME (geometric-arithmetic master equation) は、時間非依存、時間依存、およびフロケ形式の間で適応可能である。 正確に解ける3段階のJaynes-Cummingsモデルでは、近似状態の誤差は、粗粒の確率的マスター方程式を解くことによって得られるものよりも、ほぼ1桁低い。 テスト層として、25スピンまでの長距離双極子-双極子カップリングを持つ強磁性ハイゼンベルクスピン鎖を用いて、様々なマスター方程式の違いを研究する。 ゲームは計算資源当たりの正確性が最も高い。

Here we present a Lindblad master equation that approximates the Redfield equation, a well known master equation derived from first principles, without significantly compromising the range of applicability of the Redfield equation. Instead of full-scale coarse-graining, this approximation only truncates terms in the Redfield equation that average out over a time-scale typical of the quantum system. The first step in this approximation is to properly renormalize the system Hamiltonian, to symmetrize the gains and losses of the state due to the environmental coupling. In the second step, we swap out an arithmetic mean of the spectral density with a geometric one, in these gains and losses, thereby restoring complete positivity. This completely positive approximation, GAME (geometric-arithmetic master equation), is adaptable between its time-independent, time-dependent, and Floquet form. In the exactly solvable, three-level, Jaynes-Cummings model, we find that the error of the approximate state is almost an order of magnitude lower than that obtained by solving the coarse-grained stochastic master equation. As a test-bed, we use a ferromagnetic Heisenberg spin-chain with long-range dipole-dipole coupling between up to 25-spins, and study the differences between various master equations. We find that GAME has the highest accuracy per computational resource.
翻訳日:2023-05-28 15:47:05 公開日:2020-09-17
# 超伝導体における電流の同時計測と波動特性

Proposed measurement of simultaneous particle and wave properties of electric current in a superconductor ( http://arxiv.org/abs/2003.14049v2 )

ライセンス: Link先を確認
Hrvoje Nikolic, Josip Atelj(参考訳) 微視的量子システムでは、粒子と波の特性を同時に測定することはできない。 しかし、これは巨視的な量子系には当てはまらないかもしれない。 実験として,超伝導体内の2つのスリットを通過する局所マクロ電流を測定することを提案する。 巨視的擬似波動関数に対する線形化ギンツブルグ・ランダウ方程式に基づく理論によれば、測定された電流の流線は、量子力学のボーム解釈における粒子軌道と同じ形を持つべきである。 明示的な計算により、ストリームラインは量子干渉の結果である特徴的なウィグリングを示すべきであることが分かる。

In a microscopic quantum system one cannot perform a simultaneous measurement of particle and wave properties. This, however, may not be true for macroscopic quantum systems. As a demonstration, we propose to measure the local macroscopic current passed through two slits in a superconductor. According to the theory based on the linearized Ginzburg-Landau equation for the macroscopic pseudo wave function, the streamlines of the measured current should have the same form as particle trajectories in the Bohmian interpretation of quantum mechanics. By an explicit computation we find that the streamlines should show a characteristic wiggling, which is a consequence of quantum interference.
翻訳日:2023-05-27 08:01:28 公開日:2020-09-17
# 量子断熱最適化のためのデサインハミルトニアン

De-Signing Hamiltonians for Quantum Adiabatic Optimization ( http://arxiv.org/abs/2004.07681v2 )

ライセンス: Link先を確認
Elizabeth Crosson, Tameem Albash, Itay Hen, A. P. Young(参考訳) 非確率的ハミルトニアンによって駆動される量子ゆらぎは、断熱最適化による量子上の優位性を達成するための重要かつおそらく不可欠な欠落要素であると推測されている。 本稿では,古典的ハミルトニアンの終点となるすべての非確率的断熱経路を,計算ベースで各行列エントリの位相を適切に調整して対応する確率的断熱経路にマッピングする変換を導入する。 これらの断熱経路のスペクトルギャップを比較し、非stoquastic hamiltonianに基づく経路が基底状態と第一励起状態の間のスペクトルギャップが一般的に小さいことを理論的および数値的に見いだし、量子断熱最適化において確率的ハミルトニアンよりも有用でないことを示唆する。 これらの結果は、計算ベースで対角線となる最終ハミルトニアンに補間する任意の断熱アルゴリズムに適用できる。

Quantum fluctuations driven by non-stoquastic Hamiltonians have been conjectured to be an important and perhaps essential missing ingredient for achieving a quantum advantage with adiabatic optimization. We introduce a transformation that maps every non-stoquastic adiabatic path ending in a classical Hamiltonian to a corresponding stoquastic adiabatic path by appropriately adjusting the phase of each matrix entry in the computational basis. We compare the spectral gaps of these adiabatic paths and find both theoretically and numerically that the paths based on non-stoquastic Hamiltonians have generically smaller spectral gaps between the ground and first excited states, suggesting they are less useful than stoquastic Hamiltonians for quantum adiabatic optimization. These results apply to any adiabatic algorithm which interpolates to a final Hamiltonian that is diagonal in the computational basis.
翻訳日:2023-05-23 07:01:24 公開日:2020-09-17
# デジタル社会契約 : 平等主義と公正なデジタル社会のための財団

Digital Social Contracts: A Foundation for an Egalitarian and Just Digital Society ( http://arxiv.org/abs/2005.06261v6 )

ライセンス: Link先を確認
Luca Cardelli, Liav Orgad, Gal Shahaf, Ehud Shapiro and Nimrod Talmon(参考訳) ほぼ2世紀前、ピエール=ジョゼフ・プルードンは平等主義とただの社会が生まれる基盤として、自由民間の自発的な契約を提案した。 emph{digital social contract} は、デジタル時代のこの概念の斬新なインカーネーションであり、デジタル領域で特定され、実行され、満たされる人々の間の自発的な合意である。 It embodies the notion of "code-is-law" in its purest form, in that a digital social contract is in fact a program -- code in a social contracts programming language, which specifies the digital actions parties to the social contract may take; and the parties to the contract are entrusted, equally, with the task of ensuring that each party abides by the contract. Parties to a social contract are identified via their public keys, and the one and only type of action a party to a digital social contract may take is a "digital speech act" -- signing an utterance with her private key and sending it to the other parties to the contract. 本稿では,デジタル社会契約を,暗号処理行為を通じて非同期に通信するエージェントとして定義し,各エージェントの出力を他のエージェントの入力とする。 我々は,ソーシャルコントラクトプログラミング言語の抽象設計を概説し,プログラミング例を通じて,ソーシャルコミュニティ,シンプルな共有経済アプリケーション,平等的通貨ネットワーク,民主的コミュニティガバナンスといった重要な応用分野が,すべてディジタルソーシャルコントラクトとしてエレガントかつ効率的に表現できることを示す。

Almost two centuries ago Pierre-Joseph Proudhon proposed social contracts -- voluntary agreements among free people -- as a foundation from which an egalitarian and just society can emerge. A \emph{digital social contract} is the novel incarnation of this concept for the digital age: a voluntary agreement between people that is specified, undertaken, and fulfilled in the digital realm. It embodies the notion of "code-is-law" in its purest form, in that a digital social contract is in fact a program -- code in a social contracts programming language, which specifies the digital actions parties to the social contract may take; and the parties to the contract are entrusted, equally, with the task of ensuring that each party abides by the contract. Parties to a social contract are identified via their public keys, and the one and only type of action a party to a digital social contract may take is a "digital speech act" -- signing an utterance with her private key and sending it to the other parties to the contract. Here, we present a formal definition of a digital social contract as agents that communicate asynchronously via crypto-speech acts, where the output of each agent is the input of all the other agents. We outline an abstract design for a social contracts programming language and show, via programming examples, that key application areas, including social community; simple sharing-economy applications; egalitarian currency networks; and democratic community governance, can all be expressed elegantly and efficiently as digital social contracts.
翻訳日:2023-05-20 07:59:45 公開日:2020-09-17
# 化学蒸着法により成長したダイヤモンド薄膜中の単一陽子スピンの検出と制御

Detection and control of single proton spins in a thin layer of diamond grown by chemical vapor deposition ( http://arxiv.org/abs/2006.07761v2 )

ライセンス: Link先を確認
Kento Sasaki, Hideyuki Watanabe, Hitoshi Sumiya, Kohei M. Itoh, and Eisuke Abe(参考訳) ダイヤモンド中の窒素空孔(NV)中心の電子スピンを量子センサとして用いた単一陽子核スピンの検出とコヒーレント制御について報告する。 マルチパルスシーケンスを用いてnv-プロトン超微粒子パラメータを決定することに加えて、単一プロトンスピンを偏光・コヒーレントに回転させ、誘導された自由偏差を検出する。 自由誘導崩壊の観測は、高分解能陽子核磁気共鳴にとって重要な要素であり、本研究は原子スケールにまで拡張する。 また,NV中心と結合した量子記憶としてダイヤモンド中のプロトンを用いる機会を与える,化学気相成長中の陽子結合の起源についても論じる。

We report detection and coherent control of a single proton nuclear spin using an electronic spin of the nitrogen-vacancy (NV) center in diamond as a quantum sensor. In addition to determining the NV-proton hyperfine parameters by employing multipulse sequences, we polarize and coherently rotate the single proton spin, and detect an induced free precession. Observation of free induction decays is an essential ingredient for high resolution proton nuclear magnetic resonance, and the present work extends it to the atomic scale. We also discuss the origin of the proton as incorporation during chemical vapor deposition growth, which provides an opportunity to use protons in diamond as built-in quantum memories coupled with the NV center.
翻訳日:2023-05-14 19:10:01 公開日:2020-09-17
# 1次元の量子セルオートマトンと高次元のノーゴー定理からの量子場理論

Quantum field theory from a quantum cellular automaton in one spatial dimension and a no-go theorem in higher dimensions ( http://arxiv.org/abs/2006.08927v2 )

ライセンス: Link先を確認
Leonard Mlodinow and Todd A. Brun(参考訳) ある量子ウォークは、ディラック方程式やワイル方程式のような相対論的波動方程式を、その長波長の極限に導くことが示されている。 この興味深い結果は、類似するものが多粒子の場合で起こりうるかどうかという問題を提起する。 本研究では,1次元量子セルオートマトン(QCA)モデルを構築し,単一粒子の場合の量子ウォークと一致し,長波長限界における自由フェルミオンの量子場理論にアプローチする。 しかし、この構成群は任意の直接的な方法で高次元に一般化せず、2つ以上の空間次元において同様の性質を持つ構成は不可能であることを示す。 これはQCAに基づいて最も一般的なアプローチを除外する。 地域性を維持しながらこの障壁を克服する方法を提案する。

It has been shown that certain quantum walks give rise to relativistic wave equations, such as the Dirac and Weyl equations, in their long-wavelength limits. This intriguing result raises the question of whether something similar can happen in the multi-particle case. We construct a one-dimensional quantum cellular automaton (QCA) model which matches the quantum walk in the single particle case, and which approaches the quantum field theory of free fermions in the long-wavelength limit. However, we show that this class of constructions does not generalize to higher spatial dimensions in any straightforward way, and that no construction with similar properties is possible in two or more spatial dimensions. This rules out the most common approaches based on QCAs. We suggest possible methods to overcome this barrier while retaining locality.
翻訳日:2023-05-13 18:19:39 公開日:2020-09-17
# 射影横場イジングモデルにおける絡み合い遷移

Entanglement Transition in the Projective Transverse Field Ising Model ( http://arxiv.org/abs/2006.09748v2 )

ライセンス: Link先を確認
Nicolai Lang and Hans Peter B\"uchler(参考訳) ランダムユニタリゲートと射影計測の下でのシステムの離散的量子軌道は、密度行列にエンコードされない絡み合いスケーリングにおける遷移を特徴付けることが示されている。 本稿では,2つの非可換射影計測とユニタリダイナミクスを持たない確率モデルである射影横場イジングモデルについて検討する。 我々は,それらの競合が,領域法則の絡み合いを示す2つの異なる定常状態間の絡み合い遷移を誘導し,絡み合いダイナミクスを完全に捉える古典的だが非局所的モデルを導入することを数値的に示す。 1次元の臨界系は共形場理論によって記述され、絡み合うエントロピーの普遍的スケーリングと、2つのスピンの相互情報のスケーリングのための臨界指数が導かれる。 量子誤差補正の文脈における絡み合い遷移の解釈で結論づける。

Discrete quantum trajectories of systems under random unitary gates and projective measurements have been shown to feature transitions in the entanglement scaling that are not encoded in the density matrix. In this paper, we study the projective transverse field Ising model, a stochastic model with two noncommuting projective measurements and no unitary dynamics. We numerically demonstrate that their competition drives an entanglement transition between two distinct steady states that both exhibit area law entanglement, and introduce a classical but nonlocal model that captures the entanglement dynamics completely. Exploiting a map to bond percolation, we argue that the critical system in one dimension is described by a conformal field theory, and derive the universal scaling of the entanglement entropy and the critical exponent for the scaling of the mutual information of two spins exactly. We conclude with an interpretation of the entanglement transition in the context of quantum error correction.
翻訳日:2023-05-13 15:46:29 公開日:2020-09-17
# 量子ドットアレイにおける断熱通路によるスピンのコヒーレント輸送

Coherent transport of spin by adiabatic passage in quantum dot arrays ( http://arxiv.org/abs/2007.10582v2 )

ライセンス: Link先を確認
M. J. Gullans and J. R. Petta(参考訳) 本研究では,磁場勾配の存在下でのハイゼンベルク交換相互作用の時間依存変調に基づく大規模量子ドットアレイにおけるスピン状態の断熱伝達プロトコルを提案する。 このプロトコルは、量子ドットアレイにおける電荷状態転送のために開発された関連するプロトコルと類似して、spin-ctap (adiabatic passageによるコヒーレントトランスポート) と呼ばれる。 パルス不完全化に対するこの断熱プロトコルの不感性は、拡張スピン量子ビットアレイを読み出すのに潜在的に有利である。 静的交換相互作用が配列全体に変化すると、量子制御されたスピン-クタップバージョンが可能となり、転送プロセスは配列の中央のスピン状態に基づいて条件付けされる。 この条件演算は、Nビットの絡み合ったGHZ状態を生成するのに使うことができる。 現実的なノイズモデルを用いてスピンCTAP動作のロバスト性を解析し,高忠実度(>95%)スピン固有状態移動とGHZ状態生成が現在の装置で実現可能であることを示す。

We introduce an adiabatic transfer protocol for spin states in large quantum dot arrays that is based on time-dependent modulation of the Heisenberg exchange interaction in the presence of a magnetic field gradient. We refer to this protocol as spin-CTAP (coherent transport by adiabatic passage) in analogy to a related protocol developed for charge state transfer in quantum dot arrays. The insensitivity of this adiabatic protocol to pulse imperfections has potential advantages for reading out extended spin qubit arrays. When the static exchange interaction varies across the array, a quantum-controlled version of spin-CTAP is possible, where the transfer process is conditional on the spin states in the middle of the array. This conditional operation can be used to generate N-qubit entangled GHZ states. Using a realistic noise model, we analyze the robustness of the spin-CTAP operations and find that high-fidelity (>95%) spin eigenstate transfer and GHZ state preparation is feasible in current devices.
翻訳日:2023-05-08 21:06:28 公開日:2020-09-17
# 過去の仮説と物理法則の性質

The Past Hypothesis and the Nature of Physical Laws ( http://arxiv.org/abs/2008.00611v2 )

ライセンス: Link先を確認
Eddy Keming Chen(参考訳) 過去の仮説が時間の矢印の下にあるなら、過去の仮説の状況はどうでしょう? 本稿では,ボルツマン説における過去仮説の役割を考察し,過去仮説が自然の基本的な法則の候補であるとする見解を擁護する。 そのような見解は、法律に関するヒューミニズムと相容れないことが知られているが、私が思うに、最小の非ヒューミニズム的な「統治」見解からも支持されている。 いくつかの懸念は、境界条件としての過去の仮説の非力学的および時間依存的な性質、その仕様における固有の曖昧さ、および初期確率分布の性質から生じる。 これらの懸念はそれほど力を持っておらず、いずれにせよ、時間の矢を解析する新しい量子フレームワーク、ウェンタクルス(Wentaculus)にはあまり関係がない。 したがって、過去の仮説が基本法候補であるとする見解は、現在よりも広く受け入れられるべきである。

If the Past Hypothesis underlies the arrows of time, what is the status of the Past Hypothesis? In this paper, I examine the role of the Past Hypothesis in the Boltzmannian account and defend the view that the Past Hypothesis is a candidate fundamental law of nature. Such a view is known to be compatible with Humeanism about laws, but as I argue it is also supported by a minimal non-Humean "governing" view. Some worries arise from the non-dynamical and time-dependent character of the Past Hypothesis as a boundary condition, the intrinsic vagueness in its specification, and the nature of the initial probability distribution. I show that these worries do not have much force, and in any case they become less relevant in a new quantum framework for analyzing time's arrows -- the Wentaculus. Hence, the view that the Past Hypothesis is a candidate fundamental law should be more widely accepted than it is now.
翻訳日:2023-05-07 06:45:00 公開日:2020-09-17
# NISQデバイスの安定性評価

Characterizing the Stability of NISQ Devices ( http://arxiv.org/abs/2008.09612v3 )

ライセンス: Link先を確認
Samudra Dasgupta, Travis S. Humble(参考訳) 本研究では,NISQ装置の安定性の問題に焦点をあてる。 デバイス安定性プロファイルを定義するパラメータは、量子コンピューティングの物理実装の要件を議論するDiVincenzoの仕事によって動機付けられている。 我々は,DiVincenzo要件を定量化し,それらの重要な指標の安定性を研究するためのメトリクスと理論的枠組みを開発する。 評価の基盤はヒストグラムの類似性(時間と空間)である。 同じ実験では、再現可能なヒストグラムを時間内に生成する装置や、宇宙での同様のヒストグラムがより信頼性が高いと考えられている。 このような信頼性の懸念を頑健に調査するため,モーメントベース距離(MBD)尺度を提案する。 我々は,IBMのヨークタウンデバイスから収集したデータを用いて方法論を説明する。 空間安定性と時間安定性の2つの評価について考察した。

In this study, we focus on the question of stability of NISQ devices. The parameters that define the device stability profile are motivated by the work of DiVincenzo where the requirements for physical implementation of quantum computing are discussed. We develop the metrics and theoretical framework to quantify the DiVincenzo requirements and study the stability of those key metrics. The basis of our assessment is histogram similarity (in time and space). For identical experiments, devices which produce reproducible histograms in time, and similar histograms in space, are considered more reliable. To investigate such reliability concerns robustly, we propose a moment-based distance (MBD) metric. We illustrate our methodology using data collected from IBM's Yorktown device. Two types of assessments are discussed: spatial stability and temporal stability.
翻訳日:2023-05-05 07:48:55 公開日:2020-09-17
# 量子根平均二乗誤差の完全性の中性子光学的テスト

Neutron optical test of completeness of quantum root-mean-square errors ( http://arxiv.org/abs/2009.06418v2 )

ライセンス: Link先を確認
Stephan Sponar and Armin Danner and Masanao Ozawa and Yuji Hasegawa(参考訳) 量子物理学における大きな問題の1つは、古典的なルート平均二乗誤差を量子測定に一般化し、(正確な測定のために消える)音響性と完全性(正確な測定のために消える)の両方を満たす誤差の測定値を得ることである。 ノイズ演算に基づく誤差測定は、この目的のために一般的に用いられているが、不完全であることが判明した。 近年,音と完全を両立するノイズ演算型誤差尺度の新たな定義が提案されている。 ここでは、新しい誤差測定の完全性を示す中性子光学的実演と、一般化された(または非シャープ)測定の両方について述べる。

One of the major problems in quantum physics has been to generalize the classical root-mean-square error to quantum measurements to obtain an error measure satisfying both soundness (to vanish for any accurate measurements) and completeness (to vanish only for accurate measurements). A noise-operator based error measure has been commonly used for this purpose, but it has turned out incomplete. Recently, Ozawa proposed a new definition for a noise-operator based error measure to be both sound and complete. Here, we present a neutron optical demonstration for the completeness of the new error measure for both projective (or sharp) as well as generalized (or unsharp) measurements.
翻訳日:2023-05-02 06:35:30 公開日:2020-09-17
# Si/SiGe交換系における準極性$^{73}$Geの磁束ゆらぎ

Magnetic Gradient Fluctuations from Quadrupolar $^{73}$Ge in Si/SiGe Exchange-Only Qubits ( http://arxiv.org/abs/2009.08079v1 )

ライセンス: Link先を確認
J. Kerckhoff, B. Sun, B. H. Fong, C. Jones, A. A. Kiselev, D. W. Barnes, R. S. Noah, E. Acuna, M. Akmal, S. D. Ha, J. A. Wright, B. J. Thomas, C. A. C. Jackson, L. F. Edge, K. Eng, R. S. Ross, and T. D. Ladd(参考訳) 交換エコーノイズスペクトルを用いたSi/SiGe量子ドット対の時間ゆらぎ磁気勾配ノイズ機構について検討した。 我々は、スペクトル反転と理論モデルへの対応の組み合わせにより、$^{73}$Ge核の四極偏極はスピン-エチョ崩壊時間$T_2$において重要な役割を担っており、磁場とSi量子井戸の幅に特徴的な依存性がある。 $^{73}$Geのノイズピークは、$^{73}$Geのラーモア共鳴の基本と最初の調和に現れ、$^{29}$Siの双極子双極子ダイナミクスにより1/f$のノイズに重なり、材料エピタキシーと応用磁場に依存する。 これらの結果は,Si/SiGe量子ドットを量子情報処理装置の量子ビットとして使用する際の動的疎結合の必要性を示唆する。

We study the time-fluctuating magnetic gradient noise mechanisms in pairs of Si/SiGe quantum dots using exchange echo noise spectroscopy. We find through a combination of spectral inversion and correspondence to theoretical modeling that quadrupolar precession of the $^{73}$Ge nuclei play a key role in the spin-echo decay time $T_2$, with a characteristic dependence on magnetic field and the width of the Si quantum well. The $^{73}$Ge noise peaks appear at the fundamental and first harmonic of the $^{73}$Ge Larmor resonance, superimposed over $1/f$ noise due to $^{29}$Si dipole-dipole dynamics, and are dependent on material epitaxy and applied magnetic field. These results may inform the needs of dynamical decoupling when using Si/SiGe quantum dots as qubits in quantum information processing devices.
翻訳日:2023-05-02 00:25:18 公開日:2020-09-17
# アクティブ相関型マッハツェンダー干渉計による非線形位相推定

Nonlinear phase estimation enhanced by an actively correlated Mach-Zehnder interferometer ( http://arxiv.org/abs/2009.08059v1 )

ライセンス: Link先を確認
Gao-Feng Jiao, Keye Zhang, L. Q. Chen, Weiping Zhang, and Chun-Hua Yuan(参考訳) 非線形位相シフトをマッハツェンダー干渉計 (mzi) に導入し, 位相感度を向上させる手法を提案する。 本方式では、標準mziの1つの入力ポートにコヒーレント状態が注入され、もう1つの入力ポートに2モード圧縮真空状態の1つのモードが注入される。 MZIの最終干渉出力は、アクティブ相関出力読み出し方法により検出される。 ビームスプリッターの最適分割比に基づいて、位相感度は標準の量子限界を上回り、量子クラム\'{e}r-rao境界に近づくことができる。 位相感度に及ぼす光子損失の影響を考察した。 我々のスキームは、非線形位相シフトとケーラー媒質の感受性$\chi^{(3)}$の関係から、$\chi^{(3)}$の単位に対するいくつかの見積もりを与えることもできる。

A nonlinear phase shift is introduced to a Mach-Zehnder interferometer (MZI), and we present a scheme for enhancing the phase sensitivity. In our scheme, one input port of a standard MZI is injected with a coherent state and the other input port is injected with one mode of a two-mode squeezed-vacuum state. The final interference output of the MZI is detected with the method of active correlation output readout. Based on the optimal splitting ratio of beam splitters, the phase sensitivity can beat the standard quantum limit and approach the quantum Cram\'{e}r-Rao bound. The effects of photon loss on phase sensitivity are discussed. Our scheme can also provide some estimates for units of $\chi^{(3)}$, due to the relation between the nonlinear phase shift and the susceptibility $\chi^{(3)}$ of the Kerr medium.
翻訳日:2023-05-02 00:24:59 公開日:2020-09-17
# スクイーズ測定における時空間効果

Spatiotemproal effects on squeezing measurements ( http://arxiv.org/abs/2009.08244v1 )

ライセンス: Link先を確認
Filippus S. Roux(参考訳) パラメトリックダウンコンバージョンにより生成する圧縮されたフォトニック状態の調製と観察における時空間自由度の役割について検討した。 この解析は半古典近似と薄結晶近似の関数的アプローチの助けを借りて行われる。 圧縮状態は, スクイーズ量を決定するホモダイン測定の条件に依存する方法で, ダウンコンバージョン効率が向上するにつれて, 最小不確実性を失うことが判明した。

The role of the spatiotemporal degrees of freedom in the preparation and observation of squeezed photonic states, produced by parametric down-conversion, is investigated. The analysis is done with the aid of a functional approach under the semi-classical approximation and the thin-crystal approximation. It is found that the squeezed state loses its minimum uncertainty property as the efficiency of down-conversion is increased, in a way that depends on the conditions of the homodyne measurements with which the amount of squeezing is determined.
翻訳日:2023-05-02 00:20:27 公開日:2020-09-17
# 四元量子力学における正方ウェルポテンシャル

Square-well potential in quaternic quantum mechanics ( http://arxiv.org/abs/2009.08237v1 )

ライセンス: Link先を確認
Sergio Giardino(参考訳) 1次元の無限平方井戸は量子力学の最も単純な解であり、したがって最も重要な解の1つである。 本稿では、四元量子力学(英語版)(\mathbbm{H}$QM)に対する実ヒルベルト空間アプローチを用いてこの解を提供する。 さらに, 1次元有限要素と非退化複素解から四元数解を生成する方法も提供する。

The one-dimensional infinite square well is the simplest solution of quantum mechanics, and consequently one of the most important. In this article, we provide this solution using the real Hilbert space approach to quaternic quantum mechanics ($\mathbbm{H}$QM). We further provide the one-dimensional finite as well and a method to generate quaternic solutions from non-degenerate complex solutions.
翻訳日:2023-05-02 00:20:18 公開日:2020-09-17
# 周波数差が小さいクロマティック干渉計

Chromatic interferometry with small frequency differences ( http://arxiv.org/abs/2009.08217v1 )

ライセンス: Link先を確認
Luo-Yuan Qu, Lu-Chuan Liu, Jordan Cotler, Fei Ma, Jian-Yu Guan, Ming-Yang Zheng, Quan Yao, Xiu-Ping Xie, Yu-Ao Chen, Qiang Zhang, Frank Wilczek, Jian-Wei Pan(参考訳) PPLN結晶の通過帯域である400nmから4500nmの範囲外に周波数差が生じる光光子を含むように、色消去のための「二結晶」法を開発することで、色干渉法の範囲を広げることができる。 実験では、約200ghzの周波数差に対応する1064.4nmと1063.6nmのソース間の干渉パターンを観測することにより、この可能性を実証する。

By developing a `two-crystal' method for color erasure, we can broaden the scope of chromatic interferometry to include optical photons whose frequency difference falls outside of the 400 nm to 4500 nm wavelength range, which is the passband of a PPLN crystal. We demonstrate this possibility experimentally, by observing interference patterns between sources at 1064.4 nm and 1063.6 nm, corresponding to a frequency difference of about 200 GHz.
翻訳日:2023-05-02 00:20:10 公開日:2020-09-17
# Fabry-P\'{e} マイクロキャビティに結合したコヒーレント窒素空洞の共鳴励起とパーセル増強

Resonant Excitation and Purcell Enhancement of Coherent Nitrogen-Vacancy Centers Coupled to a Fabry-P\'{e}rot Micro-Cavity ( http://arxiv.org/abs/2009.08204v1 )

ライセンス: Link先を確認
Maximilian Ruf, Matthew J. Weaver, Suzanne B. van Dam, Ronald Hanson(参考訳) ダイヤモンドの窒素空洞(nv)中心は量子ネットワークの素構築ブロックとして確立されている。 しかし、いくつかのネットワークノードを超えるスケーリングは現在、nvセンターがコヒーレント光子放出と収集の確率が低いため、スピン光子絡み速度が低く制限されている。 キャビティへの統合はパーセル効果を通じて両方の値を高めることができるが、表面近傍のNV中心の光学コヒーレンスが悪いため、エンタングルメント生成に必要な共振光制御が妨げられている。 ここでは、この課題を克服し、個々のファイバーキャビティ結合NV中心の共鳴アドレスと、Purcell-enhanent photon放射の収集を実証する。 外部共振器および共振器アドレッシングプロトコルを用いることで,Purcellの最大4因子を詳細な理論的モデルに従って抽出する。 このモデルは、光励起によるコヒーレント光子検出の確率を、現実的なパラメーターに対して10%に向上させることができると予測する。 閉サイクル低温系における単一コヒーレント量子エミッタのための改良された光インタフェースの共振操作は、長いコヒーレンスを持つ広範囲な量子ネットワークにとって重要な結果である。

The nitrogen-vacancy (NV) center in diamond has been established as a prime building block for quantum networks. However, scaling beyond a few network nodes is currently limited by low spin-photon entanglement rates, resulting from the NV center's low probability of coherent photon emission and collection. Integration into a cavity can boost both values via the Purcell effect, but poor optical coherence of near-surface NV centers has so far prevented their resonant optical control, as would be required for entanglement generation. Here, we overcome this challenge, and demonstrate resonant addressing of individual, fiber-cavity-coupled NV centers, and collection of their Purcell-enhanced coherent photon emission. Utilizing off-resonant and resonant addressing protocols, we extract Purcell factors of up to 4, consistent with a detailed theoretical model. This model predicts that the probability of coherent photon detection per optical excitation can be increased to 10% for realistic parameters - an improvement over state-of-the art solid immersion lens collection systems by two orders of magnitude. The resonant operation of an improved optical interface for single coherent quantum emitters in a closed-cycle cryogenic system at T $\sim$ 4 K is an important result towards extensive quantum networks with long coherence.
翻訳日:2023-05-02 00:19:34 公開日:2020-09-17
# 開量子系における輸送のための密度行列再正規化群アプローチの解析

Analysis of a density matrix renormalization group approach for transport in open quantum systems ( http://arxiv.org/abs/2009.08200v1 )

ライセンス: Link先を確認
Heitor P. Casagrande, Dario Poletti, Gabriel T. Landi(参考訳) 複数の貯水池に結合した1次元量子系の複雑な性質を理解することは、解析的アプローチとシミュレーション技術の両方に挑戦する。 幸いなことに、閉じたシステムの研究で広く使われている密度行列再正規化グループベースのツールも、最近オープンシステムの処理に拡張されている。 本稿では,MPS(State-of-the-art matrix product state)とテンソルネットワーク(tensor network method)に基づいて,パラメータの組み合わせの正確な結果を生成する手法を提案する。 定常状態に到達するために時間進化を利用するほとんどのアプローチとは異なり、我々は時間に依存しないアルゴリズムに焦点を当て、PhysのM.C. Ba\~nulsらによって最初に提案された標準密度行列正規化群(DMRG)アルゴリズムと全く同じ言語で問題を再キャストすることに焦点をあてる。 Rev. Lett. 114, 220601 (2015). したがって、利用可能なDMRGプラットフォームのいずれかに簡単にエクスポートできる。 この実装は1次元系の熱輸送の研究に適していることを示す。 ケーススタディでは、XXZ量子スピンチェーンに着目し、スピン電流と磁化プロファイルと分析結果を比較して結果をベンチマークする。 そして、分析的に計算できるものを超えて探索する。 私たちのコードは、githubのhttps://www.github.com/heitorc7/odmrgで無料で利用できます。

Understanding the intricate properties of one-dimensional quantum systems coupled to multiple reservoirs poses a challenge to both analytical approaches and simulation techniques. Fortunately, density matrix renormalization group-based tools, which have been widely used in the study of closed systems, have also been recently extended to the treatment of open systems. We present an implementation of such method based on state-of-the-art matrix product state (MPS) and tensor network methods, that produces accurate results for a variety of combinations of parameters. Unlike most approaches, which use the time-evolution to reach the steady-state, we focus on an algorithm that is time-independent and focuses on recasting the problem in exactly the same language as the standard Density Matrix Renormalization Group (DMRG) algorithm, initially put forward by M. C. Ba\~nuls et al. in Phys. Rev. Lett. 114, 220601 (2015). Hence, it can be readily exported to any of the available DMRG platforms. We show that this implementation is suited for studying thermal transport in one-dimensional systems. As a case study, we focus on the XXZ quantum spin chain and benchmark our results by comparing the spin current and magnetization profiles with analytical results. We then explore beyond what can be computed analytically. Our code is freely available on github at https://www.github.com/heitorc7/oDMRG.
翻訳日:2023-05-02 00:19:11 公開日:2020-09-17
# 建築用電力消費データセット:調査,分類,今後の方向性

Building power consumption datasets: Survey, taxonomy and future directions ( http://arxiv.org/abs/2009.08192v1 )

ライセンス: Link先を確認
Yassine Himeur and Abdullah Alsalemi and Faycal Bensaali and Abbes Amira(参考訳) 過去10年間、エネルギー効率にさらなる努力が注ぎ込まれてきた。 その後、いくつかのエネルギー消費データセットが公開され、各データセットは特性、用途、制限によって異なる。 例えば、エネルギー消費パターンの構築は、環境条件、ユーザ占有率、天候条件、消費者の嗜好など、いくつかのソースから発生している。 したがって、利用可能なデータセットの適切な理解は、エネルギー効率を改善するための強力な基盤となる。 既存のデータベースの包括的レビューの必要性から,建築エネルギー消費データセットの数値的,方法論的性質を調査,研究し,可視化するために提案する。 地理的な位置,収集期間,監視対象世帯数,収集データのサンプリング率,サブメータ家電数,抽出特徴量,リリース日など,合計31のデータベースを調査・比較した。 さらに、異なるデータセットで使用されるデータ転送、データストレージ、およびプライバシの懸念のためのデータ収集プラットフォームおよび関連モジュールも分析・比較する。 分析研究に基づいて、新たなデータセット、すなわち、注釈付き消費電力異常検出データセットであるカタール大学データセットが提示された。 後者は異常検出アルゴリズムのテストと訓練に非常に有用であり、したがって無駄なエネルギーを削減できる。 将来的には、マルチモーダルデータ収集、スマートiotデータ収集、低価格ハードウェアプラットフォーム、プライバシとセキュリティメカニズムの採用など、データセットの収集を改善するために一連のレコメンデーションが導かれている。 さらに、新たな機械学習ソリューション、革新的な視覚化ツール、説明可能なレコメンデーションシステムなど、データセットの活用と利用を改善するための今後の方向を特定する。

In the last decade, extended efforts have been poured into energy efficiency. Several energy consumption datasets were henceforth published, with each dataset varying in properties, uses and limitations. For instance, building energy consumption patterns are sourced from several sources, including ambient conditions, user occupancy, weather conditions and consumer preferences. Thus, a proper understanding of the available datasets will result in a strong basis for improving energy efficiency. Starting from the necessity of a comprehensive review of existing databases, this work is proposed to survey, study and visualize the numerical and methodological nature of building energy consumption datasets. A total of thirty-one databases are examined and compared in terms of several features, such as the geographical location, period of collection, number of monitored households, sampling rate of collected data, number of sub-metered appliances, extracted features and release date. Furthermore, data collection platforms and related modules for data transmission, data storage and privacy concerns used in different datasets are also analyzed and compared. Based on the analytical study, a novel dataset has been presented, namely Qatar university dataset, which is an annotated power consumption anomaly detection dataset. The latter will be very useful for testing and training anomaly detection algorithms, and hence reducing wasted energy. Moving forward, a set of recommendations is derived to improve datasets collection, such as the adoption of multi-modal data collection, smart Internet of things data collection, low-cost hardware platforms and privacy and security mechanisms. In addition, future directions to improve datasets exploitation and utilization are identified, including the use of novel machine learning solutions, innovative visualization tools and explainable recommender systems.
翻訳日:2023-05-02 00:18:39 公開日:2020-09-17
# 量子ゲートにおける小さな誤差の摂動トモグラフィー

Perturbative tomography of small errors in quantum gates ( http://arxiv.org/abs/2009.08189v1 )

ライセンス: Link先を確認
Ruyu Yang and Ying Li(参考訳) 我々は,高忠実度量子ゲートの集合を完全に再構成する効率的なプロトコルを提案する。 通常、高忠実度量子ゲートの再構成効率はサンプリングノイズによって制限される。 我々のプロトコルは摂動的アプローチに基づいており、2つの段階がある。 第1段階では、ノイズ量子ゲートの初期部分は地図のトレースを測定することで再構成され、ノイズをランダム化ベンチマークや量子スペクトルトモグラフィに似た方法で増幅することで、トレースを測定することができる。 第2段階では、単位部を用いて非単位部を増幅することにより、非単位部を効率的に再構築することができる。 提案プロトコルで必要とされる測定回数は,ゲートの誤差率と対数的にスケールすることを示す。

We propose an efficient protocol to fully reconstruct a set of high-fidelity quantum gates. Usually, the efficiency of reconstructing high-fidelity quantum gates is limited by the sampling noise. Our protocol is based on a perturbative approach and has two stages. In the first stage, the initial part of noisy quantum gates is reconstructed by measuring traces of maps, and the trace can be measured by amplifying the noise in a way similar to randomised benchmarking and quantum spectral tomography. In the second stage, by amplifying the non-unital part using the unital part, we can efficiently reconstruct the non-unital part. We show that the number of measurements needed in our protocol scales logarithmically with the error rate of gates.
翻訳日:2023-05-02 00:18:11 公開日:2020-09-17
# マルチコア量子コンピュータのためのダブルフルスタック通信対応アーキテクチャの検討

Exploring a Double Full-Stack Communications-Enabled Architecture for Multi-Core Quantum Computers ( http://arxiv.org/abs/2009.08186v1 )

ライセンス: Link先を確認
Santiago Rodrigo (1), Sergi Abadal (1), Eduard Alarc\'on (1) and Carmen G. Almudever (2) ((1) NaNoNetworking Center in Catalonia - Universitat Polit\`ecnica de Catalunya, (2) QuTech - Delft University of Technology)(参考訳) 非常に有望な技術であり、近年の目覚ましい進歩により、最も強力なアプリケーションの要求を満たすために量子コンピューティングがどのようにスケールするかはまだ不明だ。 量子ビットの製造と制御の継続的な進歩が必要であるが、量子コンピューティングのスケーラビリティは、従来のモノリシックバージョンの代替としてマルチコアアプローチを考慮した包括的なアーキテクチャ設計にも依存する。 しかし、これは単なる相互接続の導入にとどまらない。 むしろそれは、量子コンピュータアーキテクチャにおける完全な通信スタックの統合を意味する。 本稿では、量子計算と量子通信を包含する二重スタックアーキテクチャを提案し、構造化設計手法を用いて、モノリシックとマルチコアの問題に対処する。 そのため、オープンデザイン変数とパフォーマンスメトリクスを強調して、異なる量子コンピューティング層を再検討し、それらの本質を捉えてモデル化します。 動作モデルと既存の量子コンピュータからの実際の測定結果を用いて、マルチコアアーキテクチャが量子コンピュータのポテンシャルを効果的に解き放つ可能性を示唆する。

Being a very promising technology, with impressive advances in the recent years, it is still unclear how quantum computing will scale to satisfy the requirements of its most powerful applications. Although continued progress in the fabrication and control of qubits is required, quantum computing scalability will depend as well on a comprehensive architectural design considering a multi-core approach as an alternative to the traditional monolithic version, hence including a communications perspective. However, this goes beyond introducing mere interconnects. Rather, it implies consolidating the full communications stack in the quantum computer architecture. In this paper, we propose a double full-stack architecture encompassing quantum computation and quantum communications, which we use to address the monolithic versus multi-core question with a structured design methodology. For that, we revisit the different quantum computing layers to capture and model their essence by highlighting the open design variables and performance metrics. Using behavioral models and actual measurements from existing quantum computers, the results of simulations suggest that multi-core architectures may effectively unleash the full quantum computer potential.
翻訳日:2023-05-02 00:18:01 公開日:2020-09-17
# 凸ガウス資源理論における資源蒸留

Resource distillation in convex Gaussian resource theories ( http://arxiv.org/abs/2009.08434v1 )

ライセンス: Link先を確認
Hyejung H. Jee, Carlo Sparaciari, and Mario Berta(参考訳) 連続変数資源理論における蒸留はガウス状態や演算に制限された場合不可能であることが知られている。 この制限を克服するために、ガウス状態と演算の凸混合を含むように理論を拡大する。 この拡張は、古典的ランダム性が容易にアクセスできるため、運用上のモチベーションが高い。 凸ガウスの資源理論では資源蒸留が可能となるが, 限定的な方法である。 この限界をガウスの資源測度の凸屋根拡張の研究によって導出し、次にスクイーズと絡み合いの蒸留の例として、我々の境界がタイトであることを示す。

It is known that distillation in continuous variable resource theories is impossible when restricted to Gaussian states and operations. To overcome this limitation, we enlarge the theories to include convex mixtures of Gaussian states and operations. This extension is operationally well-motivated since classical randomness is easily accessible. We find that resource distillation becomes possible for convex Gaussian resource theories-albeit in a limited fashion. We derive this limitation by studying the convex roof extension of a Gaussian resource measure and then go on to show that our bound is tight by means of example protocols for the distillation of squeezing and entanglement.
翻訳日:2023-05-02 00:11:21 公開日:2020-09-17
# 模擬分岐を用いた最適軌道問題の解法

Solving the Optimal Trading Trajectory Problem Using Simulated Bifurcation ( http://arxiv.org/abs/2009.08412v1 )

ライセンス: Link先を確認
Kyle Steinhauer, Takahisa Fukadai, Sho Yoshida(参考訳) シミュレーション分岐(sb)に基づく最適化手法を用いて,前例のない計算速度で整数ポートフォリオとトレーディング軌道問題を解く。 基礎となるアルゴリズムは、非線形相互作用振動子のネットワークの量子断熱進化の古典的な記述に基づいている。 この定式化は、他のNPハード問題に対して既に最先端の計算時間を達成しており、特定のポートフォリオ最適化問題に対して同様の性能を示すことが期待されている。 このような着想を得て、量制約と取引活動を伴うポートフォリオ整数最適化問題にSBアプローチを適用する。 ポートフォリオおよびトレーディングトラジェクトリ最適化器として,SBアルゴリズムのパワーをすでに確認している最大1000のポートフォリオに対して,最初の数値結果を示す。

We use an optimization procedure based on simulated bifurcation (SB) to solve the integer portfolio and trading trajectory problem with an unprecedented computational speed. The underlying algorithm is based on a classical description of quantum adiabatic evolutions of a network of non-linearly interacting oscillators. This formulation has already proven to beat state of the art computation times for other NP-hard problems and is expected to show similar performance for certain portfolio optimization problems. Inspired by such we apply the SB approach to the portfolio integer optimization problem with quantity constraints and trading activities. We show first numerical results for portfolios of up to 1000 assets, which already confirm the power of the SB algorithm for its novel use-case as a portfolio and trading trajectory optimizer.
翻訳日:2023-05-02 00:11:10 公開日:2020-09-17
# 一次元ガンマ模型におけるリフシッツ相転移

Lifshitz phase transitions in one-dimensional Gamma model ( http://arxiv.org/abs/2009.08379v1 )

ライセンス: Link先を確認
Zi-An Liu, Tian-Cheng Yi, Jin-Hua Sun, Yu-Li Dong, and Wen-Long You(参考訳) 本稿では,一次元スピン1/2ガンマ模型の量子相転移と磁気特性について検討し,ソートゥース鎖に沿った強いスピン軌道結合を持つエッジ共有オクタヘドラとの対角相互作用を記述する。 近接する隣人と2番目の隣人の間の競合する交換相互作用は、スピンレスフェルミオンを用いて半金属基底状態を安定化し、3つのギャップのない位相からなるリッチな位相図を生成する。 異なる位相は運動量空間におけるワイルノードの数によって特徴づけられ、対称性の破れのないフェルミ曲面の位相の変化は、ワイルノードがタイプ I からタイプ II への交換として$k=\pi$ となるような様々なリフシッツ遷移を生み出す。 第II相では、タイプIとタイプIIのワイルノードが共存している。 コンカレンス、絡み合いエントロピー、相対エントロピーなどの情報手段は、2階遷移を効果的に信号する。 結果は、ガンマモデルが相関電子系のリフシッツ相転移を記述するための、正確に解けるモデルとして機能することを示唆している。

In this paper, we study quantum phase transitions and magnetic properties of a one-dimensional spin-1/2 Gamma model, which describes the off-diagonal exchange interactions between edge-shared octahedra with strong spin-orbit couplings along the sawtooth chain. The competing exchange interactions between the nearest neighbors and the second neighbors stabilize semimetallic ground state in terms of spinless fermions, and give rise to a rich phase diagram, which consists of three gapless phases. We find distinct phases are characterized by the number of Weyl nodes in the momentum space, and such changes in the topology of the Fermi surface without symmetry breaking produce a variety of Lifshitz transitions, in which the Weyl nodes situating at $k=\pi$ interchange from type I to type II. A coexistence of type-I and type-II Weyl nodes is found in phase II. The information measures including concurrence, entanglement entropy and relative entropy can effectively signal the second-order transitions. The results indicate that the Gamma model can act as an exactly solvable model to describe Lifshitz phase transitions in correlated electron systems.
翻訳日:2023-05-02 00:10:27 公開日:2020-09-17
# シリコンフォトニックチップにおけるエラー保護量子ビット

Error protected qubits in a silicon photonic chip ( http://arxiv.org/abs/2009.08339v1 )

ライセンス: Link先を確認
Caterina Vigliar, Stefano Paesani, Yunhong Ding, Jeremy C. Adcock, Jianwei Wang, Sam Morley-Short, Davide Bacco, Leif K. Oxenl{\o}we, Mark G. Thompson, John G. Rarity, Anthony Laing(参考訳) 汎用量子コンピュータは、原則として、ノイズの多い物理キュービットを絡めて、エラーから保護された複合量子ビットを実現することができる。 測定ベースの量子コンピューティングのアーキテクチャは本質的にエラー保護量子ビットをサポートし、全フォトニック量子コンピュータを構築する上で最も有効なアプローチである。 本稿では,複数の光子を絡み合い,個々の光子に複数の物理キュービットを符号化し,誤りを保護した量子ビットを生成するシリコンフォトニックアーキテクチャを提案する。 再構成可能なグラフ状態は、誤り訂正エンコーディングを伴わずに複数のスキームを比較し、様々な量子情報処理タスクを実装している。 位相推定アルゴリズムを動作させる場合, それぞれ62.5%から95.8%に増加し, 誤差保護を伴わない。 最後に、相関エラーに対する保護を提供するリソース状態の一般化されたクラスであるハイパーグラフ状態を実現する。 本研究は,量子アルゴリズムの性能向上のために,資源効率の高いフォトニックアーキテクチャを用いて量子誤り訂正符号化を実現する方法を示す。

General purpose quantum computers can, in principle, entangle a number of noisy physical qubits to realise composite qubits protected against errors. Architectures for measurement-based quantum computing intrinsically support error-protected qubits and are the most viable approach for constructing an all-photonic quantum computer. Here we propose and demonstrate an integrated silicon photonic architecture that both entangles multiple photons, and encodes multiple physical qubits on individual photons, to produce error-protected qubits. We realise reconfigurable graph states to compare several schemes with and without error-correction encodings and implement a range of quantum information processing tasks. We observe a success rate increase from 62.5% to 95.8% when running a phase estimation algorithm without and with error protection, respectively. Finally, we realise hypergraph states, which are a generalised class of resource states that offer protection against correlated errors. Our results show how quantum error-correction encodings can be implemented with resource-efficient photonic architectures to improve the performance of quantum algorithms.
翻訳日:2023-05-02 00:09:56 公開日:2020-09-17
# 光子数分解能用超伝導ナノワイヤ単光子検出器を用いた時空間アレイ

Temporal array with superconducting nanowire single-photon detectors for photon-number-resolution ( http://arxiv.org/abs/2009.08334v1 )

ライセンス: Link先を確認
Mattias J\"onsson, Marcin Swillo, Samuel Gyger, Val Zwiller, Gunnar Bj\"ork(参考訳) 本稿では、入力信号を複数のタイムビンに分割する多重化シングル光子検出器である16素子の時間アレイ(pnr)検出器を実験的に実現し、2つの超伝導ナノワイヤシングル光子検出器(snspd)を用いて時間ビンを検出する。 検出器のPNR能力に関する理論的研究を行い, 単一光子検出器と比較して, アレイ検出器は測定する入力パルス数と同じ数で1桁高い平均光子数を解くことができると結論した。 この主張は実験的に検証され、検出器は10^{-3}$から10^{2}$までの光子数を正確に予測できることを示す。 現在の検出器は、有効量子効率が4,9\,\%$であるので、高精度で単発光子数測定ができない。 量子効率の高いsnspdを使用することでpnrの性能は向上するが、光子数の解像度は配列サイズによって制限される。

We present an experimental realization of a 16 element, temporal-array, photon-number-resolving (PNR) detector, which is a multiplexed single-photon detector that splits an input signal over multiple time-bins, and the time-bins are detected using two superconducting nanowire single-photon detectors (SNSPD). A theoretical investigation of the PNR capabilities of the detector is performed and it is concluded that compared to a single-photon detector, our array detector can resolve one order of magnitude higher mean photon numbers, given the same number of input pulses to measure. This claim is experimentally verified and we show that the detector can accurately predict photon numbers between $10^{-3}$ to $10^{2}$. Our present detector is incapable of single-shot photon-number measurements with high precision since its effective quantum efficiency is $49\,\%$. Using SNSPDs with a higher quantum efficiency the PNR performance will improve, but the photon-number resolution will still be limited by the array size.
翻訳日:2023-05-02 00:09:37 公開日:2020-09-17
# ファジィ近傍保存分析に基づく家庭内家電識別の改善

Improving in-home appliance identification using fuzzy-neighbors-preserving analysis based QR-decomposition ( http://arxiv.org/abs/2009.08282v1 )

ライセンス: Link先を確認
Yassine Himeur, Abdullah Alsalemi, Faycal Bensaali, Abbes Amira(参考訳) 本稿では,様々な機器のフットプリントを著しく区別できる,高度に識別可能な特徴集合を抽出するための新しい手法を提案する。 この文脈では、ファジィ近傍保存分析に基づくQR分解(FNPA-QR)に基づく高精度で強力な特性投影法が、抽出されたエネルギー消費時間領域の特徴に適用される。 FNPA-QRは、クラスの特徴間の距離を減らし、異なるカテゴリの特徴間のギャップを増やすことを目的としている。 次に、分類精度をさらに向上するために、新しいバッジ決定木(BDT)分類器を設計する。 提案手法は,低周波と高周波の両方で収集される3つの家電エネルギー消費データセット上で検証される。 その結果, 時間領域ベースのFNPA-QRとBDTの優れた分類率を指摘した。

This paper proposes a new appliance identification scheme by introducing a novel approach for extracting highly discriminative characteristic sets that can considerably distinguish between various appliance footprints. In this context, a precise and powerful characteristic projection technique depending on fuzzy-neighbors-preserving analysis based QR-decomposition (FNPA-QR) is applied on the extracted energy consumption time-domain features. The FNPA-QR aims to diminish the distance among the between class features and increase the gap among features of dissimilar categories. Following, a novel bagging decision tree (BDT) classifier is also designed to further improve the classification accuracy. The proposed technique is then validated on three appliance energy consumption datasets, which are collected at both low and high frequency. The practical results obtained point out the outstanding classification rate of the time-domain based FNPA-QR and BDT.
翻訳日:2023-05-02 00:09:02 公開日:2020-09-17
# クーロンポテンシャルを持つディラック方程式の一般解法

General solution of the Dirac equation with the Coulomb potential ( http://arxiv.org/abs/2009.09838v1 )

ライセンス: Link先を確認
A. A. Eremko, L. Brizhik, and V. M. Loktev(参考訳) クーロンポテンシャルを持つディラック方程式を研究した。 既知のディラックやジョンソン・リップマンに加えて、新しい不変量が存在することが示されている。 一般化不変量を用いたディラック方程式の解と、不変量の3つの集合に対応するビスピノルの明示的な表現、それらの固有値と量子数を求める。 ディラック方程式のクーロンポテンシャルによる一般解は自由パラメータを含み、その変動は1つの特定の解を他の任意のものに変換し、空間電子確率振幅とスピン偏光を制御する。 電子確率密度とスピン分極は一般の形で得られ、水素様エネルギースペクトルのいくつかの電子状態に対して明示的に計算される。 これらの特徴の空間分布は本質的に不変集合に依存し、異なる不変量に対応する状態の物理的差を示す。

The Dirac equation with the Coulomb potential is studied. It is shown that there exists a new invariant in addition to the known Dirac and Johnson-Lippman ones. The solution of the Dirac equation, using the generalized invariant, and explicit expressions for the bispinors corresponding to the three sets of the invariants, their eigenvalues and quantum numbers are obtained. The general solution of the Dirac equation with the Coulomb potential is shown to contain free parameters, whose variation transforms one particular solution into any other and controls spatial electron probability amplitude and spin polarization. The electron probability densities and spin polarizations are obtained in the general form and calculated explicitly for some electron states in the hydrogen-like energy spectrum. The spatial distributions of these characteristics are shown to depend essentially on the invariant set, demonstrating physical difference of the states corresponding to different invariants.
翻訳日:2023-05-02 00:01:07 公開日:2020-09-17
# 脳卒中患者に対するクラウドベースのモバイルアプリケーションの詳細レビュー

Detailed Review of Cloud based Mobile application for the stroke patient ( http://arxiv.org/abs/2009.09837v1 )

ライセンス: Link先を確認
Balagopal Ramdurai(参考訳) 近年、ほぼすべての領域における技術の発展により、生活水準が改善されている。 最新のイノベーション、特に医療領域における高度な機械と機器の出現は、対角化プロセスを広範囲に単純化した。

In the current years, due to the significant developments in technologies in almost every domain, the standard of living has been improved. Emergence of latest innovations, advanced machinery and equipment especially in the healthcare domain, have simplified the diagonalizing process to a wide extent.
翻訳日:2023-05-02 00:00:51 公開日:2020-09-17
# ビデオ分析アプリケーションをオーケストレーションする分散フレームワーク

A Distributed Framework to Orchestrate Video Analytics Applications ( http://arxiv.org/abs/2009.09065v1 )

ライセンス: Link先を確認
Tapan Pathak and Vatsal Patel and Sarth Kanani and Shailesh Arya and Pankesh Patel and Muhammad Intizar Ali and John Breslin(参考訳) IoT(Internet of Things)の概念は現在現実になっている。 このパラダイムシフトは、スマートドアベルを使用したIoTベースのビデオ分析など、多くのアプリケーションで注目を集めている。 応用セグメントの増大により、科学文献に様々な取り組みがあり、多くのビデオベースのドアベルソリューションが市販されている。 しかし、現代の製品は目覚ましいもので、スマートドアベルフレームワークのコンポーザビリティと再利用性に制限がある。 第二に、それらはモノリシックでプロプライエタリなので、実装の詳細はユーザから隠されている。 透過的な設計はスマートドアベルの開発を大いに助け、複数のアプリケーションドメインでの使用を可能にすると信じています。 上記の課題に対処するため、EdgeとCloudリソース間でビデオ分析をオーケストレーションする分散フレームワークを提案する。 我々は,エッジ上のコンポーネントとクラウド上のコンポーネントを汎用的に扱う,bespoke/fullシステム上の異なるソフトウェアコンポーネントの配布におけるトレードオフについて検討する。 本稿では,提案されたフレームワークと最先端モデルを評価し,各種指標(モデル全体の精度,レイテンシ,メモリ使用量,cpu使用量など)について比較分析を行う。 評価結果は、AWSベースのアプローチは、最先端のアプローチと比較して、合理的に高いオブジェクト検出精度、低いメモリ、CPU使用率を示すが、レイテンシが高いことを示している。

The concept of the Internet of Things (IoT) is a reality now. This paradigm shift has caught everyones attention in a large class of applications, including IoT-based video analytics using smart doorbells. Due to its growing application segments, various efforts exist in scientific literature and many video-based doorbell solutions are commercially available in the market. However, contemporary offerings are bespoke, offering limited composability and reusability of a smart doorbell framework. Second, they are monolithic and proprietary, which means that the implementation details remain hidden from the users. We believe that a transparent design can greatly aid in the development of a smart doorbell, enabling its use in multiple application domains. To address the above-mentioned challenges, we propose a distributed framework to orchestrate video analytics across Edge and Cloud resources. We investigate trade-offs in the distribution of different software components over a bespoke/full system, where components over Edge and Cloud are treated generically. This paper evaluates the proposed framework as well as the state-of-the-art models and presents comparative analysis of them on various metrics (such as overall model accuracy, latency, memory, and CPU usage). The evaluation result demonstrates our intuition very well, showcasing that the AWS-based approach exhibits reasonably high object-detection accuracy, low memory, and CPU usage when compared to the state-of-the-art approaches, but high latency.
翻訳日:2023-05-02 00:00:46 公開日:2020-09-17
# 実用的な量子コンピューティング:局所計算の価値

Practical Quantum Computing: The value of local computation ( http://arxiv.org/abs/2009.08513v1 )

ライセンス: Link先を確認
James R. Cruise, Neil I. Gillespie, Brendan Reid(参考訳) 有用な量子コンピュータの時代に入ると、古典的なサポートハードウェアの限界をよりよく理解し、効果的な量子ビット利用を確保するために緩和技術を開発する必要がある。 本稿では、中央処理ユニット(CPU)と量子処理ユニット(QPU)間のデータ転送による帯域幅制限、ラウンドトリップ通信用ハードウェアの遅延遅延、エラー率によるタイミング制限の3つについて論じる。 帯域幅制限、適応ノイズ、遅延ボトルネックに対する中間スケール量子(NISQ)時代のアルゴリズム、および量子ビット誤り率による制限を強調する量子エラー補正技術である。 これら3つのケースでは,cpu上ですべての古典的計算を実行するという現在のパラダイムにおいて,これらのボトルネックがどのように発生したのか,qpu内の局所的古典的計算リソースへのアクセスを提供することで,これらを軽減できるのかを議論する。

As we enter the era of useful quantum computers we need to better understand the limitations of classical support hardware, and develop mitigation techniques to ensure effective qubit utilisation. In this paper we discuss three key bottlenecks in near-term quantum computers: bandwidth restrictions arising from data transfer between central processing units (CPUs) and quantum processing units (QPUs), latency delays in the hardware for round-trip communication, and timing restrictions driven by high error rates. In each case we consider a near-term quantum algorithm to highlight the bottleneck: randomised benchmarking to showcase bandwidth limitations, adaptive noisy, intermediate scale quantum (NISQ)-era algorithms for the latency bottleneck and quantum error correction techniques to highlight the restrictions imposed by qubit error rates. In all three cases we discuss how these bottlenecks arise in the current paradigm of executing all the classical computation on the CPU, and how these can be mitigated by providing access to local classical computational resources in the QPU.
翻訳日:2023-05-02 00:00:04 公開日:2020-09-17
# 対称性分解エンタングルメントにおける境界効果

Boundary effects on symmetry resolved entanglement ( http://arxiv.org/abs/2009.08508v1 )

ライセンス: Link先を確認
Riccarda Bonsignori, Pasquale Calabrese(参考訳) 境界を持つ一次元系の対称性分解エンタングルメントエントロピーについて検討する。 共形不変理論の一般的な結果を提供し、自由フェルミオンの半無限鎖に移す。 私たちは境界から始まる間隔とそれから離れる間隔の両方を考えます。 トープリッツ+ハンケル行列のスペクトルに関する定理と予想に基づいて、電荷と対称性を分解したエントロピーの正確な公式を導出する。 境界から離れた区間を特徴づける過程で、toeplitz+hankel行列の固有値とブロックtoeplitz行列の間の一般関係を証明する。 重要な側面は、電荷から対称性分解エントロピーへのサドル点近似が、境界のないシステムよりもはるかに厳しいスケーリングに代数的補正をもたらすことである。

We study the symmetry resolved entanglement entropies in one-dimensional systems with boundaries. We provide some general results for conformal invariant theories and then move to a semi-infinite chain of free fermions. We consider both an interval starting from the boundary and away from it. We derive exact formulas for the charged and symmetry resolved entropies based on theorems and conjectures about the spectra of Toeplitz+Hankel matrices. En route to characterise the interval away from the boundary, we prove a general relation between the eigenvalues of Toeplitz+Hankel matrices and block Toeplitz ones. An important aspect is that the saddle-point approximation from charged to symmetry resolved entropies introduces algebraic corrections to the scaling that are much more severe than in systems without boundaries.
翻訳日:2023-05-01 23:59:35 公開日:2020-09-17
# 周期的相互作用駆動による量子ドットスピンチェーンの量子情報保護

Protecting Quantum Information in Quantum Dot Spin Chains by Driving Exchange Interactions Periodically ( http://arxiv.org/abs/2009.08469v1 )

ライセンス: Link先を確認
John S. Van Dyke, Yadav P. Kandel, Haifeng Qiao, John M. Nichol, Sophia E. Economou, Edwin Barnes(参考訳) 近年の研究では、ゲート定義された量子ドット配列の近接-neighbor交換相互作用を周期的に駆動することで、量子スピンチェーンにおける離散時間結晶物理学への新しい経路が示されている [arxiv:2006.10913]。 ここでは、位相図や追加診断を含むGaAs量子ドットの小さな配列における交換駆動フロッケ物理の詳細な解析について述べる。 また,創発的時間結晶挙動は多スピン状態の保護と操作に有用であることを示す。 GaAsの核スピンノイズの典型的なレベルにおいて、駆動と相互作用の組み合わせは、交換相互作用が存在しない場合に可能なスピン・シンクレット状態を越えて保護する。 さらに,高忠実度なシングルトリップキュービット間の時間結晶型CZゲートの構築方法を示す。 これらの結果は、周期的に交換結合を駆動することで、量子情報応用のための量子ドットスピンシステムの性能が向上することを示している。

Recent work has demonstrated a new route to discrete time crystal physics in quantum spin chains by periodically driving nearest-neighbor exchange interactions in gate-defined quantum dot arrays [arXiv:2006.10913]. Here, we present a detailed analysis of exchange-driven Floquet physics in small arrays of GaAs quantum dots, including phase diagrams and additional diagnostics. We also show that emergent time-crystalline behavior can benefit the protection and manipulation of multi-spin states. For typical levels of nuclear spin noise in GaAs, the combination of driving and interactions protects spin-singlet states beyond what is possible in the absence of exchange interactions. We further show how to construct a time-crystal-inspired CZ gate between singlet-triplet qubits with high fidelity. These results show that periodically driving exchange couplings can enhance the performance of quantum dot spin systems for quantum information applications.
翻訳日:2023-05-01 23:59:05 公開日:2020-09-17
# 対称性破れおよび位相相転移におけるカテゴリー対称性と非可逆異常

Categorical symmetry and non-invertible anomaly in symmetry-breaking and topological phase transitions ( http://arxiv.org/abs/1912.13492v4 )

ライセンス: Link先を確認
Wenjie Ji, Xiao-Gang Wen(参考訳) 有限対称性$G$を完全に破る$n$次元空間におけるゼロ温度ランダウ対称性の破れ遷移に対して、遷移の臨界点は対称性$G$を持つ。 本稿では、臨界点も双対対称性を持つことを示す: $(n-1)$-対称性(英語版) $g$ がアーベルであるとき、または、代数的 $(n-1)$-対称性が非可換であるとき、$g$ は非可換である。 実際、任意の$g$対称系は、1つの高次元における$g$-ゲージ理論の境界と見なすことができる。 バルク$G$ゲージ理論におけるゲージ電荷とゲージフラックスの保存は、それぞれ対称性と双対対称性をもたらす。 したがって、任意の$G$対称系は、実際には圏対称性と呼ばれるより大きな対称性を持ち、これは対称性と双対対称性の組み合わせである。 しかし、圏対称性の部分(および部分のみ)は系の任意の隙間の位相で自発的に破れなければならないが、圏対称性が自発的に破れていないような隙間のない状態が存在する。 このようなギャップのない状態は、ランダウ対称性の破断遷移の通常の臨界点に対応する。 上記の結果は、対称性の概念を高次対称性と代数的高次対称性を含むように拡張しても有効である。 したがって、この結果は物質の位相相間の遷移の臨界点にも適用される。 特に、3+1D$Z_2$ゲージ理論から自明な位相への遷移にはいくつかの臨界点が存在することを示す。 ヒッグス凝縮の臨界点は、$Z_2$ 0-対称性とその双対によって形成される圏対称性を持ち、一方、閉じ込め遷移の臨界点は、$Z_2$ 1-対称性とその双対によって形成される圏対称性を持つ。

For a zero-temperature Landau symmetry breaking transition in $n$-dimensional space that completely breaks a finite symmetry $G$, the critical point at the transition has the symmetry $G$. In this paper, we show that the critical point also has a dual symmetry - a $(n-1)$-symmetry described by a higher group when $G$ is Abelian or an algebraic $(n-1)$-symmetry beyond higher group when $G$ is non-Abelian. In fact, any $G$-symmetric system can be viewed as a boundary of $G$-gauge theory in one higher dimension. The conservation of gauge charge and gauge flux in the bulk $G$-gauge theory gives rise to the symmetry and the dual symmetry respectively. So any $G$-symmetric system actually has a larger symmetry called categorical symmetry, which is a combination of the symmetry and the dual symmetry. However, part (and only part) of the categorical symmetry must be spontaneously broken in any gapped phase of the system, but there exists a gapless state where the categorical symmetry is not spontaneously broken. Such a gapless state corresponds to the usual critical point of Landau symmetry breaking transition. The above results remain valid even if we expand the notion of symmetry to include higher symmetries and algebraic higher symmetries. Thus our result also applies to critical points for transitions between topological phases of matter. In particular, we show that there can be several critical points for the transition from the 3+1D $Z_2$ gauge theory to a trivial phase. The critical point from Higgs condensation has a categorical symmetry formed by a $Z_2$ 0-symmetry and its dual - a $Z_2$ 2-symmetry, while the critical point of the confinement transition has a categorical symmetry formed by a $Z_2$ 1-symmetry and its dual - another $Z_2$ 1-symmetry.
翻訳日:2023-01-16 21:41:33 公開日:2020-09-17
# 局所幾何序列の補助監督による点雲のセマンティック解析の改善

Improving Semantic Analysis on Point Clouds via Auxiliary Supervision of Local Geometric Priors ( http://arxiv.org/abs/2001.04803v2 )

ライセンス: Link先を確認
Lulu Tang, Ke Chen, Chaozheng Wu, Yu Hong, Kui Jia and Zhixin Yang(参考訳) ポイントクラウド分析のための既存のディープラーニングアルゴリズムは、主に、教師付き学習方法でローカルジオメトリのグローバル構成から意味的パターンを発見することに関するものである。 しかし、3次元ユークリッド空間に埋め込まれた局所曲面多様体が、追加の監視信号として意味クラスや対象部分を識別する幾何学的性質を明らかにすることはごくわずかである。 本稿では,局所的な形状特性を持つ補助幾何学習によって意味解析を改善するための,ユニークなマルチタスク幾何学習ネットワークを提案する最初の試みである。 局所形状多様体を意味解析のために明示的に符号化する代わりに,提案した幾何学的自己教師付き・特権学習アルゴリズムは,一般的なベンチマーク実験で検証されたバックボーンベースラインや他の最先端手法よりも優れた性能が得られる。

Existing deep learning algorithms for point cloud analysis mainly concern discovering semantic patterns from global configuration of local geometries in a supervised learning manner. However, very few explore geometric properties revealing local surface manifolds embedded in 3D Euclidean space to discriminate semantic classes or object parts as additional supervision signals. This paper is the first attempt to propose a unique multi-task geometric learning network to improve semantic analysis by auxiliary geometric learning with local shape properties, which can be either generated via physical computation from point clouds themselves as self-supervision signals or provided as privileged information. Owing to explicitly encoding local shape manifolds in favor of semantic analysis, the proposed geometric self-supervised and privileged learning algorithms can achieve superior performance to their backbone baselines and other state-of-the-art methods, which are verified in the experiments on the popular benchmarks.
翻訳日:2023-01-11 12:52:56 公開日:2020-09-17
# 遅延低減とエネルギー消費推定のための実行時深部モデル多重化

Runtime Deep Model Multiplexing for Reduced Latency and Energy Consumption Inference ( http://arxiv.org/abs/2001.05870v2 )

ライセンス: Link先を確認
Amir Erfan Eshratifar and Massoud Pedram(参考訳) 本稿では,入力と計算リソースの要求を考慮し,最小計算資源を消費するモデルを呼び出す,軽量ニューラルネットワークを設計するための学習アルゴリズムを提案する。 モバイルデバイスは、提案アルゴリズムを使用して、簡単な入力をローカルに推論しながら、ハード入力をクラウドにオフロードすることができる。 さらに、クラウドベースのインテリジェントな大規模アプリケーションでは、最も正確なモデルを複製する代わりに、クラウドの計算リソースを節約する入力の複雑さに応じて、さまざまな小規模モデルと大規模モデルを多重化することができる。 入力の複雑さや硬さは、正しいラベルを予測できるモデルの数によって決定される。 例えば、モデルがラベルを正しく予測できない場合、入力は最も難しいと見なされる。 提案アルゴリズムにより,モバイル端末は,ローカルに処理可能な入力と,より大きなモデルを必要とし,クラウドサーバを送信すべき入力を検出することができる。 したがって、モバイルユーザはローカル処理だけでなく、クラウドサーバにホストされた正確なモデルからもメリットを享受できる。 実験の結果,提案アルゴリズムは,クラウドサーバに適切に選択およびオフロードされた入力によって,モバイルモデルの精度を8.52%向上させることがわかった。 さらに、入力を容易にするために小さなモデルが選択されるため、クラウドプロバイダの計算リソースを2.85倍削減する。

We propose a learning algorithm to design a light-weight neural multiplexer that given the input and computational resource requirements, calls the model that will consume the minimum compute resources for a successful inference. Mobile devices can use the proposed algorithm to offload the hard inputs to the cloud while inferring the easy ones locally. Besides, in the large scale cloud-based intelligent applications, instead of replicating the most-accurate model, a range of small and large models can be multiplexed from depending on the input's complexity which will save the cloud's computational resources. The input complexity or hardness is determined by the number of models that can predict the correct label. For example, if no model can predict the label correctly, then the input is considered as the hardest. The proposed algorithm allows the mobile device to detect the inputs that can be processed locally and the ones that require a larger model and should be sent a cloud server. Therefore, the mobile user benefits from not only the local processing but also from an accurate model hosted on a cloud server. Our experimental results show that the proposed algorithm improves mobile's model accuracy by 8.52% which is because of those inputs that are properly selected and offloaded to the cloud server. In addition, it saves the cloud providers' compute resources by a factor of 2.85x as small models are chosen for easier inputs.
翻訳日:2023-01-11 12:34:35 公開日:2020-09-17
# 重粒子群最適化を用いた畳み込みニューラルネットワークの最適化

Optimization of Convolutional Neural Network Using the Linearly Decreasing Weight Particle Swarm Optimization ( http://arxiv.org/abs/2001.05670v2 )

ライセンス: Link先を確認
T. Serizawa, H. Fujita(参考訳) 畳み込みニューラルネットワーク(CNN)は、最も頻繁に使用されるディープラーニング技術の1つである。 様々なモデルが提案され、CNNで学習するために改良されている。 CNNで学習する場合、最適なハイパーパラメータを決定する必要がある。 しかし、ハイパーパラメータの数はあまりに多く、手動で行うのは難しいため、自動化について多くの研究がなされている。 メタヒューリスティックアルゴリズムを用いた手法がハイパーパラメータ最適化の研究で注目を集めている。 メタヒューリスティックアルゴリズムは自然にインスパイアされ、進化戦略、遺伝的アルゴリズム、アントロニクス最適化、粒子群最適化を含む。 特に粒子群最適化は遺伝的アルゴリズムよりも高速に収束し、様々なモデルが提案されている。 本稿では,重粒子群最適化(LDWPSO)を用いたCNNハイパーパラメータ最適化を提案する。 実験では、ベンチマークデータセットとしてよく使用されるMNISTデータセットとCIFAR-10データセットが使用される。 LDWPSOでCNNハイパーパラメータを最適化し、MNISTとCIFAR-10データセットを学習することにより、LeNet-5に基づく標準CNNと比較する。 その結果、MNISTデータセットを使用する場合、ベースラインCNNは5世紀で94.02%、LDWPSO CNNでは98.95%となり、精度が向上した。 CIFAR-10データセットを使用する場合、ベースラインCNNは10世紀で28.07%であり、LDWPSO CNNでは69.37%である。

Convolutional neural network (CNN) is one of the most frequently used deep learning techniques. Various forms of models have been proposed and improved for learning at CNN. When learning with CNN, it is necessary to determine the optimal hyperparameters. However, the number of hyperparameters is so large that it is difficult to do it manually, so much research has been done on automation. A method that uses metaheuristic algorithms is attracting attention in research on hyperparameter optimization. Metaheuristic algorithms are naturally inspired and include evolution strategies, genetic algorithms, antcolony optimization and particle swarm optimization. In particular, particle swarm optimization converges faster than genetic algorithms, and various models have been proposed. In this paper, we propose CNN hyperparameter optimization with linearly decreasing weight particle swarm optimization (LDWPSO). In the experiment, the MNIST data set and CIFAR-10 data set, which are often used as benchmark data sets, are used. By optimizing CNN hyperparameters with LDWPSO, learning the MNIST and CIFAR-10 datasets, we compare the accuracy with a standard CNN based on LeNet-5. As a result, when using the MNIST dataset, the baseline CNN is 94.02% at the 5th epoch, compared to 98.95% for LDWPSO CNN, which improves accuracy. When using the CIFAR-10 dataset, the Baseline CNN is 28.07% at the 10th epoch, compared to 69.37% for the LDWPSO CNN, which greatly improves accuracy.
翻訳日:2023-01-10 23:37:28 公開日:2020-09-17
# 原理からのAMR類似性メトリクス

AMR Similarity Metrics from Principles ( http://arxiv.org/abs/2001.10929v2 )

ライセンス: Link先を確認
Juri Opitz and Letitia Parcalabescu and Anette Frank(参考訳) 抽象意味表現(amr)グラフを比較するために異なる指標が提案されている。 the canonical smatch metric (cai and knight, 2013) は、2つのグラフの変数を調整し、3つのマッチを評価する。 最近のSemBleuメトリック(Song and Gildea, 2019)は機械翻訳計量Bleu(Papineni et al., 2002)に基づいており、変数アライメントを非難することで計算効率を向上させる。 この論文では 一 研究者がAMRのような意味表現と比較した指標の原則的評価を行うことができる基準を確立すること。 i) Smatch と SemBleu の徹底的な解析を行い、後者が好ましくない性質を示すことを示す。 例えば、それは認識不能な規則の同一性に適合せず、制御しにくいバイアスを導入します。 iii)非常にわずかな意味の偏差のみに有利な新しい計量 s$^2$match を提案し,すべての確立された基準の満足度を目標とする。 適合性を評価し,SmatchとSemBleuに対する優位性を示す。

Different metrics have been proposed to compare Abstract Meaning Representation (AMR) graphs. The canonical Smatch metric (Cai and Knight, 2013) aligns the variables of two graphs and assesses triple matches. The recent SemBleu metric (Song and Gildea, 2019) is based on the machine-translation metric Bleu (Papineni et al., 2002) and increases computational efficiency by ablating the variable-alignment. In this paper, i) we establish criteria that enable researchers to perform a principled assessment of metrics comparing meaning representations like AMR; ii) we undertake a thorough analysis of Smatch and SemBleu where we show that the latter exhibits some undesirable properties. For example, it does not conform to the identity of indiscernibles rule and introduces biases that are hard to control; iii) we propose a novel metric S$^2$match that is more benevolent to only very slight meaning deviations and targets the fulfilment of all established criteria. We assess its suitability and show its advantages over Smatch and SemBleu.
翻訳日:2023-01-05 20:46:22 公開日:2020-09-17
# 新しい動的ブラシモデルとの結合における擬似スペクトル最適制御を用いたロボット書記法

Robot Calligraphy using Pseudospectral Optimal Control in Conjunction with a Novel Dynamic Brush Model ( http://arxiv.org/abs/2003.01565v3 )

ライセンス: Link先を確認
Sen Wang, Jiaqi Chen, Xuanliang Deng, Seth Hutchinson, and Frank Dellaert(参考訳) 中国書道は芸術的価値が高いが習得が難しい独特な芸術形式である。 本稿では,筆跡記述問題を軌道最適化問題として定式化し,実際の筆跡過程をシミュレートするための改良された仮想筆跡モデルを提案する。 本手法は疑似スペクトル最適制御に触発され,各ストロークのアクチュエータ軌道をチェビシェフ多項式としてパラメータ化する。 提案する動的仮想ブラシモデルは最適化対象関数の定式化において重要な役割を果たす。 提案手法は, 審美的に満足な文字を描画する上で優れた性能を示し, 従来の作業よりもはるかに効率的であり, リアルタイム閉ループ制御が可能となる。

Chinese calligraphy is a unique art form with great artistic value but difficult to master. In this paper, we formulate the calligraphy writing problem as a trajectory optimization problem, and propose an improved virtual brush model for simulating the real writing process. Our approach is inspired by pseudospectral optimal control in that we parameterize the actuator trajectory for each stroke as a Chebyshev polynomial. The proposed dynamic virtual brush model plays a key role in formulating the objective function to be optimized. Our approach shows excellent performance in drawing aesthetically pleasing characters, and does so much more efficiently than previous work, opening up the possibility to achieve real-time closed-loop control.
翻訳日:2022-12-27 05:40:38 公開日:2020-09-17
# 強化学習領域のためのカリキュラム学習:フレームワークと調査

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey ( http://arxiv.org/abs/2003.04960v2 )

ライセンス: Link先を確認
Sanmit Narvekar and Bei Peng and Matteo Leonetti and Jivko Sinapov and Matthew E. Taylor and Peter Stone(参考訳) 強化学習(rl)は、エージェントが限られた環境フィードバックしか持たない逐次決定タスクに対処するための一般的なパラダイムである。 過去30年間に多くの進歩があったにもかかわらず、多くの領域での学習は依然として環境との大量の相互作用を必要とする。 この問題に対処するために、トランスファー学習は強化学習に応用され、1つのタスクで得られた経験を次の困難なタスクを学習し始めるときに活用することができる。 最近では、タスクやデータサンプル自体が、スクラッチから学ぶことが難しい問題を学ぶために、どのようにカリキュラムにシーケンス化できるか、いくつかの研究が進められている。 本稿では,強化学習におけるカリキュラム学習(CL)の枠組みについて述べるとともに,その前提,能力,目標の観点から,既存のCLメソッドを調査・分類するために利用する。 最後に,このフレームワークを用いて,今後のrlカリキュラム学習研究の方向性を提案する。

Reinforcement learning (RL) is a popular paradigm for addressing sequential decision tasks in which the agent has only limited environmental feedback. Despite many advances over the past three decades, learning in many domains still requires a large amount of interaction with the environment, which can be prohibitively expensive in realistic scenarios. To address this problem, transfer learning has been applied to reinforcement learning such that experience gained in one task can be leveraged when starting to learn the next, harder task. More recently, several lines of research have explored how tasks, or data samples themselves, can be sequenced into a curriculum for the purpose of learning a problem that may otherwise be too difficult to learn from scratch. In this article, we present a framework for curriculum learning (CL) in reinforcement learning, and use it to survey and classify existing CL methods in terms of their assumptions, capabilities, and goals. Finally, we use our framework to find open problems and suggest directions for future RL curriculum learning research.
翻訳日:2022-12-24 20:27:22 公開日:2020-09-17
# プライバシ保護指向DNNプルーニングとモバイルアクセラレーションフレームワーク

A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration Framework ( http://arxiv.org/abs/2003.06513v2 )

ライセンス: Link先を確認
Yifan Gong, Zheng Zhan, Zhengang Li, Wei Niu, Xiaolong Ma, Wenhao Wang, Bin Ren, Caiwen Ding, Xue Lin, Xiaolin Xu, and Yanzhi Wang(参考訳) モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。 しかしながら,従来のプルーニング手法では,ユーザデータのプライバシを考慮せずに,モデルサイズ削減やパフォーマンス向上に重点を置いている。 この懸念を軽減するために、プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。 提案手法のアルゴリズムレベルでは,ランダムに生成した合成データを用いて各層に対するパターンベースプルーニング問題を反復的に解くために,乗算器の交互方向法(ADMM)に基づく系統的な重み付け手法が設計されている。 さらに、コンパイラレベルの対応する最適化は、デバイス上の推論アクセラレーションに利用される。 提案されたフレームワークにより、ユーザは非専門家の時間を要するプルーニングプロセスを避け、圧縮モデルから直接恩恵を受けることができる。 実験の結果、提案フレームワークは、TensorFlow-Lite、TVM、MNNの3つの最先端のDNNフレームワークを上回るパフォーマンスを示し、それぞれ4.2X、2.5X、2.0Xまで高速化され、データのプライバシを保ちながら精度の低下はほとんどない。

Weight pruning of deep neural networks (DNNs) has been proposed to satisfy the limited storage and computing capability of mobile edge devices. However, previous pruning methods mainly focus on reducing the model size and/or improving performance without considering the privacy of user data. To mitigate this concern, we propose a privacy-preserving-oriented pruning and mobile acceleration framework that does not require the private training dataset. At the algorithm level of the proposed framework, a systematic weight pruning technique based on the alternating direction method of multipliers (ADMM) is designed to iteratively solve the pattern-based pruning problem for each layer with randomly generated synthetic data. In addition, corresponding optimizations at the compiler level are leveraged for inference accelerations on devices. With the proposed framework, users could avoid the time-consuming pruning process for non-experts and directly benefit from compressed models. Experimental results show that the proposed framework outperforms three state-of-art end-to-end DNN frameworks, i.e., TensorFlow-Lite, TVM, and MNN, with speedup up to 4.2X, 2.5X, and 2.0X, respectively, with almost no accuracy loss, while preserving data privacy.
翻訳日:2022-12-24 00:57:44 公開日:2020-09-17
# starnet: 弱い教師付き少数ショット物体検出に向けて

StarNet: towards Weakly Supervised Few-Shot Object Detection ( http://arxiv.org/abs/2003.06798v3 )

ライセンス: Link先を確認
Leonid Karlinsky and Joseph Shtok and Amit Alfassy and Moshe Lichtenstein and Sivan Harary and Eli Schwartz and Sivan Doveh and Prasanna Sattigeri and Rogerio Feris and Alexander Bronstein and Raja Giryes(参考訳) 近年では少ないショット検出と分類が著しく進歩している。 しかし、検出手法は事前学習と新しいクラスへの適応の両方に強力なアノテーション(バウンディングボックス)を必要とし、分類手法はシーン内のオブジェクトのローカライズをほとんど提供しない。 本稿では,終端から終端まで微分可能な非パラメトリックな星モデル検出と分類ヘッドを備えたstarnetを紹介する。 このヘッドを通じて、バックボーンは画像レベルのラベルのみを使用してメタトレーニングされ、クエリとサポートイメージ(対応するオブジェクトインスタンスを見つけるために)の幾何学的に一致するスターモデルを使用して、未確認のいくつかのテストタスクのカテゴリを共同でローカライズおよび分類するための優れた機能を生成する。 数発の検知器であるため、StarNetは事前トレーニングや新しいクラス適応のためのバウンディングボックスアノテーションを必要としない。 これにより、Wakly Supervised Few-Shot Object Detection (WS-FSOD)という未調査の課題に適用でき、ベースラインよりも大幅に改善されている。 さらに、starnetは、オブジェクト(オブジェクトのローカライズが重要な部分)のまわりのトリミングが少ない、少数ショットの分類ベンチマークで大きな成果を上げている。

Few-shot detection and classification have advanced significantly in recent years. Yet, detection approaches require strong annotation (bounding boxes) both for pre-training and for adaptation to novel classes, and classification approaches rarely provide localization of objects in the scene. In this paper, we introduce StarNet - a few-shot model featuring an end-to-end differentiable non-parametric star-model detection and classification head. Through this head, the backbone is meta-trained using only image-level labels to produce good features for jointly localizing and classifying previously unseen categories of few-shot test tasks using a star-model that geometrically matches between the query and support images (to find corresponding object instances). Being a few-shot detector, StarNet does not require any bounding box annotations, neither during pre-training nor for novel classes adaptation. It can thus be applied to the previously unexplored and challenging task of Weakly Supervised Few-Shot Object Detection (WS-FSOD), where it attains significant improvements over the baselines. In addition, StarNet shows significant gains on few-shot classification benchmarks that are less cropped around the objects (where object localization is key).
翻訳日:2022-12-23 08:55:01 公開日:2020-09-17
# 強化学習による3次元形状のモデル化

Modeling 3D Shapes by Reinforcement Learning ( http://arxiv.org/abs/2003.12397v3 )

ライセンス: Link先を確認
Cheng Lin, Tingxiang Fan, Wenping Wang, Matthias Nie{\ss}ner(参考訳) 深部強化学習(RL)を用いて,人間モデルのような3次元形状を機械でモデル化する方法を検討する。 mayaのような3dモデリングソフトウェアでは、モデラーは通常、(1)プリミティブのセットを使って形状を近似する、(2)プリミティブのメッシュを編集して詳細な幾何学を作成する、という2つのステップでメッシュモデルを作成する。 このようなアーティストに基づくモデリングに着想を得て,RLに基づく2段階のニューラル・フレームワークを提案し,3次元モデリングポリシーを学習する。 対話的な環境で行動を取り、報酬を集めることで、エージェントはまずターゲットの形状をプリミティブに解析し、それから幾何学を編集する。 モデリングエージェントを効果的に訓練するために,ヒューリスティック・ポリシー,模倣学習,強化学習を組み合わせた新しい学習アルゴリズムを提案する。 実験により, エージェントは規則的かつ構造を考慮したメッシュモデルを生成するための適切なポリシーを学習でき, 提案したRLフレームワークの有効性と有効性を示す。

We explore how to enable machines to model 3D shapes like human modelers using deep reinforcement learning (RL). In 3D modeling software like Maya, a modeler usually creates a mesh model in two steps: (1) approximating the shape using a set of primitives; (2) editing the meshes of the primitives to create detailed geometry. Inspired by such artist-based modeling, we propose a two-step neural framework based on RL to learn 3D modeling policies. By taking actions and collecting rewards in an interactive environment, the agents first learn to parse a target shape into primitives and then to edit the geometry. To effectively train the modeling agents, we introduce a novel training algorithm that combines heuristic policy, imitation learning and reinforcement learning. Our experiments show that the agents can learn good policies to produce regular and structure-aware mesh models, which demonstrates the feasibility and effectiveness of the proposed RL framework.
翻訳日:2022-12-19 05:11:32 公開日:2020-09-17
# 軌道ポアソン多重バーヌーリフィルタ

Trajectory Poisson multi-Bernoulli filters ( http://arxiv.org/abs/2003.12767v3 )

ライセンス: Link先を確認
\'Angel F. Garc\'ia-Fern\'andez, Lennart Svensson, Jason L. Williams, Yuxuan Xia, Karl Granstr\"om(参考訳) 本稿では,マルチターゲット追跡のための2つのトラジェクトリPoisson multi-Bernoulli (TPMB)フィルタについて,各ステップで生存軌道のセットを推定し,各ステップで死亡軌道を含む全トラジェクトリのセットを推定する。 フィルタは、フィルタ再帰を通じて対応するトラジェクトリの集合上のポアソン多重ベルヌーリ(PMB)密度を伝搬する。 更新ステップ後、後段はpmb混合(pmbm)であり、pmb密度を得るために、拡張空間におけるkullback−leiblerダイバージェンス最小化を行う。 提案したフィルタは,ポアソン生成モデルを用いたトラジェクトリの集合に対する閉形式再帰を提供するトラジェクトリPMBMフィルタのより軽量な代替であり,従来のマルチターゲット追跡アルゴリズムよりも優れていることを示す。

This paper presents two trajectory Poisson multi-Bernoulli (TPMB) filters for multi-target tracking: one to estimate the set of alive trajectories at each time step and another to estimate the set of all trajectories, which includes alive and dead trajectories, at each time step. The filters are based on propagating a Poisson multi-Bernoulli (PMB) density on the corresponding set of trajectories through the filtering recursion. After the update step, the posterior is a PMB mixture (PMBM) so, in order to obtain a PMB density, a Kullback-Leibler divergence minimisation on an augmented space is performed. The developed filters are computationally lighter alternatives to the trajectory PMBM filters, which provide the closed-form recursion for sets of trajectories with Poisson birth model, and are shown to outperform previous multi-target tracking algorithms.
翻訳日:2022-12-19 00:04:02 公開日:2020-09-17
# g2pm:新しいオープンベンチマークデータセットに基づく中国語中国語用ニューラルネットワークグラフから音素への変換パッケージ

g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin Chinese Based on a New Open Benchmark Dataset ( http://arxiv.org/abs/2004.03136v5 )

ライセンス: Link先を確認
Kyubyong Park, Seanie Lee(参考訳) 中国語の文法から音素への変換(G2P)は,中国語のテキスト音声(TTS)システムにおいて重要な要素である。 中国のG2P変換における最大の課題の1つは、ポリフォンの発音を曖昧にする方法である。 これに対処するための学術的な努力が数多く行われているが、これまで、公正な比較のための標準ベンチマークとして機能するオープンデータセットは存在していない。 さらに、報告されたシステムのほとんどは、中国語のテキストを便宜的にピンインに変換したい研究者や実践者にとって、採用が難しい。 そこで本研究では,中国語の多音不明瞭度に対する99,000以上の文からなる新しいベンチマークデータセットを提案する。 単純なニューラルネットワークモデルをトレーニングし、既存のg2pシステムよりも優れています。 最後に、プロジェクトをパッケージ化し、PyPiで共有します。

Conversion of Chinese graphemes to phonemes (G2P) is an essential component in Mandarin Chinese Text-To-Speech (TTS) systems. One of the biggest challenges in Chinese G2P conversion is how to disambiguate the pronunciation of polyphones - characters having multiple pronunciations. Although many academic efforts have been made to address it, there has been no open dataset that can serve as a standard benchmark for fair comparison to date. In addition, most of the reported systems are hard to employ for researchers or practitioners who want to convert Chinese text into pinyin at their convenience. Motivated by these, in this work, we introduce a new benchmark dataset that consists of 99,000+ sentences for Chinese polyphone disambiguation. We train a simple neural network model on it, and find that it outperforms other preexisting G2P systems. Finally, we package our project and share it on PyPi.
翻訳日:2022-12-15 23:48:48 公開日:2020-09-17
# 多様性の助け:分散シフトに基づくデータ拡張による教師なしFew-shot学習

Diversity Helps: Unsupervised Few-shot Learning via Distribution Shift-based Data Augmentation ( http://arxiv.org/abs/2004.05805v2 )

ライセンス: Link先を確認
Tiexin Qin and Wenbin Li and Yinghuan Shi and Yang Gao(参考訳) few-shot learningは、いくつかのトレーニング例しか利用できない新しいコンセプトを学ぶことを目的としている。 しかしながら、現在の研究の多くは、エピソード訓練パラダイムでモデルをトレーニングするための大規模ラベル付き補助セットに大きく依存している。 このような教師付きセッティングは基本的に、数発の学習アルゴリズムの広範使用を制限する。 そこで本研究では,データ拡張を行う際に,構築済みのプレテキストにおける分散の多様性に留意する,Unsupervised Few-shot Learning via Distribution Shift-based Data Augmentation (ULDA) という新しいフレームワークを開発する。 重要なことは、増補型プレテクストのプレショットタスクにおける分布の多様性の価値と重要性を強調し、オーバーフィット問題を効果的に軽減し、少数ショットモデルがより堅牢な特徴表現を学習できるようにすることである。 ULDAでは,異なる拡張手法の効果を体系的に検討し,これらの2つのセットを多角化することにより,クエリセットと各数ショットタスクにおけるサポートセットの分散多様性(あるいは差分)を強化することを提案する。 このように、単純な拡張技術(ランダム作物、カラージッタリング、回転など)を組み込んだとしても、我々のuldaは大幅に改善することができる。 実験では,Omniglot と miniImageNet 上で,ULDA が学習した少数ショットモデルにより,より優れた一般化性能が得られ,最先端の学習結果が得られる。 ソースコードはhttps://github.com/wonderseven/ulda。

Few-shot learning aims to learn a new concept when only a few training examples are available, which has been extensively explored in recent years. However, most of the current works heavily rely on a large-scale labeled auxiliary set to train their models in an episodic-training paradigm. Such a kind of supervised setting basically limits the widespread use of few-shot learning algorithms. Instead, in this paper, we develop a novel framework called Unsupervised Few-shot Learning via Distribution Shift-based Data Augmentation (ULDA), which pays attention to the distribution diversity inside each constructed pretext few-shot task when using data augmentation. Importantly, we highlight the value and importance of the distribution diversity in the augmentation-based pretext few-shot tasks, which can effectively alleviate the overfitting problem and make the few-shot model learn more robust feature representations. In ULDA, we systemically investigate the effects of different augmentation techniques and propose to strengthen the distribution diversity (or difference) between the query set and support set in each few-shot task, by augmenting these two sets diversely (i.e., distribution shifting). In this way, even incorporated with simple augmentation techniques (e.g., random crop, color jittering, or rotation), our ULDA can produce a significant improvement. In the experiments, few-shot models learned by ULDA can achieve superior generalization performance and obtain state-of-the-art results in a variety of established few-shot learning tasks on Omniglot and miniImageNet. The source code is available in https://github.com/WonderSeven/ULDA.
翻訳日:2022-12-14 00:11:57 公開日:2020-09-17
# 非ブロッキング同時マルチスレッディング:ディープニューラルネットワークの弾力性を受け入れる

Non-Blocking Simultaneous Multithreading: Embracing the Resiliency of Deep Neural Networks ( http://arxiv.org/abs/2004.09309v2 )

ライセンス: Link先を確認
Gil Shomron, Uri Weiser(参考訳) ディープニューラルネットワーク(dnn)は、ハードウェアのアクティベーションや重み付けがスパースするため、基盤となるハードウェアリソースを活用できないことで知られている。 細かい粒度であっても、ゼロでない値の多くはゼロ値ビットの一部を持ち、ハードウェア上で実行されたときに非効率を引き起こす。 従来のcpu同時マルチスレッディング(smt)に触発され,複数のスレッド間で共有することにより,コンピュータ資源の利用を増加させる。 従来のSMTと同様に、NB-SMTはいくつかの実行フローでハードウェアリソースを共有する。 しかし、SMTとは異なり、NB-SMTはDNNのアルゴリズム的レジリエンスを利用して構造的ハザードを処理するため、ノンブロッキングである。 NB-SMTは、利用可能なハードウェアの予約ステーションで待機している間に命令を同時に送る代わりに、計算精度を一時的に削減して全てのスレッドを一度に収容し、ノンブロッキング操作を可能にする。 我々は,NB-SMT対応出力定常シストリックアレイ(OS-SA)であるSySMTを用いて,NB-SMTの適用性を示す。 従来のos-saと比較して、2スレッドのsysmtはその面積の1.4倍を消費し、33%の省エネと1%未満の精度低下で2倍のスピードアップを実現している。 4スレッドのSySMTは面積の2.5倍を消費し、例えば3.4倍のスピードアップと39%の省エネを行う。

Deep neural networks (DNNs) are known for their inability to utilize underlying hardware resources due to hardware susceptibility to sparse activations and weights. Even in finer granularities, many of the non-zero values hold a portion of zero-valued bits that may cause inefficiencies when executed on hardware. Inspired by conventional CPU simultaneous multithreading (SMT) that increases computer resource utilization by sharing them across several threads, we propose non-blocking SMT (NB-SMT) designated for DNN accelerators. Like conventional SMT, NB-SMT shares hardware resources among several execution flows. Yet, unlike SMT, NB-SMT is non-blocking, as it handles structural hazards by exploiting the algorithmic resiliency of DNNs. Instead of opportunistically dispatching instructions while they wait in a reservation station for available hardware, NB-SMT temporarily reduces the computation precision to accommodate all threads at once, enabling a non-blocking operation. We demonstrate NB-SMT applicability using SySMT, an NB-SMT-enabled output-stationary systolic array (OS-SA). Compared with a conventional OS-SA, a 2-threaded SySMT consumes 1.4x the area and delivers 2x speedup with 33% energy savings and less than 1% accuracy degradation of state-of-the-art CNNs with ImageNet. A 4-threaded SySMT consumes 2.5x the area and delivers, for example, 3.4x speedup and 39% energy savings with 1% accuracy degradation of 40%-pruned ResNet-18.
翻訳日:2022-12-12 13:06:51 公開日:2020-09-17
# エンティティの同時抽出と関係の分類のためのリカレントインタラクションネットワーク

Recurrent Interaction Network for Jointly Extracting Entities and Classifying Relations ( http://arxiv.org/abs/2005.00162v2 )

ライセンス: Link先を確認
Kai Sun, Richong Zhang, Samuel Mensah, Yongyi Mao, Xudong Liu(参考訳) 主体認識タスクと関係分類タスクの関連性から,複数タスクの学習アプローチを用いて実体と関係の同時抽出に対処するという考えが動機である。 マルチタスク学習技術を用いた既存の手法では,共有ネットワークを介して2つのタスク間のインタラクションを学習し,共有情報をタスク固有のネットワークに渡して予測を行う。 しかし、このようなアプローチは、個々のタスクのパフォーマンスを改善するために、2つのタスク間の明示的な相互作用を学ぶのを妨げる。 本研究では,対話を動的に学習し,タスク固有の特徴を効果的にモデル化するリカレントインタラクションネットワークと呼ばれるマルチタスク学習モデルを設計する。 2つの実世界のデータセットに関する実証的研究により、提案モデルの優位性が確認された。

The idea of using multi-task learning approaches to address the joint extraction of entity and relation is motivated by the relatedness between the entity recognition task and the relation classification task. Existing methods using multi-task learning techniques to address the problem learn interactions among the two tasks through a shared network, where the shared information is passed into the task-specific networks for prediction. However, such an approach hinders the model from learning explicit interactions between the two tasks to improve the performance on the individual tasks. As a solution, we design a multi-task learning model which we refer to as recurrent interaction network which allows the learning of interactions dynamically, to effectively model task-specific features for classification. Empirical studies on two real-world datasets confirm the superiority of the proposed model.
翻訳日:2022-12-07 22:53:02 公開日:2020-09-17
# ゼロショット質問応答のための自己教師型知識トリプレット学習

Self-supervised Knowledge Triplet Learning for Zero-shot Question Answering ( http://arxiv.org/abs/2005.00316v2 )

ライセンス: Link先を確認
Pratyay Banerjee, Chitta Baral(参考訳) すべての質問応答(qa)システムの目的は、見えない質問に一般化できるようにすることです。 現在の教師付き手法は高価なデータアノテーションに依存している。 さらに、このようなアノテーションは意図しないアノテーションのバイアスをもたらすので、システムは実際のタスクよりもバイアスに焦点を合わせます。 本研究では,知識グラフ上の自己教師型タスクである知識トリプルト学習(KTL)を提案する。 我々は、常識と科学的知識のための合成グラフを作成するためのヒューリスティックスを提案する。 我々は,ゼロショットqaを実現するためにktlを使用する方法を提案し,本実験では大規模予習変圧器モデルよりも大幅に改善することを示す。

The aim of all Question Answering (QA) systems is to be able to generalize to unseen questions. Current supervised methods are reliant on expensive data annotation. Moreover, such annotations can introduce unintended annotator bias which makes systems focus more on the bias than the actual task. In this work, we propose Knowledge Triplet Learning (KTL), a self-supervised task over knowledge graphs. We propose heuristics to create synthetic graphs for commonsense and scientific knowledge. We propose methods of how to use KTL to perform zero-shot QA and our experiments show considerable improvements over large pre-trained transformer models.
翻訳日:2022-12-07 22:34:47 公開日:2020-09-17
# coda-19:covid-19オープンリサーチデータセットで、非専門家の群衆を使って1万以上の抽象概念の研究側面に注釈を付ける

CODA-19: Using a Non-Expert Crowd to Annotate Research Aspects on 10,000+ Abstracts in the COVID-19 Open Research Dataset ( http://arxiv.org/abs/2005.02367v5 )

ライセンス: Link先を確認
Ting-Hao 'Kenneth' Huang, Chieh-Yang Huang, Chien-Kuang Cornelia Ding, Yen-Chia Hsu, and C. Lee Giles(参考訳) 本稿は、COVID-19 Open Research Datasetにおける、背景、目的、方法、発見/貢献、その他の10,966の英語の抽象化をコードする、人間による注釈付きデータセットであるCODA-19を紹介する。 CODA-19は10日以内にアマゾン・メカニカル・トルコの248人の群衆労働者によって作られ、専門家に匹敵するラベル付け品質を達成した。 それぞれの要約は9人の異なる労働者によって注釈され、最後のラベルは多数決で獲得された。 観客と生物医学の専門家(0.741)の間の注釈間合意(cohen's kappa)は、専門家間合意(0.788)に匹敵する。 CODA-19のラベルは、バイオメディカルの専門家のラベルと比較して82.2%の精度で、専門家間の精度は85.0%である。 信頼性の高い人間のアノテーションは、急速に加速する新型コロナウイルスの文献にアクセスし統合するのに役立ち、AI/NLP研究のバッテリーとしても機能する。 我々は、新型コロナウイルスとの戦いに参加するために、非専門家の群衆を急速に雇用できることを実証した。

This paper introduces CODA-19, a human-annotated dataset that codes the Background, Purpose, Method, Finding/Contribution, and Other sections of 10,966 English abstracts in the COVID-19 Open Research Dataset. CODA-19 was created by 248 crowd workers from Amazon Mechanical Turk within 10 days, and achieved labeling quality comparable to that of experts. Each abstract was annotated by nine different workers, and the final labels were acquired by majority vote. The inter-annotator agreement (Cohen's kappa) between the crowd and the biomedical expert (0.741) is comparable to inter-expert agreement (0.788). CODA-19's labels have an accuracy of 82.2% when compared to the biomedical expert's labels, while the accuracy between experts was 85.0%. Reliable human annotations help scientists access and integrate the rapidly accelerating coronavirus literature, and also serve as the battery of AI/NLP research, but obtaining expert annotations can be slow. We demonstrated that a non-expert crowd can be rapidly employed at scale to join the fight against COVID-19.
翻訳日:2022-12-06 14:27:29 公開日:2020-09-17
# 時間窓のアンサンブルを用いたイベントベース視覚位置認識

Event-based visual place recognition with ensembles of temporal windows ( http://arxiv.org/abs/2006.02826v2 )

ライセンス: Link先を確認
Tobias Fischer and Michael Milford(参考訳) イベントカメラはバイオインスパイアされたセンサーで、低レイテンシと高ダイナミックレンジの連続的なイベントストリームを提供する。 単一のイベントは特定のピクセルの明るさ変化に関する限られた情報しか持たないため、イベントは時空間ウィンドウに蓄積され、さらなる処理が行われる。 しかし、最適な窓の長さはシーン、カメラの動き、実行中のタスク、その他の要因によって異なる。 本研究では,並列に処理される長さの異なる時間窓を組み合わせた新しいアンサンブル方式を提案する。 また,本手法の計算要件の増大が実用的でないアプリケーションに対して,アンサンブル手法による性能向上を損なうことなく,計算効率の大幅な向上を実現する新たな「近似」アンサンブルスキームを導入する。 我々は,視覚的位置認識(VPR)タスクにおけるアンサンブル方式を実証し,DAVIS346カラーイベントカメラで記録した注釈付き記録を備えた新しいブリスベンイベント-VPRデータセットを導入した。 提案手法は,vbrパイプラインで使用される画像再構成法や特徴抽出法に関わらず,従来のモデルベースラインやモデルベースアンサンブルよりも大幅に優れており,どのアンサンブル組み合わせ手法が最適かを評価できる。 これらの結果は,VPR領域におけるイベントカメラ処理におけるアンサンブル方式の意義を示し,特徴追跡,視覚慣性計測,運転時のステアリング予測など他の関連プロセスとの関連性を示した。

Event cameras are bio-inspired sensors capable of providing a continuous stream of events with low latency and high dynamic range. As a single event only carries limited information about the brightness change at a particular pixel, events are commonly accumulated into spatio-temporal windows for further processing. However, the optimal window length varies depending on the scene, camera motion, the task being performed, and other factors. In this research, we develop a novel ensemble-based scheme for combining temporal windows of varying lengths that are processed in parallel. For applications where the increased computational requirements of this approach are not practical, we also introduce a new "approximate" ensemble scheme that achieves significant computational efficiencies without unduly compromising the original performance gains provided by the ensemble approach. We demonstrate our ensemble scheme on the visual place recognition (VPR) task, introducing a new Brisbane-Event-VPR dataset with annotated recordings captured using a DAVIS346 color event camera. We show that our proposed ensemble scheme significantly outperforms all the single-window baselines and conventional model-based ensembles, irrespective of the image reconstruction and feature extraction methods used in the VPR pipeline, and evaluate which ensemble combination technique performs best. These results demonstrate the significant benefits of ensemble schemes for event camera processing in the VPR domain and may have relevance to other related processes, including feature tracking, visual-inertial odometry, and steering prediction in driving.
翻訳日:2022-11-30 09:42:41 公開日:2020-09-17
# SERIL:正規化に基づくインクリメンタル学習による雑音適応音声強調

SERIL: Noise Adaptive Speech Enhancement using Regularization-based Incremental Learning ( http://arxiv.org/abs/2005.11760v2 )

ライセンス: Link先を確認
Chi-Chang Lee, Yu-Chen Lin, Hsuan-Tien Lin, Hsin-Min Wang, Yu Tsao(参考訳) 音声強調法(SE)における微調整深層学習モデルに対して,多数の雑音適応手法が提案されている。 しかし、新しい環境への適応は、以前に学んだ環境を壊滅的に忘れてしまう可能性がある。 悲惨な忘れる問題は、しばしば以前のノイズ環境を再考する現実世界の組み込みデバイスにおけるSEの性能を低下させる。 組み込みデバイスの性質上、すべての事前トレーニングされたモデルや以前のトレーニングデータの追加ストレージで問題を解決することはできない。 本稿では,正規化に基づくインクリメンタル学習se(seril)戦略を提案し,追加ストレージを使わずに既存の雑音適応戦略を補完する。 正規化制約により、パラメータは、以前のノイズ環境の知識を保持しながら、新しいノイズ環境に更新される。 実験の結果,新しいノイズ領域に直面した場合,SERILモデルは非適応SEモデルよりも優れていた。 一方、微調整に基づく現在の適応手法と比較すると、セリルモデルは従来の雑音環境を52%減らすことができる。 その結果,セリルモデルが壊滅的な音環境を克服しながら,新しい騒音環境に効果的に適応できることが確認された。 その結果、SERILは実世界のSEアプリケーションに好適な選択となり、ノイズ環境は頻繁に変化する。

Numerous noise adaptation techniques have been proposed to fine-tune deep-learning models in speech enhancement (SE) for mismatched noise environments. Nevertheless, adaptation to a new environment may lead to catastrophic forgetting of the previously learned environments. The catastrophic forgetting issue degrades the performance of SE in real-world embedded devices, which often revisit previous noise environments. The nature of embedded devices does not allow solving the issue with additional storage of all pre-trained models or earlier training data. In this paper, we propose a regularization-based incremental learning SE (SERIL) strategy, complementing existing noise adaptation strategies without using additional storage. With a regularization constraint, the parameters are updated to the new noise environment while retaining the knowledge of the previous noise environments. The experimental results show that, when faced with a new noise domain, the SERIL model outperforms the unadapted SE model. Meanwhile, compared with the current adaptive technique based on fine-tuning, the SERIL model can reduce the forgetting of previous noise environments by 52%. The results verify that the SERIL model can effectively adjust itself to new noise environments while overcoming the catastrophic forgetting issue. The results make SERIL a favorable choice for real-world SE applications, where the noise environment changes frequently.
翻訳日:2022-11-29 14:10:47 公開日:2020-09-17
# セマンティックロスのエンティティ関係認識への応用

Semantic Loss Application to Entity Relation Recognition ( http://arxiv.org/abs/2006.04031v2 )

ライセンス: Link先を確認
Venkata Sasank Pagolu(参考訳) 通常、エンティティ関係認識システムは、エンティティのタグ付けと関係の識別を別々のタスクとして扱うパイプ線モデルを使うか、関係と実体を同時に識別するジョイントモデルを使用する。 本稿では,これら2つのエンティティ関係認識手法を比較した。 最先端のエンティティ関係認識システムは、しばしば問題の記号的知識や論理的制約を捉えないディープリカレントニューラルネットワークを用いて構築される。 本論文の主な貢献は,新しい損失関数を組み込んだ結合関係抽出のためのエンドツーエンドニューラルネットワークである。 この新たな損失関数は、問題の制約情報を符号化し、モデルのトレーニングを効果的に導く。 この損失関数を既存の典型的な損失関数に追加することは、モデルの性能にプラスの影響を与えることを示す。 このモデルは本当にエンドツーエンドで、機能エンジニアリングを必要とせず、容易に拡張できます。 自然言語理解における記号的知識の獲得の重要性を評価するために,広範囲な実験が行われた。 この損失関数を用いたモデルは、そのモデルよりも優れ、より速く収束している。 本研究の実験的結果は、他の言語理解アプリケーションにこの方法論を用いることを示唆している。

Usually, entity relation recognition systems either use a pipe-lined model that treats the entity tagging and relation identification as separate tasks or a joint model that simultaneously identifies the relation and entities. This paper compares these two general approaches for the entity relation recognition. State-of-the-art entity relation recognition systems are built using deep recurrent neural networks which often does not capture the symbolic knowledge or the logical constraints in the problem. The main contribution of this paper is an end-to-end neural model for joint entity relation extraction which incorporates a novel loss function. This novel loss function encodes the constraint information in the problem to guide the model training effectively. We show that addition of this loss function to the existing typical loss functions has a positive impact over the performance of the models. This model is truly end-to-end, requires no feature engineering and easily extensible. Extensive experimentation has been conducted to evaluate the significance of capturing symbolic knowledge for natural language understanding. Models using this loss function are observed to be outperforming their counterparts and converging faster. Experimental results in this work suggest the use of this methodology for other language understanding applications.
翻訳日:2022-11-24 07:20:45 公開日:2020-09-17
# 機械翻訳としての映像理解

Video Understanding as Machine Translation ( http://arxiv.org/abs/2006.07203v2 )

ライセンス: Link先を確認
Bruno Korbar, Fabio Petroni, Rohit Girdhar, Lorenzo Torresani(参考訳) 大規模なマルチモーダルビデオデータセット、特に音声や転写音声を含むシーケンスの出現により、ビデオ表現の自己教師あり学習への関心が高まっている。 ほとんどの先行研究は、目的をモダリティ間の対比的距離学習問題として定式化している。 しかし, 効果的な学習を実現するためには, 正と負のサンプルを慎重に選択する必要がある。 本研究では,モダリティ間の翻訳問題として目的を定式化する生成的モデリング手法を用いて,負のサンプリングの必要性を解消する。 このような定式化により、コントラッシブなメトリック学習に共通する負のサンプルの大きなバッチを必要とせず、単一の統合フレームワークを用いて、幅広いダウンストリームビデオ理解タスクに取り組むことができる。 大規模なトレーニング用ハウト100Mデータセットを実験し、ビデオ分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)、テキストベースのクリップ検索(YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクに対して、最先端の性能向上を報告した。

With the advent of large-scale multimodal video datasets, especially sequences with audio or transcribed speech, there has been a growing interest in self-supervised learning of video representations. Most prior work formulates the objective as a contrastive metric learning problem between the modalities. To enable effective learning, however, these strategies require a careful selection of positive and negative samples often combined with hand-designed curriculum policies. In this work we remove the need for negative sampling by taking a generative modeling approach that poses the objective as a translation problem between modalities. Such a formulation allows us to tackle a wide variety of downstream video understanding tasks by means of a single unified framework, without the need for large batches of negative samples common in contrastive metric learning. We experiment with the large-scale HowTo100M dataset for training, and report performance gains over the state-of-the-art on several downstream tasks including video classification (EPIC-Kitchens), question answering (TVQA), captioning (TVC, YouCook2, and MSR-VTT), and text-based clip retrieval (YouCook2 and MSR-VTT).
翻訳日:2022-11-22 04:28:36 公開日:2020-09-17
# 顔認識におけるバイアス緩和のためのジェンダーニュートラル顔記述子を目指して

Towards Gender-Neutral Face Descriptors for Mitigating Bias in Face Recognition ( http://arxiv.org/abs/2006.07845v2 )

ライセンス: Link先を確認
Prithviraj Dhar, Joshua Gleason, Hossein Souri, Carlos D. Castillo, Rama Chellappa(参考訳) 最先端のディープネットワークは、顔認識のために訓練されている間、性別情報を暗黙的にエンコードする。 性別はしばしば顔の識別に関して重要な属性と見なされる。 しかし、顔ディスクリプタにおける性別情報の暗黙的なエンコーディングには2つの大きな問題がある: (a) 悪意のあるエージェントがそのようなディスクリプタから顔の性別を予測するためにトレーニングすることができる。 (b) これは、顔認識における性別バイアス、すなわち、男性と女性の顔におけるDCNNの認識精度に有意な違いがあると考えられる。 そこで本稿では,以前に訓練された顔認識ネットワークから得られた顔記述子に存在する性別情報を削減するための,新しい「AGENDA(Adversarial Gender De-biasing Algorithm)」を提案する。 AGENDAは顔記述子の性別予測可能性を著しく低下させる。 その結果,適切な認識性能を維持しつつ,顔認証における性別バイアスを低減できる。

State-of-the-art deep networks implicitly encode gender information while being trained for face recognition. Gender is often viewed as an important attribute with respect to identifying faces. However, the implicit encoding of gender information in face descriptors has two major issues: (a.) It makes the descriptors susceptible to privacy leakage, i.e. a malicious agent can be trained to predict the face gender from such descriptors. (b.) It appears to contribute to gender bias in face recognition, i.e. we find a significant difference in the recognition accuracy of DCNNs on male and female faces. Therefore, we present a novel `Adversarial Gender De-biasing algorithm (AGENDA)' to reduce the gender information present in face descriptors obtained from previously trained face recognition networks. We show that AGENDA significantly reduces gender predictability of face descriptors. Consequently, we are also able to reduce gender bias in face verification while maintaining reasonable recognition performance.
翻訳日:2022-11-21 13:14:08 公開日:2020-09-17
# 相互学習のフェデレーション

Federated Mutual Learning ( http://arxiv.org/abs/2006.16765v3 )

ライセンス: Link先を確認
Tao Shen, Jie Zhang, Xinkang Jia, Fengda Zhang, Gang Huang, Pan Zhou, Kun Kuang, Fei Wu, Chao Wu(参考訳) federated learning(fl)は、分散データ上でディープラーニングモデルを協調的にトレーニングすることを可能にする。 しかし、FL設定には3種類の異種性があり、標準連合学習アルゴリズム(FedAvg)に固有の課題をもたらす。 First, due to the Non-IIDness of data, the global shared model may perform worse than local models that solely trained on their private data; Second, the objective of center server and clients may be different, where center server seeks for a generalized model whereas client pursue a personalized model, and clients may run different tasks; Third, clients may need to design their customized model for various scenes and tasks; In this work, we present a novel federated learning paradigm, named Federated Mutual Leaning (FML), dealing with the three heterogeneities. fmlは、クライアントが汎用モデルとパーソナライズされたモデルを独立して訓練し、プライベートカスタマイズされたモデルを設計できる。 したがって、データの非IID性はもはやバグではなく、クライアントが個人的により良く提供できる機能である。 実験により、FMLは通常のFL設定よりも優れたパフォーマンスを達成でき、クライアントは異なるモデルやタスクでFMLから恩恵を受けることができることがわかった。

Federated learning (FL) enables collaboratively training deep learning models on decentralized data. However, there are three types of heterogeneities in FL setting bringing about distinctive challenges to the canonical federated learning algorithm (FedAvg). First, due to the Non-IIDness of data, the global shared model may perform worse than local models that solely trained on their private data; Second, the objective of center server and clients may be different, where center server seeks for a generalized model whereas client pursue a personalized model, and clients may run different tasks; Third, clients may need to design their customized model for various scenes and tasks; In this work, we present a novel federated learning paradigm, named Federated Mutual Leaning (FML), dealing with the three heterogeneities. FML allows clients training a generalized model collaboratively and a personalized model independently, and designing their private customized models. Thus, the Non-IIDness of data is no longer a bug but a feature that clients can be personally served better. The experiments show that FML can achieve better performance than alternatives in typical FL setting, and clients can be benefited from FML with different models and tasks.
翻訳日:2022-11-16 07:57:57 公開日:2020-09-17
# スマートアシスタント自動化のためのセマンティックWebフレームワーク:COVID-19事例

A Semantic Web Framework for Automated Smart Assistants: COVID-19 Case Study ( http://arxiv.org/abs/2007.00747v2 )

ライセンス: Link先を確認
Yusuf Sermet and Ibrahim Demir(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、知識システムが、異なる背景と技術資源を持つ人々の実質的なグループに正確な情報を伝える必要がある場合に有効であると結論付けた。 しかし、いくつかの課題や障害は、公衆衛生部門や組織によるバーチャルアシスタントの普及を妨げている。 本稿では、基盤となるドメインや技術に関係なく、あらゆるWebプラットフォームに対して音声対応スマートアシスタント(チャットボット)を構築、統合するためのオープンソースのセマンティックWebフレームワークであるInstant Expertを提案する。 このコンポーネントにより、非技術者のドメインエキスパートは、音声認識機能を備えた操作アシスタントをウェブサイトに無力に組み込むことができる。 instant expertは、情報リソースとして頻繁に聞かれる質問ページを自動的に解析、処理、モデリングし、オントロジ駆動推論と動的データ利用のための外部知識エンジンと通信することができる。 提案フレームワークは,高度なWeb技術を活用して再利用性と信頼性を確保するとともに,ディープラーニングとヒューリスティックアルゴリズムを活用した自然言語理解のための推論エンジンである。 CDC(Centers for Disease Control and Prevention, 疾病予防管理センター)データに基づく、新型コロナウイルスのインフォメーションアシスタントを作成するためのユースケースを提示し、このフレームワークの使用とメリットを実証する。

COVID-19 pandemic elucidated that knowledge systems will be instrumental in cases where accurate information needs to be communicated to a substantial group of people with different backgrounds and technological resources. However, several challenges and obstacles hold back the wide adoption of virtual assistants by public health departments and organizations. This paper presents the Instant Expert, an open-source semantic web framework to build and integrate voice-enabled smart assistants (i.e. chatbots) for any web platform regardless of the underlying domain and technology. The component allows non-technical domain experts to effortlessly incorporate an operational assistant with voice recognition capability into their websites. Instant Expert is capable of automatically parsing, processing, and modeling Frequently Asked Questions pages as an information resource as well as communicating with an external knowledge engine for ontology-powered inference and dynamic data utilization. The presented framework utilizes advanced web technologies to ensure reusability and reliability, and an inference engine for natural language understanding powered by deep learning and heuristic algorithms. A use case for creating an informatory assistant for COVID-19 based on the Centers for Disease Control and Prevention (CDC) data is presented to demonstrate the framework's usage and benefits.
翻訳日:2022-11-14 23:47:39 公開日:2020-09-17
# 正規化補正による時間差勾配学習

Gradient Temporal-Difference Learning with Regularized Corrections ( http://arxiv.org/abs/2007.00611v4 )

ライセンス: Link先を確認
Sina Ghiassian, Andrew Patterson, Shivam Garg, Dhawal Gupta, Adam White, Martha White(参考訳) q-learning とtemporal difference (td) の学習は、発散問題や音勾配 td の代替物が存在するにもかかわらず一般的である。 しかし、最近の大規模ニューラルネットワーク学習システムによる研究により、不安定性は以前考えられていたよりも一般的であることが判明した。 実践者は難しいジレンマに直面している: 使いやすくパフォーマンスのよいTD法を選択するか、より健全でチューニングが難しく、非線形関数近似や制御で探索されていないアルゴリズムを選択する。 本稿では,tdrc(regularized corrections)と呼ばれる,使いやすさ,音質,性能のバランスを図る新しい手法を提案する。 TDがうまく機能するとTDと同様に振る舞うが、TDが分岐する場合には音が聞こえる。 予測と制御、線形関数近似と非線形関数近似の両方において、様々な問題にわたるtdrcを実証的に検討し、初めて勾配td法がtdとq-learningのより良い代替になりうることを示した。

It is still common to use Q-learning and temporal difference (TD) learning-even though they have divergence issues and sound Gradient TD alternatives exist-because divergence seems rare and they typically perform well. However, recent work with large neural network learning systems reveals that instability is more common than previously thought. Practitioners face a difficult dilemma: choose an easy to use and performant TD method, or a more complex algorithm that is more sound but harder to tune and all but unexplored with non-linear function approximation or control. In this paper, we introduce a new method called TD with Regularized Corrections (TDRC), that attempts to balance ease of use, soundness, and performance. It behaves as well as TD, when TD performs well, but is sound in cases where TD diverges. We empirically investigate TDRC across a range of problems, for both prediction and control, and for both linear and non-linear function approximation, and show, potentially for the first time, that gradient TD methods could be a better alternative to TD and Q-learning.
翻訳日:2022-11-14 21:41:28 公開日:2020-09-17
# リカレントニューラルネットワークと微分方程式に基づく時空間感染症モデルとCOVID-19への応用

A Recurrent Neural Network and Differential Equation Based Spatiotemporal Infectious Disease Model with Application to COVID-19 ( http://arxiv.org/abs/2007.10929v2 )

ライセンス: Link先を確認
Zhijian Li, Yunling Zheng, Jack Xin, and Guofa Zhou(参考訳) コロナウイルス感染症2019(COVID-19)の流行は世界に大きな影響を与えた。 感染者の感染傾向とリアルタイム予測のモデル化は、疾患の意思決定とコントロールの拡大に役立つ。 しかし、リカレントニューラルネットワーク(RNN)のようなデータ駆動型手法は、時間的に制限された日々のサンプルのために性能が低下する可能性がある。 本研究では,拡散微分方程式(SIR)とRNNに基づく時空間統合モデルを開発する。 前者は簡易化と離散化の後に、ある領域の時間的感染傾向のコンパクトモデルであり、後者は隣り合う領域の効果をモデル化する。 後者は潜在空間情報をキャプチャする。 %は公表されていない。 イタリアの新型コロナウイルス(COVID-19)データをトレーニングし,既存の時間モデル(NN,SIR,ARIMA)を1日,3日,1週間の予測で上回っていることを示す。

The outbreaks of Coronavirus Disease 2019 (COVID-19) have impacted the world significantly. Modeling the trend of infection and real-time forecasting of cases can help decision making and control of the disease spread. However, data-driven methods such as recurrent neural networks (RNN) can perform poorly due to limited daily samples in time. In this work, we develop an integrated spatiotemporal model based on the epidemic differential equations (SIR) and RNN. The former after simplification and discretization is a compact model of temporal infection trend of a region while the latter models the effect of nearest neighboring regions. The latter captures latent spatial information. %that is not publicly reported. We trained and tested our model on COVID-19 data in Italy, and show that it out-performs existing temporal models (fully connected NN, SIR, ARIMA) in 1-day, 3-day, and 1-week ahead forecasting especially in the regime of limited training data.
翻訳日:2022-11-10 14:24:26 公開日:2020-09-17
# 文脈言語モデルのアンサンブルを用いた化学特許における名前付きエンティティ認識

Named entity recognition in chemical patents using ensemble of contextual language models ( http://arxiv.org/abs/2007.12569v2 )

ライセンス: Link先を確認
Jenny Copara and Nona Naderi and Julien Knafou and Patrick Ruch and Douglas Teodoro(参考訳) 化学特許文書は、化学構造、反応式、分子特性など、キー反応と化合物情報を保持する幅広い応用を記述している。 これらの情報エンティティは、ダウンストリームタスクで使用されるテキストパスで最初に識別されるべきである。 テキストマイニングは、情報抽出技術を通じて化学特許から関連情報を抽出する手段を提供する。 化学情報学エルゼビエメルボルン大学チャレンジの情報抽出タスクの一環として, 化学特許における反応情報抽出における文脈化言語モデルの有効性について検討した。 我々は,新しいアンサンブルモデルを提案するために,ジェネリックで特殊化されたコーパスで訓練されたトランスフォーマーアーキテクチャを評価する。 我々の最良のモデルは、多数アンサンブルのアプローチに基づくもので、正確なF1スコアは92.30%、緩和されたF1スコアは96.24%に達する。 その結果, 文脈型言語モデルのアンサンブルは, 化学特許から情報を抽出する有効な方法であることがわかった。

Chemical patent documents describe a broad range of applications holding key reaction and compound information, such as chemical structure, reaction formulas, and molecular properties. These informational entities should be first identified in text passages to be utilized in downstream tasks. Text mining provides means to extract relevant information from chemical patents through information extraction techniques. As part of the Information Extraction task of the Cheminformatics Elsevier Melbourne University challenge, in this work we study the effectiveness of contextualized language models to extract reaction information in chemical patents. We assess transformer architectures trained on a generic and specialised corpora to propose a new ensemble model. Our best model, based on a majority ensemble approach, achieves an exact F1-score of 92.30% and a relaxed F1-score of 96.24%. The results show that ensemble of contextualized language models can provide an effective method to extract information from chemical patents.
翻訳日:2022-11-07 06:40:14 公開日:2020-09-17
# 自己教師付き学習とバックサムマリゼーションを用いた抽象的音声要約にラベルなしデータを活用する

Leverage Unlabeled Data for Abstractive Speech Summarization with Self-Supervised Learning and Back-Summarization ( http://arxiv.org/abs/2007.15296v2 )

ライセンス: Link先を確認
Paul Tardy, Louis de Seynes, Fran\c{c}ois Hernandez, Vincent Nguyen, David Janiszek, Yannick Est\`eve(参考訳) 神経抽象的要約のための教師付きアプローチは、構築にコストがかかる大きな注釈付きコーパスを必要とする。 本稿では,会議音声記録の自動書き起こしに基づいて報告を予測したフランス会議要約タスクを提案する。 このタスクのためのコーパスを構築するには、各ミーティングの(自動的または手動の)書き起こしを取得し、それを対応するマニュアルレポートに分割して調整し、トレーニングに適したトレーニングサンプルを作成する必要がある。 一方で、私たちは大量の非整合データ、特に対応する転写なしでレポートにアクセスできます。 レポートはプロフェッショナルに書かれ、フォーマットがよく、前処理を簡単にします。 この文脈では、2つのアプローチを用いてこの膨大な不整合データを利用する方法を研究する。 (i)対象側デノイジングエンコーダ・デコーダモデルを用いた自己教師付き事前学習 (ii)要約過程の逆転、すなわち、レポートに与えられた書き起こしを予測し、単一のレポートを生成された書き起こしと整合させ、この合成データセットを更なる訓練に使用すること。 本報告では,2つの評価セットに対する2つのアプローチについて,前回のベースライン(アライメントデータのみに基づく)と比較して大きな改善点を報告する。 さらにこの2つを組み合わせることで,2つの評価セットにおいて,+6 ROUGE-1と+5 ROUGE-2の大きなマージンでベースラインを上回り,さらによい結果が得られる。

Supervised approaches for Neural Abstractive Summarization require large annotated corpora that are costly to build. We present a French meeting summarization task where reports are predicted based on the automatic transcription of the meeting audio recordings. In order to build a corpus for this task, it is necessary to obtain the (automatic or manual) transcription of each meeting, and then to segment and align it with the corresponding manual report to produce training examples suitable for training. On the other hand, we have access to a very large amount of unaligned data, in particular reports without corresponding transcription. Reports are professionally written and well formatted making pre-processing straightforward. In this context, we study how to take advantage of this massive amount of unaligned data using two approaches (i) self-supervised pre-training using a target-side denoising encoder-decoder model; (ii) back-summarization i.e. reversing the summarization process by learning to predict the transcription given the report, in order to align single reports with generated transcription, and use this synthetic dataset for further training. We report large improvements compared to the previous baseline (trained on aligned data only) for both approaches on two evaluation sets. Moreover, combining the two gives even better results, outperforming the baseline by a large margin of +6 ROUGE-1 and ROUGE-L and +5 ROUGE-2 on two evaluation sets
翻訳日:2022-11-05 13:57:20 公開日:2020-09-17
# 動作認識のためのBERTを用いた3次元CNNアーキテクチャの後期時間モデリング

Late Temporal Modeling in 3D CNN Architectures with BERT for Action Recognition ( http://arxiv.org/abs/2008.01232v3 )

ライセンス: Link先を確認
M. Esat Kalfaoglu, Sinan Kalkan, A. Aydin Alatan(参考訳) 本研究では,動作認識のための3次元畳み込みと遅延時間モデルを組み合わせる。 この目的のために,3次元畳み込みアーキテクチャの終端にある従来の時間的大域平均プーリング(tgap)層をトランスフォーマ(bert)層からの双方向エンコーダ表現に置き換え,bertの注意機構を用いた時間的情報の利用性を向上させる。 この代替により、ResNeXt、I3D、SlowFast、R(2+1)Dなど、アクション認識のための一般的な3D畳み込みアーキテクチャの性能が向上することを示す。 さらに、HMDB51とUCF101のデータセットのそれぞれ85.10%と98.69%のトップ-1の精度で、最先端の結果を提供する。 コードは公開されている。

In this work, we combine 3D convolution with late temporal modeling for action recognition. For this aim, we replace the conventional Temporal Global Average Pooling (TGAP) layer at the end of 3D convolutional architecture with the Bidirectional Encoder Representations from Transformers (BERT) layer in order to better utilize the temporal information with BERT's attention mechanism. We show that this replacement improves the performances of many popular 3D convolution architectures for action recognition, including ResNeXt, I3D, SlowFast and R(2+1)D. Moreover, we provide the-state-of-the-art results on both HMDB51 and UCF101 datasets with 85.10% and 98.69% top-1 accuracy, respectively. The code is publicly available.
翻訳日:2022-11-03 06:49:40 公開日:2020-09-17
# プロポーショナル・ハザード非負マトリックス因子化による低ランク再組織化による遺伝子クラスターの生存

Low-Rank Reorganization via Proportional Hazards Non-negative Matrix Factorization Unveils Survival Associated Gene Clusters ( http://arxiv.org/abs/2008.03776v2 )

ライセンス: Link先を確認
Zhi Huang, Paul Salama, Wei Shao, Jie Zhang, Kun Huang(参考訳) 精密健康における中心的な目標の1つは、疾患の開始、発生、結果に関連する遺伝子やマーカーを特定するための高次元生物学的データの理解と解釈である。 生存時間を含む時間-事象モデリングを考慮しつつ、複数の解析で遺伝子発現データを活用することに多大な努力がなされているが、多くの伝統的な分析は遺伝子発現データ行列の非負行列分解(nmf)とcox比例ハザードモデルによる生存回帰に注目している。 この研究において、Cox比例ハザードの回帰は生存制約を課すことでNMFと統合される。 これは、フロベニウスのノルムと、死や再発のような事象に対する部分ログの確率を共同で最適化することで達成される。 合成データのシミュレーションの結果,他のアルゴリズムと比較して,生存関連遺伝子クラスターの発見において,提案手法の優位性を示した。 さらに, ヒト癌遺伝子発現データを用いて, 癌遺伝子の重要なクラスターを探索する手法を提案する。 発見された遺伝子クラスターは、豊富な生物学的意義を反映しており、生存関連バイオマーカーの同定に役立ちます。 精度の高い健康とがん治療の目標に向けて,提案アルゴリズムは生存関連遺伝子クラスターの正確な同定による高次元異種ゲノムデータの理解と解釈を支援する。

One of the central goals in precision health is the understanding and interpretation of high-dimensional biological data to identify genes and markers associated with disease initiation, development, and outcomes. Though significant effort has been committed to harness gene expression data for multiple analyses while accounting for time-to-event modeling by including survival times, many traditional analyses have focused separately on non-negative matrix factorization (NMF) of the gene expression data matrix and survival regression with Cox proportional hazards model. In this work, Cox proportional hazards regression is integrated with NMF by imposing survival constraints. This is accomplished by jointly optimizing the Frobenius norm and partial log likelihood for events such as death or relapse. Simulation results on synthetic data demonstrated the superiority of the proposed method, when compared to other algorithms, in finding survival associated gene clusters. In addition, using human cancer gene expression data, the proposed technique can unravel critical clusters of cancer genes. The discovered gene clusters reflect rich biological implications and can help identify survival-related biomarkers. Towards the goal of precision health and cancer treatments, the proposed algorithm can help understand and interpret high-dimensional heterogeneous genomics data with accurate identification of survival-associated gene clusters.
翻訳日:2022-11-01 04:06:34 公開日:2020-09-17
# ARPM-net : Markov Random Field を用いた骨盤CT画像における前立腺および臓器の危険セグメンテーションにおける新しいCNN-based adversarial method

ARPM-net: A novel CNN-based adversarial method with Markov Random Field enhancement for prostate and organs at risk segmentation in pelvic CT images ( http://arxiv.org/abs/2008.04488v4 )

ライセンス: Link先を確認
Zhuangzhuang Zhang, Tianyu Zhao, Hiram Gay, Weixiong Zhang, Baozhou Sun(参考訳) 目的: 骨盤CT画像の多臓器セマンティックセグメンテーションを改善し, 高速化し, 骨盤CT画像の正確な輪郭を生成するために, 新たなCNNベースの逆深層学習法を開発することである。 方法:前立腺癌120例を対象としたCTと構造データセットを振り返って選択し,10倍のクロスバリデーションを行った。 提案するadversarial multi-residual multi-residual pooling markov random field (mrf) enhanced network (arpm-net) は,対向学習方式を実装している。 セグメンテーションネットワークと差別化ネットワークを共同でトレーニングし、予測にはセグメンテーションネットワークのみを使用した。 セグメンテーションネットワークは、新しく設計されたMRFブロックをマルチレジデンシャルなU-netのバリエーションに統合する。 判別器は、元のCTと予測/地上真実の積を入力とし、入力を偽/現実に分類する。 セグメンテーションネットワークと判別器ネットワークとを総合的に訓練したり、セグメンテーションネットワークを粗く訓練した後に判別器を微調整したりすることができる。 マルチスケールプーリング層を導入し,アトラス畳み込み層に比べて少ないメモリでプール時の空間分解能を保った。 適応的損失関数は小または低コントラスト臓器の訓練を強化するために提案された。 モデル付き輪郭の精度はDice similarity coefficient (DSC), Average Hausdorff Distance (AHD), Average Surface Hausdorff Distance (ASHD), relative Volume difference (VD) を用いて測定した。 提案手法は,最先端のディープラーニング手法と比較した。

Purpose: The research is to develop a novel CNN-based adversarial deep learning method to improve and expedite the multi-organ semantic segmentation of CT images, and to generate accurate contours on pelvic CT images. Methods: Planning CT and structure datasets for 120 patients with intact prostate cancer were retrospectively selected and divided for 10-fold cross-validation. The proposed adversarial multi-residual multi-scale pooling Markov Random Field (MRF) enhanced network (ARPM-net) implements an adversarial training scheme. A segmentation network and a discriminator network were trained jointly, and only the segmentation network was used for prediction. The segmentation network integrates a newly designed MRF block into a variation of multi-residual U-net. The discriminator takes the product of the original CT and the prediction/ground-truth as input and classifies the input into fake/real. The segmentation network and discriminator network can be trained jointly as a whole, or the discriminator can be used for fine-tuning after the segmentation network is coarsely trained. Multi-scale pooling layers were introduced to preserve spatial resolution during pooling using less memory compared to atrous convolution layers. An adaptive loss function was proposed to enhance the training on small or low contrast organs. The accuracy of modeled contours was measured with the Dice similarity coefficient (DSC), Average Hausdorff Distance (AHD), Average Surface Hausdorff Distance (ASHD), and relative Volume Difference (VD) using clinical contours as references to the ground-truth. The proposed ARPM-net method was compared to several stateof-the-art deep learning methods.
翻訳日:2022-10-31 12:11:52 公開日:2020-09-17
# グラフコンパイラとコンテナを使用したAIトレーニングデプロイメントの最適化

Optimising AI Training Deployments using Graph Compilers and Containers ( http://arxiv.org/abs/2008.11675v2 )

ライセンス: Link先を確認
Nina Mujkanovic and Karthee Sivalingam and Alfio Lazzaro(参考訳) ディープニューラルネットワーク(DNN)やディープ・ラーニング(DL)に基づく人工知能(AI)アプリケーションは、画像解析や音声認識といった問題の解決に成功して普及している。 DNNのトレーニングは計算集約的であり、ハイパフォーマンスコンピューティング(HPC)がAIの成長の鍵を握っている。 仮想化とコンテナ技術は、クラウドとHPCインフラストラクチャの収束につながった。 多様なハードウェアを備えたこれらのインフラストラクチャは、AIトレーニングワークロードのデプロイと最適化の複雑さを高めます。 HPCやクラウドでのAIトレーニングデプロイメントは、ターゲット固有のライブラリ、グラフコンパイラ、データ移動やIOの改善によって最適化できる。 グラフコンパイラは、ターゲットハードウェア/バックエンドの最適化コードを生成することにより、DNNグラフの実行を最適化することを目指している。 sodalite(horizon 2020プロジェクト)の一部としてmodakツールが開発され、ソフトウェア定義インフラストラクチャにおけるアプリケーションのデプロイを最適化する。 データサイエンティストとパフォーマンスモデリングからの入力を使用して、MODAKは最適なアプリケーションパラメータをターゲットインフラストラクチャにマッピングし、最適化されたコンテナを構築する。 本稿では、MODAKを導入し、コンテナ技術とAI用のグラフコンパイラについてレビューする。 グラフコンパイラとSingularityコンテナを用いたAIトレーニングデプロイメントの最適化について説明する。 MNIST-CNNとResNet50のトレーニングワークロードを使用した評価は、カスタムビルドされた最適化コンテナがDockerHubの公式イメージより優れていることを示している。 また,グラフコンパイラの性能は,対象ハードウェアとニューラルネットワークの複雑さに依存することがわかった。

Artificial Intelligence (AI) applications based on Deep Neural Networks (DNN) or Deep Learning (DL) have become popular due to their success in solving problems likeimage analysis and speech recognition. Training a DNN is computationally intensive and High Performance Computing(HPC) has been a key driver in AI growth. Virtualisation and container technology have led to the convergence of cloud and HPC infrastructure. These infrastructures with diverse hardware increase the complexity of deploying and optimising AI training workloads. AI training deployments in HPC or cloud can be optimised with target-specific libraries, graph compilers, andby improving data movement or IO. Graph compilers aim to optimise the execution of a DNN graph by generating an optimised code for a target hardware/backend. As part of SODALITE (a Horizon 2020 project), MODAK tool is developed to optimise application deployment in software defined infrastructures. Using input from the data scientist and performance modelling, MODAK maps optimal application parameters to a target infrastructure and builds an optimised container. In this paper, we introduce MODAK and review container technologies and graph compilers for AI. We illustrate optimisation of AI training deployments using graph compilers and Singularity containers. Evaluation using MNIST-CNN and ResNet50 training workloads shows that custom built optimised containers outperform the official images from DockerHub. We also found that the performance of graph compilers depends on the target hardware and the complexity of the neural network.
翻訳日:2022-10-24 22:13:47 公開日:2020-09-17
# 実例による型駆動型ニューラルプログラミング

Type-driven Neural Programming by Example ( http://arxiv.org/abs/2008.12613v5 )

ライセンス: Link先を確認
Kiara Grouwstra(参考訳) この論文では、与えられた入力を与えられた出力にマッピングするプログラムを見つけることを目的とした、例によるプログラミング(PBE)について考察する。 pbeは伝統的に形式的アプローチと神経的アプローチの2つに分かれており、形式的アプローチは一般にsatソルバや型のような推論的手法を伴い、一方、神経的アプローチは対応するプログラムでサンプル入力出力をトレーニングし、典型的にはlstms[41]のようなシーケンスベースの機械学習技術を使用する。 この分割の結果、プログラミングの型は、まだニューラルプログラム合成技術に使われていなかった。 本稿では,プログラム型をPBEのためのニューラルプログラム合成手法に組み込む方法を提案する。 本稿では,このアイデアに基づいて,TNSPS(Typed Neuro-Symbolic Program Synthesis)法を導入し,これを関数型プログラミングの文脈で検証することにより,限定サイズのデータセット上でのニューラルシンセサイザーの一般化を実証的に検証する。 tnspsモデルは、入力出力サンプルからの情報と現在のプログラムを組み合わせるツリーベースのニューラルシンセサイザーである、既存のニューロシンボリックプログラム合成(nsps)に基づいており、これらの入力出力サンプルの種類、文法生成ルール、プログラムで拡張したいホールに関する情報をさらに公開しています。 我々はさらに、合成言語としてhaskellの限られたサブセットを使用するドメイン内でデータセットをどのように生成したかを説明します。 最後に、これらのアイデアをさらに深めるのに役立ついくつかの関心事について論じる。 再現性のため、コードを公開しています。

In this thesis we look into programming by example (PBE), which is about finding a program mapping given inputs to given outputs. PBE has traditionally seen a split between formal versus neural approaches, where formal approaches typically involve deductive techniques such as SAT solvers and types, while the neural approaches involve training on sample input-outputs with their corresponding program, typically using sequence-based machine learning techniques such as LSTMs [41]. As a result of this split, programming types had yet to be used in neural program synthesis techniques. We propose a way to incorporate programming types into a neural program synthesis approach for PBE. We introduce the Typed Neuro-Symbolic Program Synthesis (TNSPS) method based on this idea, and test it in the functional programming context to empirically verify type information may help improve generalization in neural synthesizers on limited-size datasets. Our TNSPS model builds upon the existing Neuro-Symbolic Program Synthesis (NSPS), a tree-based neural synthesizer combining info from input-output examples plus the current program, by further exposing information on types of those input-output examples, of the grammar production rules, as well as of the hole that we wish to expand in the program. We further explain how we generated a dataset within our domain, which uses a limited subset of Haskell as the synthesis language. Finally we discuss several topics of interest that may help take these ideas further. For reproducibility, we release our code publicly.
翻訳日:2022-10-24 02:32:30 公開日:2020-09-17
# 医用画像のためのニューラルネットワークにおける知識伝達の評価

Evaluating Knowledge Transfer in Neural Network for Medical Images ( http://arxiv.org/abs/2008.13574v2 )

ライセンス: Link先を確認
Sina Akbarian, Laleh Seyyed-Kalantari, Farzad Khalvati, and Elham Dolatabadi(参考訳) 深層学習と知識伝達技術は医療画像の分野に浸透し、診断イメージングの実践に革命をもたらす重要なアプローチと考えられている。 しかし、大量の注記画像データがないため、深層学習の医療画像タスクへの統合が成功するには依然として課題がある。 この問題に対処するために、慎重に訓練された畳み込みニューラルネットワーク(CNN)教師から学生CNNへ知識を伝達する教師学習フレームワークを提案する。 本研究では,医用撮像装置における知識伝達性能について検討する。 学生ネットワークが小さなデータセット(ターゲットデータセット)上で訓練された場合と教師と生徒のドメインが異なる場合のネットワーク性能について検討した。 CNNモデルの性能は、糖尿病網膜症、CheXpert、ChestX-ray8を含む3つの医療画像データセットで評価される。 その結果,教師の学習フレームワークは,小さな画像データセットの転送学習よりも優れていた。 特に、教師の学習フレームワークは、CNNモデルのOC曲線(AUC)の小さなサンプルであるCheXpert(n=5k)の領域を4%、ChestX-ray8(n=5.6k)の領域を9%改善する。 また,データサイズが小さいことに加えて,移動学習と比較して,医用画像設定における教師学生学習フレームワークの利点も明らかに示す。 教師と学生のネットワークは、診断性能を向上させるだけでなく、データセットが小さい場合の過度な適合を抑えるという大きな約束を果たす。

Deep learning and knowledge transfer techniques have permeated the field of medical imaging and are considered as key approaches for revolutionizing diagnostic imaging practices. However, there are still challenges for the successful integration of deep learning into medical imaging tasks due to a lack of large annotated imaging data. To address this issue, we propose a teacher-student learning framework to transfer knowledge from a carefully pre-trained convolutional neural network (CNN) teacher to a student CNN. In this study, we explore the performance of knowledge transfer in the medical imaging setting. We investigate the proposed network's performance when the student network is trained on a small dataset (target dataset) as well as when teacher's and student's domains are distinct. The performances of the CNN models are evaluated on three medical imaging datasets including Diabetic Retinopathy, CheXpert, and ChestX-ray8. Our results indicate that the teacher-student learning framework outperforms transfer learning for small imaging datasets. Particularly, the teacher-student learning framework improves the area under the ROC Curve (AUC) of the CNN model on a small sample of CheXpert (n=5k) by 4% and on ChestX-ray8 (n=5.6k) by 9%. In addition to small training data size, we also demonstrate a clear advantage of the teacher-student learning framework in the medical imaging setting compared to transfer learning. We observe that the teacher-student network holds a great promise not only to improve the performance of diagnosis but also to reduce overfitting when the dataset is small.
翻訳日:2022-10-23 07:26:46 公開日:2020-09-17
# エッジ推論のためのディープニューラルネットワーク最適化のスケールアップ

Scaling Up Deep Neural Network Optimization for Edge Inference ( http://arxiv.org/abs/2009.00278v3 )

ライセンス: Link先を確認
Bingqian Lu, Jianyi Yang, and Shaolei Ren(参考訳) ディープニューラルネットワーク(DNN)は、携帯電話、ドローン、ロボット、ウェアラブルといったエッジデバイスにますますデプロイされ、統合されている。 DNN推論を直接エッジデバイス(エッジ推論)で実行するためには、DNN設計(ネットワークアーキテクチャや量子化ポリシーなど)を最適化することが不可欠である。 最先端のDNN設計では、最適化プロセスの高速化に性能予測器を活用しているが、デバイス固有の(すなわち1つのターゲットデバイスに対する各予測器)ため、非常に多様なエッジデバイスの存在下ではうまくスケールできない。 さらに、性能予測器でさえ、多くの異なるデバイスでDNNを最適化する場合、オプティマイザ(例えば検索ベースの最適化)は時間がかかる。 本稿では,DNN最適化のスケールアップのための2つのアプローチを提案する。 最初のアプローチでは、プロキシデバイス上に構築されたパフォーマンス予測器を再利用し、パフォーマンスの単調性を利用してDNN最適化をスケールアップする。 第2のアプローチでは、DNNデバイスペアに与えられた結果のパフォーマンス(例えば、推論精度/遅延/エネルギー)を推定できるスケーラブルなパフォーマンス予測器を構築し、デバイスの特徴と最適化パラメータの両方を入力として取り込むニューラルネットワークベースの自動最適化器を使用し、各デバイスに対して長い最適化プロセスを経ずに最適なDNN設計を直接出力する。

Deep neural networks (DNNs) have been increasingly deployed on and integrated with edge devices, such as mobile phones, drones, robots and wearables. To run DNN inference directly on edge devices (a.k.a. edge inference) with a satisfactory performance, optimizing the DNN design (e.g., network architecture and quantization policy) is crucial. While state-of-the-art DNN designs have leveraged performance predictors to speed up the optimization process, they are device-specific (i.e., each predictor for only one target device) and hence cannot scale well in the presence of extremely diverse edge devices. Moreover, even with performance predictors, the optimizer (e.g., search-based optimization) can still be time-consuming when optimizing DNNs for many different devices. In this work, we propose two approaches to scaling up DNN optimization. In the first approach, we reuse the performance predictors built on a proxy device, and leverage the performance monotonicity to scale up the DNN optimization without re-building performance predictors for each different device. In the second approach, we build scalable performance predictors that can estimate the resulting performance (e.g., inference accuracy/latency/energy) given a DNN-device pair, and use a neural network-based automated optimizer that takes both device features and optimization parameters as input and then directly outputs the optimal DNN design without going through a lengthy optimization process for each individual device.
翻訳日:2022-10-23 00:33:56 公開日:2020-09-17
# プール型アクティブラーニングによるシミュレーションケースの自動選択によるエンジニアリング設計の高速化

Accelerating engineering design by automatic selection of simulation cases through Pool-Based Active Learning ( http://arxiv.org/abs/2009.01420v2 )

ライセンス: Link先を確認
J.H. Gaspar Elsas, N.A.G. Casaprima, I.F.M. Menezes(参考訳) 多くのエンジニアリング設計問題に共通するワークフローでは、設計システムの評価をさまざまな条件下で行う必要がある。 これらの条件は通常、複数のパラメータの組み合わせを含む。 単一の候補構成の完全な評価を行うには、数百から数千のシミュレーションを実行する必要がある。 これは計算量的に非常に高価であり、特に設計問題の数学的最適化の場合のように、いくつかの構成を評価する必要がある場合である。 シミュレーションは非常に複雑であるが、多くのケースは互いにわずかに異なるため、一般的には高い冗長性が存在する。 この冗長性は、不均一なシミュレーションを省略することで、完全なシステムの合理的な近似を得るのに必要なシミュレーションの数を削減できる。 シミュレーションが有効な決定は、機械学習技術を用いて行われており、すでに実行されているシミュレーションから、"Yet-to-be-performed"シミュレーションの結果を推定することができる。 本研究では,そのような手法であるアクティブラーニング(active learning)の結果から,オフショアライザー設計のシミュレーションポートフォリオ全体について,従来のものよりも80%小さい部分集合から近似的な結果を得る。 これらの結果は、オフショアライザー設計における大幅なスピードアップを促進することが期待されている。

A common workflow for many engineering design problems requires the evaluation of the design system to be investigated under a range of conditions. These conditions usually involve a combination of several parameters. To perform a complete evaluation of a single candidate configuration, it may be necessary to perform hundreds to thousands of simulations. This can be computationally very expensive, particularly if several configurations need to be evaluated, as in the case of the mathematical optimization of a design problem. Although the simulations are extremely complex, generally, there is a high degree of redundancy in them, as many of the cases vary only slightly from one another. This redundancy can be exploited by omitting some simulations that are uninformative, thereby reducing the number of simulations required to obtain a reasonable approximation of the complete system. The decision of which simulations are useful is made through the use of machine learning techniques, which allow us to estimate the results of "yet-to-be-performed" simulations from the ones that are already performed. In this study, we present the results of one such technique, namely active learning, to provide an approximate result of an entire offshore riser design simulation portfolio from a subset that is 80% smaller than the original one. These results are expected to facilitate a significant speed-up in the offshore riser design.
翻訳日:2022-10-22 08:12:12 公開日:2020-09-17
# 空間的モンテカルロ積分の一般化

A Generalization of Spatial Monte Carlo Integration ( http://arxiv.org/abs/2009.02165v2 )

ライセンス: Link先を確認
Muneki Yasuda and Kei Uchizawa(参考訳) 空間モンテカルロ積分(SMCI)は標準モンテカルロ積分の拡張であり、マルコフ確率場への期待を高精度に近似することができる。 SMCIはペアワイズ・ボルツマン・マシン(PBM)学習に適用され、既存の手法よりも優れた結果を得た。 SMCIの近似レベルは変化し, SMCIの高次近似は低次近似よりも統計的に正確であることが証明された。 しかし、以前の研究で提案されたSMCIは、高次法を高密度システムに適用できないような制限に悩まされている。 この研究は次の2つの異なる貢献をしている。 上記の制限を緩和できる一般化SMCI(Generalized SMCI: Generalized SMCI)が提案され、GSMCIの統計的精度境界が証明された。 これがこの研究の最初の貢献である。 SMCIに基づく新しいPBM学習法を提案する。 提案手法は,学習精度を大幅に向上させる。 これが本研究の第二の貢献である。

Spatial Monte Carlo integration (SMCI) is an extension of standard Monte Carlo integration and can approximate expectations on Markov random fields with high accuracy. SMCI was applied to pairwise Boltzmann machine (PBM) learning, with superior results to those from some existing methods. The approximation level of SMCI can be changed, and it was proved that a higher-order approximation of SMCI is statistically more accurate than a lower-order approximation. However, SMCI as proposed in the previous studies suffers from a limitation that prevents the application of a higher-order method to dense systems. This study makes two different contributions as follows. A generalization of SMCI (called generalized SMCI (GSMCI)) is proposed, which allows relaxation of the above-mentioned limitation; moreover, a statistical accuracy bound of GSMCI is proved. This is the first contribution of this study. A new PBM learning method based on SMCI is proposed, which is obtained by combining SMCI and the persistent contrastive divergence. The proposed learning method greatly improves the accuracy of learning. This is the second contribution of this study.
翻訳日:2022-10-22 01:33:34 公開日:2020-09-17
# 記述論理における難解推論:dl^nの概要

Defeasible reasoning in Description Logics: an overview on DL^N ( http://arxiv.org/abs/2009.04978v2 )

ライセンス: Link先を確認
Piero A. Bonatti, Iliana M. Petrova, Luigi Sauro(参考訳) DL^Nは、記述ロジックを非実現可能な推論能力で拡張する最近のアプローチである。 本稿では,DL^Nについて概説し,その基盤となる知識工学的要件と,DL^Nを連続的セマンティックおよび計算上の欠点から保護する特徴について述べる。 また, DL^Nと他の非単調な意味論を比較し, KLM仮定とDL^Nの関係を明らかにする。

DL^N is a recent approach that extends description logics with defeasible reasoning capabilities. In this paper we provide an overview on DL^N, illustrating the underlying knowledge engineering requirements as well as the characteristic features that preserve DL^N from some recurrent semantic and computational drawbacks. We also compare DL^N with some alternative nonmonotonic semantics, enlightening the relationships between the KLM postulates and DL^N.
翻訳日:2022-10-20 03:37:42 公開日:2020-09-17
# 適合モデルによるクラス近傍の導出

Deducing neighborhoods of classes from a fitted model ( http://arxiv.org/abs/2009.05516v2 )

ライセンス: Link先を確認
Alexander Gerharz, Andreas Groll, Gunther Schauberger(参考訳) 今日の世界では、巨大なデータセットに対する非常に複雑なモデルの要求が着実に増加している。 これらのモデルの問題は、モデルの複雑さを高めることで、それらを理解するのがずっと難しくなります。 emph{interpretable machine learning}の分野は、これらの複雑な(あるいはブラックボックス)モデルにおける解釈可能性の欠如を、これらのモデルをよりよく理解するのに役立つ特定の技術を用いて補おうとしている。 本稿では、分位シフトを用いた分類モデルにおいて、特徴空間の予測クラスへの分割を理解するのに役立つ新しいタイプの解釈可能な機械学習手法を提案する。 この量子シフト法(QSM)がどのような状況で有用かを説明するために、理論的な医学的例と実際のデータ例に適用する。 基本的には、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減らしたりした後の予測の変化を観察する。 操作前後の予測を比較することにより、ある条件下で観察された予測の変化を操作された特徴に関するクラスの近傍と解釈することができる。 コードグラフは観察された変化を可視化するために使用される。

In todays world the request for very complex models for huge data sets is rising steadily. The problem with these models is that by raising the complexity of the models, it gets much harder to interpret them. The growing field of \emph{interpretable machine learning} tries to make up for the lack of interpretability in these complex (or even blackbox-)models by using specific techniques that can help to understand those models better. In this article a new kind of interpretable machine learning method is presented, which can help to understand the partitioning of the feature space into predicted classes in a classification model using quantile shifts. To illustrate in which situations this quantile shift method (QSM) could become beneficial, it is applied to a theoretical medical example and a real data example. Basically, real data points (or specific points of interest) are used and the changes of the prediction after slightly raising or decreasing specific features are observed. By comparing the predictions before and after the manipulations, under certain conditions the observed changes in the predictions can be interpreted as neighborhoods of the classes with regard to the manipulated features. Chordgraphs are used to visualize the observed changes.
翻訳日:2022-10-19 21:16:55 公開日:2020-09-17
# 予測時空間分析におけるDemystifying Deep Learning: a Information-theoretic Framework

Demystifying Deep Learning in Predictive Spatio-Temporal Analytics: An Information-Theoretic Framework ( http://arxiv.org/abs/2009.06304v2 )

ライセンス: Link先を確認
Qi Tan, Yang Liu, Jiming Liu(参考訳) 深層学習は、特に病気予測、気候予測、交通予測など、様々な困難な時空間分析(PSTA)タスクにおいて、データ間の固有の依存関係関係が存在し、複数の時空間スケールで一般的に現れるような、過去数年間で驚くべき成功を収めてきた。 しかし、特定のPSTAタスクと対応するデータセットが与えられた場合、ディープラーニングモデルの望ましい構成を適切に決定し、モデルの学習行動を理論的に分析し、モデルの学習能力を定量的に評価する方法は謎のままである。 そこで本研究では,PSTAの深層学習の能力を明らかにするために,深層学習モデル設計と情報理論解析のための包括的枠組みを提案する。 まず,対話型および統合型接続型ディープリカレントニューラルネットワーク(I$^2$DRNN)モデルを開発した。 I$^2$DRNNは3つのモジュールから構成される: 不均一なソースからのデータを統合する入力モジュール、異なるスケールで情報をキャプチャし、層間をインタラクティブに流れるようにする隠れモジュール、そして様々な隠されたレイヤからの情報の統合的効果をモデル化して出力予測を生成する出力モジュール。 第二に、設計モデルがPSTAタスクのマルチスケール時空間依存性を学習できることを理論的に証明するために、提案モデルの情報ベース学習能力(i-CAP)を調べるための情報理論解析を提供する。 第3に、I$^2$DRNNモデルを検証し、そのi-CAPを確認するために、合成データセットと実世界のPSTAタスクの両方を含む一連の実験を系統的に実施する。 実験の結果,I$^2$DRNNモデルは従来のモデルと最先端モデルの両方より優れており,有意義なマルチスケール時空間依存性を捉えることができることがわかった。

Deep learning has achieved incredible success over the past years, especially in various challenging predictive spatio-temporal analytics (PSTA) tasks, such as disease prediction, climate forecast, and traffic prediction, where intrinsic dependency relationships among data exist and generally manifest at multiple spatio-temporal scales. However, given a specific PSTA task and the corresponding dataset, how to appropriately determine the desired configuration of a deep learning model, theoretically analyze the model's learning behavior, and quantitatively characterize the model's learning capacity remains a mystery. In order to demystify the power of deep learning for PSTA, in this paper, we provide a comprehensive framework for deep learning model design and information-theoretic analysis. First, we develop and demonstrate a novel interactively- and integratively-connected deep recurrent neural network (I$^2$DRNN) model. I$^2$DRNN consists of three modules: an Input module that integrates data from heterogeneous sources; a Hidden module that captures the information at different scales while allowing the information to flow interactively between layers; and an Output module that models the integrative effects of information from various hidden layers to generate the output predictions. Second, to theoretically prove that our designed model can learn multi-scale spatio-temporal dependency in PSTA tasks, we provide an information-theoretic analysis to examine the information-based learning capacity (i-CAP) of the proposed model. Third, to validate the I$^2$DRNN model and confirm its i-CAP, we systematically conduct a series of experiments involving both synthetic datasets and real-world PSTA tasks. The experimental results show that the I$^2$DRNN model outperforms both classical and state-of-the-art models, and is able to capture meaningful multi-scale spatio-temporal dependency.
翻訳日:2022-10-18 11:31:06 公開日:2020-09-17
# 言語プローブ選択に関する情報論的考察

An information theoretic view on selecting linguistic probes ( http://arxiv.org/abs/2009.07364v2 )

ライセンス: Link先を確認
Zining Zhu, Frank Rudzicz(参考訳) 神経表現にエンコードされた言語知識の評価に関心が高まっている。 一般的なアプローチは、内部表現から教師付き分類を行うために診断分類器(probe)をアタッチすることである。 しかし、良いプローブを選ぶ方法が議論されている。 hewitt and liang (2019) は、"知識に富む表現" か、pimentelら (2020) が挑戦した"タスクを学習するプローブ"("the probe learning the task")によって引き起こされるため、診断分類自体における高いパフォーマンスが不十分であることを示した。 この二分法が有効な情報理論であることを示す。 さらに,2つの論文において提案された良好なプローブの構成と選択を行う手法として,*control task* (Hewitt and Liang, 2019) と *control function* (Pimentel et al., 2020) が等価であることがわかった。 経験的に、これらの2つの選択基準は互いに強く同意する結果をもたらす。

There is increasing interest in assessing the linguistic knowledge encoded in neural representations. A popular approach is to attach a diagnostic classifier -- or "probe" -- to perform supervised classification from internal representations. However, how to select a good probe is in debate. Hewitt and Liang (2019) showed that a high performance on diagnostic classification itself is insufficient, because it can be attributed to either "the representation being rich in knowledge", or "the probe learning the task", which Pimentel et al. (2020) challenged. We show this dichotomy is valid information-theoretically. In addition, we find that the methods to construct and select good probes proposed by the two papers, *control task* (Hewitt and Liang, 2019) and *control function* (Pimentel et al., 2020), are equivalent -- the errors of their approaches are identical (modulo irrelevant terms). Empirically, these two selection criteria lead to results that highly agree with each other.
翻訳日:2022-10-18 06:17:02 公開日:2020-09-17
# マスク検出のためのマルチステージCNNアーキテクチャ

Multi-Stage CNN Architecture for Face Mask Detection ( http://arxiv.org/abs/2009.07627v2 )

ライセンス: Link先を確認
Amit Chavda, Jason Dsouza, Sumeet Badgujar, Ankit Damani(参考訳) 2019年末には、新型コロナウイルス感染症(COVID-19)が流行し、2020年になっても何百万人もの命とビジネスに害を与え続けている。 世界がパンデミックから回復し、正常状態に戻る計画がある中、すべての個人、特に対人活動の再開を目指す人々の間で不安の波が広がっている。 研究により、フェイスマスクを着用することでウイルス感染のリスクが大幅に減少し、保護感が得られることが示されている。 しかし、このポリシーの実装を手動で追跡することは不可能である。 テクノロジーが鍵を握っている。 顔のマスクが適切に使われていないインスタンスを検出できるディープラーニングベースのシステムを提案する。 本システムは,マスク面とマスク面を検出可能な2段畳み込みニューラルネットワーク(CNN)アーキテクチャにより構成され,プリインストールされたCCTVカメラと統合可能である。 これは、安全違反の追跡、フェイスマスクの使用促進、安全な作業環境の確保に役立つ。

The end of 2019 witnessed the outbreak of Coronavirus Disease 2019 (COVID-19), which has continued to be the cause of plight for millions of lives and businesses even in 2020. As the world recovers from the pandemic and plans to return to a state of normalcy, there is a wave of anxiety among all individuals, especially those who intend to resume in-person activity. Studies have proved that wearing a face mask significantly reduces the risk of viral transmission as well as provides a sense of protection. However, it is not feasible to manually track the implementation of this policy. Technology holds the key here. We introduce a Deep Learning based system that can detect instances where face masks are not used properly. Our system consists of a dual-stage Convolutional Neural Network (CNN) architecture capable of detecting masked and unmasked faces and can be integrated with pre-installed CCTV cameras. This will help track safety violations, promote the use of face masks, and ensure a safe working environment.
翻訳日:2022-10-18 00:49:00 公開日:2020-09-17
# RDF2Vec Light - 知識グラフ埋め込みのための軽量なアプローチ

RDF2Vec Light -- A Lightweight Approach for Knowledge Graph Embeddings ( http://arxiv.org/abs/2009.07659v2 )

ライセンス: Link先を確認
Jan Portisch, Michael Hladik, Heiko Paulheim(参考訳) 知識グラフ埋め込みアプローチは、グラフのノードとエッジを数学的ベクトルとして表現する。 現在のアプローチは完全な知識グラフ、すなわちすべてのノードとエッジの埋め込みに焦点を当てている。 これはDBpediaやWikidataのような大きなグラフに対して非常に高い計算要求をもたらす。 しかし、ほとんどのダウンストリームアプリケーションシナリオでは、概念のごく一部だけが実際の関心を集めている。 本稿では、サブセットのみのベクトルを生成するRDF2Vecをベースとした軽量な埋め込み方式RDF2Vec Lightを提案する。 この目的のために、RDF2Vec Lightは知識グラフのサブグラフのみを横断して処理する。 提案手法は,ランタイムが大幅に低下し,ハードウェア要件が大幅に削減されたため,それまでの組込みができなかったシナリオで,非常に大きな知識グラフの組込みを適用可能にする。

Knowledge graph embedding approaches represent nodes and edges of graphs as mathematical vectors. Current approaches focus on embedding complete knowledge graphs, i.e. all nodes and edges. This leads to very high computational requirements on large graphs such as DBpedia or Wikidata. However, for most downstream application scenarios, only a small subset of concepts is of actual interest. In this paper, we present RDF2Vec Light, a lightweight embedding approach based on RDF2Vec which generates vectors for only a subset of entities. To that end, RDF2Vec Light only traverses and processes a subgraph of the knowledge graph. Our method allows the application of embeddings of very large knowledge graphs in scenarios where such embeddings were not possible before due to a significantly lower runtime and significantly reduced hardware requirements.
翻訳日:2022-10-17 23:02:23 公開日:2020-09-17
# 量子ブースティングの改良

Improved Quantum Boosting ( http://arxiv.org/abs/2009.08360v1 )

ライセンス: Link先を確認
Adam Izdebski and Ronald de Wolf(参考訳) boostingは、弱い学習者(ランダムより少し良い仮説を生成する)を強い学習者(ランダムよりはるかに良い仮説を生成する)に変換する一般的な方法である。 最近、Arunachalam と Maity は、Freund と Schapire の AdaBoost アルゴリズムと近似カウントのための量子アルゴリズムを組み合わせることで、最初の量子改良を行った。 彼らのブースターは、弱い学習者の仮説クラスのVC次元の関数として古典的なブースティングよりも速いが、弱い学習者の質の関数として悪い。 本稿では,ServedioのSmoothBoostアルゴリズムに基づく,より高速でシンプルな量子ブースティングアルゴリズムを提案する。

Boosting is a general method to convert a weak learner (which generates hypotheses that are just slightly better than random) into a strong learner (which generates hypotheses that are much better than random). Recently, Arunachalam and Maity gave the first quantum improvement for boosting, by combining Freund and Schapire's AdaBoost algorithm with a quantum algorithm for approximate counting. Their booster is faster than classical boosting as a function of the VC-dimension of the weak learner's hypothesis class, but worse as a function of the quality of the weak learner. In this paper we give a substantially faster and simpler quantum boosting algorithm, based on Servedio's SmoothBoost algorithm.
翻訳日:2022-10-17 12:25:07 公開日:2020-09-17
# マトリックスゲームのための座標法

Coordinate Methods for Matrix Games ( http://arxiv.org/abs/2009.08447v1 )

ライセンス: Link先を確認
Yair Carmon, Yujia Jin, Aaron Sidford, Kevin Tian(参考訳) 我々は, 線形プログラミング, 分類, 回帰を含む, $\min_{x \in \mathcal{X}} \max_{y\in\mathcal{Y}} y^\top A x$ という形の双線型サドル点問題を解くための原始双対座標法を開発した。 提案手法は, 既存の全確率部分線形法と分散還元法を, 単体間複雑性とサンプル複雑性の観点から限界に推し進める。 テイラー近似を指数関数と二項ヒープに応用した効率的なデータ構造を設計し, ほぼ一点当たりの複雑性を求める。 我々は,行列成分の反復と等級に依存する動的サンプリング分布を用いて,低分散勾配推定器を用いて試料の複雑性を向上する。 私たちのランタイム境界は、m$ by $n$ matrix $a$のスパーシティ測度に依存する係数によって、既存のプリミティブメソッドのそれを改善する。 例えば、行と列が定数 $\ell_1/\ell_2$ のノルム比を持つ場合、完全確率的な設定では $m+n$ 、分散縮小設定では $\sqrt{m+n}$ の改善を提供する。 本手法を計算幾何学問題、すなわち最小囲い球、最大打ち込み球、線形回帰に適用し、改良された複雑性境界を求める。 要素的に非負行列を持つ線型回帰に対して、我々は$\sqrt{\mathrm{nnz}(A)/(m+n)}$ の係数で正確な勾配法を改善する。

We develop primal-dual coordinate methods for solving bilinear saddle-point problems of the form $\min_{x \in \mathcal{X}} \max_{y\in\mathcal{Y}} y^\top A x$ which contain linear programming, classification, and regression as special cases. Our methods push existing fully stochastic sublinear methods and variance-reduced methods towards their limits in terms of per-iteration complexity and sample complexity. We obtain nearly-constant per-iteration complexity by designing efficient data structures leveraging Taylor approximations to the exponential and a binomial heap. We improve sample complexity via low-variance gradient estimators using dynamic sampling distributions that depend on both the iterates and the magnitude of the matrix entries. Our runtime bounds improve upon those of existing primal-dual methods by a factor depending on sparsity measures of the $m$ by $n$ matrix $A$. For example, when rows and columns have constant $\ell_1/\ell_2$ norm ratios, we offer improvements by a factor of $m+n$ in the fully stochastic setting and $\sqrt{m+n}$ in the variance-reduced setting. We apply our methods to computational geometry problems, i.e. minimum enclosing ball, maximum inscribed ball, and linear regression, and obtain improved complexity bounds. For linear regression with an elementwise nonnegative matrix, our guarantees improve on exact gradient methods by a factor of $\sqrt{\mathrm{nnz}(A)/(m+n)}$.
翻訳日:2022-10-17 12:24:53 公開日:2020-09-17
# SREC: 深層強化学習によるエネルギー制約型UAVネットワークの積極的な自己修復

SREC: Proactive Self-Remedy of Energy-Constrained UAV-Based Networks via Deep Reinforcement Learning ( http://arxiv.org/abs/2009.08528v1 )

ライセンス: Link先を確認
Ran Zhang, Miao Wang, and Lin X. Cai(参考訳) 複数の無人航空機(UAV)のエネルギーを意識した制御は、UAVベースのネットワークにおける主要な研究の1つである。 しかし、uavラインアップが変更されたタイミングでネットワークがどのように反応すべきかに焦点を絞った既存の作業はほとんどない。 本研究では、1つ以上のUAVがエネルギー不足であり、充電を中止しようとしている場合に、エネルギー制約されたUAVネットワークの積極的な自己修復について検討する。 我々は,UAVがネットワークを離脱しようとしているときに,UAVを積極的に移動させる,エネルギーを意識した最適なUAV制御政策を目標としている。 具体的には,少なくとも1つのUAVがネットワークを終了する一定期間のユーザ満足度を最大化するために,深層強化学習(DRL)に基づく自己修復手法SREC-DRLを提案する。 問題の連続状態と動作空間を扱うために,アクター-批判的drl(deep deterministic policy gradient, ddpg)の最先端アルゴリズムを適用することにより,収束安定性が向上した。 数値計算の結果,SREC-DRL法は受動的反応法と比較すると,治療期間中の累積ユーザ満足度スコアが12.12\%以上向上していることがわかった。

Energy-aware control for multiple unmanned aerial vehicles (UAVs) is one of the major research interests in UAV based networking. Yet few existing works have focused on how the network should react around the timing when the UAV lineup is changed. In this work, we study proactive self-remedy of energy-constrained UAV networks when one or more UAVs are short of energy and about to quit for charging. We target at an energy-aware optimal UAV control policy which proactively relocates the UAVs when any UAV is about to quit the network, rather than passively dispatches the remaining UAVs after the quit. Specifically, a deep reinforcement learning (DRL)-based self remedy approach, named SREC-DRL, is proposed to maximize the accumulated user satisfaction scores for a certain period within which at least one UAV will quit the network. To handle the continuous state and action space in the problem, the state-of-the-art algorithm of the actor-critic DRL, i.e., deep deterministic policy gradient (DDPG), is applied with better convergence stability. Numerical results demonstrate that compared with the passive reaction method, the proposed SREC-DRL approach shows a $12.12\%$ gain in accumulative user satisfaction score during the remedy period.
翻訳日:2022-10-17 12:24:06 公開日:2020-09-17
# Force2Vec: 並列フォース指向グラフ埋め込み

Force2Vec: Parallel force-directed graph embedding ( http://arxiv.org/abs/2009.10035v1 )

ライセンス: Link先を確認
Md. Khaledur Rahman, Majedul Haque Sujon, Ariful Azad(参考訳) グラフ埋め込みアルゴリズムはグラフを低次元空間に埋め込み、グラフの固有特性を保存する。 グラフ埋め込みは基本的にグラフの可視化に関連しているが、以前の作業ではこの接続を明示的に利用していなかった。 我々は、機械学習(ML)と可視化タスクの両方に優れるグラフ埋め込み設定において、フォース指向グラフレイアウトモデルを使用するForce2Vecを開発した。 我々は、コア計算を線形代数にマッピングし、現代のプロセッサで利用可能な複数の並列性を活用することで、Force2Vecを高度に並列化する。 結果として得られるアルゴリズムは、既存の手法(平均ではDeepWalkの43倍速い)よりも桁違いに高速で、数時間で数十億のエッジを持つグラフから埋め込みを生成することができる。 既存の手法と比較して、Force2Vecはグラフの可視化に優れており、リンク予測、ノード分類、クラスタリングといったMLタスクにおいて、互換性のある、あるいはより優れた処理を行う。 ソースコードはhttps://github.com/HipGraph/Force2Vec.comで入手できる。

A graph embedding algorithm embeds a graph into a low-dimensional space such that the embedding preserves the inherent properties of the graph. While graph embedding is fundamentally related to graph visualization, prior work did not exploit this connection explicitly. We develop Force2Vec that uses force-directed graph layout models in a graph embedding setting with an aim to excel in both machine learning (ML) and visualization tasks. We make Force2Vec highly parallel by mapping its core computations to linear algebra and utilizing multiple levels of parallelism available in modern processors. The resultant algorithm is an order of magnitude faster than existing methods (43x faster than DeepWalk, on average) and can generate embeddings from graphs with billions of edges in a few hours. In comparison to existing methods, Force2Vec is better in graph visualization and performs comparably or better in ML tasks such as link prediction, node classification, and clustering. Source code is available at https://github.com/HipGraph/Force2Vec.
翻訳日:2022-10-17 12:22:57 公開日:2020-09-17
# テンポラリガイドによる楽曲間移動生成

Temporally Guided Music-to-Body-Movement Generation ( http://arxiv.org/abs/2009.08015v1 )

ライセンス: Link先を確認
Hsuan-Kai Kao and Li Su(参考訳) 本稿では,音楽音声から仮想バイオリニストの3次元スケルトン運動を生成するニューラルネットワークモデルを提案する。 従来の2次元スケルトンデータを生成するリカレントニューラルネットワークモデルから改良されたモデルでは,エンコーダデコーダアーキテクチャと,身体運動シーケンスの複雑なダイナミクスをモデル化するための自己保持機構が組み込まれている。 自己注意モデルの最適化を容易にするため、トレーニング例の有効サイズと境界を決定するためにビートトラッキングを適用した。 デコーダは、右利き動作とボウ攻撃タイミングを強調するために、精製ネットワークとボウ攻撃推論機構を備える。 客観評価と主観評価の両方により,提案モデルが最先端の手法より優れていることが明らかになった。 我々の知る限り、この作品は音楽の身体運動における重要な特徴を考慮した3Dバイオリニストの身体運動を初めて生成する試みである。

This paper presents a neural network model to generate virtual violinist's 3-D skeleton movements from music audio. Improved from the conventional recurrent neural network models for generating 2-D skeleton data in previous works, the proposed model incorporates an encoder-decoder architecture, as well as the self-attention mechanism to model the complicated dynamics in body movement sequences. To facilitate the optimization of self-attention model, beat tracking is applied to determine effective sizes and boundaries of the training examples. The decoder is accompanied with a refining network and a bowing attack inference mechanism to emphasize the right-hand behavior and bowing attack timing. Both objective and subjective evaluations reveal that the proposed model outperforms the state-of-the-art methods. To the best of our knowledge, this work represents the first attempt to generate 3-D violinists' body movements considering key features in musical body movement.
翻訳日:2022-10-17 12:16:07 公開日:2020-09-17
# 血球発生における細胞運命を制御するバイオマーカーの同定

Identification of Biomarkers Controlling Cell Fate In Blood Cell Development ( http://arxiv.org/abs/2009.08296v1 )

ライセンス: Link先を確認
Maryam Nazarieh, Volkhard Helms, Marc P. Hoeppner, Andre Franke(参考訳) 血液細胞系統は、多能性幹細胞または多能性幹細胞から終末分化状態までの連続した発達段階からなる。 人間の生物学において重要であるにもかかわらず、これらの分化過程を管理する調節経路や遺伝子ネットワークはまだ完全には理解されていない。 これは部分的には転写因子(TF)と標的遺伝子との相互作用を規定する問題によるものである。 この問題の進行経路は、分化段階と遺伝子活性をリンクする基盤として利用可能な表現データによって提供される。 本稿では,グローバルレギュレータが細胞系統の分化経路に沿って露出する特徴的発現ピークパターンを同定する新しい階層的アプローチを提案する。 このような単純なパターンに基づき、細胞状態特異的マーカー遺伝子を同定し、その分化を促進するtfsを抽出する。 ステージ特異的キープレーヤ遺伝子の平均発現値の統合は、データセット内の他の遺伝子を同様に識別するために使用される、各系統の異なるピークパターンを生成する。 これらの遺伝子を調節するTFのセットを、細胞運命の生物学的過程を制御する段階特異的なレギュレーターのセットに組み込む。 概念実証として,マウスの血液細胞形成における重要な分化現象をカバーする2つの発現データセットを検討する。

A blood cell lineage consists of several consecutive developmental stages from the pluri- or multipotent stem cell to a state of terminal differentiation. Despite their importance for human biology, the regulatory pathways and gene networks that govern these differentiation processes are not yet fully understood. This is in part due to challenges associated with delineating the interactions between transcription factors (TFs) and their target genes. A possible path forward in this issue is provided by increasingly available expression data as a basis for linking differentiation stages and gene activities. Here, we present a novel hierarchical approach to identify characteristic expression peak patterns that global regulators expose along the differentiation path of cell lineages. Based on such simple patterns, we identify cell state-specific marker genes and extract TFs that likely drive their differentiation. Integration of the mean expression values of stage-specific key player genes yields a distinct peaking pattern for each lineage that is used to identify further genes in the dataset behaving similarly. Incorporating the set of TFs which regulate these genes incurred at a set of stage-specific regulators controlling the biological process of cell fate. As proof of concept, we consider two expression datasets covering key differentiation events in blood cell formation of mice.
翻訳日:2022-10-17 12:15:51 公開日:2020-09-17
# 都市道路網におけるデータ駆動交通状態予測のための特徴工学

Feature Engineering for Data-driven Traffic State Forecast in Urban Road Networks ( http://arxiv.org/abs/2009.08354v1 )

ライセンス: Link先を確認
Felix Rempe, Klaus Bogenberger(参考訳) 都市道路網に適用されるほとんどの交通状況予測アルゴリズムは、ターゲット位置に近いリンクのみを考慮している。 しかし、長期的な予測では、より遠いリンクやネットワークの領域のトラフィック状態も、データ駆動アルゴリズムに貴重な情報を提供すると期待されている。 本稿では,大規模な車両群が収集したネットワーククラスタリングアルゴリズムとFCD(Floating Car)の1年間の期待について検討する。 まず,ミュンヘンの都市ネットワークにおける渋滞発生地域を抽出するために,クラスタリングアルゴリズムを適用した。 これらのクラスタ内の混雑レベルは、統計ツールの助けを借りて分析される。 空間的空間的混雑パターンと群集領域間の相関を同定した。 これらの相関関係は、KNearest Neighbors(KNN)旅行時間予測アルゴリズムに統合される。 他の手法と比較すると、この方法は最良の結果が得られる。 knn予測器の統計的結果と性能は、ネットワーク全体のトラフィックを考慮することは予測者にとって貴重な特徴であり、将来より正確なアルゴリズムを開発するための有望な方法であることを示している。

Most traffic state forecast algorithms when applied to urban road networks consider only the links in close proximity to the target location. However, for longer-term forecasts also the traffic state of more distant links or regions of the network are expected to provide valuable information for a data-driven algorithm. This paper studies these expectations of using a network clustering algorithm and one year of Floating Car (FCD) collected by a large fleet of vehicles. First, a clustering algorithm is applied to the data in order to extract congestion-prone regions in the Munich city network. The level of congestion inside these clusters is analyzed with the help of statistical tools. Clear spatio-temporal congestion patterns and correlations between the clustered regions are identified. These correlations are integrated into a K- Nearest Neighbors (KNN) travel time prediction algorithm. In a comparison with other approaches, this method achieves the best results. The statistical results and the performance of the KNN predictor indicate that the consideration of the network-wide traffic is a valuable feature for predictors and a promising way to develop more accurate algorithms in the future.
翻訳日:2022-10-17 12:15:03 公開日:2020-09-17
# 時系列データにおけるトレンド予測の自動深層学習

Automatic deep learning for trend prediction in time series data ( http://arxiv.org/abs/2009.08510v1 )

ライセンス: Link先を確認
Kouame Hermann Kouassi and Deshendran Moodley(参考訳) 近年,時系列データの傾向を予測するためにディープニューラルネットワーク(DNN)アルゴリズムが研究されている。 多くの実世界のアプリケーションでは、時系列データは動的システムから取得される。 DNNモデルは、新しい観測が利用可能になると更新および再訓練された時に安定したパフォーマンスを提供する必要がある。 本研究では,トレンド予測のためのアルゴリズム選択とハイパーパラメータ最適化プロセスを自動化するための自動機械学習手法について検討する。 本稿では,最近のautomlツール,特にhpbandsterフレームワークが,dnnモデル開発の自動化に効果的に利用できることを示す。 われわれのAutoML実験は、4つのデータセットにわたる手動実験で見つかった構成の平均性能と安定性とをよく比較したモデルを生成する最適構成を発見した。

Recently, Deep Neural Network (DNN) algorithms have been explored for predicting trends in time series data. In many real world applications, time series data are captured from dynamic systems. DNN models must provide stable performance when they are updated and retrained as new observations becomes available. In this work we explore the use of automatic machine learning techniques to automate the algorithm selection and hyperparameter optimisation process for trend prediction. We demonstrate how a recent AutoML tool, specifically the HpBandSter framework, can be effectively used to automate DNN model development. Our AutoML experiments found optimal configurations that produced models that compared well against the average performance and stability levels of configurations found during the manual experiments across four data sets.
翻訳日:2022-10-17 12:14:47 公開日:2020-09-17
# モデルに基づく高齢者の核白内障の有病率分析

Model-based approach for analyzing prevalence of nuclear cataracts in elderly residents ( http://arxiv.org/abs/2009.08005v1 )

ライセンス: Link先を確認
Sachiko Kodera, Akimasa Hirata, Fumiaki Miura, Essam A. Rashed, Natsuko Hatsusaka, Naoki Yamamoto, Eri Kubo, Hiroshi Sasaki(参考訳) 最近の疫学的研究は、皮質白内障の流行は紫外線と密接に関連していると仮定している。 しかし、熱帯地域では温帯地域よりも高齢者の方が核白内障の有病率が高い。 核白内障を引き起こす主要な要因は広く議論されている。 本研究は, 熱帯および温帯の50~60歳の被験者において, 周囲環境への曝露によるレンズの温度上昇を計算的に定量化し, 温度調節の相違について検討した。 熱帯地域の高齢者を対象に, 温熱調節反応モデルを拡張した。 アジアの5都市における異なる気象条件のレンズ温度の経時変化を計算した。 温度は、核白内障の位置と一致するレンズの中と後部を中心に高くなっていた。 レンズ内の高温の持続時間は異なるが、1日あたりの最大温度は同等であった。 核白内障の有病率とレンズの計算累積熱線量との間には強い相関(調整R2 > 0.85)が認められた。 核白内障の有病率を評価するために累積熱線量を用いることを提案する。 気象データから算出された新しい測定値である累積湿球球温度は、異なる都市で実用的評価に有用である。

Recent epidemiological studies have hypothesized that the prevalence of cortical cataracts is closely related to ultraviolet radiation. However, the prevalence of nuclear cataracts is higher in elderly people in tropical areas than in temperate areas. The dominant factors inducing nuclear cataracts have been widely debated. In this study, the temperature increase in the lens due to exposure to ambient conditions was computationally quantified in subjects of 50-60 years of age in tropical and temperate areas, accounting for differences in thermoregulation. A thermoregulatory response model was extended to consider elderly people in tropical areas. The time course of lens temperature for different weather conditions in five cities in Asia was computed. The temperature was higher around the mid and posterior part of the lens, which coincides with the position of the nuclear cataract. The duration of higher temperatures in the lens varied, although the daily maximum temperatures were comparable. A strong correlation (adjusted R2 > 0.85) was observed between the prevalence of nuclear cataract and the computed cumulative thermal dose in the lens. We propose the use of a cumulative thermal dose to assess the prevalence of nuclear cataracts. Cumulative wet-bulb globe temperature, a new metric computed from weather data, would be useful for practical assessment in different cities.
翻訳日:2022-10-17 12:14:28 公開日:2020-09-17
# デジタル人道支援のための機械学習の展開:OpenStreetMapのイメージアノテーションをより効率的にする

Deploying machine learning to assist digital humanitarians: making image annotation in OpenStreetMap more efficient ( http://arxiv.org/abs/2009.08188v1 )

ライセンス: Link先を確認
John E. Vargas-Mu\~noz, Devis Tuia, Alexandre X. Falc\~ao(参考訳) 開発途上国の農村部における人口の配置は,脆弱な地域に影響を与える行動を計画することが重要であることから,人道的マッピング計画の注目を集めている。 近年,航空画像中の建物を検知する手法が提案されている。 しかし、OpenStreetMap (OSM) のようなオープンマッピングサービスにおいて、アノテートされたデータの品質と量は、そのような検出のための正確なモデルのトレーニングには不十分である。 これらの手法は、農村建築情報の更新を支援する可能性があるが、農村建築地図を自動的に更新するほど正確ではない。 そこで本研究では,OSMにおけるボランティアの作業を支援し,最適化するための対話的手法を提案する。 ユーザが選択したタイルのアノテーションを複数のイテレーションで検証・修正するように依頼し、新しい注釈付きデータでモデルを改善する。 シミュレーションおよび実際のユーザアノテーション補正による実験結果から,OSMのボランティアが検証・修正する必要があるデータの量を大幅に削減できることが示唆された。 提案手法は, アノテーションのプロセスをより効率的に行うだけでなく, ボランティアの参加度を向上させることで, 人道的マッピングプロジェクトに役立つ。

Locating populations in rural areas of developing countries has attracted the attention of humanitarian mapping projects since it is important to plan actions that affect vulnerable areas. Recent efforts have tackled this problem as the detection of buildings in aerial images. However, the quality and the amount of rural building annotated data in open mapping services like OpenStreetMap (OSM) is not sufficient for training accurate models for such detection. Although these methods have the potential of aiding in the update of rural building information, they are not accurate enough to automatically update the rural building maps. In this paper, we explore a human-computer interaction approach and propose an interactive method to support and optimize the work of volunteers in OSM. The user is asked to verify/correct the annotation of selected tiles during several iterations and therefore improving the model with the new annotated data. The experimental results, with simulated and real user annotation corrections, show that the proposed method greatly reduces the amount of data that the volunteers of OSM need to verify/correct. The proposed methodology could benefit humanitarian mapping projects, not only by making more efficient the process of annotation but also by improving the engagement of volunteers.
翻訳日:2022-10-17 12:14:08 公開日:2020-09-17
# 距離変換を用いた手書きバングラ文書画像からの単語分割

Word Segmentation from Unconstrained Handwritten Bangla Document Images using Distance Transform ( http://arxiv.org/abs/2009.08037v1 )

ライセンス: Link先を確認
Pawan Kumar Singh, Shubham Sinha, Sagnik Pal Chowdhury, Ram Sarkar, Mita Nasipuri(参考訳) テキスト行と単語への手書き文書画像の分割は、完全な光学文字認識(OCR)システムの開発において、最も重要かつ困難な作業の1つである。 本稿では,未拘束のバングラ手書き文書画像からテキスト単語の自動分割について述べる。 popular distance transform (dt) アルゴリズムは、単語画像の外側境界の特定に応用されている。 この技法は過剰な単語を生成できない。 単純な後処理の手順を適用して、下記の単語イメージを分離する。 提案手法は, CMATERdb1.1.1データベースから取得した50個のランダム画像に対して実験を行った。 満足度は91.88%のセグメンテーション精度で達成され,提案手法の堅牢性を確認する。

Segmentation of handwritten document images into text lines and words is one of the most significant and challenging tasks in the development of a complete Optical Character Recognition (OCR) system. This paper addresses the automatic segmentation of text words directly from unconstrained Bangla handwritten document images. The popular Distance transform (DT) algorithm is applied for locating the outer boundary of the word images. This technique is free from generating the over-segmented words. A simple post-processing procedure is applied to isolate the under-segmented word images, if any. The proposed technique is tested on 50 random images taken from CMATERdb1.1.1 database. Satisfactory result is achieved with a segmentation accuracy of 91.88% which confirms the robustness of the proposed methodology.
翻訳日:2022-10-17 12:06:11 公開日:2020-09-17
# cross you in style:音楽から視覚芸術へのクロスモーダルスタイル移行

Crossing You in Style: Cross-modal Style Transfer from Music to Visual Arts ( http://arxiv.org/abs/2009.08083v1 )

ライセンス: Link先を確認
Cheng-Che Lee, Wan-Yi Lin, Yen-Ting Shih, Pei-Yi Patricia Kuo, Li Su(参考訳) 音楽と視覚のスタイルの伝達は、創造性の実践において難しいが重要なクロスモーダル学習問題である。 従来のイメージスタイル転送問題との大きな違いは、スタイル情報が画像ではなく音楽によって提供されることである。 2つのドメイン間の意味的リンクを通じて、音楽的特徴を視覚コンテンツに適切にマッピングできると仮定すると、音楽の可視化とスタイル転送という2つのステップで音楽-視覚間のスタイル転送問題を解決する。 音楽可視化ネットワークは、条件付き生成対向ネットワークを備えたエンコーダジェネレータアーキテクチャを使用して、音楽データから画像ベースの音楽表現を生成する。 このネットワークは、画像スタイル転送方法と統合され、スタイル転送処理を行う。 WikiArt-IMSLPは、西洋音楽の録音や数十年にわたる絵画を含む、新たにコンパイルされたデータセットである。 このようなラベルを用いて絵画と音楽のセマンティックな関係を学習することにより,提案手法が楽曲から多様なイメージスタイル表現を生成できることを実証し,同時代の特定の芸術形態を提示できることを示す。 主観的テストの結果は、音楽と視覚コンテンツの互換性に対する知覚的品質の改善におけるeraラベルの役割も強調している。

Music-to-visual style transfer is a challenging yet important cross-modal learning problem in the practice of creativity. Its major difference from the traditional image style transfer problem is that the style information is provided by music rather than images. Assuming that musical features can be properly mapped to visual contents through semantic links between the two domains, we solve the music-to-visual style transfer problem in two steps: music visualization and style transfer. The music visualization network utilizes an encoder-generator architecture with a conditional generative adversarial network to generate image-based music representations from music data. This network is integrated with an image style transfer method to accomplish the style transfer process. Experiments are conducted on WikiArt-IMSLP, a newly compiled dataset including Western music recordings and paintings listed by decades. By utilizing such a label to learn the semantic connection between paintings and music, we demonstrate that the proposed framework can generate diverse image style representations from a music piece, and these representations can unveil certain art forms of the same era. Subjective testing results also emphasize the role of the era label in improving the perceptual quality on the compatibility between music and visual content.
翻訳日:2022-10-17 12:06:01 公開日:2020-09-17
# POMP:Pomcpを用いた屋内環境におけるアクティブビジュアル検索のためのオンラインモーションプランニング

POMP: Pomcp-based Online Motion Planning for active visual search in indoor environments ( http://arxiv.org/abs/2009.08140v1 )

ライセンス: Link先を確認
Yiming Wang, Francesco Giuliari, Riccardo Berra, Alberto Castellini, Alessio Del Bue, Alessandro Farinelli, Marco Cristani, Francesco Setti(参考訳) 本稿では,既存の屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーをオンライン設定で学習する問題に焦点をあてる。 提案手法は,エージェント(例えばロボット)とRGB-Dフレームの現在のポーズを入力として使用する。 タスクは、エージェントをターゲットオブジェクトに近づける次の動きを計画することです。 我々は,モンテカルロ計画手法によって解決された部分可観測マルコフ決定過程としてこの問題をモデル化する。 これにより、手元にある既知のシナリオを反復し、環境を探索し、同時にオブジェクトを探すことで、次の動きを決定することができます。 強化学習における現在の技術とは違って、POMPは広範囲で高価なラベル付きデータ(時間と計算)を必要としないため、中小規模のシナリオでAVSを解決する上で非常にアジャイルである。 我々は、環境のフロアマップの情報、通常利用可能な情報、または先駆的な単一の探索ランから容易に抽出できる情報のみを要求する。 提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1を達成し,最先端に近づきながら,必要なトレーニングを伴わない。 さらに,対象検出の品質が理想から欠陥へと変化する場合,本手法のロバスト性を実験的に示す。

In this paper we focus on the problem of learning an optimal policy for Active Visual Search (AVS) of objects in known indoor environments with an online setup. Our POMP method uses as input the current pose of an agent (e.g. a robot) and a RGB-D frame. The task is to plan the next move that brings the agent closer to the target object. We model this problem as a Partially Observable Markov Decision Process solved by a Monte-Carlo planning approach. This allows us to make decisions on the next moves by iterating over the known scenario at hand, exploring the environment and searching for the object at the same time. Differently from the current state of the art in Reinforcement Learning, POMP does not require extensive and expensive (in time and computation) labelled data so being very agile in solving AVS in small and medium real scenarios. We only require the information of the floormap of the environment, an information usually available or that can be easily extracted from an a priori single exploration run. We validate our method on the publicly available AVD benchmark, achieving an average success rate of 0.76 with an average path length of 17.1, performing close to the state of the art but without any training needed. Additionally, we show experimentally the robustness of our method when the quality of the object detection goes from ideal to faulty.
翻訳日:2022-10-17 12:05:40 公開日:2020-09-17
# ラプラシアンフィルタによる単一フレームの劣化

Single Frame Deblurring with Laplacian Filters ( http://arxiv.org/abs/2009.08182v1 )

ライセンス: Link先を確認
Baran Ataman and Esin Guldogan(参考訳) ブラインド・シングル・イメージ・デブロワーリング(Blind single image deblurring)は、問題の性質が不適切であるため、何十年にもわたって挑戦されてきた。 本稿では,ラプラシアンフィルタを用いた単一フレームブラインド洗浄法を提案する。 超解像処理における残差密度ネットワークの強みが証明され,ベースラインアーキテクチャとして選択した。 提案手法をベンチマークデータセット上で,最先端DNN手法を用いて評価した。 提案手法は画像品質の客観的および主観的向上を示す。

Blind single image deblurring has been a challenge over many decades due to the ill-posed nature of the problem. In this paper, we propose a single-frame blind deblurring solution with the aid of Laplacian filters. Utilized Residual Dense Network has proven its strengths in superresolution task, thus we selected it as a baseline architecture. We evaluated the proposed solution with state-of-art DNN methods on a benchmark dataset. The proposed method shows significant improvement in image quality measured objectively and subjectively.
翻訳日:2022-10-17 12:05:18 公開日:2020-09-17
# 生体認証機能を維持したスマートフォンカメラの識別解除

Smartphone Camera De-identification while Preserving Biometric Utility ( http://arxiv.org/abs/2009.08511v1 )

ライセンス: Link先を確認
Sudipta Banerjee and Arun Ross(参考訳) 写真応答不均一(PRNU)の原理は、特定の画像を取得するためにカメラやセンサーを使用したスマートフォンデバイスのアイデンティティーを推論するためにしばしば利用される。 本研究では,スマートフォンカメラを用いて取得した顔画像を摂動するアルゴリズムを設計する。 (a)スマートフォンカメラに関するセンサ固有の詳細を抑圧する(センサ匿名化) (b)異なる装置のセンサパターンを組み込んだもの(センサスプーフィング) (c)摂動画像を用いたバイオメトリックマッチングは影響を受けない(バイオメトリックユーティリティ)。 以上の目的を達成するために離散コサイン変換を用いた簡易な手法を用いる。 MICHE-IおよびOULU-NPUデータセットを用いて、12台のスマートフォンカメラで取得した近眼および顔データを含む実験を行い、PRNUに基づく3種類のセンサ識別方式における非識別アルゴリズムの有効性を実証した。 この研究は、センサーの鑑識と個人のプライバシーに応用されている。

The principle of Photo Response Non Uniformity (PRNU) is often exploited to deduce the identity of the smartphone device whose camera or sensor was used to acquire a certain image. In this work, we design an algorithm that perturbs a face image acquired using a smartphone camera such that (a) sensor-specific details pertaining to the smartphone camera are suppressed (sensor anonymization); (b) the sensor pattern of a different device is incorporated (sensor spoofing); and (c) biometric matching using the perturbed image is not affected (biometric utility). We employ a simple approach utilizing Discrete Cosine Transform to achieve the aforementioned objectives. Experiments conducted on the MICHE-I and OULU-NPU datasets, which contain periocular and facial data acquired using 12 smartphone cameras, demonstrate the efficacy of the proposed de-identification algorithm on three different PRNU-based sensor identification schemes. This work has application in sensor forensics and personal privacy.
翻訳日:2022-10-17 12:04:58 公開日:2020-09-17
# テキストベースメンタルヘルス支援における共感理解への計算的アプローチ

A Computational Approach to Understanding Empathy Expressed in Text-Based Mental Health Support ( http://arxiv.org/abs/2009.08441v1 )

ライセンス: Link先を確認
Ashish Sharma, Adam S. Miner, David C. Atkins, Tim Althoff(参考訳) 共感はメンタルヘルスサポートの成功に不可欠である。 共感の測定は主に同期的で対面的な設定で行われており、非同期なテキストベースのコンテキストには変換できない。 何百万人もの人々がメンタルヘルスサポートにテキストベースのプラットフォームを使っているため、これらのコンテキストにおける共感を理解することは重要です。 本稿では,オンラインメンタルヘルスプラットフォームにおける共感の表現方法を理解するための計算的アプローチを提案する。 テキストベースの会話における共感のコミュニケーションを特徴付ける新しい統一的理論的根拠付きフレームワークを開発した。 この共感フレームワークを用いて10kペア(post, response)のコーパスを収集,共有し,アノテーション(rationales)の証拠を提供する。 マルチタスクのRoBERTaベースのバイエンコーダモデルを構築し、会話の共感を識別し、その予測の根拠を抽出する。 実験は、このアプローチが共感的な会話を効果的に識別できることを実証する。 さらに,このモデルを用いて235kのメンタルヘルスインタラクションを分析し,ユーザが時間とともに自己学習的共感を行わないことを示し,共感トレーニングやフィードバックの機会を明らかにする。

Empathy is critical to successful mental health support. Empathy measurement has predominantly occurred in synchronous, face-to-face settings, and may not translate to asynchronous, text-based contexts. Because millions of people use text-based platforms for mental health support, understanding empathy in these contexts is crucial. In this work, we present a computational approach to understanding how empathy is expressed in online mental health platforms. We develop a novel unifying theoretically-grounded framework for characterizing the communication of empathy in text-based conversations. We collect and share a corpus of 10k (post, response) pairs annotated using this empathy framework with supporting evidence for annotations (rationales). We develop a multi-task RoBERTa-based bi-encoder model for identifying empathy in conversations and extracting rationales underlying its predictions. Experiments demonstrate that our approach can effectively identify empathic conversations. We further apply this model to analyze 235k mental health interactions and show that users do not self-learn empathy over time, revealing opportunities for empathy training and feedback.
翻訳日:2022-10-17 11:56:42 公開日:2020-09-17
# ユークリッド空間とマンハッタン空間における施設配置の戦略実証機構

Strategy Proof Mechanisms for Facility Location in Euclidean and Manhattan Space ( http://arxiv.org/abs/2009.07983v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) 1次元から2次元(以上)、ユークリッド距離やマンハッタン距離における施設配置のメカニズムへの影響について検討した。 基本的な公理的性質は, 基本的公正性である匿名性, 最も重要な効率性の一つであるパレート最適性, エージェントが誤報告のインセンティブを持たないことを保証する戦略実証性, の3つである。 また,このメカニズムがいかに最適な福祉を近似できるかについても考察する。 私たちの結果はやや否定的です。 1次元から2次元(またはそれ以上)に移動すると、これらの公理的性質がより困難になる。 例えば、ユークリッド空間の2つの施設やマンハッタン空間の1つの施設では、匿名のメカニズムやパレートの最適証明、戦略証明などは存在しない。 対照的に、直線上のメカニズムは3つの性質全てで存在し、また2次元(またはそれ以上)に移動すると近似比が増加することも示している。 不可能な結果はすべて最小限です。 3つの公理(匿名性、パレート最適性、戦略証明性)の1つを落とすと、他の2つの公理を複数の機構で満たす。

We study the impact on mechanisms for facility location of moving from one dimension to two (or more) dimensions and Euclidean or Manhattan distances. We consider three fundamental axiomatic properties: anonymity which is a basic fairness property, Pareto optimality which is one of the most important efficiency properties, and strategy proofness which ensures agents do not have an incentive to mis-report. We also consider how well such mechanisms can approximate the optimal welfare. Our results are somewhat negative. Moving from one dimension to two (or more) dimensions often makes these axiomatic properties more difficult to achieve. For example, with two facilities in Euclidean space or with just a single facility in Manhattan space, no mechanism is anonymous, Pareto optimal and strategy proof. By contrast, mechanisms on the line exist with all three properties.We also show that approximation ratios may increase when moving to two (or more) dimensions. All our impossibility results are minimal. If we drop one of the three axioms (anonymity, Pareto optimality or strategy proofness) multiple mechanisms satisfy the other two axioms.
翻訳日:2022-10-17 11:55:58 公開日:2020-09-17
# 容量制限のある施設立地の戦略実証機構

Strategy Proof Mechanisms for Facility Location with Capacity Limits ( http://arxiv.org/abs/2009.07986v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) 実世界の施設配置問題における重要な特徴は、施設の容量制限である。 ここでは,キャパシティ制約が施設配置の戦略証明機構の設計を困難にすることを示すが,その最適解の近似性に対する保証を直観的に改善することができる。

An important feature of many real world facility location problems are capacity limits on the facilities. We show here how capacity constraints make it harder to design strategy proof mechanisms for facility location, but counter-intuitively can improve the guarantees on how well we can approximate the optimal solution.
翻訳日:2022-10-17 11:55:38 公開日:2020-09-17
# eラーニングのためのマルチソースデータマイニング

Multi-source Data Mining for e-Learning ( http://arxiv.org/abs/2009.08791v1 )

ライセンス: Link先を確認
Julie Bu Daher, Armelle Brun and Anne Boyer(参考訳) データマイニングは,大規模なデータセットで興味深い,予期せぬ,あるいは価値のある構造を発見し,それを理解可能な構造に変換する作業だ。 データマイニング分野における様々なアプローチが提案されており、パターンマイニングが最も重要である。 パターンマイニングは、データから興味深い頻繁なパターンを抽出する。 パターンマイニングは、例えばレコメンデーションなど、異なる目的のために使用される、高い関心を持つトピックに成長した。 この領域で最も一般的な課題は、プロセスの複雑さの低減と、パターン内の冗長性の回避である。 これまでパターンマイニングは主に単一のデータソースのマイニングに重点を置いてきた。 しかし、データ量の増加とともに、データ量、ソースの多様性、データの性質が増すにつれ、この領域では、マルチソースおよび異種データのマイニングが新たな課題となっている。 この課題は、興味深い頻繁なパターンを抽出するために、マルチソースデータをマイニングする作業の中心となるものです。

Data mining is the task of discovering interesting, unexpected or valuable structures in large datasets and transforming them into an understandable structure for further use . Different approaches in the domain of data mining have been proposed, among which pattern mining is the most important one. Pattern mining mining involves extracting interesting frequent patterns from data. Pattern mining has grown to be a topic of high interest where it is used for different purposes, for example, recommendations. Some of the most common challenges in this domain include reducing the complexity of the process and avoiding the redundancy within the patterns. So far, pattern mining has mainly focused on the mining of a single data source. However, with the increase in the amount of data, in terms of volume, diversity of sources and nature of data, mining multi-source and heterogeneous data has become an emerging challenge in this domain. This challenge is the main focus of our work where we propose to mine multi-source data in order to extract interesting frequent patterns.
翻訳日:2022-10-17 11:54:53 公開日:2020-09-17
# 医療知識グラフを用いた医療用スニペットの検索と検索

Focused Clinical Query Understanding and Retrieval of Medical Snippets powered through a Healthcare Knowledge Graph ( http://arxiv.org/abs/2009.09086v1 )

ライセンス: Link先を確認
Maulik R. Kamdar, Michael Carroll, Will Dowling, Linda Wogulis, Cailey Fitzgerald, Matt Corkum, Danielle Walsh, David Conrad, Craig E. Stanley, Jr., Steve Ross, Dru Henke, Mevan Samarasinghe(参考訳) 臨床医は、医学や患者医療の実践中に複数の文献から正確な、簡潔で、更新され、信頼できる医療情報を検索し、合成するためのいくつかの重要な障壁に直面している。 この講演では,医療知識グラフを活用した集中型臨床検索サービスの開発を背景として,臨床検索クエリの背後にあるクエリインテントを解釈し,医療文献の多種多様なコーパスから関連するスニペットを取得するための研究を行う。

Clinicians face several significant barriers to search and synthesize accurate, succinct, updated, and trustworthy medical information from several literature sources during the practice of medicine and patient care. In this talk, we will be presenting our research behind the development of a Focused Clinical Search Service, powered by a Healthcare Knowledge Graph, to interpret the query intent behind clinical search queries and retrieve relevant medical snippets from a diverse corpus of medical literature.
翻訳日:2022-10-17 11:54:36 公開日:2020-09-17
# 自律走行車における関節物体検出と距離推定のためのレーダカメラセンサ融合

Radar-Camera Sensor Fusion for Joint Object Detection and Distance Estimation in Autonomous Vehicles ( http://arxiv.org/abs/2009.08428v1 )

ライセンス: Link先を確認
Ramin Nabati, Hairong Qi(参考訳) 本稿では,自律走行シナリオにおける物体検出と距離推定のための新しいレーダーカメラ・センサ融合フレームワークを提案する。 提案アーキテクチャでは,レーダーポイント雲とRGB画像の融合に中間融合方式を用いる。 radar object proposal networkは、radar point cloudを使用して、一連の3dプリエントボックスから3dプロポーザルを生成する。 これらの提案は画像にマッピングされ、オブジェクトネススコア予測とボックスリファインメントのためのRadar Proposal Refinement (RPR)ネットワークに入力される。 RPRネットワークはレーダ情報と画像特徴マップの両方を利用して、正確なオブジェクトの提案と距離推定を生成する。 レーダベースの提案は、修正された地域提案ネットワーク(RPN)によって生成された画像ベースの提案と組み合わせられる。 RPNは、生成された提案毎に距離を推定する距離回帰層を有する。 レーダベースと画像ベースの提案は統合され、次の段階でオブジェクト分類に使用される。 難解なnuScenesデータセットの実験では、2次元物体検出タスクにおいて既存のレーダーカメラ融合手法よりも優れており、同時にオブジェクトの距離を正確に推定する。

In this paper we present a novel radar-camera sensor fusion framework for accurate object detection and distance estimation in autonomous driving scenarios. The proposed architecture uses a middle-fusion approach to fuse the radar point clouds and RGB images. Our radar object proposal network uses radar point clouds to generate 3D proposals from a set of 3D prior boxes. These proposals are mapped to the image and fed into a Radar Proposal Refinement (RPR) network for objectness score prediction and box refinement. The RPR network utilizes both radar information and image feature maps to generate accurate object proposals and distance estimations. The radar-based proposals are combined with image-based proposals generated by a modified Region Proposal Network (RPN). The RPN has a distance regression layer for estimating distance for every generated proposal. The radar-based and image-based proposals are merged and used in the next stage for object classification. Experiments on the challenging nuScenes dataset show our method outperforms other existing radar-camera fusion methods in the 2D object detection task while at the same time accurately estimates objects' distances.
翻訳日:2022-10-17 11:47:09 公開日:2020-09-17
# ビデオを含む文書のマルチモーダル要約

Multi-modal Summarization for Video-containing Documents ( http://arxiv.org/abs/2009.08018v1 )

ライセンス: Link先を確認
Xiyan Fu and Jun Wang and Zhenglu Yang(参考訳) マルチメディアデータの要約は,質問応答やWeb検索など,多くの実世界のアプリケーションの基礎となっているため,ますます重要になっている。 しかし、既存のマルチモーダル要約作業の多くは、ビデオではなく画像から抽出した視覚補完機能を使用しており、豊富な情報を失う。 そこで本稿では,文書とその関連ビデオから要約する,新しいマルチモーダル要約タスクを提案する。 本研究は,両足の注意と遅延融合機構を改良し,異なるモード間のギャップを埋めるベースライン汎用モデルを構築し,テキストとビデオの要約を同時に利用するバイストリーム要約戦略を構築した。 包括的実験により,提案手法はマルチモーダル要約に有用であり,既存の手法よりも優れていることが示された。 さらに,新たなデータセットを収集し,文書やビデオから得られる将来の研究のための新たなリソースを提供する。

Summarization of multimedia data becomes increasingly significant as it is the basis for many real-world applications, such as question answering, Web search, and so forth. Most existing multi-modal summarization works however have used visual complementary features extracted from images rather than videos, thereby losing abundant information. Hence, we propose a novel multi-modal summarization task to summarize from a document and its associated video. In this work, we also build a baseline general model with effective strategies, i.e., bi-hop attention and improved late fusion mechanisms to bridge the gap between different modalities, and a bi-stream summarization strategy to employ text and video summarization simultaneously. Comprehensive experiments show that the proposed model is beneficial for multi-modal summarization and superior to existing methods. Moreover, we collect a novel dataset and it provides a new resource for future study that results from documents and videos.
翻訳日:2022-10-17 11:46:08 公開日:2020-09-17
# 知覚ネットワークにおける抽出集合

Attracting Sets in Perceptual Networks ( http://arxiv.org/abs/2009.08101v1 )

ライセンス: Link先を確認
Robert Prentner(参考訳) この文書は[1]で使用されるモデルの仕様を提供します。 遺伝的アルゴリズムを用いて、ある入力と(ノイズ)ネットワークのアトラクタ間の相互情報を最適化する簡単な方法を提案する。 このネットワークのノードは、"interface theory of perception"で記述された構造の単純化版としてモデル化されている [2]。 したがって、このシステムは「知覚ネットワーク」と呼ばれる。 本稿では,[1] の技術部分の編集版であり,Python 実装である PerceptualNetworks の付属テキストとして機能し,[3] で自由に利用できる。 1. Prentner, R. and Fields, C. . AIメソッドを使用して知覚のための最小モデルを評価する。 OpenPhilosophy 2019, 2, 503-524。 2.ホフマン(d.d.)、プラカシュ(c.)、シン(m.) . 知覚のインターフェイス理論。 サイコノミック・ブレティンとレビュー 2015, 22, 1480-1506。 3. prentner, r。 . 知覚ネットワーク https://github.com/RobertPrentner/PerceptualNetworks (2020年9月17日閲覧)

This document gives a specification for the model used in [1]. It presents a simple way of optimizing mutual information between some input and the attractors of a (noisy) network, using a genetic algorithm. The nodes of this network are modeled as simplified versions of the structures described in the "interface theory of perception" [2]. Accordingly, the system is referred to as a "perceptual network". The present paper is an edited version of technical parts of [1] and serves as accompanying text for the Python implementation PerceptualNetworks, freely available under [3]. 1. Prentner, R., and Fields, C.. Using AI methods to Evaluate a Minimal Model for Perception. OpenPhilosophy 2019, 2, 503-524. 2. Hoffman, D. D., Prakash, C., and Singh, M.. The Interface Theory of Perception. Psychonomic Bulletin and Review 2015, 22, 1480-1506. 3. Prentner, R.. PerceptualNetworks. https://github.com/RobertPrentner/PerceptualNetworks. (accessed September 17 2020)
翻訳日:2022-10-17 11:41:43 公開日:2020-09-17
# FastGCRNNに基づく都市交通流予測

Urban Traffic Flow Forecast Based on FastGCRNN ( http://arxiv.org/abs/2009.08087v1 )

ライセンス: Link先を確認
Ya Zhang, Mingming Lu, Haifeng Li(参考訳) 交通予測は、都市交通ネットワークにおけるインテリジェント交通システムの適用にとって重要な前提条件である。 既存の研究は、GCRNが芸術作品の状況であるRNNとCNN/GCNを採用し、交通流の時間的および空間的相関を特徴づけている。 しかし,計算量が多いため,大規模道路網にGCRNを適用することは困難である。 そこで本研究では,道路網を幾何グラフに抽象化し,高速グラフ畳み込みリカレントニューラルネットワーク(fastgcrnn)を構築し,トラヒックフローの時空間依存性をモデル化する。 具体的には、FastGCNユニットを使用して、重要サンプリングによる計算複雑性を低減し、グラフ内の道路と周辺道路のトポロジ的関係を効率的に把握し、GRUユニットを組み合わせてトラフィックフローの時間的依存性を捉え、Encoder-Decoderフレームワークに基づいた時空間特徴をSeq2Seqに埋め込む。 大規模トラフィックデータセットの実験により,提案手法は比較的高い精度を維持しながら,計算複雑性とメモリ消費を大幅に削減できることを示した。

Traffic forecasting is an important prerequisite for the application of intelligent transportation systems in urban traffic networks. The existing works adopted RNN and CNN/GCN, among which GCRN is the state of art work, to characterize the temporal and spatial correlation of traffic flows. However, it is hard to apply GCRN to the large scale road networks due to high computational complexity. To address this problem, we propose to abstract the road network into a geometric graph and build a Fast Graph Convolution Recurrent Neural Network (FastGCRNN) to model the spatial-temporal dependencies of traffic flow. Specifically, We use FastGCN unit to efficiently capture the topological relationship between the roads and the surrounding roads in the graph with reducing the computational complexity through importance sampling, combine GRU unit to capture the temporal dependency of traffic flow, and embed the spatiotemporal features into Seq2Seq based on the Encoder-Decoder framework. Experiments on large-scale traffic data sets illustrate that the proposed method can greatly reduce computational complexity and memory consumption while maintaining relatively high accuracy.
翻訳日:2022-10-17 11:41:07 公開日:2020-09-17
# 不確実性下での手続き目標の非互換性を扱う

Dealing with Incompatibilities among Procedural Goals under Uncertainty ( http://arxiv.org/abs/2009.08776v1 )

ライセンス: Link先を確認
Mariela Morveli-Espinoza, Juan Carlos Nieves, Ayslan Trevizan Possebom, and Cesar Augusto Tacla(参考訳) 合理的なエージェントを考えることで、互換性のないエージェントのセットから目標を選択する問題に焦点を合わせます。 カステルフランキとパリエリが導入した3つの非互換性、すなわち端末、楽器(または資源に基づく)、超流動性を考える。 我々は,その前提が不確実性に浸透している構造的議論によって,エージェントの計画を表現する。 これらの議論の強さを測り、互換性のある目標の集合を決定する。 本稿では,これらの議論の強みを計算するための2つの新しい方法を提案する。 1つは論理的強度値で、3次元ベクトルで表され、各引数に関連付けられた確率的間隔から計算される。 ベクトルは間隔の精度、その位置、精度と位置の組み合わせを表す。 構造化された議論の強さのこの種の表現と取り扱いは、以前にも芸術の状況によって定義されていなかった。 議論の強みを計算する第2の方法は、計画のコスト(必要な資源を考慮)と、計画に関連する目標の選好に基づいている。 構造化された議論の強度を測定する新しいアプローチを考えると、Dungの抽象的議論理論に基づく計画と目標の選択のための意味論を提案する。 最後に,提案の理論的評価を行う。

By considering rational agents, we focus on the problem of selecting goals out of a set of incompatible ones. We consider three forms of incompatibility introduced by Castelfranchi and Paglieri, namely the terminal, the instrumental (or based on resources), and the superfluity. We represent the agent's plans by means of structured arguments whose premises are pervaded with uncertainty. We measure the strength of these arguments in order to determine the set of compatible goals. We propose two novel ways for calculating the strength of these arguments, depending on the kind of incompatibility that exists between them. The first one is the logical strength value, it is denoted by a three-dimensional vector, which is calculated from a probabilistic interval associated with each argument. The vector represents the precision of the interval, the location of it, and the combination of precision and location. This type of representation and treatment of the strength of a structured argument has not been defined before by the state of the art. The second way for calculating the strength of the argument is based on the cost of the plans (regarding the necessary resources) and the preference of the goals associated with the plans. Considering our novel approach for measuring the strength of structured arguments, we propose a semantics for the selection of plans and goals that is based on Dung's abstract argumentation theory. Finally, we make a theoretical evaluation of our proposal.
翻訳日:2022-10-17 11:40:27 公開日:2020-09-17
# MoPro: Momentum Prototypesを使ったWeb上の教師付き学習

MoPro: Webly Supervised Learning with Momentum Prototypes ( http://arxiv.org/abs/2009.07995v1 )

ライセンス: Link先を確認
Junnan Li, Caiming Xiong, Steven C.H. Hoi(参考訳) 本稿では,教師あり学習の注釈不明瞭性や,自己教師あり学習の計算不明瞭性に支障をきたさない webly-supervised representation learning 法を提案する。 既存のウェブ教師あり表現学習では,学習データに有意なノイズを考慮せずに,バニラ教師あり学習法が採用されているが,ラベルノイズを用いた学習手法は,実世界の大規模雑音にはあまり効果がない。 そこで本研究では,オンラインラベルノイズ補正,分散サンプル除去,表現学習を実現する簡易なコントラスト学習手法であるmoproを提案する。 MoProは、弱いラベル付きノイズデータセットであるWebVisionで最先端のパフォーマンスを達成する。 MoProはまた、事前訓練されたモデルが下流の画像分類と検出タスクに転送されるときに、優れたパフォーマンスを示す。 これは imagenet の教師付き事前トレーニングモデルよりも +10.5 高く、imagenet ラベル付きサンプルの 1\% で微調整された場合、最高の自己教師付き事前トレーニングモデル +17.3 よりも優れている。 さらに、MoProは分散シフトに対して堅牢である。 コードと事前トレーニングされたモデルはhttps://github.com/salesforce/moproで入手できる。

We propose a webly-supervised representation learning method that does not suffer from the annotation unscalability of supervised learning, nor the computation unscalability of self-supervised learning. Most existing works on webly-supervised representation learning adopt a vanilla supervised learning method without accounting for the prevalent noise in the training data, whereas most prior methods in learning with label noise are less effective for real-world large-scale noisy data. We propose momentum prototypes (MoPro), a simple contrastive learning method that achieves online label noise correction, out-of-distribution sample removal, and representation learning. MoPro achieves state-of-the-art performance on WebVision, a weakly-labeled noisy dataset. MoPro also shows superior performance when the pretrained model is transferred to down-stream image classification and detection tasks. It outperforms the ImageNet supervised pretrained model by +10.5 on 1-shot classification on VOC, and outperforms the best self-supervised pretrained model by +17.3 when finetuned on 1\% of ImageNet labeled samples. Furthermore, MoPro is more robust to distribution shifts. Code and pretrained models are available at https://github.com/salesforce/MoPro.
翻訳日:2022-10-17 11:40:07 公開日:2020-09-17
# 両眼視に基づく無人車両の高精度目標位置決めシステム

High-precision target positioning system for unmanned vehicles based on binocular vision ( http://arxiv.org/abs/2009.08040v1 )

ライセンス: Link先を確認
Xianqi He, Zirui Li, Xufeng Yin, Jianwei Gong, Cheng Gong(参考訳) 無人車両はしばしば作業中に高い精度で目標を見つける必要がある。 無人材料処理ワークショップでは, 作業物を正確に把握するために, 作業物の高精度な姿勢推定を行う必要がある。 本稿では,両眼視に基づく高精度の無人車両目標位置決めシステムを提案する。 このシステムは、地域ベースのステレオマッチングアルゴリズムを用いて不一致マップを取得し、ransacアルゴリズムを用いて位置と姿勢の特徴を抽出し、6自由度円筒形のワークの位置と姿勢の推定を行う。 本報告では,システムの効果を検証するために,シリンダの出力結果の精度と計算時間を異なるポーズで収集する。 実験データによると、システムの位置精度は0.61~1.17mm、角精度は1.95~5.13{\deg}であり、精度の高い位置決め効果が得られる。

Unmanned vehicles often need to locate targets with high precision during work. In the unmanned material handling workshop, the unmanned vehicle needs to perform high-precision pose estimation of the workpiece to accurately grasp the workpiece. In this context, this paper proposes a high-precision unmanned vehicle target positioning system based on binocular vision. The system uses a region-based stereo matching algorithm to obtain a disparity map, and uses the RANSAC algorithm to extract position and posture features, which achives the estimation of the position and attitude of a six-degree-of-freedom cylindrical workpiece. In order to verify the effect of the system, this paper collects the accuracy and calculation time of the output results of the cylinder in different poses. The experimental data shows that the position accuracy of the system is 0.61~1.17mm and the angular accuracy is 1.95~5.13{\deg}, which can achieve better high-precision positioning effect.
翻訳日:2022-10-17 11:38:29 公開日:2020-09-17
# グラフ畳み込みネットワークによる構造からのイメージ検索

Image Retrieval for Structure-from-Motion via Graph Convolutional Network ( http://arxiv.org/abs/2009.08049v1 )

ライセンス: Link先を確認
Shen Yan, Yang Pen, Shiming Lai, Yu Liu, Maojun Zhang(参考訳) sfm(structure-from-motion)の従来の画像検索技術は反復パターンを効果的に認識する限界に苦しむため,高精度かつ高リコールで十分なマッチングペアを作成できない。 本稿では,グラフ畳み込みネットワーク(GCN)に基づく新しい検索手法を提案する。 画像検索タスクをグラフデータ中のノードバイナリ分類問題として定式化し,そのシーンがクエリ画像と重なり合う場合,ノードを正にマークする。 重要なアイデアは、クエリ画像周辺の特徴空間のローカルコンテキストが、この画像とその隣人とのマッチング可能な関係に関する豊富な情報を含んでいることである。 問合せ画像を取り巻くサブグラフを入力データとして構築することにより、問合せ画像と重なり合う領域を持つか否かを学習可能なGCNを採用する。 実験により,高度にあいまいで重複したシーンの難易度の高いデータセットにおいて,提案手法が著しく有効であることを示す。 また,最先端のマッチング検索手法と比較して,提案手法は再現の精度と完全性を犠牲にすることなく,無駄なマッチングを著しく削減する。

Conventional image retrieval techniques for Structure-from-Motion (SfM) suffer from the limit of effectively recognizing repetitive patterns and cannot guarantee to create just enough match pairs with high precision and high recall. In this paper, we present a novel retrieval method based on Graph Convolutional Network (GCN) to generate accurate pairwise matches without costly redundancy. We formulate image retrieval task as a node binary classification problem in graph data: a node is marked as positive if it shares the scene overlaps with the query image. The key idea is that we find that the local context in feature space around a query image contains rich information about the matchable relation between this image and its neighbors. By constructing a subgraph surrounding the query image as input data, we adopt a learnable GCN to exploit whether nodes in the subgraph have overlapping regions with the query photograph. Experiments demonstrate that our method performs remarkably well on the challenging dataset of highly ambiguous and duplicated scenes. Besides, compared with state-of-the-art matchable retrieval methods, the proposed approach significantly reduces useless attempted matches without sacrificing the accuracy and completeness of reconstruction.
翻訳日:2022-10-17 11:38:15 公開日:2020-09-17
# 敵攻撃に対するオンライン代替電源

Online Alternate Generator against Adversarial Attacks ( http://arxiv.org/abs/2009.08110v1 )

ライセンス: Link先を確認
Haofeng Li, Yirui Zeng, Guanbin Li, Liang Lin, Yizhou Yu(参考訳) コンピュータビジョンの分野は、深層畳み込みニューラルネットワークの発展によって近年の現象的な進歩を目撃している。 しかし、ディープラーニングモデルは、実際の画像に準知覚ノイズを追加することで合成される敵の例に敏感である。 既存の防衛方法は、攻撃対象のネットワークを再訓練し、既知の敵攻撃によって設定された列車を増強する必要がある。 上記の問題を克服するために,対象ネットワークのパラメータへのアクセスや修正を必要としない,携帯型防衛手法であるオンライン代替電源を提案する。 提案手法は,入力画像のスクラッチから別の画像をオンライン合成することで,対向雑音の除去や破壊を行う。 攻撃者が悪用する事前学習パラメータを避けるために,推定段階で生成器と合成画像を交互に更新する。 実験の結果,提案手法は,グレイボックス攻撃に対する最先端防御モデルよりも優れていた。

The field of computer vision has witnessed phenomenal progress in recent years partially due to the development of deep convolutional neural networks. However, deep learning models are notoriously sensitive to adversarial examples which are synthesized by adding quasi-perceptible noises on real images. Some existing defense methods require to re-train attacked target networks and augment the train set via known adversarial attacks, which is inefficient and might be unpromising with unknown attack types. To overcome the above issues, we propose a portable defense method, online alternate generator, which does not need to access or modify the parameters of the target networks. The proposed method works by online synthesizing another image from scratch for an input image, instead of removing or destroying adversarial noises. To avoid pretrained parameters exploited by attackers, we alternately update the generator and the synthesized image at the inference stage. Experimental results demonstrate that the proposed defensive scheme and method outperforms a series of state-of-the-art defending models against gray-box adversarial attacks.
翻訳日:2022-10-17 11:37:54 公開日:2020-09-17
# vax-a-net: 敵のパッチ攻撃に対するトレーニング時間防御

Vax-a-Net: Training-time Defence Against Adversarial Patch Attacks ( http://arxiv.org/abs/2009.08194v1 )

ライセンス: Link先を確認
T. Gittings, S. Schneider and J. Collomosse(参考訳) 本稿では,敵対的パッチアタック(APA)に対する畳み込みニューラルネットワーク(CNN)の免疫技術であるVax-a-Netを提案する。 APAは視覚的に過剰な局所領域(パッチ)を画像に挿入し、誤分類を引き起こす。 apasで使用するパッチを合成するために同時に学習する条件付きジェネレーショナル・アドバーサリアン・ネットワーク(gan)アーキテクチャを導入するとともに、これらの攻撃を利用して事前訓練されたターゲットcnnを適応させ、それらに対する感受性を低減させる。 このアプローチでは、事前訓練されたモデルに対してapasに対するレジリエンスを付与することができるが、apaメソッドの収束が遅いため、従来の敵対的トレーニングでは実用的ではない。 本稿では,この保護を既存のAPAに対して防御する上での伝達性を示し,その有効性を示す。

We present Vax-a-Net; a technique for immunizing convolutional neural networks (CNNs) against adversarial patch attacks (APAs). APAs insert visually overt, local regions (patches) into an image to induce misclassification. We introduce a conditional Generative Adversarial Network (GAN) architecture that simultaneously learns to synthesise patches for use in APAs, whilst exploiting those attacks to adapt a pre-trained target CNN to reduce its susceptibility to them. This approach enables resilience against APAs to be conferred to pre-trained models, which would be impractical with conventional adversarial training due to the slow convergence of APA methods. We demonstrate transferability of this protection to defend against existing APAs, and show its efficacy across several contemporary CNN architectures.
翻訳日:2022-10-17 11:37:15 公開日:2020-09-17
# ラベル平滑化と逆ロバスト性

Label Smoothing and Adversarial Robustness ( http://arxiv.org/abs/2009.08233v1 )

ライセンス: Link先を確認
Chaohao Fu, Hongbin Chen, Na Ruan, Weijia Jia(参考訳) 最近の研究では、現在の敵対的攻撃手法は欠陥があり、意図的に設計された防御に遭遇すると簡単に失敗することが示されている。 モデルの詳細を少し変更しても攻撃は無効になることもある。 ラベル平滑化によるトレーニングモデルでは,ほとんどの勾配に基づく攻撃において,極めて精度が向上することが確認できた。 例えば、CIFAR-10でラベルスムースにトレーニングされたWideResNetモデルのロバストな精度は、PGD攻撃で75%に達する。 微妙な頑健さの根底にある理由を理解するために,ラベルの平滑化と敵の頑健さの関係を検討する。 ラベルの平滑化を訓練したネットワークの特性に関する理論的解析と各種攻撃下での性能検証を行った。 ラベル平滑化によって生じるロバスト性は, 防御効果が揮発性であることから不完全であり, 自然学習モデルからの攻撃を防御できないことを示す。 本研究は,モデルのロバスト性を適切に評価する方法を,研究コミュニティに再検討させる。

Recent studies indicate that current adversarial attack methods are flawed and easy to fail when encountering some deliberately designed defense. Sometimes even a slight modification in the model details will invalidate the attack. We find that training model with label smoothing can easily achieve striking accuracy under most gradient-based attacks. For instance, the robust accuracy of a WideResNet model trained with label smoothing on CIFAR-10 achieves 75% at most under PGD attack. To understand the reason underlying the subtle robustness, we investigate the relationship between label smoothing and adversarial robustness. Through theoretical analysis about the characteristics of the network trained with label smoothing and experiment verification of its performance under various attacks. We demonstrate that the robustness produced by label smoothing is incomplete based on the fact that its defense effect is volatile, and it cannot defend attacks transferred from a naturally trained model. Our study enlightens the research community to rethink how to evaluate the model's robustness appropriately.
翻訳日:2022-10-17 11:36:59 公開日:2020-09-17
# ニューラルマシン翻訳のためのコードスイッチング事前学習

Code-switching pre-training for neural machine translation ( http://arxiv.org/abs/2009.08088v1 )

ライセンス: Link先を確認
Zhen Yang, Bojie Hu, Ambyera Han, Shen Huang and Qi Ju(参考訳) 本稿では,ニューラルネットワーク翻訳(NMT)のためのCSP(Code-Switching Pre-training)と呼ばれる事前学習手法を提案する。 入力文の断片をランダムにマスキングする従来の事前学習法とは異なり、提案したCSPはソース文の単語をターゲット言語で翻訳語にランダムに置き換える。 具体的には、まず、ソースとターゲット言語間の教師なし単語埋め込みマッピングを用いて辞書誘導を行い、抽出された翻訳辞書に従って入力文中の単語を翻訳語にランダムに置き換える。 CSPはエンコーダ-デコーダフレームワークを採用しており、エンコーダはコード混合文を入力とし、デコーダは入力文の置換断片を予測する。 このようにして、CSPは、ソースおよびターゲット単言語コーパスから抽出された言語間アライメント情報の大部分を明示的に記述することにより、NMTモデルを事前訓練することができる。 また,[マスク]のような人工記号による事前のファイントゥン差を緩和する。 提案手法の有効性を検証するため, 教師なし・教師なしNMT実験を行った。 実験の結果,cspはプレトレーニングや他のプレトレーニング手法を使わずに,ベースラインよりも大幅に改善できることがわかった。

This paper proposes a new pre-training method, called Code-Switching Pre-training (CSP for short) for Neural Machine Translation (NMT). Unlike traditional pre-training method which randomly masks some fragments of the input sentence, the proposed CSP randomly replaces some words in the source sentence with their translation words in the target language. Specifically, we firstly perform lexicon induction with unsupervised word embedding mapping between the source and target languages, and then randomly replace some words in the input sentence with their translation words according to the extracted translation lexicons. CSP adopts the encoder-decoder framework: its encoder takes the code-mixed sentence as input, and its decoder predicts the replaced fragment of the input sentence. In this way, CSP is able to pre-train the NMT model by explicitly making the most of the cross-lingual alignment information extracted from the source and target monolingual corpus. Additionally, we relieve the pretrain-finetune discrepancy caused by the artificial symbols like [mask]. To verify the effectiveness of the proposed method, we conduct extensive experiments on unsupervised and supervised NMT. Experimental results show that CSP achieves significant improvements over baselines without pre-training or with other pre-training methods.
翻訳日:2022-10-17 09:10:41 公開日:2020-09-17
# エンドツーエンドのニューラルネットワークイベントコリファレンス解決

End-to-End Neural Event Coreference Resolution ( http://arxiv.org/abs/2009.08153v1 )

ライセンス: Link先を確認
Yaojie Lu and Hongyu Lin and Jialong Tang and Xianpei Han and Le Sun(参考訳) 従来のイベントコアシステムは通常、パイプラインフレームワークと手作りの機能に依存しており、しばしばエラーの伝搬問題に直面し、一般化能力に乏しい。 本稿では,エンド・ツー・エンドのイベントコリファレンス手法であるe3cニューラルネットワークを提案する。イベント検出とイベントコリファレンス解決タスクを共同でモデル化し,生のテキストから特徴を自動的に抽出することを学ぶ。 さらに,イベント参照は多種多様であり,イベントコリファレンスは長距離かつ意味依存的な決定によって複雑に制御されるため,e3cニューラルネットワークでは,型誘導イベントコリファレンス機構がさらに提案されている。 実験により,本手法は2つの標準データセットに対して新しい最先端性能を実現することを示す。

Traditional event coreference systems usually rely on pipeline framework and hand-crafted features, which often face error propagation problem and have poor generalization ability. In this paper, we propose an End-to-End Event Coreference approach -- E3C neural network, which can jointly model event detection and event coreference resolution tasks, and learn to extract features from raw text automatically. Furthermore, because event mentions are highly diversified and event coreference is intricately governed by long-distance, semantic-dependent decisions, a type-guided event coreference mechanism is further proposed in our E3C neural network. Experiments show that our method achieves new state-of-the-art performance on two standard datasets.
翻訳日:2022-10-17 09:10:20 公開日:2020-09-17
# SemEval-2020 Task 5におけるISCAS:非現実的ステートメントモデリングのための事前学習型トランスフォーマ

ISCAS at SemEval-2020 Task 5: Pre-trained Transformers for Counterfactual Statement Modeling ( http://arxiv.org/abs/2009.08171v1 )

ライセンス: Link先を確認
Yaojie Lu and Annan Li and Hongyu Lin and Xianpei Han and Le Sun(参考訳) ISCASはSemEval 2020 Task 5の2つのサブタスクに参加した。 本稿では, 予め学習した変圧器をベースとするシステムについて述べる。 最初のサブタスクでは、偽造文を検出するための変換器ベースの分類器を訓練する。 第2のサブタスクでは,クエリに基づく質問応答問題として先行抽出と結果抽出を定式化する。 2つのサブシステムが評価で3位となった。 我々のシステムはhttps://github.com/casnlu/ISCAS-SemEval 2020Task5で公開されています。

ISCAS participated in two subtasks of SemEval 2020 Task 5: detecting counterfactual statements and detecting antecedent and consequence. This paper describes our system which is based on pre-trained transformers. For the first subtask, we train several transformer-based classifiers for detecting counterfactual statements. For the second subtask, we formulate antecedent and consequence extraction as a query-based question answering problem. The two subsystems both achieved third place in the evaluation. Our system is openly released at https://github.com/casnlu/ISCAS-SemEval2020Task5.
翻訳日:2022-10-17 09:10:08 公開日:2020-09-17
# DSC IIT-ISM at SemEval-2020 Task 6: Boosting BERT with Dependencies for Definition extract

DSC IIT-ISM at SemEval-2020 Task 6: Boosting BERT with Dependencies for Definition Extraction ( http://arxiv.org/abs/2009.08180v1 )

ライセンス: Link先を確認
Aadarsh Singh, Priyanshu Kumar and Aman Sinha(参考訳) 定義抽出における変換器(BERT)からの双方向エンコーダ表現の性能について検討する。 さらに,BERT と Text Level Graph Convolutional Network の結合モデルを提案する。 提案モデルでは,文が定義を含むか否かを分類する共有タスクであるDeftEval(SemEval 2020のタスク6)において,BERTよりも優れた結果が得られ,詳細な調整言語モデルによるBERTに匹敵する結果が得られる(Subtask 1)。

We explore the performance of Bidirectional Encoder Representations from Transformers (BERT) at definition extraction. We further propose a joint model of BERT and Text Level Graph Convolutional Network so as to incorporate dependencies into the model. Our proposed model produces better results than BERT and achieves comparable results to BERT with fine tuned language model in DeftEval (Task 6 of SemEval 2020), a shared task of classifying whether a sentence contains a definition or not (Subtask 1).
翻訳日:2022-10-17 09:09:58 公開日:2020-09-17
# もしwikipediaがなかったら? 大規模ニュースコーパスからのドメイン非依存用語抽出

What if we had no Wikipedia? Domain-independent Term Extraction from a Large News Corpus ( http://arxiv.org/abs/2009.08240v1 )

ライセンス: Link先を確認
Yonatan Bilu, Shai Gretz, Edo Cohen and Noam Slonim(参考訳) 過去20年で最も印象的な人間の努力の1つは、wikipediaである自由でアクセス可能なフォーマットで人間の知識の収集と分類である。 この研究で我々は、この知識の領域に入り、ウィキペディアに独自のページを持つのにふさわしい用語は何なのかを尋ねる。 これはwikipedia編集者の独特な選択というよりも、人間の談話や議論の自然な産物なのか? 具体的には、このような「wikiにふさわしい」用語を巨大なニュースコーパスで特定し、それが実際のwikipediaエントリに依存することなく、あるいは最小限でできるかどうかを確認することを目的としています。 5つすべてに対してベースライン結果を提供し、それらをベンチマークするための関連するデータセットを提供する。 我々の研究はドメイン固有の自動用語抽出問題に新たな光を当て、その問題はまだドメインに依存しない変種である。

One of the most impressive human endeavors of the past two decades is the collection and categorization of human knowledge in the free and accessible format that is Wikipedia. In this work we ask what makes a term worthy of entering this edifice of knowledge, and having a page of its own in Wikipedia? To what extent is this a natural product of on-going human discourse and discussion rather than an idiosyncratic choice of Wikipedia editors? Specifically, we aim to identify such "wiki-worthy" terms in a massive news corpus, and see if this can be done with no, or minimal, dependency on actual Wikipedia entries. We suggest a five-step pipeline for doing so, providing baseline results for all five, and the relevant datasets for benchmarking them. Our work sheds new light on the domain-specific Automatic Term Extraction problem, with the problem at hand being a domain-independent variant of it.
翻訳日:2022-10-17 09:09:46 公開日:2020-09-17
# 対話型要約の評価: 拡張ベースのフレームワーク

Evaluating Interactive Summarization: an Expansion-Based Framework ( http://arxiv.org/abs/2009.08380v1 )

ライセンス: Link先を確認
Ori Shapira, Ramakanth Pasunuru, Hadar Ronen, Mohit Bansal, Yael Amsterdamer, Ido Dagan(参考訳) ユーザがマルチドキュメントサマリと対話できるようにすることは、サマリ結果の改善とカスタマイズに有望な方向だ。 インタラクティブな要約のための異なるアイデアがこれまでの研究で提案されているが、これらの解は高度にばらつきがあり、相容れない。 本稿では,対話型セッションに沿って情報を蓄積することを考慮した,拡張型インタラクティブ要約のためのエンドツーエンド評価フレームワークを開発する。 本フレームワークは,標準に基づく実際のユーザセッションの収集と評価方法を含むが,インタラクションの反映に適応する。 すべてのソリューションは、ベンチマークとして公開され、インタラクティブな要約における将来の開発の比較を可能にします。 我々は、この目的のために開発したベースライン実装を評価し比較することにより、ベンチマークの一部として機能するフレームワークの使用を実証する。 これらのシステムの広範な実験と分析は、設計の選択を動機付け、フレームワークの存続性をサポートします。

Allowing users to interact with multi-document summarizers is a promising direction towards improving and customizing summary results. Different ideas for interactive summarization have been proposed in previous work but these solutions are highly divergent and incomparable. In this paper, we develop an end-to-end evaluation framework for expansion-based interactive summarization, which considers the accumulating information along an interactive session. Our framework includes a procedure of collecting real user sessions and evaluation measures relying on standards, but adapted to reflect interaction. All of our solutions are intended to be released publicly as a benchmark, allowing comparison of future developments in interactive summarization. We demonstrate the use of our framework by evaluating and comparing baseline implementations that we developed for this purpose, which will serve as part of our benchmark. Our extensive experimentation and analysis of these systems motivate our design choices and support the viability of our framework.
翻訳日:2022-10-17 09:09:32 公開日:2020-09-17
# 通信ネットワークにおける交通予測のための時空間ハイブリッドグラフ畳み込みネットワーク

Spatio-Temporal Hybrid Graph Convolutional Network for Traffic Forecasting in Telecommunication Networks ( http://arxiv.org/abs/2009.09849v1 )

ライセンス: Link先を確認
Marcus Kalander, Min Zhou, Chengzhi Zhang, Hanling Yi, Lujia Pan(参考訳) 通信ネットワークは現代社会において重要な役割を担っている。 5gネットワークが登場し、これらのシステムはより多様化し、統合され、インテリジェントになっています。 このようなシステムにおいて,交通予測は重要な要素の1つであるが,複雑な時空間依存性のため,特に困難である。 本研究では,セルラーネットワークの側面と基地局間の相互作用からこの問題を考察する。 密集した都市圏から収集したデータをもとに,セルネットワークトラフィックの特性を徹底的に調査し,依存関係の複雑度を明らかにした。 具体的には、トラフィックは動的および静的な空間依存性と多様な周期時間パターンの両方を示す。 これらの複雑さに対処するために,STHGCN(Spatio-Temporal Hybrid Graph Convolutional Network)という,効果的なディープラーニングベースのアプローチを提案する。 grusを使って時間依存をモデル化し、空間的近接性、機能的類似性、最近の傾向類似性という3つの視点からハイブリッドgcnを介して複雑な空間依存を捉える。 通信ネットワークから収集した実世界の交通データセットについて広範な実験を行った。 実験結果は,従来の手法と最先端のディープラーニングモデルの両方を一貫して上回りながら,より堅牢で安定であることを示す。

Telecommunication networks play a critical role in modern society. With the arrival of 5G networks, these systems are becoming even more diversified, integrated, and intelligent. Traffic forecasting is one of the key components in such a system, however, it is particularly challenging due to the complex spatial-temporal dependency. In this work, we consider this problem from the aspect of a cellular network and the interactions among its base stations. We thoroughly investigate the characteristics of cellular network traffic and shed light on the dependency complexities based on data collected from a densely populated metropolis area. Specifically, we observe that the traffic shows both dynamic and static spatial dependencies as well as diverse cyclic temporal patterns. To address these complexities, we propose an effective deep-learning-based approach, namely, Spatio-Temporal Hybrid Graph Convolutional Network (STHGCN). It employs GRUs to model the temporal dependency, while capturing the complex spatial dependency through a hybrid-GCN from three perspectives: spatial proximity, functional similarity, and recent trend similarity. We conduct extensive experiments on real-world traffic datasets collected from telecommunication networks. Our experimental results demonstrate the superiority of the proposed model in that it consistently outperforms both classical methods and state-of-the-art deep learning models, while being more robust and stable.
翻訳日:2022-10-17 09:02:46 公開日:2020-09-17
# shapeassembly: 3次元形状構造合成のためのプログラム生成のための学習

ShapeAssembly: Learning to Generate Programs for 3D Shape Structure Synthesis ( http://arxiv.org/abs/2009.08026v1 )

ライセンス: Link先を確認
R. Kenny Jones, Theresa Barton, Xianghao Xu, Kai Wang, Ellen Jiang, Paul Guerrero, Niloy J. Mitra, and Daniel Ritchie(参考訳) 3D形状の生成モデルは魅力的な代替手段を提供する。 プロシージャ表現は、高品質で編集可能な結果を提供するが、執筆が困難であり、しばしば多様性が制限された出力を生成する。 十分なデータがあれば、あらゆる種類の形状を生成することができるが、出力にはアーティファクトがあり、その表現は編集できない。 本稿では,新しい3次元形状合成のための両世界の最善を達成するための一歩を踏み出す。 3次元形状構造のためのドメイン固有な"アセンブリ言語"であるshapeassemblyを提案する。 shapeassemblyプログラムは、キューブイド部分のプロキシを宣言し、互いに階層的で対称的な方法でアタッチすることで形を作る。 その関数は自由変数でパラメータ化され、1つのプログラム構造が関連する形状の族をキャプチャすることができる。 PartNetデータセットの既存の形状構造からShapeAssemblyプログラムを抽出する方法を示す。 次に、新しいShapeAssemblyプログラムを書くことを学習する深層生成モデル、階層的シーケンスVAEを訓練する。 プログラムは解釈可能で編集可能な変数のサブセットをキャプチャする。 深層モデルは、手続き的に表現するのが難しい形状コレクション間の相関をキャプチャする。 提案手法は, 生成したプログラムから出力される形状と, 最近の形状構造合成モデルとを比較して評価する。 我々の生成した形状は、他の方法よりも可塑性で物理的に有益であることがわかった。 さらに、これらのモデルの潜在空間を評価し、我々の方がより構造が良く、よりスムーズな補間ができることを見出します。 アプリケーションとして、生成モデルと微分可能なプログラムインタプリタを用いて、ポイントクラウドのような非構造化幾何学に形状プログラムを推論し、適合させる。

Manually authoring 3D shapes is difficult and time consuming; generative models of 3D shapes offer compelling alternatives. Procedural representations are one such possibility: they offer high-quality and editable results but are difficult to author and often produce outputs with limited diversity. On the other extreme are deep generative models: given enough data, they can learn to generate any class of shape but their outputs have artifacts and the representation is not editable. In this paper, we take a step towards achieving the best of both worlds for novel 3D shape synthesis. We propose ShapeAssembly, a domain-specific "assembly-language" for 3D shape structures. ShapeAssembly programs construct shapes by declaring cuboid part proxies and attaching them to one another, in a hierarchical and symmetrical fashion. Its functions are parameterized with free variables, so that one program structure is able to capture a family of related shapes. We show how to extract ShapeAssembly programs from existing shape structures in the PartNet dataset. Then we train a deep generative model, a hierarchical sequence VAE, that learns to write novel ShapeAssembly programs. The program captures the subset of variability that is interpretable and editable. The deep model captures correlations across shape collections that are hard to express procedurally. We evaluate our approach by comparing shapes output by our generated programs to those from other recent shape structure synthesis models. We find that our generated shapes are more plausible and physically-valid than those of other methods. Additionally, we assess the latent spaces of these models, and find that ours is better structured and produces smoother interpolations. As an application, we use our generative model and differentiable program interpreter to infer and fit shape programs to unstructured geometry, such as point clouds.
翻訳日:2022-10-17 09:02:10 公開日:2020-09-17
# 微分物理学を用いた映像からの物理パラメータの同定

Learning to Identify Physical Parameters from Video Using Differentiable Physics ( http://arxiv.org/abs/2009.08292v1 )

ライセンス: Link先を確認
Rama Krishna Kandukuri, Jan Achterhold, Michael M\"oller, J\"org St\"uckler(参考訳) 近年,映像表現学習がコンピュータビジョンに注目されている。 ビデオ予測モデルは、しばしば入力フレームからエンコードされ、画像にデコードされるビデオの潜在表現を学習する。 アクションが条件付きであっても、純粋にディープラーニングベースのアーキテクチャは、物理的に解釈可能な潜在空間を欠いている。 本研究では,動作条件映像表現ネットワーク内の微分可能な物理エンジンを用いて,物理的潜在表現を学習する。 本稿では,ネットワークを学習し,物理的特性を識別するための教師付き自己教師型学習手法を提案する。 後者は空間トランスフォーマーを使って物理的状態を画像にデコードする。 実験におけるシミュレーションシナリオは, 物体の押・滑動・衝突を想定し, 物理特性の可観測性も解析した。 実験では,ネットワークが画像の符号化を学習し,シミュレーションシナリオで映像と映像との摩擦や動作シーケンスなどの物理的特性を識別できることを実証する。 我々は, 教師付きおよび自己教師付き手法の精度を評価し, 状態軌跡から直接学習するシステム同定ベースラインと比較する。 また,入力画像や動作から将来の映像フレームを予測する能力についても示す。

Video representation learning has recently attracted attention in computer vision due to its applications for activity and scene forecasting or vision-based planning and control. Video prediction models often learn a latent representation of video which is encoded from input frames and decoded back into images. Even when conditioned on actions, purely deep learning based architectures typically lack a physically interpretable latent space. In this study, we use a differentiable physics engine within an action-conditional video representation network to learn a physical latent representation. We propose supervised and self-supervised learning methods to train our network and identify physical properties. The latter uses spatial transformers to decode physical states back into images. The simulation scenarios in our experiments comprise pushing, sliding and colliding objects, for which we also analyze the observability of the physical properties. In experiments we demonstrate that our network can learn to encode images and identify physical properties like mass and friction from videos and action sequences in the simulated scenarios. We evaluate the accuracy of our supervised and self-supervised methods and compare it with a system identification baseline which directly learns from state trajectories. We also demonstrate the ability of our method to predict future video frames from input images and actions.
翻訳日:2022-10-17 09:01:43 公開日:2020-09-17
# 電子顕微鏡ボリュームにおける微小管追跡

Microtubule Tracking in Electron Microscopy Volumes ( http://arxiv.org/abs/2009.08371v1 )

ライセンス: Link先を確認
Nils Eckstein and Julia Buhmann and Matthew Cook and Jan Funke(参考訳) 電子顕微鏡ボリュームにおける微小管追跡法を提案する。 提案手法はまず, 微小管に属する可能性のある粗いボクセルの集合を同定する。 以前の研究と同様に、これらのボクセル間の潜在的なエッジを列挙し、候補グラフで表現する。 微小管構造に生物前処理を組み込んだ制約付き最適化問題を解くことにより、候補グラフのノードとエッジを選択することにより、微小管の軌跡が見つかる。 そこで本研究では,従来の手法に比べて3桁の高速化と53%の精度向上(1.2 x 4 x 4$\mu$mのショウジョウバエ神経組織での評価)を実現する,新しい整数線形計画法を提案する。 また, 分散トラッキングを可能にし, 大規模電子顕微鏡ボリュームの処理に必要となる, ブロックワイズ方式による最適化問題を解く手法を提案する。 最後に、私たちは、CREMIデータセット(https://github.com/nilsec/micron)に、30 x 1000 x 1000 のボクセルブロック (1.2 x 4 x 4$\mu$m) の高密度アノテーションを付加した8つのマイクロチューブブロックからなる、マイクロタブ追跡のためのベンチマークデータセットをリリースする。

We present a method for microtubule tracking in electron microscopy volumes. Our method first identifies a sparse set of voxels that likely belong to microtubules. Similar to prior work, we then enumerate potential edges between these voxels, which we represent in a candidate graph. Tracks of microtubules are found by selecting nodes and edges in the candidate graph by solving a constrained optimization problem incorporating biological priors on microtubule structure. For this, we present a novel integer linear programming formulation, which results in speed-ups of three orders of magnitude and an increase of 53% in accuracy compared to prior art (evaluated on three 1.2 x 4 x 4$\mu$m volumes of Drosophila neural tissue). We also propose a scheme to solve the optimization problem in a block-wise fashion, which allows distributed tracking and is necessary to process very large electron microscopy volumes. Finally, we release a benchmark dataset for microtubule tracking, here used for training, testing and validation, consisting of eight 30 x 1000 x 1000 voxel blocks (1.2 x 4 x 4$\mu$m) of densely annotated microtubules in the CREMI data set (https://github.com/nilsec/micron).
翻訳日:2022-10-17 09:01:22 公開日:2020-09-17
# 高分解能衛星画像と等価地勢を用いたインフォーマル集落の人口マッピング

Population Mapping in Informal Settlements with High-Resolution Satellite Imagery and Equitable Ground-Truth ( http://arxiv.org/abs/2009.08410v1 )

ライセンス: Link先を確認
Konstantin Klemmer, Godwin Yeboah, Jo\~ao Porto de Albuquerque, Stephen A Jarvis(参考訳) 本研究では,高分解能衛星画像を用いて,低所得都市における密集した非公式集落の人口推定のための汎用的枠組みを提案する。 正確な人口推計は、例えば医療状況において、政府機関やNGOによる効率的な資源配分にとって重要な要素である。 我々は,地域コミュニティと協調して収集される公平な地平データを利用する。訓練と地域マッピングを通じて,地域住民は独自のドメイン知識を提供しながら,データに関するエージェンシーも維持する。 このプラクティスは、より厳格な接地的アプローチによって生じるかもしれないモデリングパイプラインに潜在的なバイアスを前方へ持ち込むのを避けることができます。 私たちは、機械学習コミュニティ内で進行中の議論に関して、私たちのアプローチをコンテキスト化し、現実世界の機械学習アプリケーションをより包括的で公平で説明責任のあるものにすることを目指しています。 資源集約的な地上生成プロセスのため、トレーニングデータは限られています。 本研究では,フレキシブルかつカスタマイズ可能な空間分解能を実現するグリッド人口推定モデルを提案する。 ナイジェリアの3つの実験現場でパイプラインをテストし、トレーニング済みと微調整の視覚ネットワークを使ってデータの分散を克服した。 本研究は,実世界の課題に共通ベンチマークモデルを移すことの難しさを浮き彫りにした。 我々はこれを議論し、前進を提案します。

We propose a generalizable framework for the population estimation of dense, informal settlements in low-income urban areas--so called 'slums'--using high-resolution satellite imagery. Precise population estimates are a crucial factor for efficient resource allocations by government authorities and NGO's, for instance in medical emergencies. We utilize equitable ground-truth data, which is gathered in collaboration with local communities: Through training and community mapping, the local population contributes their unique domain knowledge, while also maintaining agency over their data. This practice allows us to avoid carrying forward potential biases into the modeling pipeline, which might arise from a less rigorous ground-truthing approach. We contextualize our approach in respect to the ongoing discussion within the machine learning community, aiming to make real-world machine learning applications more inclusive, fair and accountable. Because of the resource intensive ground-truth generation process, our training data is limited. We propose a gridded population estimation model, enabling flexible and customizable spatial resolutions. We test our pipeline on three experimental site in Nigeria, utilizing pre-trained and fine-tune vision networks to overcome data sparsity. Our findings highlight the difficulties of transferring common benchmark models to real-world tasks. We discuss this and propose steps forward.
翻訳日:2022-10-17 09:00:56 公開日:2020-09-17
# 顔を処理するための連結集約コード(改訂版)

A Linked Aggregate Code for Processing Faces (Revised Version) ( http://arxiv.org/abs/2009.08281v1 )

ライセンス: Link先を確認
Michael Lyons and Kazunori Morikawa(参考訳) 視覚系の生物学に触発された顔表現のモデルは、顔の類似性の知覚に関する実験データと比較される。 顔表現モデルでは、顔を覆う格子に局所的に結合した第1次視覚野(v1)細胞応答を用い、2つの顔画像の対応する点における形状とテクスチャの比較を可能にする。 比較的類似した顔のセットが刺激として使用されると、このリンクアグリゲートコード(LAC)は類似性判定実験で人間のパフォーマンスを予測した。 知覚可能なカテゴリの顔を使用すると、性別や人種などの次元は、トレーニングなしでLACモデルから現れた。 混合カテゴリー課題におけるLAC類似度尺度の次元構造は, 心理的に妥当な特徴を示すとともに, モデルと人間類似度判定の相違も強調した。 人間の判断は、LACモデルでは共有されなかった人種的知覚バイアスを示した。 その結果、lacに基づく類似度尺度は、顔知覚におけるバイアスの発達を含む、高次視覚領域における顔表現のさらなるモデリング研究の出発点となる可能性が示唆された。

A model of face representation, inspired by the biology of the visual system, is compared to experimental data on the perception of facial similarity. The face representation model uses aggregate primary visual cortex (V1) cell responses topographically linked to a grid covering the face, allowing comparison of shape and texture at corresponding points in two facial images. When a set of relatively similar faces was used as stimuli, this Linked Aggregate Code (LAC) predicted human performance in similarity judgment experiments. When faces of perceivable categories were used, dimensions such as apparent sex and race emerged from the LAC model without training. The dimensional structure of the LAC similarity measure for the mixed category task displayed some psychologically plausible features but also highlighted differences between the model and the human similarity judgements. The human judgements exhibited a racial perceptual bias that was not shared by the LAC model. The results suggest that the LAC based similarity measure may offer a fertile starting point for further modelling studies of face representation in higher visual areas, including studies of the development of biases in face perception.
翻訳日:2022-10-17 08:53:53 公開日:2020-09-17
# 進化的選択的模倣:実証のない模倣学習による解釈可能なエージェント

Evolutionary Selective Imitation: Interpretable Agents by Imitation Learning Without a Demonstrator ( http://arxiv.org/abs/2009.08403v1 )

ライセンス: Link先を確認
Roy Eliya, J. Michael Herrmann(参考訳) エージェントを進化戦略 (ES) で訓練する方法を提案し, サンプルの集合を反復的に改良して模倣する: ランダムな集合から始めると, イテレーション毎に, サンプルのサブセットを, これまでに発見された最良の軌道からサンプルに置き換える。 このセットの評価手順は、教師付き学習を通じて、ランダムに初期化されたニューラルネットワーク(NN)を訓練し、そのセットを模倣し、取得した環境に対するポリシーを実行する。 したがって,本手法は,進化するデータサブセットを模倣する効果を表わす適合関数に基づくesである。 これは、ポリシーの重みを直接反復する他のES技術とは対照的である。 エージェントが学習のために選択したサンプルを観察することにより、NN学習よりもエージェントの進化戦略をより明示的に解釈し、評価することができる。 実験では,わずか数千のパラメータを持つNNを用いて,25個のサンプルからなる進化的に選択されたセットを模倣して,OpenAI Gym環境のBipedalwalker-v3を解くエージェントを訓練した。 我々はさらに,Procgen ゲーム Plunder 上で本手法を検証し,提案手法が他のESやポリシー勾配法に代わる解釈可能で,小さく,頑健で効果的な代替手段であることを示す。

We propose a new method for training an agent via an evolutionary strategy (ES), in which we iteratively improve a set of samples to imitate: Starting with a random set, in every iteration we replace a subset of the samples with samples from the best trajectories discovered so far. The evaluation procedure for this set is to train, via supervised learning, a randomly initialised neural network (NN) to imitate the set and then execute the acquired policy against the environment. Our method is thus an ES based on a fitness function that expresses the effectiveness of imitating an evolving data subset. This is in contrast to other ES techniques that iterate over the weights of the policy directly. By observing the samples that the agent selects for learning, it is possible to interpret and evaluate the evolving strategy of the agent more explicitly than in NN learning. In our experiments, we trained an agent to solve the OpenAI Gym environment Bipedalwalker-v3 by imitating an evolutionarily selected set of only 25 samples with a NN with only a few thousand parameters. We further test our method on the Procgen game Plunder and show here as well that the proposed method is an interpretable, small, robust and effective alternative to other ES or policy gradient methods.
翻訳日:2022-10-17 08:53:08 公開日:2020-09-17
# ディープラーニングとソフトウェアエンジニアリング: 研究の現状と今後の方向性

Deep Learning & Software Engineering: State of Research and Future Directions ( http://arxiv.org/abs/2009.08525v1 )

ライセンス: Link先を確認
Prem Devanbu, Matthew Dwyer, Sebastian Elbaum, Michael Lowry, Kevin Moran, Denys Poshyvanyk, Baishakhi Ray, Rishabh Singh, and Xiangyu Zhang(参考訳) 現在、Deep Learning (DL)とSoftware Engineering (SE)の交差点にある研究の変革の可能性を考えると、NSFが主催するコミュニティワークショップは、カリフォルニア州サンディエゴで開催された第34回IEEE/ACM International Conference on Automated Software Engineering (ASE'19)と共同で実施された。 本ワークショップの目的は,横断的研究の優先度の高い分野を概説することであった。 今後の作業に向けた多くのエキサイティングな方向性が特定されている一方で,本報告では,ワークショップで議論された優先度の高い分野を代表する研究領域を概説する。 このレポートの意図は、SE & DLの交差点にある将来の作業のガイドとなる可能性のあるロードマップとして機能することである。

Given the current transformative potential of research that sits at the intersection of Deep Learning (DL) and Software Engineering (SE), an NSF-sponsored community workshop was conducted in co-location with the 34th IEEE/ACM International Conference on Automated Software Engineering (ASE'19) in San Diego, California. The goal of this workshop was to outline high priority areas for cross-cutting research. While a multitude of exciting directions for future work were identified, this report provides a general summary of the research areas representing the areas of highest priority which were discussed at the workshop. The intent of this report is to serve as a potential roadmap to guide future work that sits at the intersection of SE & DL.
翻訳日:2022-10-17 08:52:46 公開日:2020-09-17
# primes,log-lossスコアと(no)プライバシー

On Primes, Log-Loss Scores and (No) Privacy ( http://arxiv.org/abs/2009.08559v1 )

ライセンス: Link先を確認
Abhinav Aggarwal, Zekun Xu, Oluwaseyi Feyisetan, Nathanael Teissier(参考訳) メンバーシップ推論攻撃は、顧客データでトレーニングされたモデルを敵のクエリに暴露する脆弱性を悪用する。 最近提案された機密データセットからのプライバシー漏洩を測定する監査ツールの実装では、推測攻撃をシミュレートするためにログロススコアのようなより洗練された集約を公開し、敵の予測に基づいてプライバシー漏洩全体の評価を行う。 本稿では,この追加情報により,単一のクエリにおいて,任意のデータポイントのメンバシップを完全精度で推測することができ,完全なメンバシッププライバシ侵害を引き起こすことを実証する。 我々のアプローチは、攻撃モデルのトレーニングや、敵とのサイド知識へのアクセスを妨げます。 さらに,本アルゴリズムは攻撃対象のモデルに依存せず,記憶や過度に適合しないモデルにおいても完全なメンバシップ推論を可能にする。 特に,統計集約からの情報漏洩の程度と,その利用方法についての知見を提供する。

Membership Inference Attacks exploit the vulnerabilities of exposing models trained on customer data to queries by an adversary. In a recently proposed implementation of an auditing tool for measuring privacy leakage from sensitive datasets, more refined aggregates like the Log-Loss scores are exposed for simulating inference attacks as well as to assess the total privacy leakage based on the adversary's predictions. In this paper, we prove that this additional information enables the adversary to infer the membership of any number of datapoints with full accuracy in a single query, causing complete membership privacy breach. Our approach obviates any attack model training or access to side knowledge with the adversary. Moreover, our algorithms are agnostic to the model under attack and hence, enable perfect membership inference even for models that do not memorize or overfit. In particular, our observations provide insight into the extent of information leakage from statistical aggregates and how they can be exploited.
翻訳日:2022-10-17 08:51:07 公開日:2020-09-17
# ベイズ最適化による森林目録サンプリングにおけるリモートセンシングデータの利用

Utilizing remote sensing data in forest inventory sampling via Bayesian optimization ( http://arxiv.org/abs/2009.08420v1 )

ライセンス: Link先を確認
Jonne Pohjankukka, Sakari Tuominen, Jukka Heikkonen(参考訳) 大面積の森林在庫では、サンプリングされるデータの量とデータ収集のコストとの間のトレードオフが必要である。 サンプリングベースの在庫を扱う場合、必ずしも非常に大きなデータサンプルを持つことは不可能である。 したがって, 最適人口パラメータ推定を実現するためには, サンプリング設計を最適化する必要がある。 それとは対照的に、森林在庫変数と相関するリモートセンシング(RS)データの可用性は、通常、はるかに高い。 RSとサンプルフィールド計測データの組み合わせは、しばしば森林在庫パラメーター推定を改善するために使用される。 また,目録サンプリングにおけるrsデータの利用について検討することも合理的であり,森林変数の推定をさらに改善することができる。 本研究では,森林在庫サンプル選択におけるRSデータを用いたベイズ最適化に基づくデータサンプリング手法を提案する。 提案手法は,RSと在庫データ間の学習関数関係を新しいサンプリング決定に適用する。 フィンランドのオーランド地域から得られた合成データと測定データの両方を用いて, 模擬サンプリング実験を行い, 評価を行った。 提案手法は,単純なランダムサンプリング法と局所ピボット法という2つの基本手法に対してベンチマークを行う。 シミュレーション実験の結果は,RSと在庫データとの関数関係が,利用可能なトレーニングデータから正しく学習された場合に,提案手法のMSE値の観点から最もよい結果を示す。

In large-area forest inventories a trade-off between the amount of data to be sampled and the costs of collecting the data is necessary. It is not always possible to have a very large data sample when dealing with sampling-based inventories. It is therefore necessary to optimize the sampling design in order to achieve optimal population parameter estimation. On the contrary, the availability of remote sensing (RS) data correlated with the forest inventory variables is usually much higher. The combination of RS and the sampled field measurement data is often used for improving the forest inventory parameter estimation. In addition, it is also reasonable to study the utilization of RS data in inventory sampling, which can further improve the estimation of forest variables. In this study, we propose a data sampling method based on Bayesian optimization which uses RS data in forest inventory sample selection. The presented method applies the learned functional relationship between the RS and inventory data in new sampling decisions. We evaluate our method by conducting simulated sampling experiments with both synthetic data and measured data from the Aland region in Finland. The proposed method is benchmarked against two baseline methods: simple random sampling and the local pivotal method. The results of the simulated experiments show the best results in terms of MSE values for the proposed method when the functional relationship between RS and inventory data is correctly learned from the available training data.
翻訳日:2022-10-17 08:44:48 公開日:2020-09-17
# 一人以上の」ショットラーニング:M<NサンプルからNクラスを学ぶ

'Less Than One'-Shot Learning: Learning N Classes From M<N Samples ( http://arxiv.org/abs/2009.08449v1 )

ライセンス: Link先を確認
Ilia Sucholutsky, Matthias Schonlau(参考訳) ディープニューラルネットワークは大きなトレーニングセットを必要とするが、高い計算コストと長いトレーニング時間に苦しむ。 ほぼ同じ精度を維持しながら、より小さなトレーニングセットでのトレーニングは、非常に有益である。 数少ない学習設定では、モデルは、そのクラスから少数のサンプルしか与えていない新しいクラスを学ばなければならない。 ワンショット学習(one-shot learning)は、モデルが1つの例から新しいクラスを学ばなければならない、最小限の学習の極端な形態である。 我々は、モデルが$m<n$の例しか与えていない新しいクラスを学ばなければならない`less than one'-shot学習タスクを提案し、ソフトラベルの助けを借りて実現可能であることを示す。 我々は,k-nearest近傍の分類器のソフトラベル一般化を用いて,'less than one'-shot learning設定で生成可能な複雑な意思決定環境を探索する。 我々はこれらの意思決定環境を分析し、$M<N$ソフトラベルサンプルを用いて$N$クラスを分離するための理論的下限を導出し、その結果のシステムの堅牢性を調べる。

Deep neural networks require large training sets but suffer from high computational cost and long training times. Training on much smaller training sets while maintaining nearly the same accuracy would be very beneficial. In the few-shot learning setting, a model must learn a new class given only a small number of samples from that class. One-shot learning is an extreme form of few-shot learning where the model must learn a new class from a single example. We propose the `less than one'-shot learning task where models must learn $N$ new classes given only $M<N$ examples and we show that this is achievable with the help of soft labels. We use a soft-label generalization of the k-Nearest Neighbors classifier to explore the intricate decision landscapes that can be created in the `less than one'-shot learning setting. We analyze these decision landscapes to derive theoretical lower bounds for separating $N$ classes using $M<N$ soft-label samples and investigate the robustness of the resulting systems.
翻訳日:2022-10-17 08:44:29 公開日:2020-09-17
# 19世紀の書籍における生産技術分類への深層学習アプローチ

Deep Learning Approaches to Classification of Production Technology for 19th Century Books ( http://arxiv.org/abs/2009.08219v1 )

ライセンス: Link先を確認
Chanjong Im, Junaid Ghauri, John Rothman, Thomas Mandl(参考訳) 文化研究は、書籍産業における知識の普及過程と社会的・技術的実践を理解することに専念している。 19世紀の児童書の研究はコンピュータシステムによって支援されている。 特に、デジタル画像処理の進歩は、書籍の視覚成分の分析と定量化に絶好の機会をもたらすように思われる。 19世紀の書籍におけるイラストレーションの制作技術は、木や銅の版画からリソグラフィーへの転換が特徴である。 本稿では,生産技術に基づく画像の分類を目的とした分類実験について報告する。 人間にとっても難しい分類課題では、分類品質は70%程度にしか達しない。 我々は、さらなるエラーソースを分析し、低性能の原因を特定する。

Cultural research is dedicated to understanding the processes of knowledge dissemination and the social and technological practices in the book industry. Research on children books in the 19th century can be supported by computer systems. Specifically, the advances in digital image processing seem to offer great opportunities for analyzing and quantifying the visual components in the books. The production technology for illustrations in books in the 19th century was characterized by a shift from wood or copper engraving to lithography. We report classification experiments which intend to classify images based on the production technology. For a classification task that is also difficult for humans, the classification quality reaches only around 70%. We analyze some further error sources and identify reasons for the low performance.
翻訳日:2022-10-17 08:43:37 公開日:2020-09-17
# データ分布保存による深部部分表現の学習

Learning a Deep Part-based Representation by Preserving Data Distribution ( http://arxiv.org/abs/2009.08246v1 )

ライセンス: Link先を確認
Anyong Qin and Zhaowei Shang and Zhuolin Tan and Taiping Zhang and Yuan Yan Tang(参考訳) 教師なし次元減少は、高次元データ認識問題において一般的に用いられる技法の1つである。 非負の重みを制約するディープオートエンコーダネットワークは、データの低次元部分ベースの表現を学習することができる。 一方、各データクラスタの固有の構造は、クラス内サンプルの分布によって説明できる。 すると、元の高次元データ空間に埋め込まれた本質的な構造を完璧に保存できる新しい低次元表現を学びたいと考える。 本稿では,データ分布を保存することで,深い部分に基づく表現を学習し,新しいアルゴリズムを分散保存ネットワーク埋め込み (dpne) と呼ぶ。 DPNEでは、まず、$k$-nearest 近傍のカーネル密度推定を用いて元の高次元データの分布を推定し、上記の分布を尊重する部分的表現を求める。 実世界のデータセットにおける実験結果から,提案アルゴリズムはクラスタ精度とAMIの点で優れた性能を示した。 その結果、原データの多様体構造は低次元特徴空間で十分に保存できることが判明した。

Unsupervised dimensionality reduction is one of the commonly used techniques in the field of high dimensional data recognition problems. The deep autoencoder network which constrains the weights to be non-negative, can learn a low dimensional part-based representation of data. On the other hand, the inherent structure of the each data cluster can be described by the distribution of the intraclass samples. Then one hopes to learn a new low dimensional representation which can preserve the intrinsic structure embedded in the original high dimensional data space perfectly. In this paper, by preserving the data distribution, a deep part-based representation can be learned, and the novel algorithm is called Distribution Preserving Network Embedding (DPNE). In DPNE, we first need to estimate the distribution of the original high dimensional data using the $k$-nearest neighbor kernel density estimation, and then we seek a part-based representation which respects the above distribution. The experimental results on the real-world data sets show that the proposed algorithm has good performance in terms of cluster accuracy and AMI. It turns out that the manifold structure in the raw data can be well preserved in the low dimensional feature space.
翻訳日:2022-10-17 08:43:29 公開日:2020-09-17
# 3次元物体検出のためのグラフニューラルネットワークの動的エッジ重み付け

Dynamic Edge Weights in Graph Neural Networks for 3D Object Detection ( http://arxiv.org/abs/2009.08253v1 )

ライセンス: Link先を確認
Sumesh Thakur and Jiju Peethambaran(参考訳) 堅牢で正確な3D検出システムは、自動運転車の不可欠な部分である。 伝統的に、ほとんどの3Dオブジェクト検出アルゴリズムは、ボクセルグリッドや鳥の目視(BEV)を使用して3Dポイントクラウドを処理することに重点を置いている。 しかし、最近の研究は、グラフニューラルネットワーク(GNN)を3Dオブジェクト検出への有望なアプローチとして活用することを実証している。 本稿では,LiDARスキャンにおける物体検出のための注意に基づく特徴集約手法をGNNで提案する。 我々はまず,アルゴリズム性能を向上するだけでなく,センサから遠ざかっても物体の最大幾何学的特徴を維持できる距離対応ダウンサンプリング方式を用いる。 また、gnnの各層において、ノード毎の入力特徴を対応する高レベル特徴にマッピングする線形変換とは別に、第1リング近傍の異なるノードに対して異なる重みを指定することにより、ノード毎の注目をマスキングする。 マスクされた注意は、各ノードの下位の近傍グラフ構造を暗黙的に説明し、またコストのかかるマトリックス操作の必要性をなくし、性能を損なうことなく検出精度を向上させる。 kittiデータセットを用いた実験により, 3次元物体検出に匹敵する結果が得られた。

A robust and accurate 3D detection system is an integral part of autonomous vehicles. Traditionally, a majority of 3D object detection algorithms focus on processing 3D point clouds using voxel grids or bird's eye view (BEV). Recent works, however, demonstrate the utilization of the graph neural network (GNN) as a promising approach to 3D object detection. In this work, we propose an attention based feature aggregation technique in GNN for detecting objects in LiDAR scan. We first employ a distance-aware down-sampling scheme that not only enhances the algorithmic performance but also retains maximum geometric features of objects even if they lie far from the sensor. In each layer of the GNN, apart from the linear transformation which maps the per node input features to the corresponding higher level features, a per node masked attention by specifying different weights to different nodes in its first ring neighborhood is also performed. The masked attention implicitly accounts for the underlying neighborhood graph structure of every node and also eliminates the need of costly matrix operations thereby improving the detection accuracy without compromising the performance. The experiments on KITTI dataset show that our method yields comparable results for 3D object detection.
翻訳日:2022-10-17 08:43:11 公開日:2020-09-17
# ラベル雑音下での効率的な学習のための雑音同時学習

Noisy Concurrent Training for Efficient Learning under Label Noise ( http://arxiv.org/abs/2009.08325v1 )

ライセンス: Link先を確認
Fahad Sarfraz, Elahe Arani and Bahram Zonooz(参考訳) ディープニューラルネットワーク(dnn)はラベルノイズ下で効果的に学習できず、一般化性能に影響を与えるランダムラベルを記憶することが示されている。 我々は,単独で学習すること,ワンホット符号化ラベルを唯一の監督源として使用すること,および標準訓練手順の主な欠点として記憶を阻害するための正規化の欠如を考える。 そこで本研究では,協調学習を活用し,2モデル間のコンセンサスを追加の監督源として活用する,雑音を伴う同時学習(nct)を提案する。 さらに,脳内における試行錯誤正規化手法であるtarget variabilityを提案し,dnnにおける記憶と過一般化の抑止力として,各バッチ内のトレーニングサンプルのラベルをランダムに変更することを含む。 ターゲットの変動性は各モデルに独立して適用され、分岐を保ち、確認バイアスを回避する。 DNNは、ノイズの多いラベルを記憶する前に、まず単純なパターンの学習を優先する傾向にあるため、トレーニングが進むにつれて、2つのモデルがコンセンサスにますます依存する動的な学習方式を採用する。 nctはまた、後段の記憶を避けるために目標変動を徐々に増加させる。 提案手法の有効性を,合成および実世界の雑音のベンチマークデータセットで示す。

Deep neural networks (DNNs) fail to learn effectively under label noise and have been shown to memorize random labels which affect their generalization performance. We consider learning in isolation, using one-hot encoded labels as the sole source of supervision, and a lack of regularization to discourage memorization as the major shortcomings of the standard training procedure. Thus, we propose Noisy Concurrent Training (NCT) which leverages collaborative learning to use the consensus between two models as an additional source of supervision. Furthermore, inspired by trial-to-trial variability in the brain, we propose a counter-intuitive regularization technique, target variability, which entails randomly changing the labels of a percentage of training samples in each batch as a deterrent to memorization and over-generalization in DNNs. Target variability is applied independently to each model to keep them diverged and avoid the confirmation bias. As DNNs tend to prioritize learning simple patterns first before memorizing the noisy labels, we employ a dynamic learning scheme whereby as the training progresses, the two models increasingly rely more on their consensus. NCT also progressively increases the target variability to avoid memorization in later stages. We demonstrate the effectiveness of our approach on both synthetic and real-world noisy benchmark datasets.
翻訳日:2022-10-17 08:42:22 公開日:2020-09-17
# 不確実性下におけるベイズ最適化における平均変動解析

Mean-Variance Analysis in Bayesian Optimization under Uncertainty ( http://arxiv.org/abs/2009.08166v1 )

ライセンス: Link先を確認
Shogo Iwazaki, Yu Inatsu, Ichiro Takeuchi(参考訳) 複数のリスク対策のトレードオフを検討する必要がある不確実な環境において、アクティブラーニング(AL)を考える。 このような不確実な環境におけるAL問題として,ベイズ最適化(MVA-BO)における平均変動解析について検討する。 平均分散分析は金融工学の分野で開発され、投資の不確実性の平均と分散のトレードオフを考慮した意思決定に用いられてきた。 本稿では,不確実成分を用いたBO設定に着目し,不確実成分の平均分散トレードオフに対するマルチタスク,マルチオブジェクト,制約付き最適化シナリオを検討する。 対象のブラックボックス関数がガウス過程(GP)によってモデル化された場合、2つのリスク測度の境界を導出し、リスク測度境界に基づいて上記の3つの問題それぞれに対してALアルゴリズムを提案する。 理論的解析と数値実験により提案アルゴリズムの有効性を示す。

We consider active learning (AL) in an uncertain environment in which trade-off between multiple risk measures need to be considered. As an AL problem in such an uncertain environment, we study Mean-Variance Analysis in Bayesian Optimization (MVA-BO) setting. Mean-variance analysis was developed in the field of financial engineering and has been used to make decisions that take into account the trade-off between the average and variance of investment uncertainty. In this paper, we specifically focus on BO setting with an uncertain component and consider multi-task, multi-objective, and constrained optimization scenarios for the mean-variance trade-off of the uncertain component. When the target blackbox function is modeled by Gaussian Process (GP), we derive the bounds of the two risk measures and propose AL algorithm for each of the above three problems based on the risk measure bounds. We show the effectiveness of the proposed AL algorithms through theoretical analysis and numerical experiments.
翻訳日:2022-10-17 08:35:21 公開日:2020-09-17
# 精度に制限のある多目的動的プログラミング

Multi-objective dynamic programming with limited precision ( http://arxiv.org/abs/2009.08198v1 )

ライセンス: Link先を確認
L. Mandow, J. L. P\'erez de la Cruz, N. Pozas(参考訳) 本稿では,多目的マルコフ決定過程に対する全解の集合を近似する問題に対処する。 興味深い場合のほとんどにおいて、解の数は指数関数的、あるいは無限であることを示している。 この難しさを克服するために,Whiteの多目的値イテレーション動的プログラミングアルゴリズムに基づく限定的精度アプローチを用いて,全ての解の集合を近似することを提案する。 計算された解の数が扱いやすいことを証明し、得られた解が真のパレート前線のよい近似であることを実験的に示す。

This paper addresses the problem of approximating the set of all solutions for Multi-objective Markov Decision Processes. We show that in the vast majority of interesting cases, the number of solutions is exponential or even infinite. In order to overcome this difficulty we propose to approximate the set of all solutions by means of a limited precision approach based on White's multi-objective value-iteration dynamic programming algorithm. We prove that the number of calculated solutions is tractable and show experimentally that the solutions obtained are a good approximation of the true Pareto front.
翻訳日:2022-10-17 08:35:07 公開日:2020-09-17
# 患者の医療状況のグラフ表現 : デジタル双生児に向けて

Graph representation forecasting of patient's medical conditions: towards a digital twin ( http://arxiv.org/abs/2009.08299v1 )

ライセンス: Link先を確認
Pietro Barbiero, Ramon Vi\~nas Torn\'e, Pietro Li\'o(参考訳) 目的: 近代医学は、患者にパーソナライズされた、体系的で正確な治療計画を提供することを目的とした、待機と反応、治療の規律から、予防的で学際的な科学に移行する必要がある。 この研究の目的は、機械学習アプローチと機械計算モデリングの統合が、有機体全体を全体と見なす確率論的シミュレーションを実行するための信頼性の高いインフラをいかに生み出すかを示すことである。 方法: 先進的なAIアプローチを構成し, 数学的モデリングを統合した一般的なフレームワークを提案し, 現状と今後の生理的条件に対するパノラマ的な視点を提供する。 提案アーキテクチャは、臨床関連エンドポイント(血圧など)を予測するグラフニューラルネットワーク(GNN)と、転写可積分性の概念の証明を提供する生成逆ネットワーク(GAN)に基づいている。 結果: 各種組織におけるACE2の過剰発現が心血管機能に及ぼす影響について検討した。 分子データを用いて構成可能な大規模な臨床モデルを統合し、局所的およびグローバルな臨床パラメータを駆動し、患者の生理状態の進化を表す将来の軌跡を導出する概念を実証する。 意義:我々は,計算患者のグラフ表現は,AIとマルチスケール計算モデルを統合する上で重要な技術的課題を解決する可能性があると論じる。 この研究は、ヘルスケアのデジタル双子への一歩だと信じています。

Objective: Modern medicine needs to shift from a wait and react, curative discipline to a preventative, interdisciplinary science aiming at providing personalised, systemic and precise treatment plans to patients. The aim of this work is to present how the integration of machine learning approaches with mechanistic computational modelling could yield a reliable infrastructure to run probabilistic simulations where the entire organism is considered as a whole. Methods: We propose a general framework that composes advanced AI approaches and integrates mathematical modelling in order to provide a panoramic view over current and future physiological conditions. The proposed architecture is based on a graph neural network (GNNs) forecasting clinically relevant endpoints (such as blood pressure) and a generative adversarial network (GANs) providing a proof of concept of transcriptomic integrability. Results: We show the results of the investigation of pathological effects of overexpression of ACE2 across different signalling pathways in multiple tissues on cardiovascular functions. We provide a proof of concept of integrating a large set of composable clinical models using molecular data to drive local and global clinical parameters and derive future trajectories representing the evolution of the physiological state of the patient. Significance: We argue that the graph representation of a computational patient has potential to solve important technological challenges in integrating multiscale computational modelling with AI. We believe that this work represents a step forward towards a healthcare digital twin.
翻訳日:2022-10-17 08:34:03 公開日:2020-09-17
# ラベル粘着性およびよく形成した対数クレームの生成

Generating Label Cohesive and Well-Formed Adversarial Claims ( http://arxiv.org/abs/2009.08205v1 )

ライセンス: Link先を確認
Pepa Atanasova, Dustin Wright, and Isabelle Augenstein(参考訳) 敵攻撃は、訓練されたモデルの重大な脆弱性と欠陥を明らかにする。 これは個々のn-gramであり、攻撃中のクラスのインスタンスに付加されると、モデルを騙してターゲットクラスを予測することができる。 しかし、ファクトチェックのような推論タスクでは、これらのトリガーは挿入されるインスタンスの意味を意図せずに反転させることが多い。 さらに、このような攻撃は、既存のサンプルにトリガーを結合させるため、意味的に非意味な入力を生成する。 本稿では,真理の意味を保存し,意味的に有効な事実チェックシステムに対する敵意攻撃を発生させる方法について検討する。 本稿では,ファクトチェックモデルの目標クラス損失と補助自然言語推論モデルの含意クラス損失を最小化することにより,ユニバーサルトリガ生成に使用されるHotFlip攻撃アルゴリズムを拡張した。 次に条件付き言語モデルをトレーニングして、見つけたユニバーサルトリガーを含む意味的に有効なステートメントを生成する。 生成した攻撃は, クレームの方向性と意味的妥当性を従来よりも向上させる。

Adversarial attacks reveal important vulnerabilities and flaws of trained models. One potent type of attack are universal adversarial triggers, which are individual n-grams that, when appended to instances of a class under attack, can trick a model into predicting a target class. However, for inference tasks such as fact checking, these triggers often inadvertently invert the meaning of instances they are inserted in. In addition, such attacks produce semantically nonsensical inputs, as they simply concatenate triggers to existing samples. Here, we investigate how to generate adversarial attacks against fact checking systems that preserve the ground truth meaning and are semantically valid. We extend the HotFlip attack algorithm used for universal trigger generation by jointly minimising the target class loss of a fact checking model and the entailment class loss of an auxiliary natural language inference model. We then train a conditional language model to generate semantically valid statements, which include the found universal triggers. We find that the generated attacks maintain the directionality and semantic validity of the claim better than previous work.
翻訳日:2022-10-17 08:27:13 公開日:2020-09-17
# RoBERTa, BERT, DistilBERTの組成と語彙的意味論:CoQAを例として

Compositional and Lexical Semantics in RoBERTa, BERT and DistilBERT: A Case Study on CoQA ( http://arxiv.org/abs/2009.08257v1 )

ライセンス: Link先を確認
Ieva Stali\=unait\.e and Ignacio Iacobacci(参考訳) 多くのNLPタスクは、文脈化された単語埋め込みから知識を伝達することの恩恵を受けているが、どのような種類の知識が転送されるかは不完全である。 本稿では,会話質問回答(CoQA)タスクの文脈における言語モデルによる言語現象の種類について検討する。 本稿では,基本演算(フレーズ数),構成意味論(ネゲーションとセマンティックロールラベル),語彙意味論(サプライサルとアンタニミー)などを用いて,微調整されたRoBERTa,BERT,DistilBERTモデルの問題領域を同定する。 マルチタスク学習によって言語知識が強化されると、モデルの性能が向上する。 強化されたモデルのアンサンブルは、F1スコア全体で2.2から2.7ポイント、最も難しい質問クラスでは42.1ポイントまで上昇する。 その結果,RoBERTa,BERT,DistilBERTの合成情報と語彙情報の表現能力の差異が認められた。

Many NLP tasks have benefited from transferring knowledge from contextualized word embeddings, however the picture of what type of knowledge is transferred is incomplete. This paper studies the types of linguistic phenomena accounted for by language models in the context of a Conversational Question Answering (CoQA) task. We identify the problematic areas for the finetuned RoBERTa, BERT and DistilBERT models through systematic error analysis - basic arithmetic (counting phrases), compositional semantics (negation and Semantic Role Labeling), and lexical semantics (surprisal and antonymy). When enhanced with the relevant linguistic knowledge through multitask learning, the models improve in performance. Ensembles of the enhanced models yield a boost between 2.2 and 2.7 points in F1 score overall, and up to 42.1 points in F1 on the hardest question classes. The results show differences in ability to represent compositional and lexical information between RoBERTa, BERT and DistilBERT.
翻訳日:2022-10-17 08:26:57 公開日:2020-09-17
# ヘテロジニアスネットワーク埋め込みのための階層型注意

Layer-stacked Attention for Heterogeneous Network Embedding ( http://arxiv.org/abs/2009.08072v1 )

ライセンス: Link先を確認
Nhat Tran, Jean Gao(参考訳) 異種ネットワークは、さまざまな方法で相互作用するさまざまなタイプのエンティティをモデル化できる堅牢なデータ抽象化である。 このような異質性は、豊富な意味的情報をもたらすが、オブジェクト間の異質な関係、特に高次間接関係を集約する非自明な課題を呈する。 ヘテロジニアスネットワーク上での表現学習のための最近のグラフニューラルネットワークアプローチでは、しばしば直接リンクに基づく予測に最適化されるアテンションメカニズムが採用されている。 さらに、深層モデルを構築することによって、ほとんどのディープラーニング手法は高次情報を集約することができるが、そのようなスキームは解釈可能性の度合いを減少させる可能性がある。 これらの課題を克服するために、各層で上位のメタ関係を自動的に分解し、各ノードの関連する異種近傍構造を抽出するアーキテクチャ、Layer-stacked ATTention Embedding (LATTE)を探索する。 さらに、階層表現を順次積み重ねることで、学習ノード埋め込みは、異なる近傍範囲の異なるタイプのノードに対して、より解釈可能な集約スキームを提供する。 我々は、複数のベンチマークヘテロジニアスネットワークデータセットの実験を行った。 トランスダクティブノード分類タスクとインダクティブノード分類タスクの両方において、LATTEは、軽量モデルを提供しながら、既存のアプローチと比較して最先端のパフォーマンスを実現することができる。 大規模な実験的分析と可視化により、このフレームワークは異種ネットワークに関する情報的洞察を抽出する能力を示すことができる。

The heterogeneous network is a robust data abstraction that can model entities of different types interacting in various ways. Such heterogeneity brings rich semantic information but presents nontrivial challenges in aggregating the heterogeneous relationships between objects - especially those of higher-order indirect relations. Recent graph neural network approaches for representation learning on heterogeneous networks typically employ the attention mechanism, which is often only optimized for predictions based on direct links. Furthermore, even though most deep learning methods can aggregate higher-order information by building deeper models, such a scheme can diminish the degree of interpretability. To overcome these challenges, we explore an architecture - Layer-stacked ATTention Embedding (LATTE) - that automatically decomposes higher-order meta relations at each layer to extract the relevant heterogeneous neighborhood structures for each node. Additionally, by successively stacking layer representations, the learned node embedding offers a more interpretable aggregation scheme for nodes of different types at different neighborhood ranges. We conducted experiments on several benchmark heterogeneous network datasets. In both transductive and inductive node classification tasks, LATTE can achieve state-of-the-art performance compared to existing approaches, all while offering a lightweight model. With extensive experimental analyses and visualizations, the framework can demonstrate the ability to extract informative insights on heterogeneous networks.
翻訳日:2022-10-17 08:24:37 公開日:2020-09-17
# 多次元スケーリング,sammonマッピング,isomap:チュートリアルと調査

Multidimensional Scaling, Sammon Mapping, and Isomap: Tutorial and Survey ( http://arxiv.org/abs/2009.08136v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) 多次元スケーリング(MDS)は、最初の基本多様体学習手法の1つである。 古典的MDS、カーネル古典的MDS、計量的MDS、非計量的MDSなどに分類される。 Sammon Mapping と Isomap はそれぞれ、メートル法 MDS とカーネル古典 MDS の特別な場合と見なすことができる。 本チュートリアルおよび調査論文では,MDS,Sammon Mapping,Isomapの理論を詳述する。 MDSのすべてのカテゴリについて説明する。 次に、sammonマッピング、isomapおよびkernel isomapについて説明する。 固有関数とカーネルマッピングを用いたMDSとIsomapのサンプル外埋め込みを提案する。 次に、Nystrom近似とそのランドマークMDSおよびランドマークIsomapにおける使用法をビッグデータ埋め込みに導入する。 また,これらの手法による埋め込みのシミュレーションを行う。

Multidimensional Scaling (MDS) is one of the first fundamental manifold learning methods. It can be categorized into several methods, i.e., classical MDS, kernel classical MDS, metric MDS, and non-metric MDS. Sammon mapping and Isomap can be considered as special cases of metric MDS and kernel classical MDS, respectively. In this tutorial and survey paper, we review the theory of MDS, Sammon mapping, and Isomap in detail. We explain all the mentioned categories of MDS. Then, Sammon mapping, Isomap, and kernel Isomap are explained. Out-of-sample embedding for MDS and Isomap using eigenfunctions and kernel mapping are introduced. Then, Nystrom approximation and its use in landmark MDS and landmark Isomap are introduced for big data embedding. We also provide some simulations for illustrating the embedding by these methods.
翻訳日:2022-10-17 08:17:47 公開日:2020-09-17
# 効率的な深層ニューラルネットワークのための包括的フィルタプルーニング

Holistic Filter Pruning for Efficient Deep Neural Networks ( http://arxiv.org/abs/2009.08169v1 )

ライセンス: Link先を確認
Lukas Enderich and Fabian Timm and Wolfram Burgard(参考訳) ディープニューラルネットワーク(DNN)は通常、ランダム初期化によって適切な初期重みを得る可能性を高めるために過パラメータ化される。 その結果、訓練されたDNNには多くの冗長性があり、複雑さを減らし、一般化する能力を向上させるためにモデルから切り離すことができる。 フィルタプルーニングによって達成された構造的スパーシティは、重みとアクティベーションのテンソルサイズを直接減少させ、特に複雑さを減らすのに有効である。 本稿では,dnn訓練のための新しい手法であるhfp(holistic filter pruning)を提案し,パラメータ数と乗算数の両方について正確なpruning率を指定することを可能にする。 各フォワードパスの後、現在のモデルの複雑さを計算し、所望のターゲットサイズと比較する。 勾配降下により、所望の目標サイズが満たされるような個別の層にプルーニング予算を割り当てる大域的解を求めることができる。 各種実験において,CIFAR-10 と ImageNet のトレーニングと最先端性能について考察した(HFP は ImageNet 上の ResNet-50 の乗算の60% を精度に有意な損失を伴わずに達成している)。 当社のシンプルで強力なプルーニングアプローチは、低コストアプリケーションにおけるDNNのユーザにとって貴重な貢献になると考えています。

Deep neural networks (DNNs) are usually over-parameterized to increase the likelihood of getting adequate initial weights by random initialization. Consequently, trained DNNs have many redundancies which can be pruned from the model to reduce complexity and improve the ability to generalize. Structural sparsity, as achieved by filter pruning, directly reduces the tensor sizes of weights and activations and is thus particularly effective for reducing complexity. We propose "Holistic Filter Pruning" (HFP), a novel approach for common DNN training that is easy to implement and enables to specify accurate pruning rates for the number of both parameters and multiplications. After each forward pass, the current model complexity is calculated and compared to the desired target size. By gradient descent, a global solution can be found that allocates the pruning budget over the individual layers such that the desired target size is fulfilled. In various experiments, we give insights into the training and achieve state-of-the-art performance on CIFAR-10 and ImageNet (HFP prunes 60% of the multiplications of ResNet-50 on ImageNet with no significant loss in the accuracy). We believe our simple and powerful pruning approach to constitute a valuable contribution for users of DNNs in low-cost applications.
翻訳日:2022-10-17 08:17:36 公開日:2020-09-17
# 記述規則を用いたゼロショットマルチドメインダイアログ状態追跡

Zero-shot Multi-Domain Dialog State Tracking Using Descriptive Rules ( http://arxiv.org/abs/2009.13275v1 )

ライセンス: Link先を確認
Edgar Altszyler, Pablo Brusco, Nikoletta Basiou, John Byrnes and Dimitra Vergyri(参考訳) 本研究では、最先端のニューラルネットワークに記述論理ルールを組み込むことで、新たなトレーニングデータを導入することなく、未知ラベルの扱い方を学ぶことができるフレームワークを提案する。 ルールはアーキテクチャを変更することなく既存のネットワークに統合され、設計されたルールに従わないネットワークの状態にペナルティを課すネットワークの損失関数に追加の用語によって行われる。 研究の例として、このフレームワークは既存のニューラルベースDialog State Trackerに適用される。 実験により, 論理規則の導入により, 未知ラベルの予測が可能となり, 元のシステムの予測能力が低下しないことを示した。

In this work, we present a framework for incorporating descriptive logical rules in state-of-the-art neural networks, enabling them to learn how to handle unseen labels without the introduction of any new training data. The rules are integrated into existing networks without modifying their architecture, through an additional term in the network's loss function that penalizes states of the network that do not obey the designed rules. As a case of study, the framework is applied to an existing neural-based Dialog State Tracker. Our experiments demonstrate that the inclusion of logical rules allows the prediction of unseen labels, without deteriorating the predictive capacity of the original system.
翻訳日:2022-10-17 08:15:39 公開日:2020-09-17
# 会員推論攻撃に対するモデル感受性を特徴付けるファノの不等式の拡張

An Extension of Fano's Inequality for Characterizing Model Susceptibility to Membership Inference Attacks ( http://arxiv.org/abs/2009.08097v1 )

ライセンス: Link先を確認
Sumit Kumar Jha, Susmit Jha, Rickard Ewetz, Sunny Raj, Alvaro Velasquez, Laura L. Pullum, Ananthram Swami(参考訳) ディープニューラルネットワークは、攻撃者が特定の入力データがモデルのトレーニングに使われたかどうかを検出することを目的としているメンバーシップ推論攻撃に弱いことが示されている。 これらの攻撃は、プライベートまたはプロプライエタリなデータをリークする可能性がある。 本稿では,ニューラルネットワークにおけるメンバシップ推論攻撃の成功確率を,その入力とそのアクティベーション間の相互情報を用いて境界化することができることを理論的に確立するために,ファノの不等式を新たに拡張した。 これにより、相互情報を用いてDNNモデルのメンバシップ推論攻撃に対する感受性を測定することができる。 実験評価の結果,cifar-10,svhn,gtsrbモデルでは,dnnモデルの相互情報とメンバーシップ推論攻撃に対する感受性の相関が0.966,0.996,0.955であった。

Deep neural networks have been shown to be vulnerable to membership inference attacks wherein the attacker aims to detect whether specific input data were used to train the model. These attacks can potentially leak private or proprietary data. We present a new extension of Fano's inequality and employ it to theoretically establish that the probability of success for a membership inference attack on a deep neural network can be bounded using the mutual information between its inputs and its activations. This enables the use of mutual information to measure the susceptibility of a DNN model to membership inference attacks. In our empirical evaluation, we show that the correlation between the mutual information and the susceptibility of the DNN model to membership inference attacks is 0.966, 0.996, and 0.955 for CIFAR-10, SVHN and GTSRB models, respectively.
翻訳日:2022-10-17 08:10:04 公開日:2020-09-17
# 都市内リコメンデーションのための混合エキスパートニューラルネットワークを用いたクロスモーダルアライメント

Cross-Modal Alignment with Mixture Experts Neural Network for Intral-City Retail Recommendation ( http://arxiv.org/abs/2009.09926v1 )

ライセンス: Link先を確認
Po Li, Lei Li, Yan Fu, Jun Rong, Yu Zhang(参考訳) 本稿では,世界中のコロナウイルス(COVID-19)パンデミックの発生に伴う5時間以内の配送サービスを実現することを目的とした,都市内小売業におけるニューラルネットワーク(CameNN)レコメンデーションモデルを用いたクロスモーダルアライメントを提案する。 本稿では,画像からテキストへのアライメント(ITA)タスク,テキストから画像へのアライメント(TIA)タスク,CVR予測タスクの3つのタスクを備えたマルチタスクモデルであるCameNNを提案する。 我々は,事前学習したbertを用いてテキスト埋め込みとインセプションv4を生成し,画像パッチ埋め込みを生成する(各画像は同じ画素の小さなパッチに分割され,各パッチを画像トークンとして扱う)。 ソフトマックスゲーティングネットワークは、各トランスフォーマーの専門家出力の重みを学習し、入力に条件付けられた専門家のサブセットのみを選択する。 次に、共有ボット層としてトランスフォーマーエンコーダを適用し、すべての入力特徴の共有インタラクションを学習する。 次に、タスクの異なる側面をモデル化するために、トランスフォーマーエキスパート(MoE)の混合層が実装される。 MoE層の上に各タスクをタスクタワーとしてトランスフォーマー層を配置し,タスク固有の情報を学習する。 実際の単語イントラシティデータセットでは、実験によってcamnnがベースラインを上回っており、画像とテキスト表現の大幅な改善を達成している。 実際に,中国における主要な都市内プラットフォームの一つである都市内推薦システムにおいて,CmeNNをCVR予測に適用した。

In this paper, we introduce Cross-modal Alignment with mixture experts Neural Network (CameNN) recommendation model for intral-city retail industry, which aims to provide fresh foods and groceries retailing within 5 hours delivery service arising for the outbreak of Coronavirus disease (COVID-19) pandemic around the world. We propose CameNN, which is a multi-task model with three tasks including Image to Text Alignment (ITA) task, Text to Image Alignment (TIA) task and CVR prediction task. We use pre-trained BERT to generate the text embedding and pre-trained InceptionV4 to generate image patch embedding (each image is split into small patches with the same pixels and treat each patch as an image token). Softmax gating networks follow to learn the weight of each transformer expert output and choose only a subset of experts conditioned on the input. Then transformer encoder is applied as the share-bottom layer to learn all input features' shared interaction. Next, mixture of transformer experts (MoE) layer is implemented to model different aspects of tasks. At top of the MoE layer, we deploy a transformer layer for each task as task tower to learn task-specific information. On the real word intra-city dataset, experiments demonstrate CameNN outperform baselines and achieve significant improvements on the image and text representation. In practice, we applied CameNN on CVR prediction in our intra-city recommender system which is one of the leading intra-city platforms operated in China.
翻訳日:2022-10-17 08:08:06 公開日:2020-09-17
# Deep Collective Learning:Deep Neural Networksにおける最適入力と重みの学習

Deep Collective Learning: Learning Optimal Inputs and Weights Jointly in Deep Neural Networks ( http://arxiv.org/abs/2009.07988v1 )

ライセンス: Link先を確認
Xiang Deng and Zhongfei (Mark) Zhang(参考訳) ディープラーニングおよびコンピュータビジョン文学において、視覚データは、任意の学習タスクに対してエンドツーエンドのディープニューラルネットワーク(DNN)に入力されるとき、常に手動設計の符号化スキーム(例えば、RGB画像は、各チャネルで0から255までの整数として表現される)で表現される。 手動で設計した入力が、異なるタスクに対するDNNトレーニングに適しているかを大胆に疑問視し、DNNの重みを学習しながら、DNNへの入力がエンドツーエンドで最適に学習できるかどうかを検討する。 本稿では,DNNの重みとDNNへの入力を同時に学習することを目的とした,深層学習のパラダイムを提案する。 集団学習は暗黙的にも自然言語処理で広く用いられてきたが、コンピュータビジョンではほとんど研究されていない。 そこで我々は,コンピュータビジョンにおける深層集合学習のソリューションとして,ルックアップビジョンネットワーク(Lookup-VNets)を提案する。 これは各チャンネルの各色をルックアップテーブル内のベクトルと関連付けることで達成される。 コンピュータビジョンにおける学習インプットは、既存の文献ではほとんど研究されていないため、画像分類タスクに関する様々な実験を通して、この問題のいくつかの側面を探求する。 CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet (ILSVRC2012) という4つのベンチマークデータセットの実験結果から, Lookup-VNet の驚くべき特徴がいくつか示され, Lookup-VNet の利点と将来性を示した。

It is well observed that in deep learning and computer vision literature, visual data are always represented in a manually designed coding scheme (eg., RGB images are represented as integers ranging from 0 to 255 for each channel) when they are input to an end-to-end deep neural network (DNN) for any learning task. We boldly question whether the manually designed inputs are good for DNN training for different tasks and study whether the input to a DNN can be optimally learned end-to-end together with learning the weights of the DNN. In this paper, we propose the paradigm of {\em deep collective learning} which aims to learn the weights of DNNs and the inputs to DNNs simultaneously for given tasks. We note that collective learning has been implicitly but widely used in natural language processing while it has almost never been studied in computer vision. Consequently, we propose the lookup vision networks (Lookup-VNets) as a solution to deep collective learning in computer vision. This is achieved by associating each color in each channel with a vector in lookup tables. As learning inputs in computer vision has almost never been studied in the existing literature, we explore several aspects of this question through varieties of experiments on image classification tasks. Experimental results on four benchmark datasets, i.e., CIFAR-10, CIFAR-100, Tiny ImageNet, and ImageNet (ILSVRC2012) have shown several surprising characteristics of Lookup-VNets and have demonstrated the advantages and promise of Lookup-VNets and deep collective learning.
翻訳日:2022-10-17 08:06:58 公開日:2020-09-17
# 教師なし機械学習における次の大きな意味:幼児学習から学ぶ5つの教訓

The Next Big Thing(s) in Unsupervised Machine Learning: Five Lessons from Infant Learning ( http://arxiv.org/abs/2009.08497v1 )

ライセンス: Link先を確認
Lorijn Zaadnoordijk, Tarek R. Besold, Rhodri Cusack(参考訳) 教師なしのディープラーニングの人気が高まった後、ラベル付きデータセットへの依存を減らし、利用可能な膨大な量の未学習データを活用したいという欲求は、教師なしの学習アルゴリズムへの新たな関心を呼び起こした。 歪んだ潜在表現の同定やコントラスト学習、クラスタリング最適化といったアプローチによる性能改善にもかかわらず、教師なし機械学習の性能は仮説化されたポテンシャルに劣っている。 機械学習は以前、神経科学と認知科学からインスピレーションを受け、大きな成功を収めた。 しかし、これは主に、ラベルへのアクセスと大量の事前知識を持つ成人学習者に基づいている。 教師なし機械学習を推し進めるために、幼児認知の発達科学が、教師なし学習の次世代アプローチを解き放つ鍵となるかもしれないと論じる。 概念的には、人間の幼児の学習は、人工的な教師なし学習に最も近い生物学的な並列性である。 機械学習とは対照的に、これらの新しい表現は、比較的少数の例から素早く学習される。 さらに、幼児は様々なタスクや状況において柔軟かつ効率的に使用できる堅牢な表現を学ぶ。 幼児の学習の質と速さを可能にする5つの重要な要因を特定し,これらが機械学習で既に活用されている範囲を評価し,教師なし学習におけるそれまで認識されていなかったパフォーマンスレベルを,これらの要因がいかに高めることができるかを提案する。

After a surge in popularity of supervised Deep Learning, the desire to reduce the dependence on curated, labelled data sets and to leverage the vast quantities of unlabelled data available recently triggered renewed interest in unsupervised learning algorithms. Despite a significantly improved performance due to approaches such as the identification of disentangled latent representations, contrastive learning, and clustering optimisations, the performance of unsupervised machine learning still falls short of its hypothesised potential. Machine learning has previously taken inspiration from neuroscience and cognitive science with great success. However, this has mostly been based on adult learners with access to labels and a vast amount of prior knowledge. In order to push unsupervised machine learning forward, we argue that developmental science of infant cognition might hold the key to unlocking the next generation of unsupervised learning approaches. Conceptually, human infant learning is the closest biological parallel to artificial unsupervised learning, as infants too must learn useful representations from unlabelled data. In contrast to machine learning, these new representations are learned rapidly and from relatively few examples. Moreover, infants learn robust representations that can be used flexibly and efficiently in a number of different tasks and contexts. We identify five crucial factors enabling infants' quality and speed of learning, assess the extent to which these have already been exploited in machine learning, and propose how further adoption of these factors can give rise to previously unseen performance levels in unsupervised learning.
翻訳日:2022-10-17 08:00:52 公開日:2020-09-17
# マルチモーダルなミーム分類 : 調査とオープンリサーチ問題

A Multimodal Memes Classification: A Survey and Open Research Issues ( http://arxiv.org/abs/2009.08395v1 )

ライセンス: Link先を確認
Tariq Habib Afridi, Aftab Alam, Muhammad Numan Khan, Jawad Khan, Young-Koo Lee(参考訳) ミームはグラフィックとテキストが重なり合っており、それらのうちの1つが欠落すると疑わしい概念が提示される。 それは主に、ジョーク、皮肉、動機づけなどの形でソーシャルメディアプラットフォームに広まっている。 自然言語処理(NLP)におけるBERTの成功の後、研究者は、ミーム分類、画像キャプション、視覚質問回答(VQA)など、視覚言語学(VL)のマルチモーダル問題に傾倒した。 残念ながら、多くのミームが毎日ソーシャルメディアプラットフォームにアップロードされ、誤った情報や憎しみを抑えるために自動検閲を必要とする。 近年,この問題は研究者や実践者の注目を集めている。 他のVLデータセットで顕著に実行された最先端の手法は、ミーム分類で失敗する傾向にある。 この文脈において、この研究は、一般にVLマルチモーダル問題と最先端解に基づいて、ミーム分類に関する包括的な研究を行うことを目的としている。 本稿では,VL問題に対する一般化された枠組みを提案する。 VL問題に関する初期および次世代の研究について紹介する。 最後に,いくつかのオープン研究課題と課題を特定し,考察する。 本研究は,ミーム分類に関する先進的な分類手法の一般的な見解を,我々の知識の最も優れたものに提示する最初の研究である。 本研究は,機械学習(ml)研究コミュニティに対して,ミーム分類手法の実装と強化のための明確なロードマップを提供する。

Memes are graphics and text overlapped so that together they present concepts that become dubious if one of them is absent. It is spread mostly on social media platforms, in the form of jokes, sarcasm, motivating, etc. After the success of BERT in Natural Language Processing (NLP), researchers inclined to Visual-Linguistic (VL) multimodal problems like memes classification, image captioning, Visual Question Answering (VQA), and many more. Unfortunately, many memes get uploaded each day on social media platforms that need automatic censoring to curb misinformation and hate. Recently, this issue has attracted the attention of researchers and practitioners. State-of-the-art methods that performed significantly on other VL dataset, tends to fail on memes classification. In this context, this work aims to conduct a comprehensive study on memes classification, generally on the VL multimodal problems and cutting edge solutions. We propose a generalized framework for VL problems. We cover the early and next-generation works on VL problems. Finally, we identify and articulate several open research issues and challenges. This is the first study that presents the generalized view of the advanced classification techniques concerning memes classification to the best of our knowledge. We believe this study presents a clear road-map for the Machine Learning (ML) research community to implement and enhance memes classification techniques.
翻訳日:2022-10-17 08:00:25 公開日:2020-09-17
# 貯水池計算における離散時間符号とランダム性

Discrete-time signatures and randomness in reservoir computing ( http://arxiv.org/abs/2010.14615v1 )

ライセンス: Link先を確認
Christa Cuchiero, Lukas Gonon, Lyudmila Grigoryeva, Juan-Pablo Ortega, and Josef Teichmann(参考訳) 貯留層計算現象の幾何学的性質に関する新たな説明を行った。 貯留層計算は、ランダムに選択されたリカレントニューラルネットワークと訓練された線形読み出し層で入出力系を近似する可能性として文献で理解されている。 光は、ボルテラ級数展開を生成する状態空間系のランダム射影として強普遍的貯水池系と呼ばれるものを構築することでこの現象に当てはまる。 この方法では、元のシステムに対して対数的に減少する次元でランダムに生成された係数を持つ状態-アフィン貯水池系が得られる。 この貯水池システムは、異なるフィルタごとに異なる線形読み出しを訓練するだけで、フェージングメモリフィルタクラスの任意の要素を近似することができる。 投射された貯水池システムの生成に必要な確率分布の明示表現を記述し、コミット近似誤差のバウンダリを提供する。

A new explanation of geometric nature of the reservoir computing phenomenon is presented. Reservoir computing is understood in the literature as the possibility of approximating input/output systems with randomly chosen recurrent neural systems and a trained linear readout layer. Light is shed on this phenomenon by constructing what is called strongly universal reservoir systems as random projections of a family of state-space systems that generate Volterra series expansions. This procedure yields a state-affine reservoir system with randomly generated coefficients in a dimension that is logarithmically reduced with respect to the original system. This reservoir system is able to approximate any element in the fading memory filters class just by training a different linear readout for each different filter. Explicit expressions for the probability distributions needed in the generation of the projected reservoir system are stated and bounds for the committed approximation error are provided.
翻訳日:2022-10-17 08:00:02 公開日:2020-09-17
# GeneraLight:メタ強化学習による交通信号制御の環境一般化

GeneraLight: Improving Environment Generalization of Traffic Signal Control via Meta Reinforcement Learning ( http://arxiv.org/abs/2009.08052v1 )

ライセンス: Link先を確認
Chang Liu, Huichu Zhang, Weinan Zhang, Guanjie Zheng, Yong Yu(参考訳) 交通渋滞の問題は現代都市にとって常に懸念されていた。 近年、交通渋滞を軽減するため、研究者は強化学習(RL)を用いて、より優れた交通信号制御(TSC)アルゴリズムを開発した。 しかし、ほとんどのrlモデルは、同じトラフィックフロー環境でトレーニングされ、テストされ、深刻な過剰フィッティング問題を引き起こす。 実世界の交通流環境は変化し続けるため、一般化能力の欠如により、これらのモデルはほとんど適用できない。 さらに、アクセス可能なトラフィックフローデータの数が限られているため、モデルの一般化能力をテストするのがさらに困難になる。 本稿では,wasserstein生成ネットワークに基づく新しいトラヒックフロー生成器の設計を行い,十分な多様性と品質を備えたトラヒックフローを生成し,適切なトレーニングとテスト環境の構築に利用する。 次に,tscモデルの一般化能力を向上させるためのメタrl tscフレームワークgeneralightを提案する。 GeneraLightは、フロークラスタリングとモデルに依存しないメタラーニングのアイデアを組み合わせることで、一般化のパフォーマンスを向上する。 我々は、複数の実世界のデータセットに対して広範な実験を行い、異なるトラフィックフローへの一般化におけるGeneraLightの優れた性能を示す。

The heavy traffic congestion problem has always been a concern for modern cities. To alleviate traffic congestion, researchers use reinforcement learning (RL) to develop better traffic signal control (TSC) algorithms in recent years. However, most RL models are trained and tested in the same traffic flow environment, which results in a serious overfitting problem. Since the traffic flow environment in the real world keeps varying, these models can hardly be applied due to the lack of generalization ability. Besides, the limited number of accessible traffic flow data brings extra difficulty in testing the generalization ability of the models. In this paper, we design a novel traffic flow generator based on Wasserstein generative adversarial network to generate sufficient diverse and quality traffic flows and use them to build proper training and testing environments. Then we propose a meta-RL TSC framework GeneraLight to improve the generalization ability of TSC models. GeneraLight boosts the generalization performance by combining the idea of flow clustering and model-agnostic meta-learning. We conduct extensive experiments on multiple real-world datasets to show the superior performance of GeneraLight on generalizing to different traffic flows.
翻訳日:2022-10-17 07:57:46 公開日:2020-09-17