このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211227となっている論文です。

PDF登録状況(公開日: 20211227)

TitleAuthorsAbstract論文公表日・翻訳日
# 四重項のウィグナー函数の2つの非同値表現に対する非古典性のケンファック・ツィツコフスキー指標

Kenfack Zyczkowski indicator of nonclassicality for two non-equivalent representations of Wigner function of qutrit ( http://arxiv.org/abs/2009.00375v2 )

ライセンス: Link先を確認
Vahagn Abgaryan, Arsen Khvedelidze and Astghik Torosyan(参考訳) 有限次元系のウィグナー関数は、密度行列とストラトノヴィチ・ワイル核の二重対によって構成できる。 kenfack と $\dot{\text{z}}$yczkowski に続いて、ウィグナー関数の負の部分の体積に依存する有限次元量子システムの非古典性の指標を考える。 この指標は、量子状態のユニタリ非同値類、すなわち不変量を表す上で定義されるが、与えられた量子系に対して一意なウィグナー関数は存在しないため、ウィグナー関数の表現の選択に敏感になる。 ウィグナー函数のモジュライ空間の明示的なパラメータ化に基づいて、退化するユニタリな非等価ストラトノヴィッチ-ワイル核の3レベル系の対応するKenfack-$\dot{\text{Z}}$yczkowskiインジケータを計算する。

The Wigner function of a finite-dimensional system can be constructed via dual pairing of a density matrix with the Stratonovich-Weyl kernel. Following Kenfack and $\dot{\text{Z}}$yczkowski, we consider the indicator of nonclassicality of a finite-dimensional quantum system which depends on the volume of the negative part of the Wigner function. This indicator is defined over the unitary non-equivalent classes of quantum states, i.e. represents an invariant, but since for a given quantum system there is no unique Wigner function it turns to be sensitive to the choice of representations for the Wigner function. Based on the explicit parameterization of the moduli space of the Wigner functions, we compute the corresponding Kenfack-$\dot{\text{Z}}$yczkowski indicators of a 3-level system for degenerate, unitary non-equivalent Stratonovich-Weyl kernels.
翻訳日:2023-05-04 03:23:47 公開日:2021-12-27
# 実数に基づく量子理論は実験的にファルシファイドできる

Quantum theory based on real numbers can be experimentally falsified ( http://arxiv.org/abs/2101.10873v2 )

ライセンス: Link先を確認
Marc-Olivier Renou, David Trillo, Mirjam Weilenmann, Thinh P. Le, Armin Tavakoli, Nicolas Gisin, Antonio Acin and Miguel Navascues(参考訳) 複素数は数学において必須であるが、確率の観点から表される物理実験を記述する必要はなく、したがって実数である。 しかし、物理学は理論を通じて実験を説明するのではなく、説明することを目的としている。 物理学のほとんどの理論は実数に基づいているが、量子論は複素ヒルベルト空間に作用する作用素の観点から初めて定式化された。 これは、量子論の真のバージョンが実作用素の点でより自然に思える理論の父を含む数え切れないほど多くの物理学者を困惑させた。 実際、以前の研究は、これらの「実量子理論」が任意の実量子状態を共有する限り、任意の多部実験の結果を再現できることを示した。 したがって、複素数は量子形式論において本当に必要か? ここでは、独立状態と測定値からなるネットワークシナリオにおいて、実および複素量子論が異なる予測を行うことを示すことにより、これを適用可能であることを示す。 これにより、通常のベル実験で証明された局所物理学と同じように、実量子論を証明できるベルのような実験を考案することができる。

While complex numbers are essential in mathematics, they are not needed to describe physical experiments, expressed in terms of probabilities, hence real numbers. Physics however aims to explain, rather than describe, experiments through theories. While most theories of physics are based on real numbers, quantum theory was the first to be formulated in terms of operators acting on complex Hilbert spaces. This has puzzled countless physicists, including the fathers of the theory, for whom a real version of quantum theory, in terms of real operators, seemed much more natural. In fact, previous works showed that such "real quantum theory" can reproduce the outcomes of any multipartite experiment, as long as the parts share arbitrary real quantum states. Thus, are complex numbers really needed in the quantum formalism? Here, we show this to be case by proving that real and complex quantum theory make different predictions in network scenarios comprising independent states and measurements. This allows us to devise a Bell-like experiment whose successful realization would disprove real quantum theory, in the same way as standard Bell experiments disproved local physics.
翻訳日:2023-04-13 22:18:34 公開日:2021-12-27
# 非線型性推定のための量子およびランダム化アルゴリズム

Quantum and Randomised Algorithms for Non-linearity Estimation ( http://arxiv.org/abs/2103.07934v2 )

ライセンス: Link先を確認
Debajyoti Bera, Tharrmashastha Sapv(参考訳) ブール関数の非線形性は、どの線型関数からの距離を示す。 線形関数を同定し,その関数を十分に非線形な関数と区別することに関して,いくつかの強い結果が得られたが,関数の非線形性を計算する作業が驚くほど欠如していることがわかった。 非線形性は絶対値が最も大きいウォルシュ係数と関係があるが、ウォルシュスペクトルを構築した後の最大値の選択には$\theta(2^n)$クエリを$n$-bit関数に要求する。 我々は,高効率な量子アルゴリズムとランダム化アルゴリズムを設計し,加法誤差を許容する非線形性,すなわち$\lambda$を近似し,多項式的に$\lambda$に依存する問合せ複雑度を求める。 我々はこれらが最適値からそれほど遠くないことを示すために下界を証明する。 ランダム化アルゴリズムによるクエリの数は$n$で線形であり、すでに指数関数的に改善されており、量子アルゴリズムによるクエリの数は$n$とは驚くほど無関係である。 我々のランダム化アルゴリズムは、全てのウォルシュ係数をナビゲートするゴルトライヒ=レーヴィン方式を使用し、我々の量子アルゴリズムは、Deutsch-Jozsa、振幅増幅、振幅推定の巧妙な組み合わせを用いて、既存のGoldreich-Levin法の量子バージョンを改善する。

Non-linearity of a Boolean function indicates how far it is from any linear function. Despite there being several strong results about identifying a linear function and distinguishing one from a sufficiently non-linear function, we found a surprising lack of work on computing the non-linearity of a function. The non-linearity is related to the Walsh coefficient with the largest absolute value; however, the naive attempt of picking the maximum after constructing a Walsh spectrum requires $\Theta(2^n)$ queries to an $n$-bit function. We improve the scenario by designing highly efficient quantum and randomised algorithms to approximate the non-linearity allowing additive error, denoted $\lambda$, with query complexities that depend polynomially on $\lambda$. We prove lower bounds to show that these are not very far from the optimal ones. The number of queries made by our randomised algorithm is linear in $n$, already an exponential improvement, and the number of queries made by our quantum algorithm is surprisingly independent of $n$. Our randomised algorithm uses a Goldreich-Levin style of navigating all Walsh coefficients and our quantum algorithm uses a clever combination of Deutsch-Jozsa, amplitude amplification and amplitude estimation to improve upon the existing quantum versions of the Goldreich-Levin technique.
翻訳日:2023-04-08 04:26:54 公開日:2021-12-27
# QuantumCumulants.jl: 開量子系における一般化平均場方程式のジュリアフレームワーク

QuantumCumulants.jl: A Julia framework for generalized mean-field equations in open quantum systems ( http://arxiv.org/abs/2105.01657v2 )

ライセンス: Link先を確認
David Plankensteiner, Christoph Hotter, Helmut Ritsch(参考訳) マスター方程式による開量子系の完全な量子力学的処理は、基礎となるヒルベルト空間の大きさによって制限されることが多い。 代わりとして、力学はハイゼンベルク図形の作用素に対する結合微分方程式の系で定式化することもできる。 これは典型的には作用素の積に対する方程式の無限階層となる。 この無限集合を期待値のレベルで切り離すための確立されたアプローチは、高次量子相関を無視することである。 これはいわゆる累積展開(cumulant expansion)によって体系的に実現され、作用素積の期待値を与えられた下階の積に分解し、閉じた方程式の集合へと導く。 まず、所望の順序までの作用素の運動方程式は、予め定義された標準可換関係を用いてシンボル的に導出される。 次に、ユーザによって指定された選択順序までのモーメントを含む累積展開アプローチを用いて、期待値に対する結果の方程式を拡大する。 最後に、記号方程式から直接数値解を得ることができる。 理論をレビューした後、そのフレームワークを示し、その有用性をいくつかの例に示す。

A full quantum mechanical treatment of open quantum systems via a Master equation is often limited by the size of the underlying Hilbert space. As an alternative, the dynamics can also be formulated in terms of systems of coupled differential equations for operators in the Heisenberg picture. This typically leads to an infinite hierarchy of equations for products of operators. A well-established approach to truncate this infinite set at the level of expectation values is to neglect quantum correlations of high order. This is systematically realized with a so-called cumulant expansion, which decomposes expectation values of operator products into products of a given lower order, leading to a closed set of equations. Here we present an open-source framework that fully automizes this approach: first, the equations of motion of operators up to a desired order are derived symbolically using predefined canonical commutation relations. Next, the resulting equations for the expectation values are expanded employing the cumulant expansion approach, where moments up to a chosen order specified by the user are included. Finally, a numerical solution can be directly obtained from the symbolic equations. After reviewing the theory we present the framework and showcase its usefulness in a few example problems.
翻訳日:2023-04-01 15:26:45 公開日:2021-12-27
# 異なるアーキテクチャ設計下における超伝導量子コンピューティングチップの性能

Performance of Superconducting Quantum Computing Chips under Different Architecture Design ( http://arxiv.org/abs/2105.06062v3 )

ライセンス: Link先を確認
Wei Hu (1), Yang Yang (1), Weiye Xia (1), Jiawei Pi (2), Enyi Huang (2), Xin-Ding Zhang (2), and Hua Xu (1) ((1) Kunfeng Quantum Technology Co, (2) South China Normal University)(参考訳) 既存の量子コンピュータは、物理的に接続された量子ビット間の2ビットゲートしか実行できない。 コンパイラーはハードウェアの制約に合うように量子プログラムを書き換える研究が行われている。 しかし、量子プロセッサアーキテクチャ、特に量子ビット接続とトポロジーは、まだ十分な議論が欠けているが、量子アルゴリズムの性能に大きな影響を与える可能性がある。 量子プロセッサの性能を、異なる量子ビット接続とトポロジー下で定量的かつ包括的に研究する。 我々は、量子アーキテクチャ設計空間から異なる接続性とトポロジを持つ10の代表的な設計モデルを選択し、その性能を標準量子アルゴリズムの実行によってベンチマークする。 高性能アーキテクチャはたいていの場合、大きな接続性を持つ設計が伴うが、トポロジは我々の実験での性能に弱い影響を示す。 異なる量子アルゴリズムは、量子チップ接続とトポロジーに異なる依存を示す。 この研究は量子コンピューティング研究者に、プロセッサ設計を評価するための体系的なアプローチを提供する。

Existing and near-term quantum computers can only perform two-qubit gates between physically connected qubits. Research has been done on compilers to rewrite quantum programs to match hardware constraints. However, the quantum processor architecture, in particular the qubit connectivity and topology, still lacks enough discussion, while it potentially has a huge impact on the performance of the quantum algorithms. We perform a quantitative and comprehensive study on the quantum processor performance under different qubit connectivity and topology. We select ten representative design models with different connectivities and topologies from quantum architecture design space and benchmark their performance by running a set of standard quantum algorithms. It is shown that a high-performance architecture almost always comes with a design with a large connectivity, while the topology shows a weak influence on the performance in our experiment. Different quantum algorithms show different dependence on quantum chip connectivity and topologies. This work provides quantum computing researchers with a systematic approach to evaluating their processor design.
翻訳日:2023-03-31 06:42:12 公開日:2021-12-27
# 資源理論の不確定性:理論を区別できるか?

Undecidability in resource theory: can you tell theories apart? ( http://arxiv.org/abs/2105.09341v3 )

ライセンス: Link先を確認
Matteo Scandi and Jacopo Surace(参考訳) 資源理論における中心的な問題は、自由操作の集合によって引き起こされる許容される遷移を完全に特徴づける単調な集合を構成できるかどうかである。 同様の問題は、2つの異なる自由操作の集合が同じ遷移クラスを生成するかどうかである。 これらの疑問は、資源理論の1つの特性化から別の性質への移行が可能かどうかというより一般的な問題の一部である。 本文では、量子資源理論の文脈において、この問題のクラスは一般に決定不可能であることを示す。 これは、CPTPマップのメンバシップ問題の不確定性を証明し、他のすべての結果を仮定することで実現される。

A central question in resource theory is whether one can construct a set of monotones that completely characterise the allowed transitions dictated by a set of free operations. A similar question is whether two distinct sets of free operations generate the same class of transitions. These questions are part of the more general problem of whether it is possible to pass from one characterisation of a resource theory to another. In the present letter we prove that in the context of quantum resource theories this class of problems is undecidable in general. This is done by proving the undecidability of the membership problem for CPTP maps, which subsumes all the other results.
翻訳日:2023-03-30 11:31:14 公開日:2021-12-27
# 小型散逸器を用いたアディバティックリンドブラディアンの進化

Adiabatic Lindbladian Evolution with Small Dissipators ( http://arxiv.org/abs/2106.15749v2 )

ライセンス: Link先を確認
Alain Joye(参考訳) 我々は、時間依存の小さな量子系を環境に弱結合し、その有効動力学をリンドブラッド方程式を用いて扱う。 リンドブラジアンのハミルトニアン部分は時間的にゆっくりと変化し、散逸部は振幅が小さいと仮定する。 本研究では, 様々な漸近状態において, 断熱パラメータと結合定数が0となるような小系の進化状態の性質について検討した。 特に,ハミルトニアンの瞬時固有空間間の小さな系の遷移確率の偏差を,両パラメータの関数として,純粋ハミルトニアンの断熱的設定におけるそれらの値に関して解析する。

We consider a time-dependent small quantum system weakly coupled to an environnement, whose effective dynamics we address by means of a Lindblad equation. We assume the Hamiltonian part of the Lindbladian is slowly varying in time and the dissipator part has small amplitude. We study the properties of the evolved state of the small system as the adiabatic parameter and coupling constant both go to zero, in various asymptotic regimes. In particular, we analyse the deviations of the transition probabilities of the small system between the instantaneous eigenspaces of the Hamiltonian with respect to their values in the purely Hamiltonian adiabatic setup, as a function of both parameters.
翻訳日:2023-03-24 19:04:10 公開日:2021-12-27
# 保全法にかかわる情報

Information Scrambling with Conservation Laws ( http://arxiv.org/abs/2107.04043v2 )

ライセンス: Link先を確認
Jonah Kudler-Flam, Ramanjit Sohal, Laimei Nie(参考訳) 量子情報の非局在化やスクランブルは、孤立した量子多体系における熱化の理解において中心的な要素となっている。 近年、非可積分系を確率的系としてモデル化し、ハミルトン図を欠いている一方で、正直なハミルトン力学は計算上の制約により小さな系のサイズに制限されることが多い。 本稿では,情報理論の観点から,熱化過程における省エネルギー法(省エネルギー法を含む)の役割について考察する。 一般の非可積分モデルでは、システムのエネルギー保存時にも最大情報の量が(時間発展作用素の3成分相互情報によって測定されるように)スクランブルであることを示すために平衡近似を用いる。 対照的に、システムがスペクトルの異質性に繋がる追加の対称性を持つ場合、スクランブルする情報の量は減らなければなりません。 この一般理論は、ホログラフィック共形場理論 (CFTs) と Sachdev-Ye-Kitaev (SYK) モデルの研究において例示される。 1+1D CFT における大きなヴィラソロ対称性のため、ある意味では、これらのホログラフィック理論は最大カオス的ではなく、第二R'enyi三部体相互情報の非飽和によって明らかに見られる。 SYKモデルにおける粒子ホールとU(1)対称性の役割は、縮退がわずか2倍であることから、より穏やかである。 我々は,演算子の絡み合いを局所作用素の成長の観点から再解釈し,時間外順序付き相関器によって記述された情報スクランブルとを結合し,ハイゼンベルクの視点からスクランブルを抑制するメカニズムを同定する。

The delocalization or scrambling of quantum information has emerged as a central ingredient in the understanding of thermalization in isolated quantum many-body systems. Recently, significant progress has been made analytically by modeling non-integrable systems as stochastic systems, lacking a Hamiltonian picture, while honest Hamiltonian dynamics are frequently limited to small system sizes due to computational constraints. In this paper, we address this by investigating the role of conservation laws (including energy conservation) in the thermalization process from an information-theoretic perspective. For general non-integrable models, we use the equilibrium approximation to show that the maximal amount of information is scrambled (as measured by the tripartite mutual information of the time-evolution operator) at late times even when a system conserves energy. In contrast, we explicate how when a system has additional symmetries that lead to degeneracies in the spectrum, the amount of information scrambled must decrease. This general theory is exemplified in case studies of holographic conformal field theories (CFTs) and the Sachdev-Ye-Kitaev (SYK) model. Due to the large Virasoro symmetry in 1+1D CFTs, we argue that, in a sense, these holographic theories are not maximally chaotic, which is explicitly seen by the non-saturation of the second R\'enyi tripartite mutual information. The roles of particle-hole and U(1) symmetries in the SYK model are milder due to the degeneracies being only two-fold, which we confirm explicitly at both large- and small-$N$. We reinterpret the operator entanglement in terms the growth of local operators, connecting our results with the information scrambling described by out-of-time-ordered correlators, identifying the mechanism for suppressed scrambling from the Heisenberg perspective.
翻訳日:2023-03-23 02:02:20 公開日:2021-12-27
# 脳波逆問題に対する多目的進化アルゴリズム

A Multi-objective Evolutionary Algorithm for EEG Inverse Problem ( http://arxiv.org/abs/2107.10325v3 )

ライセンス: Link先を確認
Jos\'e Enrique Alvarez Iglesias and Mayrim Vega-Hern\'andez and Eduardo Mart\'inez-Montes(参考訳) 本稿では,脳波逆問題に対する多目的アプローチを提案する。 この定式化には経験的手続きを伴う未知のパラメータは必要ない。 問題の組合せ的特徴から、この代替案にはそれを解決する進化的戦略が含まれていた。 その結果、分散ソリューションを推定するための解剖学的制限(MOEAAR)に基づく多目的進化アルゴリズムが得られた。 比較テストは、LASSO、Rook-L、ENET-Lの3つの古典的な正規化手法とアプローチの中間である。 実験段階では, 分散解を得るために回帰モデルが選択された。 この分析は、異なる信号対雑音比(SNR)のシミュレーションデータを含む。 品質管理指標は局所化誤差,空間分解能,視認性であった。 MOEAARは、最大アクティベーションの再構築とローカライゼーションにおける古典的な手法よりも優れた安定性を示した。 標準L0は、進化的アプローチによるスパース解を推定するために用いられ、その結果は関連していた。

In this paper, we proposed a multi-objective approach for the EEG Inverse Problem. This formulation does not need unknown parameters that involve empirical procedures. Due to the combinatorial characteristics of the problem, this alternative included evolutionary strategies to resolve it. The result is a Multi-objective Evolutionary Algorithm based on Anatomical Restrictions (MOEAAR) to estimate distributed solutions. The comparative tests were between this approach and 3 classic methods of regularization: LASSO, Ridge-L and ENET-L. In the experimental phase, regression models were selected to obtain sparse and distributed solutions. The analysis involved simulated data with different signal-to-noise ratio (SNR). The indicators for quality control were Localization Error, Spatial Resolution and Visibility. The MOEAAR evidenced better stability than the classic methods in the reconstruction and localization of the maximum activation. The norm L0 was used to estimate sparse solutions with the evolutionary approach and its results were relevant.
翻訳日:2023-03-21 07:30:38 公開日:2021-12-27
# ホモダイン検出による離散可変量子鍵分布

Discrete-variable quantum key distribution with homodyne detection ( http://arxiv.org/abs/2109.00492v4 )

ライセンス: Link先を確認
Ignatius William Primaatmaja, Cassey Crystania Liang, Gong Zhang, Jing Yan Haw, Chao Wang, Charles Ci-Wen Lim(参考訳) ほとんどの量子鍵分布(QKD)プロトコルは、古典的な情報のエンコード方法に基づいて離散可変(DV)プロトコルまたは連続可変(CV)プロトコルに分類される。 本稿では、DV-QKDにおける量子状態準備の単純さと、CV-QKDで使用されるホモダイン検出器のコスト効率と高帯域幅を組み合わせたプロトコルを提案する。 提案プロトコルは,(1)正統派が(CV-QKDで要求されるように)同じ参照フェーズを共有する必要がなく,(2)デコードベースの選択を計測後に行うことができる,という2つの極めて実用的な特徴を有する。 また,集合攻撃を前提とした漸近限界における提案プロトコルの安全性を実証する。 シミュレーションの結果,本プロトコルは首都圏における安全かつ高速な実用鍵分布に適していることが示唆された。

Most quantum key distribution (QKD) protocols can be classified as either a discrete-variable (DV) protocol or continuous-variable (CV) protocol, based on how classical information is being encoded. We propose a protocol that combines the best of both worlds -- the simplicity of quantum state preparation in DV-QKD together with the cost-effective and high-bandwidth of homodyne detectors used in CV-QKD. Our proposed protocol has two highly practical features: (1) it does not require the honest parties to share the same reference phase (as required in CV-QKD) and (2) the selection of decoding basis can be performed after measurement. We also prove the security of the proposed protocol in the asymptotic limit under the assumption of collective attacks. Our simulation suggests that the protocol is suitable for secure and high-speed practical key distribution over metropolitan distances.
翻訳日:2023-03-16 10:52:53 公開日:2021-12-27
# 多成分混合最大絡み合い状態:絡み合いを有する混合状態1

Multipartite Mixed Maximally Entangled States: Mixed States with Entanglement 1 ( http://arxiv.org/abs/2109.11548v2 )

ライセンス: Link先を確認
Samuel R. Hedemann(参考訳) 多部系に対する混合最大絡み合い状態(MME)の完全な定義を示し、多部系シュミット分解を用いて既存の二部系に対する定義を一般化する。 MME状態は、すべての分解における全ての純粋な分解状態が最大に絡み合う特別な種類の最大絡み合い混合状態(MEMS)である。 したがって、MME状態はすべての有効な単位正規化絡み方によって絡み方1を持ち、一般のMEMSは絡み方1より小さい。 マルチパーティのMME状態は、リモート状態の準備のような重要な応用を持つ可能性があり、また、絡み合い対策の重要なパフォーマンス目標を設定する。

We present a full definition of mixed maximally entangled (MME) states for multipartite systems, generalizing their existing definition for bipartite systems by using multipartite Schmidt decomposition. MME states are a special kind of maximally entangled mixed state (MEMS) for which every pure decomposition state in all decompositions is maximally entangled. Thus, MME states have entanglement 1 by all valid unit-normalized entanglement measures, whereas general MEMS can have entanglement less than 1. Multipartite MME states likely have important applications such as remote state preparation, and also set critical performance goals for entanglement measures.
翻訳日:2023-03-13 22:51:56 公開日:2021-12-27
# 信頼できない量子ネットワークにおけるベル状態とグリーンベルガー・ホーネ・ザイリンガー状態の最適検証

Optimal Verification of the Bell State and Greenberger-Horne-Zeilinger States in Untrusted Quantum Networks ( http://arxiv.org/abs/2111.02800v2 )

ライセンス: Link先を確認
Yun-Guang Han, Zihao Li, Yukun Wang, and Huangjun Zhu(参考訳) 両部と多部が絡み合った状態は量子ネットワークを構築するための基本的な要素であり、その正確な検証はネットワークの機能、特に信頼できないネットワークにとって不可欠である。 本稿では,一方の当事者が正直でない信頼できない量子ネットワークにおけるベル状態の簡易検証手法を提案する。 正直なパーティーには、局所的な投影的測定のみが必要である。 各検証プロトコルはブロッホ球面上の確率分布と結びついており、その性能は直感的な幾何学的意味を持つ。 この幾何学図は、信頼できないネットワークの絡みを検知するのに非常に有用な最適かつ単純な検証プロトコルを構築することができる。 さらに,我々の検証プロトコルは,標準量子状態検証に適したプロトコルとほぼ同一のサンプル効率を実現できることを示す。 さらに,Greenberger-Horne-Zeilinger状態の検証とベル状態の検証との密接な関係を確立する。 この接続により,greenberger-horne-zeilinger状態の検証および真多成分絡み検出のための最適プロトコルを構築する。

Bipartite and multipartite entangled states are basic ingredients for constructing quantum networks and their accurate verification is crucial to the functioning of the networks, especially for untrusted networks. Here we propose a simple approach for verifying the Bell state in an untrusted quantum network in which one party is not honest. Only local projective measurements are required for the honest party. It turns out each verification protocol is tied to a probability distribution on the Bloch sphere and its performance has an intuitive geometric meaning. This geometric picture enables us to construct the optimal and simplest verification protocols, which are also very useful to detecting entanglement in the untrusted network. Moreover, we show that our verification protocols can achieve almost the same sample efficiencies as protocols tailored to standard quantum state verification. Furthermore, we establish an intimate connection between the verification of Greenberger-Horne-Zeilinger states and the verification of the Bell state. By virtue of this connection we construct the optimal protocol for verifying Greenberger-Horne-Zeilinger states and for detecting genuine multipartite entanglement.
翻訳日:2023-03-09 04:41:17 公開日:2021-12-27
# 量子臨界前駆体に及ぼすカオスの影響

Impact of chaos on precursors of quantum criticality ( http://arxiv.org/abs/2112.06648v2 )

ライセンス: Link先を確認
Ignacio Garc\'ia-Mata, Diego A. Wisniacki, Eduardo G. Vergini(参考訳) 励起状態量子相転移(ESQPTs)は、量子系のスペクトルの特異点を生成する臨界現象である。 古典的対象を持つ系の場合、これらの現象は不安定周期軌道のセパラトリクスが位相空間を異なる領域に分割する際に古典的極限に起源を持つ。 不安定周期軌道の多様体に基づく波動伝播の半古典的理論を用いて、esqpt {for the quantum standard map: a paradigmatic example of a kick quantum system} に付随する量子状態を記述する。 さらに,システムの乱れによるカオスの増加に伴い,ESQPTの有限サイズ前駆体は減少することを示した。 主ホモクリニック軌道間の破壊的干渉によって説明される現象

Excited-state quantum phase transitions (ESQPTs) are critical phenomena that generate singularities in the spectrum of quantum systems. {For systems with a classical counterpart,} these phenomena have their origin in the classical limit when the separatrix of an unstable periodic orbit divides phase space into different regions. Using a semiclassical theory of wave propagation based on the manifolds of unstable periodic orbits, we describe the quantum states associated with an ESQPT {for the quantum standard map: a paradigmatic example of a kicked quantum system}. {Moreover, we show that finite-size precursors of ESQPTs shrink as chaos increases due to the disturbance of the system. This phenomenon is explained through destructive interference between principal homoclinic orbits}
翻訳日:2023-03-05 09:48:38 公開日:2021-12-27
# 分子における局所電子密度の上界

Upper bounds of local electronic densities in molecules ( http://arxiv.org/abs/2112.09521v3 )

ライセンス: Link先を確認
Sohei Ashida(参考訳) 電子ハミルトニアンの固有関数は、密度の局所分布を通じて分子の安定な構造とダイナミクスを決定する。 本稿では,そのような密度の局所分布に対する事前上限を与える。 この境界は、電子間の反発により電子の濃度が禁止されることを意味する。 固有関数の反対称性から生じる1電子密度と2電子密度の関係は、証明において重要な役割を果たす。

The eigenfunctions of electronic Hamiltonians determine the stable structures and dynamics of molecules through the local distributions of their densities. In this paper an a priori upper bound for such local distributions of the densities is given. The bound means that concentration of electrons is prohibited due to the repulsion between the electrons. A relation between one-electron and two-electron densities resulting from the antisymmetry of the eigenfunctions plays a crucial role in the proof.
翻訳日:2023-03-04 07:08:56 公開日:2021-12-27
# 単一量子パーセプトロンのパターン容量

Pattern capacity of a single quantum perceptron ( http://arxiv.org/abs/2112.10115v2 )

ライセンス: Link先を確認
Fabio Benatti, Giovanni Gramegna, Stefano Mancini(参考訳) 量子機械学習の最近の進歩は、古典的なパーセプトロンを量子状態に一般化するモデルがいくつか導入されている。 これらの量子モデルの能力は、量子アドバンテージが達成可能であるかどうかを確定するために正確に決定する必要がある。 ここでは、連続変数量子システムによって実現される特定の量子パーセプトロンモデルのパターン容量を計算するために統計物理学のアプローチを用いる。

Recent developments in Quantum Machine Learning have seen the introduction of several models to generalize the classical perceptron to the quantum regime. The capabilities of these quantum models need to be determined precisely in order to establish if a quantum advantage is achievable. Here we use a statistical physics approach to compute the pattern capacity of a particular model of quantum perceptron realized by means of a continuous variable quantum system.
翻訳日:2023-03-04 03:11:19 公開日:2021-12-27
# マヨラナ・ゼロモードは強磁場下でハイブリッドナノワイヤに現れるか?

Do Majorana zero modes emerge in the hybrid nanowire under a strong magnetic field? ( http://arxiv.org/abs/2112.13568v1 )

ライセンス: Link先を確認
Guo-Jian Qiao, Sheng-Wen Li and C. P. Sun(参考訳) 超伝導体に近い半導体からなるハイブリッドナノワイヤは、マヨラナゼロモードを表示する実験プラットフォームとして機能することが期待されている。 実効的な北エブモデルをスピンで再現することにより、マヨラナゼロモードの出現に対する磁場強度のより正確な制約を割り当てる新しい位相図が見つかる。 すると、近接効果にdressした効果的なペアリング強度は磁場に大きく依存していることが判明し、トポロジカル位相領域は化学ポテンシャルとゼーマンエネルギーとの位相図の閉三角形として洗練される(これは以前にも知られていた開放双曲領域と明らかに異なる)。 この予測は、差分コンダクタンススペクトルにおけるゼロバイアスピークが2e^{2}/h$である量子輸送の正確な計算によって再び確認され、マヨアナ・ゼロモードに必要な証拠として磁場が強すぎると消滅する。 insbナノワイヤとnbtinを結合した実用的なハイブリッドシステムでは、アクセス可能な磁場範囲は0.1-1.5t程度であり、アルミニウムシェルと結合すると、アクセス可能な磁場範囲は0.12tより小さいはずである。 これらの予測は、ハイブリッドnonawireを用いたマヨラナゼロモードの実験で現在議論を呼んでいる問題を明確にする。

The hybrid nanowire consisting of semiconductor with proximity to superconductor is expected to serve as an experimental platform to display Majorana zero modes. By rederiving its effective Kitaev model with spins, we discover a novel topological phase diagram, which assigns a more precise constraint on the magnetic field strength for the emergence of Majorana zero modes. It then turns out the effective pairing strength dressed by the proximity effect exhibits a significant dependence on the magnetic field, and thus the topological phase region is refined as a closed triangle in the phase diagram with chemical potential vs. Zeeman energy(which is obviously different from the open hyperbolic region known before). This prediction is confirmed again by an exact calculation of quantum transport, where the zero bias peak of $2e^{2}/h$ in the differential conductance spectrum, as the necessary evidence for the Majorana zero modes, disappears when the magnetic field grows too strong. For illustrations with practical hybrid systems, in the InSb nanowire coupled to NbTiN, the accessible magnetic field range is around 0.1--1.5T; when coupled to aluminum shell, the accessible magnetic field range should be smaller than 0.12T. These predictions obviously clarify the current controversial issues about some experiments of Majorana zero modes with hybrid nonawire.
翻訳日:2023-03-03 04:01:28 公開日:2021-12-27
# 粒子損失を伴う1次元フェルミオン液体の時間進化

Temporal evolution of one-dimensional fermion liquid with particle loss ( http://arxiv.org/abs/2112.13550v1 )

ライセンス: Link先を確認
Wei-Zhu Yi, Hao-Jie Lin, Ze-Xun Lin, Wei-Qiang Chen(参考訳) 興味深い現象は、オープンシステムで補うことができる量子系におけるハーミシティの犠牲によって現れる。 開量子系は特に時間発展において閉系から非自明に振る舞う。 本研究では,粒子損失を有する一次元フェルミオン系の動的特性について検討する。 システムの短時間の挙動は非エルミート実効ハミルトニアンによって記述され、長い時間ダイナミクスはリンドブラッドマスター方程式によって制御される。 系の空間分割を伴う時間依存のフォン・ノイマンエントロピーは、リウヴィリアスペクトルに基づく普遍的な振舞いを持つことを示す。 熱化により、量子ジャンプをオンにすると、エントロピーは短時間で急速に増加する。 リウヴィリアンギャップが閉ざされるかどうかは、長期間の崩壊に影響する。 運動量空間における準粒子の左右非対称性は、相関量子ジャンプ作用素によって誘導される有効ハミルトニアンにおける非逆ホッピングの結果観測される。 これはまた、初期の相互作用-強度-独立運動量-空間の絡み合いを引き起こす。 運動量空間における現象は、有名な非エルミート皮膚効果と同じ起源を持つ。

Intriguing phenomenon emerge with the sacrifice of Hermicity in quantum systems, which can be complemented in open system. Open quantum systems behave non-trivially from closed systems especially in temporal evolution. In this work, we study the dynamical properties of a generic one-dimensional fermionic system with particle loss. The short-time behavior of the system is described by a non-Hermitian effective Hamiltonian, while the long-time dynamics is governed by Lindblad master equation. We show that the time-dependent von Neumann entropy with spatial bipartition of the system has universal behaviors hinging on the Liouvillian spectra. On account of thermalization, the entropy increases rapidly in short time when turning on the quantum jumps. Whether the Liouvillian gap closes or not affects the long-time decaying. The left-right asymmetry of quasiparticles in momentum space is observed as a result of non-reciprocal hopping in the effective Hamiltonian induced by correlated quantum-jump operators. This will also induce an interaction-strength-independent momentum-space entanglement in early time. The phenomenon in momentum-space share the same origin with the renowned non-Hermitian skin effect.
翻訳日:2023-03-03 04:01:04 公開日:2021-12-27
# 定曲率3次元空間におけるダンケル振動子モデルの超積分性

Superintegrability on the Dunkl oscillator model in three-Dimensional spaces of constant curvature ( http://arxiv.org/abs/2112.13546v1 )

ライセンス: Link先を確認
Shi-Hai Dong, Amene Najafizade, Hossein Panahi, Won Sang Chung, and Hassan Hassanabadi(参考訳) 本稿では,超可積分ユークリッドハミルトン系を曲面系へ一般化する3次元ダンケル振動子モデルについて検討した。 これらのモデルは、基底空間の変形パラメータに依存し、反射作用素を含む曲面ハミルトニアンに基づいて定義される。 これらの対称性は、1次元ダンケル発振器の動的$sl_{-1}(2)$代数の生成と消滅作用素を用いてケイリー・クライン直交代数の族におけるヨルダン・シュウィンガー表現によって得られる。 結果として得られる代数は$so_{\kappa_1\kappa_2}(4)$の変形であり、Jordan-Schwinger-Dunkl 代数 $jsd_{\kappa_1\kappa_2}(4)$ として知られている。 したがって、このモデルは最大超可積分であることが示されている。 一方、3次元ダンケル振動子モデルの超積分性は因子分解アプローチの観点から研究されている。 このシステムのスペクトルは測地座標における変数の分離によって導き出され、結果として得られる固有函数はヤコビ多項式の項で代数的に与えられる。

This paper has studied the three-dimensional Dunkl oscillator models in a generalization of superintegrable Euclidean Hamiltonian systems to curved ones. These models are defined based on curved Hamiltonians, which depend on a deformation parameter of underlying space and involve reflection operators. Their symmetries are obtained by the Jordan-Schwinger representations in the family of the Cayley-Klein orthogonal algebras using the creation and annihilation operators of the dynamical $sl_{-1}(2)$ algebra of the one-dimensional Dunkl oscillator. The resulting algebra is a deformation of $so_{\kappa_1\kappa_2}(4)$ with reflections, which is known as the Jordan-Schwinger-Dunkl algebra $jsd_{\kappa_1\kappa_2}(4)$. Hence, this model is shown to be maximally superintegrable. On the other hand, the superintegrability of the three-dimensional Dunkl oscillator model is studied from the factorization approach viewpoint. The spectrum of this system is derived through the separation of variables in geodesic polar coordinates, and the resulting eigenfunctions are algebraically given in terms of Jacobi polynomials.
翻訳日:2023-03-03 04:00:50 公開日:2021-12-27
# 時間依存非エルミートハミルトニアンの実期待値

A real expectation value of the time-dependent non-Hermitian Hamiltonians ( http://arxiv.org/abs/2112.13535v1 )

ライセンス: Link先を確認
F. Kecita, A. Bounames, M. Maamache(参考訳) 時間依存的非エルミート・ハミルトニアンに付随する時間依存的なシュルンディンガー方程式を解くことを目的として、ハミルトニアンを時間依存の$\mathcal{PT}$-対称にマッピングするユニタリ変換を導入する。 したがって、時間依存のschr\"{o}dinger方程式の解は容易に導出され、進化は $\mathcal{c(}t\mathcal{)pt}$-inner 積を保存し、ここで $\mathcal{c(}t\mathcal{)}$ は代入共役作用素 $\mathcal{c}$ から時間依存ユニタリ変換を通じて得られる。 さらに、$\mathcal{c(}t\mathcal{)pt}$ノルム状態における非エルミートハミルトンの期待値は実であることが保証される。 例示として,線形複素時間依存ポテンシャルを受ける時間依存質量を持つ量子振動子によって与えられる特定の量子系を示す。

With the aim to solve the time-dependent Schr\"{o}dinger equation associated to a time-dependent non-Hermitian Hamiltonian, we introduce a unitary transformation that maps the Hamiltonian to a time-independent $\mathcal{PT}$-symmetric one. Consequently, the solution of time-dependent Schr\"{o}dinger equation becomes easily deduced and the evolution preserves the $\mathcal{C(}t\mathcal{)PT}$-inner product, where $\mathcal{C(}t\mathcal{)}$ is a obtained from the charge conjugation operator $\mathcal{C}$ through a time dependent unitary transformation. Moreover, the expectation value of the non-Hermitian Hamiltonian in the $\mathcal{C(}t\mathcal{)PT}$ normed states is guaranteed to be real. As an illustration, we present a specific quantum system given by a quantum oscillator with time-dependent mass subjected to a driving linear complex time-dependent potential.
翻訳日:2023-03-03 04:00:29 公開日:2021-12-27
# Lorenz qubit

Lorenz qubit ( http://arxiv.org/abs/2112.13476v1 )

ライセンス: Link先を確認
Michael R. Geller(参考訳) 非線形キュービットマスター方程式は、周期倍数、ホップ分岐、典型的には古典的非線形系に関連する奇妙な誘引子などのリッチな力学現象を示すことが最近示されている。 本稿では,可変lorenzアトラクタをサポートする非線形量子ビットモデルについて検討する。 ローレンツ量子ビットは、実または模擬平均場力学によって生成されたキュービットねじれと線形増幅と散逸を組み合わせた実験によって実現することができる。 これにより、エンジニアリングされたローレンツ系を量子状態に拡張し、直接の実験研究と量子情報処理への応用が可能になる。

Nonlinear qubit master equations have recently been shown to exhibit rich dynamical phenomena such as period doubling, Hopf bifurcation, and strange attractors usually associated with classical nonlinear systems. Here we investigate nonlinear qubit models that support tunable Lorenz attractors. A Lorenz qubit could be realized experimentally by combining qubit torsion, generated by real or simulated mean field dynamics, with linear amplification and dissipation. This would extend engineered Lorenz systems to the quantum regime, allowing for their direct experimental study and possible application to quantum information processing.
翻訳日:2023-03-03 03:59:34 公開日:2021-12-27
# 二成分純粋な状態とユニタリの検証に必要な実験的設定の最小数

Minimum number of experimental settings required to verify bipartite pure states and unitaries ( http://arxiv.org/abs/2112.13638v1 )

ライセンス: Link先を確認
Yunting Li, Haoyu Zhang, Zihao Li, and Huangjun Zhu(参考訳) 量子状態とゲートの効率的な検証は、量子技術の発展に不可欠である。 量子状態検証と量子ゲート検証のサンプルの複雑さは多くの研究者によって研究されているが、実験的な設定の数はほとんど注目されず、あまり理解されていない。 本研究では,実験的設定の数に着目し,量子状態検証と量子ゲート検証を体系的に検討する。 両部純状態は局所的な射影測定に基づく2つの測定設定で検証可能であることを示す。 次元$d$の任意の二部単位は、ローカル操作に基づいた実験的な設定で検証することができる。 さらに,エンタングルメントフリー検証の概念を導入し,最小設定検証との関連性を明らかにする。 最後に、任意の2量子ユニタリを少なくとも5つの実験的な設定で検証できることを示し、さらに(測度 0 のセットを除いて)一般的な2量子ユニタリを4つの設定に基づいてアンタグルフリープロトコルで検証できることを示した。 研究の過程では、独立な利害関係を持つ2量子ユニタリのシュミット係数の性質を明らかにする。

Efficient verification of quantum states and gates is crucial to the development of quantum technologies. Although the sample complexities of quantum state verification and quantum gate verification have been studied by many researchers, the number of experimental settings has received little attention and is poorly understood. In this work we study systematically quantum state verification and quantum gate verification with a focus on the number of experimental settings. We show that any bipartite pure state can be verified by only two measurement settings based on local projective measurements. Any bipartite unitary in dimension $d$ can be verified by $2d$ experimental settings based on local operations. In addition, we introduce the concept of entanglement-free verification and clarify its connection with minimal-setting verification. Finally, we show that any two-qubit unitary can be verified with at most five experimental settings; moreover, a generic two-qubit unitary (except for a set of measure zero) can be verified by an entanglement-free protocol based on four settings. In the course of study we clarify the properties of Schmidt coefficients of two-qubit unitaries, which are of independent interest.
翻訳日:2023-03-03 03:53:51 公開日:2021-12-27
# 中間レベルにおける大消散のためのSTIRAPパルスの最適形状

Optimal shape of STIRAP pulses for large dissipation at the intermediate level ( http://arxiv.org/abs/2112.13620v1 )

ライセンス: Link先を確認
Dionisis Stefanatos and Emmanuel Paspalakis(参考訳) 本研究では,中間状態の散逸速度が制御場の最大振幅よりもはるかに高い場合のシュレイプシステムにおける人口移動効率の最大化問題について検討する。 この仮定の下では、元の3レベルシステムは初期状態と目標状態のみを含む2つの方程式に還元することができる。 対象状態への人口移動を最大化する制御場は,損失のある中間状態の個体数を含むペナルティを使わずにt$で与えられるが,ポンプとストークスパルスの強度の和が一定であるという制約の下では,総場が振幅が一定であり,制御パラメータは2つのフィールドの混合角のみである。 最適解では、中間特異弧が時間とともに線形に変化するのに対し、初期および最後のバングは等速な瞬時回転に対応するバン・シンギュラー・バンの方法で混合角が変化する。 初期回転と最終回転の最適角度は、パラメータとして$T$が現れる超越方程式のユニークな解であり、中間線形変化の最適勾配と最適移動効率は、この最適角度の関数として表されることを示す。 対応する最適解は、非ゼロポンプとストークス場を境界とする反直感パルス列を復元する。 また、近似システムを用いて導出した最適値に近い転送効率値も、最大制御振幅に匹敵する散逸率を用いて、元のSTIRAPシステムでも得られることを示す。

We study the problem of maximizing population transfer efficiency in the STIRAP system for the case where the dissipation rate of the intermediate state is much higher than the maximum amplitude of the control fields. Under this assumption, the original three-level system can be reduced to a couple of equations involving the initial and target states only. We find the control fields which maximize the population transfer to the target state for a given duration $T$, without using any penalty involving the population of the lossy intermediate state, but under the constraint that the sum of the intensities of the pump and Stokes pulses is constant, so the total field has constant amplitude and the only control parameter is the mixing angle of the two fields. In the optimal solution the mixing angle changes in the bang-singular-bang manner, where the initial and final bangs correspond to equal instantaneous rotations, while the intermediate singular arc to a linear change with time. We show that the optimal angle of the initial and final rotations is the unique solution of a transcendental equation where duration $T$ appears as a parameter, while the optimal slope of the intermediate linear change as well as the optimal transfer efficiency are expressed as functions of this optimal angle. The corresponding optimal solution recovers the counterintuitive pulse-sequence, with nonzero pump and Stokes fields at the boundaries. We also show with numerical simulations that, transfer efficiency values close to the optimal derived using the approximate system, can also be obtained with the original STIRAP system using dissipation rates comparable to the maximum control amplitude.
翻訳日:2023-03-03 03:53:34 公開日:2021-12-27
# 前方2-$\lambda$ atom-light結合法における究極の変換効率

Ultimate conversion efficiency bound for the forward double-$\Lambda$ atom-light coupling scheme ( http://arxiv.org/abs/2112.13615v1 )

ライセンス: Link先を確認
Dionisis Stefanatos, Athanasios Smponias, Hamid Reza Hamedi, and Emmanuel Paspalakis(参考訳) 2つの広く使われているdouble-\Lambda$ atom-light coupling schemeでは、制御フィールドが同じ$\Lambda$-subsystemで適用され、別の$\Lambda$-subsystemで適用された場合、プローブと信号場の前方伝播は同じ方程式によって記述されることを示す。 次に、最適制御理論を用いて、与えられた光密度に対してプローブから信号場への変換効率を最大化する空間依存の最適制御場を求める。 本研究は、量子情報処理のための効率的な周波数および軌道角運動量変換装置の実装における応用と、double-$\Lambda$ atom-light coupling schemeを用いた他の多くのアプリケーションに有用であることが期待されている。

We show that for the two widely used configurations of the double-$\Lambda$ atom-light coupling scheme, one where the control fields are applied in the same $\Lambda$-subsystem and another where they applied in different $\Lambda$-subsystems, the forward propagation of the probe and signal fields is described by the same set of equations. We then use optimal control theory to find the spatially-dependent optimal control fields which maximize the conversion efficiency from the probe to the signal field, for a given optical density. The present work is expected to find application in the implementation of efficient frequency and orbital angular momentum conversion devices for quantum information processing, as well as to be useful to many other applications using the double-$\Lambda$ atom-light coupling scheme.
翻訳日:2023-03-03 03:52:41 公開日:2021-12-27
# 2種の原子イオンを用いたKochen-Specker文脈性の意義-ループホールフリー試験

Significant-loophole-free test of Kochen-Specker contextuality using two species of atomic-ions ( http://arxiv.org/abs/2112.13612v1 )

ライセンス: Link先を確認
Pengfei Wang, Junhua Zhang, Chun-Yang Luan, Mark Um, Ye Wang, Mu Qiao, Tian Xie, Jing-Ning Zhang, Ad\'an Cabello, Kihwan Kim(参考訳) 量子測定は、同じ試験で他の測定を邪魔しない場合でも、既存の結果を明らかにするとは考えられない。 この機能は文脈性と呼ばれ、コンピューティングにおける量子アドバンテージに不可欠である。 本稿では,量子コンテキスト性に関する最初の観測を,検出,シャープネス,互換性の抜け穴を伴わずに行った。 ハイブリッド2イオン系と高効率蛍光測定器を採用し、検出効率が100\%$と測定再現率$>98\%$とすることにより、検出とシャープネスの抜け穴を閉鎖する。 互換性の抜け穴は、ポールトラップ内の2つの異なるイオンの可観測性($^{171}\mathrm{yb}^{+}$イオンと$^{138}\mathrm{ba}^{+}$イオン)の相関関係をターゲットとして閉鎖されるので、各イオンの計測は異なる操作レーザ波長、蛍光波長、検出器を使用する。 実験結果は、最も敵対的な非コンテキストモデルの境界に違反することを示し、量子システムを認証する新しい方法を開く。

Quantum measurements cannot be thought of as revealing preexisting results, even when they do not disturb any other measurement in the same trial. This feature is called contextuality and is crucial for the quantum advantage in computing. Here, we report the first observation of quantum contextuality simultaneously free of the detection, sharpness and compatibility loopholes. The detection and sharpness loopholes are closed by adopting a hybrid two-ion system and highly efficient fluorescence measurements offering a detection efficiency of $100\%$ and a measurement repeatability $>98\%$. The compatibility loophole is closed by targeting correlations between observables for two different ions in a Paul trap, a $^{171}\mathrm{Yb}^{+}$ ion and a $^{138}\mathrm{Ba}^{+}$ ion, chosen so measurements on each ion use different operation laser wavelengths, fluorescence wavelengths, and detectors. The experimental results show a violation of the bound for the most adversarial noncontextual models and open a new way to certify quantum systems.
翻訳日:2023-03-03 03:52:24 公開日:2021-12-27
# 最も長い経路問題に対する量子アルゴリズム

Quantum Algorithm for the Longest Trail Problem ( http://arxiv.org/abs/2112.13847v1 )

ライセンス: Link先を確認
Kamil Khadiev and Ruslan Kapralov(参考訳) 我々は,最も長い追跡問題に対する量子アルゴリズムを提案する。 問題は、$n$の頂点と$m$の辺を持つグラフの最長の辺単純パスを検索することだ。 ここでは、エッジは2回も経路内では発生しないが、頂点は数回発生することがある。 アルゴリズムの実行時間は$O^*(1.728^m)$である。

We present the quantum algorithm for the Longest Trail Problem. The problem is to search the longest edge-simple path for a graph with $n$ vertexes and $m$ edges. Here edge-simple means no edge occurs in the path twice, but vertexes can occur several times. The running time of our algorithm is $O^*(1.728^m)$.
翻訳日:2023-03-03 03:46:00 公開日:2021-12-27
# キャビティマグノニクスにおけるマグノンクロスカー効果の観測

Observation of magnon cross-Kerr effect in cavity magnonics ( http://arxiv.org/abs/2112.13807v1 )

ライセンス: Link先を確認
Wei-Jiang Wu, Da Xu, Jie Qian, Jie Li, Yi-Pu Wang, and J. Q. You(参考訳) 一定量の磁場不均一性が存在する場合、偏光されたフェライト結晶は、均一プレセッションキッテルモードに加えて、高次静磁場(HMS)モードを示す。 キャビティマグノニクスでは,キッテルモードとHMSモードのクロスカー型相互作用を実験的および理論的に示す。 Kittelモードが駆動されて一定の数の励起が生成されると、HMSモードは対応する周波数シフトを表示し、その逆も表示する。 クロスカー効果は、これらの2つのスピン波モード間の交換相互作用によって生じる。 クロスカー効果を利用して,イットリウム鉄ガーネット(YIG)球面を1つだけ有する多モードキャビティマグノニクスシステムを実現し,統合する。 本研究は,磁化ダイナミクスの研究に新たな手法を導入するとともに,静磁場モードとモードの相互作用を操作の自由度として含む新しいキャビティマグノニックデバイスへの道を開く。

When there is a certain amount of field inhomogeneity, the biased ferrimagnetic crystal will exhibit the higher-order magnetostatic (HMS) mode in addition to the uniform-precession Kittel mode. In cavity magnonics, we show both experimentally and theoretically the cross-Kerr-type interaction between the Kittel mode and HMS mode. When the Kittel mode is driven to generate a certain number of excitations, the HMS mode displays a corresponding frequency shift and vice versa. The cross-Kerr effect is caused by an exchange interaction between these two spin-wave modes. Utilizing the cross-Kerr effect, we realize and integrate a multi-mode cavity magnonic system with only one yttrium iron garnet (YIG) sphere. Our results will bring new methods to magnetization dynamics studies and pave a way for novel cavity magnonic devices by including the magnetostatic mode-mode interaction as an operational degree of freedom.
翻訳日:2023-03-03 03:45:55 公開日:2021-12-27
# 固体スピンをもつ非エルミート結び目相の実験的教師なし学習

Experimental unsupervised learning of non-Hermitian knotted phases with solid-state spins ( http://arxiv.org/abs/2112.13785v1 )

ライセンス: Link先を確認
Yefei Yu, Li-Wei Yu, Wengang Zhang, Huili Zhang, Xiaolong Ouyang, Yanqing Liu, Dong-Ling Deng, L.-M. Duan(参考訳) 非ハーモニティ性は量子物理学に広く応用されている。 エルミート相を持たない異なる位相相をもたらし、理論的および実験的側面の両方から位相分類の根本的な挑戦をもたらす。 ここでは,窒素空洞中心プラットフォームを用いた非エルミート位相の教師なし学習実験を報告した。 特に, 特異な結び目を持つ位相相を持つ非エルミートツイスターモデルを実装し, 電子スピンと近傍の原子核スピンからなる固体量子シミュレータをダイヤモンドの窒素空洞中心に導入した。 マイクロ波パルスをチューニングすることにより、位相ラベルのない実験データのセットを効率的に生成する。 さらに, 拡散マップ法に基づいて, この実験用生データの集合を, 事前知識を伴わずに, 教師なしの方法で3つの異なる結び目相にクラスタリングする。 実験データを用いた外来未知の位相位相の自律的分類の興味深い可能性を示す。

Non-Hermiticity has widespread applications in quantum physics. It brings about distinct topological phases without Hermitian counterparts, and gives rise to the fundamental challenge of phase classification from both theoretical and experimental aspects. Here we report the first experimental demonstration of unsupervised learning of non-Hermitian topological phases with the nitrogen-vacancy center platform. In particular, we implement the non-Hermitian twister model, which hosts peculiar knotted topological phases, with a solid-state quantum simulator consisting of an electron spin and a nearby $^{13}$C nuclear spin in a nitrogen-vacancy center in diamond. By tuning the microwave pulses, we efficiently generate a set of experimental data without phase labels. Furthermore, based on the diffusion map method, we cluster this set of experimental raw data into three different knotted phases in an unsupervised fashion without a priori knowledge of the system, which is in sharp contrast to the previously implemented supervised learning phases of matter. Our results showcase the intriguing potential for autonomous classification of exotic unknown topological phases with experimental raw data.
翻訳日:2023-03-03 03:45:06 公開日:2021-12-27
# 金属ナノ粒子に結合した半導体量子ドットにおけるバイエクシトン状態のコヒーレント合成

Coherent preparation of the biexciton state in a semiconductor quantum dot coupled to a metallic nanoparticle ( http://arxiv.org/abs/2112.13773v1 )

ライセンス: Link先を確認
Emmanuel Paspalakis, Athanasios Smponias, and Dionisis Stefanatos(参考訳) 量子ドットと金属ナノ粒子を結合した半導体量子ドットの二重励起状態への人口移動の制御可能性について,双曲型分離形状の電磁パルスの影響について検討し,ゼロおよび非ゼロの二重励起エネルギーシフトに対する密度行列方程式の解析解を導出する。 これらの解は、比較的小さな値を含む様々な粒子間距離のバイエクシトン状態への効率的な移動をもたらす。 ある場合には、2つの粒子間の距離が小さいとき、表面プラズモンが励起子に与える影響で人口移動が強く変化し、より短いパルスに対して効果がより顕著になる。 偏光エンタングル光子を効率的に生成するためのハイブリッドスナノ構造が提案されており、ここで検討したバイエクシトン状態形成の成功がこの研究に寄与することが期待される。

We study the potential for controlled transfer of population to the biexciton state of a semiconductor quantum dot coupled with a metal nanoparticle, under the influence of an electromagnetic pulse with hyperbolic secant shape, and derive analytical solutions of the density matrix equations, for both zero and nonzero biexciton energy shift. These solutions lead to efficient transfer to the biexciton state, for various interparticle distances, including relatively small values. In certain cases, when the distance between the two particles is small, the transfer of population is strongly modified because of the influence of surface plasmons to the excitons, and the effect is more pronounced for shorter pulses. The hybrid snanostructure that we study has been proposed for generating efficiently polarization-entangled photons, thus the successful biexciton state preparation considered here is expected to contribute in this line of research.
翻訳日:2023-03-03 03:44:17 公開日:2021-12-27
# レーザ誘起連続体構造による人口移動の最適化

Optimized pulses for population transfer via laser induced continuum structures ( http://arxiv.org/abs/2112.13768v1 )

ライセンス: Link先を確認
Dionisis Stefanatos and Emmanuel Paspalakis(参考訳) 我々は、状態の連続体を介して結合された2つの境界状態間の人口移動を最大化するパルスの最適形状を見つけるために最適な制御を用いる。 最適有界制御は、最大許容制御値に対応するバング部と、ゼロと最大の間の値に対応する内部部とにより、バング-interiorおよびinside-bang形式を得る。 次に,数値最適制御を用いて,スイッチング時間と内部制御値を求める。 我々は,ガウスSTIRAPパルスを用いて得られたパルスと比較し,有効2光子デチューニングと非コヒーレント損失の大きさに応じて,最適解法が向上することを確認した。 効果的な2光子共鳴を考えると、大きな非コヒーレント損失に対して改善はより劇的であり、効果的な2光子デチューニングを考慮すると、より小さな不コヒーレント損失に対して改善がより良くなる。 また,ファノ因子の絶対値の増加に伴って転送効率が向上することを示す。 本研究は, 連続体構造による2つの境界状態間の人口移動が, 集団トラップや電磁誘導透過性などのコヒーレンス効果, 導波管をベースとしたフォトニック構造を伝播する光波の光アナログ, ボソニックモードや導波管モードの連続体を介して結合した量子ビットなど, 重要な役割を担う領域に応用されることが期待される。

We use optimal control in order to find the optimal shapes of pulses maximizing the population transfer between two bound states which are coupled via a continuum of states. We find that the optimal bounded controls acquire the bang-interior and interior-bang form, with the bang part corresponding to the maximum allowed control value and the interior part to values between zero and the maximum. Then, we use numerical optimal control to obtain the switching times and the interior control values. We compare our results with those obtained using Gaussian STIRAP pulses, and find that the optimal method performs better, with the extent of improvement depending on the effective two-photon detuning and the size of incoherent losses. When we consider effective two-photon resonance, the improvement is more dramatic for larger incoherent losses, while when we take into account the effective two-photon detuning, the improvement is better for smaller incoherent losses. We also obtain how the transfer efficiency increases with increasing absolute value of the Fano factor. The present work is expected to find application in areas where the population transfer between two bound states through a continuum structure plays an important role, for example coherence effects, like population trapping and electromagnetically induced transparency, optical analogs for light waves propagating in waveguide-based photonic structures, and qubits coupled via a continuum of bosonic or waveguide modes.
翻訳日:2023-03-03 03:43:54 公開日:2021-12-27
# beyond qubits: より高次元の量子冷蔵庫の構築

Beyond Qubits: Building Quantum Refrigerators in Higher Dimensions ( http://arxiv.org/abs/2112.13765v1 )

ライセンス: Link先を確認
Tanoy Kanti Konar, Srijon Ghosh, Amit Kumar Pal, Aditi Sen De(参考訳) 本研究では,スピン-j量子XYZとバイリニアバイカッドモデルに基づく量子冷蔵庫の設計を行った。 局所的および大域的マスター方程式の両方を考慮することにより,スピンモデルの選択に関係なく,スピン次元の増加による冷凍機の性能向上を示す。 冷凍機の性能を評価するため,任意のスピン量子数jで粒子の局所温度を定量化するための距離に基づく測度を導入する。 興味深いことに、スピン-j の熱状態とスピン-j 粒子の定常状態の間の距離を最小化することで定義される局所温度量子化器は、スピン-1/2 粒子の文献で知られている局所温度の集団に基づく定義と一致する。 さらに, 距離に基づく局所温度の定性的挙動は, 距離距離, ウルマンの忠実度, 相対エントロピー距離を比較することにより, 距離測定値の選択に依存しないことを示した。 さらに、スピン1/2とスピンj粒子からなる量子冷蔵庫は、xyz相互作用に従えば2つの同一のスピンj粒子を持つ冷蔵庫に比べて低い局所温度に導くことができることをローカルマスター方程式で計算して観察する。

We design quantum refrigerators based on spin-j quantum XYZ and bilinear-biquadratic models with individual spins attached to bosonic thermal baths. By considering both local and global master equations, we illustrate an enhancement in the performance of the refrigerators with an increase in the spin dimension irrespective of the choice of the spin models. To assess the performance of the refrigerators, we introduce a distance-based measure to quantify the local temperature of a particle with arbitrary spin quantum number j. Interestingly, we find that the local temperature quantifier, defined via minimizing the distance between a spin-j thermal state and the evolved state of the spin-j particle in the steady state, coincides with the population-based definition of local temperature known in the literature for spin-1/2 particles. Moreover, we demonstrate that the qualitative behavior of the distance-based local temperature is independent of the choice of the distance measure by comparing the trace distance, Uhlmann's fidelity and relative entropy distance. We further observe by computing local master equation that the quantum refrigerator consisting of a spin-1/2 and a spin-j particle can lead to a lower local temperature compared to a refrigerator with two identical spin-j particles following the XYZ interactions.
翻訳日:2023-03-03 03:43:12 公開日:2021-12-27
# 計算合理的エンジニアリングと開発 : シナジーと機会

Computational Rational Engineering and Development: Synergies and Opportunities ( http://arxiv.org/abs/2201.06922v1 )

ライセンス: Link先を確認
Ramses Sala(参考訳) コンピュータ技術と計算手法の研究と開発は、コンピュータ支援工学(cae)と産業工学のための様々な価値のあるツールを生み出した。 しかし、計算能力と人工知能(ai)手法の指数関数的な増加にもかかわらず、設計、工学、開発におけるサイバネティックな自動化に関するビジョンの多くは、まだ達成されていない。 産業4.0のような現代的な研究動向や動きは、主に製造・製造における連結自動化による進歩を目標としているが、本研究の目的は、技術開発プロセスの自動化と自動化を目標とした進捗調査と視点の定式化である。 本研究は,学際的なミニレビューに基づいて,資源効率の高い協調工学・開発システムの実現に向けたオープンな課題,シナジー,研究機会を明らかにした。 従来の人間中心のツールベースのcaeアプローチを越え、計算知能駆動開発プロセスを実現するために、計算合理性の枠組みを設計、工学、開発における課題に拡張することが提案されている。

Research and development in computer technology and computational methods have resulted in a wide variety of valuable tools for Computer-Aided Engineering (CAE) and Industrial Engineering. However, despite the exponential increase in computational capabilities and Artificial Intelligence (AI) methods, many of the visionary perspectives on cybernetic automation of design, engineering, and development have not been successfully pursued or realized yet. While contemporary research trends and movements such as Industry 4.0 primarily target progress by connected automation in manufacturing and production, the objective of this paper is to survey progress and formulate perspectives targeted on the automation and autonomization of engineering development processes. Based on an interdisciplinary mini-review, this work identifies open challenges, synergies, and research opportunities towards the realization of resource-efficient cooperative engineering and development systems. In order to go beyond conventional human-centered, tool-based CAE approaches and realize Computational Intelligence Driven Development processes, it is suggested to extend the framework of Computational Rationality to challenges in design, engineering and development.
翻訳日:2023-03-03 03:35:15 公開日:2021-12-27
# 準古典的」状態における単一原子レーザーの準確率Q

Quasi-probability Q for a single-atom laser generating in the 'semi-classical' regime ( http://arxiv.org/abs/2112.13929v1 )

ライセンス: Link先を確認
Nikolay V. Larionov(参考訳) 本論文では, 単一原子レーザーの非コヒーレントポンピングモデルについて理論的に検討する。 定常の場合、位相平均フシミ Q-函数の線型等質微分方程式は系の密度作用素の方程式から導かれる。 この方法では、磁場と原子のカップリングが、その崩壊をもたらす貯水池とのカップリングよりも何倍も強いとき、この方程式の漸近解が見つかる。 この解により、単一原子レーザーのいくつかの統計的特徴、特に弱い準ポアソン光子統計を記述することができる。

In the paper a model of a single-atom laser with incoherent pumping is theoretically investigated. In the stationary case, a linear homogeneous differential equation for the phase-averaged Hussimi Q-function is derived from the equation for the density operator of the system. In the regime when the coupling of the field with an atom is many times stronger than the coupling of the field with the reservoir providing its decay, an asymptotic solution of this equation is found. This solution makes it possible to describe some statistical features of a single-atom laser, in particular the weak sub-Poissonian photon statistics.
翻訳日:2023-03-03 03:34:06 公開日:2021-12-27
# 軌道測度の射影と量子限界問題

Projections of Orbital Measures and Quantum Marginal Problems ( http://arxiv.org/abs/2112.13908v1 )

ライセンス: Link先を確認
Beno\^it Collins, Colin McSwiggen(参考訳) 本論文では、コンパクトリー群の(co)随伴軌道の均一ランダム要素の射影について研究する。 そのような射影はランダムな行列論において広く研究されたアンサンブルを一般化し、ランダム化されたホーン問題、ランダム化されたシュール問題、軌道角過程などが挙げられる。 この一般的な設定では、確率密度の積分公式を証明し、密度の性質を定め、表現論における多重性問題とシンプレクティック幾何学文学における既知の結果との関係を議論する。 応用として、量子情報理論における限界問題に関する多くの結果を示し、制限多重性に対する積分公式も証明する。

This paper studies projections of uniform random elements of (co)adjoint orbits of compact Lie groups. Such projections generalize several widely studied ensembles in random matrix theory, including the randomized Horn's problem, the randomized Schur's problem, and the orbital corners process. In this general setting, we prove integral formulae for the probability densities, establish some properties of the densities, and discuss connections to multiplicity problems in representation theory as well as to known results in the symplectic geometry literature. As applications, we show a number of results on marginal problems in quantum information theory and also prove an integral formula for restriction multiplicities.
翻訳日:2023-03-03 03:33:44 公開日:2021-12-27
# 相互作用するイオンの量子不変量に基づく制御

Quantum invariant-based control of interacting trapped ions ( http://arxiv.org/abs/2112.13905v1 )

ライセンス: Link先を確認
Selwyn Simsek, Florian Mintert(参考訳) Invariant-based inverse Engineeringは量子制御のエレガントなアプローチであり、対応する実験的な実装により、閉じ込められたイオンをシャットリングするなどの量子情報処理におけるタスクを実行する。 我々は、不変量に基づく逆工学を一般化し、任意の空間次元における2つの結合調和振動子を制御するための最近の研究の上に構築する。 これは、捕捉されたイオンの分離などの実験的なタスクに使用することができ、これは数値的に示され、96%以上の移動率と低運動数励起を達成する。

Invariant-based inverse engineering is an elegant approach to quantum control with corresponding experimental implementations that perform tasks with applications in quantum information processing such as shuttling trapped ions. We build on recent work to generalise invariant-based inverse engineering to control two coupled harmonic oscillators in any number of spatial dimensions. This may be used to perform experimentally relevant tasks such as separation of trapped ions, which is demonstrated numerically, achieving transfer fidelities of over 96% as well as low motional number excitations.
翻訳日:2023-03-03 03:33:33 公開日:2021-12-27
# 分散学習のためのバイアス圧縮について

On Biased Compression for Distributed Learning ( http://arxiv.org/abs/2002.12410v2 )

ライセンス: Link先を確認
Aleksandr Beznosikov and Samuel Horv\'ath and Peter Richt\'arik and Mher Safaryan(参考訳) 近年,分散学習におけるコミュニケーションのボトルネックを軽減するツールとして,様々なコミュニケーション圧縮技術が登場している。 しかし、より研究され、理解された「偏りのない」圧縮機と比較して、実際は優れた性能を示すことがしばしばあるにもかかわらず、それらについてはほとんど知られていない。 本研究では, 偏差圧縮演算子の3つのクラスについて検討し, その2つのクラスは新しく, その性能は(確率的)勾配降下と分散(確率的)勾配降下に適用した。 偏りのある圧縮機が単一ノードと分散設定の両方で線形収束率をもたらすことを初めて示す。 We prove that distributed compressed SGD method, employed with error feedback mechanism, enjoys the ergodic rate $\mathcal{O}\left( \delta L \exp[-\frac{\mu K}{\delta L}] + \frac{(C + \delta D)}{K\mu}\right)$, where $\delta\ge1$ is a compression parameter which grows when more compression is applied, $L$ and $\mu$ are the smoothness and strong convexity constants, $C$ captures stochastic gradient noise ($C=0$ if full gradients are computed on each node) and $D$ captures the variance of the gradients at the optimum ($D=0$ for over-parameterized models). さらに、通信勾配の合成的および経験的分布に関する理論的研究を通じて、なぜ、また、偏りのある圧縮機が偏りのない変種をどれだけ上回るかについて光を当てた。 最後に, 理論的な保証と実用性能が期待できる新しいバイアス圧縮機を提案する。

In the last few years, various communication compression techniques have emerged as an indispensable tool helping to alleviate the communication bottleneck in distributed learning. However, despite the fact {\em biased} compressors often show superior performance in practice when compared to the much more studied and understood {\em unbiased} compressors, very little is known about them. In this work we study three classes of biased compression operators, two of which are new, and their performance when applied to (stochastic) gradient descent and distributed (stochastic) gradient descent. We show for the first time that biased compressors can lead to linear convergence rates both in the single node and distributed settings. We prove that distributed compressed SGD method, employed with error feedback mechanism, enjoys the ergodic rate $\mathcal{O}\left( \delta L \exp[-\frac{\mu K}{\delta L}] + \frac{(C + \delta D)}{K\mu}\right)$, where $\delta\ge1$ is a compression parameter which grows when more compression is applied, $L$ and $\mu$ are the smoothness and strong convexity constants, $C$ captures stochastic gradient noise ($C=0$ if full gradients are computed on each node) and $D$ captures the variance of the gradients at the optimum ($D=0$ for over-parameterized models). Further, via a theoretical study of several synthetic and empirical distributions of communicated gradients, we shed light on why and by how much biased compressors outperform their unbiased variants. Finally, we propose several new biased compressors with promising theoretical guarantees and practical performance.
翻訳日:2022-12-28 08:14:35 公開日:2021-12-27
# バンディット・コンテクストバンディット・rlにおける行動エージェントの統一モデル

Unified Models of Human Behavioral Agents in Bandits, Contextual Bandits and RL ( http://arxiv.org/abs/2005.04544v5 )

ライセンス: Link先を確認
Baihan Lin, Guillermo Cecchi, Djallel Bouneffouf, Jenna Reinen, Irina Rish(参考訳) 人工行動エージェントはしばしば、その一貫した行動とパフォーマンスに基づいて評価され、累積報酬の概念を最大化するために、環境におけるシーケンシャルな行動を取る。 しかし、現実の人間の意思決定は、通常異なる戦略と行動軌道を伴い、同じ経験的な結果をもたらす。 本稿では, 幅広い神経・精神疾患の臨床文献に動機づけられ, 2ストリーム報酬処理機構を含む逐次意思決定のためのより汎用的で柔軟なパラメトリックフレームワークを提案する。 我々は,このフレームワークが柔軟で統一されていることを実証し,マルチアームバンディット(MAB),コンテキストバンディット(CB),強化学習(RL)にまたがる一連の問題を,異なるレベルで分解できることを示した。 多くの精神疾患の報酬処理異常に触発されて、臨床に着想を得たエージェントは、特定の報酬分布を持つ模擬タスクにおける興味深い行動軌跡と同等のパフォーマンス、ギャンブルタスクにおける人間の意思決定をキャプチャする実世界データセット、生涯にわたる学習環境における様々な報酬定常性におけるパックマンゲームを示した。

Artificial behavioral agents are often evaluated based on their consistent behaviors and performance to take sequential actions in an environment to maximize some notion of cumulative reward. However, human decision making in real life usually involves different strategies and behavioral trajectories that lead to the same empirical outcome. Motivated by clinical literature of a wide range of neurological and psychiatric disorders, we propose here a more general and flexible parametric framework for sequential decision making that involves a two-stream reward processing mechanism. We demonstrated that this framework is flexible and unified enough to incorporate a family of problems spanning multi-armed bandits (MAB), contextual bandits (CB) and reinforcement learning (RL), which decompose the sequential decision making process in different levels. Inspired by the known reward processing abnormalities of many mental disorders, our clinically-inspired agents demonstrated interesting behavioral trajectories and comparable performance on simulated tasks with particular reward distributions, a real-world dataset capturing human decision-making in gambling tasks, and the PacMan game across different reward stationarities in a lifelong learning setting.
翻訳日:2022-12-05 01:20:08 公開日:2021-12-27
# Smoothed Contextual Banditsにおけるグリーディアルゴリズムの優位性

Greedy Algorithm almost Dominates in Smoothed Contextual Bandits ( http://arxiv.org/abs/2005.10624v2 )

ライセンス: Link先を確認
Manish Raghavan, Aleksandrs Slivkins, Jennifer Wortman Vaughan, Zhiwei Steven Wu(参考訳) Web上の検索とコンテンツの最適化に広く使われているオンライン学習アルゴリズムは、探索とエクスプロイトのバランスを保ち、将来のより良い意思決定につながる情報を得るために、現在のユーザの経験を犠牲にする可能性がある。 最悪の場合、明示的な探索は、現在最適に見えるアクションを選択することで常に「探索する」という欲求アルゴリズムと比較して、多くの欠点がある。 我々は、データに固有の多様性が明示的な探索を不要にする条件について尋ねる。 本稿では,線形文脈バンディットモデルにおけるグリーディアルゴリズムの平滑化解析に関する最近の研究を基礎としている。 我々は、同じ問題インスタンス上の他のアルゴリズムが持つ最善のベイズ的後悔率とほぼ一致し、この後悔が少なくとも$\tilde o(t^{1/3})$であることを示すために、事前の結果を改善した。

Online learning algorithms, widely used to power search and content optimization on the web, must balance exploration and exploitation, potentially sacrificing the experience of current users in order to gain information that will lead to better decisions in the future. While necessary in the worst case, explicit exploration has a number of disadvantages compared to the greedy algorithm that always "exploits" by choosing an action that currently looks optimal. We ask under what conditions inherent diversity in the data makes explicit exploration unnecessary. We build on a recent line of work on the smoothed analysis of the greedy algorithm in the linear contextual bandits model. We improve on prior results to show that a greedy approach almost matches the best possible Bayesian regret rate of any other algorithm on the same problem instance whenever the diversity conditions hold, and that this regret is at most $\tilde O(T^{1/3})$.
翻訳日:2022-12-01 13:21:06 公開日:2021-12-27
# 信号時相論理仕様によるバックプロパゲーション:論理構造を勾配法に反映する

Backpropagation through Signal Temporal Logic Specifications: Infusing Logical Structure into Gradient-Based Methods ( http://arxiv.org/abs/2008.00097v3 )

ライセンス: Link先を確認
Karen Leung, Nikos Ar\'echiga, Marco Pavone(参考訳) 本稿では,信号時相論理(stl)の定量的意味論を計算グラフを用いて計算する手法であるstlcgを提案する。 STLCGは、勾配ベースのソリューションの恩恵を受けるロボット問題に論理仕様を組み込むことができるプラットフォームを提供する。 特に、stlは強力で表現力に富んだ形式言語であり、連続系とハイブリッド系の両方によって生成される信号の時間的および時間的特性を指定できる。 STLの量的意味論は、信号がSTL仕様を満たすか、違反するかというロバスト性指標を提供する。 本稿では,stlのロバスト性公式を計算グラフに変換するための体系的方法論を考案する。 この表現により、既製の自動微分ツールを利用することで、STLロバスト性公式を効果的にバックプロパゲートし、ロボット工学で多くの勾配に基づくアプローチでSTL仕様を自然かつ容易に統合することができる。 ロボット工学の応用例を数多く紹介し,stlcgは多用途で計算効率が高く,問題定式化に人間ドメイン知識を組み込むことができることを示した。

This paper presents a technique, named STLCG, to compute the quantitative semantics of Signal Temporal Logic (STL) formulas using computation graphs. STLCG provides a platform which enables the incorporation of logical specifications into robotics problems that benefit from gradient-based solutions. Specifically, STL is a powerful and expressive formal language that can specify spatial and temporal properties of signals generated by both continuous and hybrid systems. The quantitative semantics of STL provide a robustness metric, i.e., how much a signal satisfies or violates an STL specification. In this work, we devise a systematic methodology for translating STL robustness formulas into computation graphs. With this representation, and by leveraging off-the-shelf automatic differentiation tools, we are able to efficiently backpropagate through STL robustness formulas and hence enable a natural and easy-to-use integration of STL specifications with many gradient-based approaches used in robotics. Through a number of examples stemming from various robotics applications, we demonstrate that STLCG is versatile, computationally efficient, and capable of incorporating human-domain knowledge into the problem formulation.
翻訳日:2022-11-04 06:55:48 公開日:2021-12-27
# エンド・ツー・エンド顔認証の要素:最近の進歩

The Elements of End-to-end Deep Face Recognition: A Survey of Recent Advances ( http://arxiv.org/abs/2009.13290v4 )

ライセンス: Link先を確認
Hang Du, Hailin Shi, Dan Zeng, Xiao-Ping Zhang, and Tao Mei(参考訳) 顔認識はコンピュータビジョンにおいて最も人気があり、長く続いたトピックの1つである。 近年のディープラーニング技術と大規模データセットの開発により、深層顔認識は目覚ましい進歩を遂げ、多くの現実世界のアプリケーションで広く利用されている。 自然画像又は映像フレームを入力として、エンド・ツー・エンドのディープ・フェイス認識システムは、認識のための顔特徴を出力する。 これを実現するために、典型的なエンドツーエンドシステムは、顔検出、顔アライメント、顔表現の3つの重要な要素で構成されている。 顔検出は、画像またはフレーム内の顔を検出する。 そして、顔アライメントを進めて、顔の正準ビューを校正し、正規化された画素サイズで収穫する。 最後に、顔表現の段階で、アライメントされた顔から識別特徴を抽出して認識する。 現在、これら3つの要素はすべてディープ畳み込みニューラルネットワークの技術によって実現されている。 本稿では,各要素の最近の進歩について概観する。 まず,エンド・ツー・エンドのdeep face recognitionの概要について述べる。 そして,各要素の進歩を概観し,アルゴリズム設計,評価指標,データセット,性能比較,既存の課題,今後の研究に向けた有望な方向性など,様々な側面について考察する。 また、各要素がその後の要素や全体システムに与える影響について詳細な議論を行う。 第1に,読者は,サブカテゴリにおいて非常に強固なベースラインスタイルである手法を便利に識別でき,第2に,最先端のエンド・ツー・エンドの顔認識システムを構築するための適切な手法をスクラッチから活用できる。

Face recognition is one of the most popular and long-standing topics in computer vision. With the recent development of deep learning techniques and large-scale datasets, deep face recognition has made remarkable progress and been widely used in many real-world applications. Given a natural image or video frame as input, an end-to-end deep face recognition system outputs the face feature for recognition. To achieve this, a typical end-to-end system is built with three key elements: face detection, face alignment, and face representation. The face detection locates faces in the image or frame. Then, the face alignment is proceeded to calibrate the faces to the canonical view and crop them with a normalized pixel size. Finally, in the stage of face representation, the discriminative features are extracted from the aligned face for recognition. Nowadays, all of the three elements are fulfilled by the technique of deep convolutional neural network. In this survey article, we present a comprehensive review about the recent advance of each element. To start with, we present an overview of the end-to-end deep face recognition. Then, we review the advance of each element, respectively, covering many aspects such as the to-date algorithm designs, evaluation metrics, datasets, performance comparison, existing challenges, and promising directions for future research. Also, we provide a detailed discussion about the effect of each element on its subsequent elements and the holistic system. Through this survey, we wish to bring contributions in two aspects: first, readers can conveniently identify the methods which are quite strong-baseline style in the subcategory for further exploration; second, one can also employ suitable methods for establishing a state-of-the-art end-to-end face recognition system from scratch.
翻訳日:2022-10-13 22:07:08 公開日:2021-12-27
# 非定常線形マルコフ決定過程における効率的な学習

Efficient Learning in Non-Stationary Linear Markov Decision Processes ( http://arxiv.org/abs/2010.12870v3 )

ライセンス: Link先を確認
Ahmed Touati and Pascal Vincent(参考訳) 非定常線形(すなわち低ランク)マルコフ決定過程(mdps)におけるエピソディック強化学習(episodic reinforcement learning)について検討した。 そこで本研究では,過去のデータをスムーズに忘れるために指数重みを用いた重み付き最小二乗値反復に基づく楽観的モデルフリーアルゴリズムを提案する。 我々のアルゴリズムは、各時点の最良のポリシーと競合するとき、$\widetilde{\mathcal{O}}(d^{5/4}H^2 \Delta^{1/4} K^{3/4})$$$d$が特徴空間の次元、$H$が計画的地平線、$K$がエピソード数、$\Delta$がMDPの非定常性の適切な尺度であることを示す。 さらに, 過去の作業による非定常線形帯域設定における戦略の忘れ方略の研究における技術的ギャップを指摘し, 後悔解析の修正を提案する。

We study episodic reinforcement learning in non-stationary linear (a.k.a. low-rank) Markov Decision Processes (MDPs), i.e, both the reward and transition kernel are linear with respect to a given feature map and are allowed to evolve either slowly or abruptly over time. For this problem setting, we propose OPT-WLSVI an optimistic model-free algorithm based on weighted least squares value iteration which uses exponential weights to smoothly forget data that are far in the past. We show that our algorithm, when competing against the best policy at each time, achieves a regret that is upper bounded by $\widetilde{\mathcal{O}}(d^{5/4}H^2 \Delta^{1/4} K^{3/4})$ where $d$ is the dimension of the feature space, $H$ is the planning horizon, $K$ is the number of episodes and $\Delta$ is a suitable measure of non-stationarity of the MDP. Moreover, we point out technical gaps in the study of forgetting strategies in non-stationary linear bandits setting made by previous works and we propose a fix to their regret analysis.
翻訳日:2022-10-03 12:17:09 公開日:2021-12-27
# (参考訳) ディープラーニングアーキテクチャの改良によるタンパク質の簡潔化部位の予測

Predicting Succinylation Sites in Proteins with Improved Deep Learning Architecture ( http://arxiv.org/abs/2201.11215v1 )

ライセンス: CC BY 4.0
Olusola Odeyomi, and Gergely Zaruba(参考訳) タンパク質の翻訳後修飾(PTM)は翻訳の後に起こる。 PTMは、デオキシリボヌクレイン酸(DNA)の修復、細胞シグナル伝達、細胞死など、多くの細胞プロセスに関与している。 最近のPTMの1つは簡潔化である。 サクシニル化はリジン残基を1$-1$から1$に修飾する。 質量分析法のような実験手法による簡潔な部位の配置は非常に困難である。 したがって、計算手法は機械学習技術を用いて好まれる。 本稿では,簡潔化サイトを予測するためのディープラーニングアーキテクチャを提案する。 提案アーキテクチャの性能は、最先端のディープラーニングアーキテクチャや、簡潔化のための従来の機械学習技術と比較される。 性能指標から,提案手法が計算速度と分類精度との間に良好なトレードオフをもたらすことを示す。

Post-translational modifications (PTMs) in proteins occur after the process of translation. PTMs account for many cellular processes such as deoxyribonucleic acid (DNA) repair, cell signaling and cell death. One of the recent PTMs is succinylation. Succinylation modifies lysine residue from $-1$ to $+1$. Locating succinylation sites using experimental methods, such as mass spectrometry is very laborious. Hence, computational methods are favored using machine learning techniques. This paper proposes a deep learning architecture to predict succinylation sites. The performance of the proposed architecture is compared to the state-of-the-art deep learning architecture and other traditional machine learning techniques for succinylation. It is shown from the performance metrics that the proposed architecture provides a good trade-off between speed of computation and classification accuracy.
翻訳日:2022-01-30 14:22:40 公開日:2021-12-27
# MHATC:マルチヘッドアテンションエンコーダと時間的統合モジュールを用いた自閉症スペクトラム障害の同定

MHATC: Autism Spectrum Disorder identification utilizing multi-head attention encoder along with temporal consolidation modules ( http://arxiv.org/abs/2201.00404v1 )

ライセンス: Link先を確認
Ranjeet Ranjan Jha, Abhishek Bhardwaj, Devin Garg, Arnav Bhavsar, Aditya Nigam(参考訳) 静止状態fMRIは、ネットワークベースの機能接続を用いて自閉症スペクトラム障害(ASD)の診断に一般的に用いられる。 ASDは脳の領域とその相互結合に関連があることが示されている。 しかし、コントロール集団の画像データとALD患者の脳のイメージデータ間の接続パターンに基づく識別は、簡単な作業ではない。 本稿では,この分類課題に取り組むために,ASD患者として個人を分類するための多面的注意と時間的統合モジュールからなる新しいディープラーニングアーキテクチャ(MHATC)を提案する。 考案されたアーキテクチャは、類似のアプリケーションに対する現在のディープニューラルネットワークソリューションの制限を深く分析した結果である。 私たちのアプローチは堅牢なだけでなく、計算効率も高く、他の様々な研究や臨床で採用することが可能です。

Resting-state fMRI is commonly used for diagnosing Autism Spectrum Disorder (ASD) by using network-based functional connectivity. It has been shown that ASD is associated with brain regions and their inter-connections. However, discriminating based on connectivity patterns among imaging data of the control population and that of ASD patients' brains is a non-trivial task. In order to tackle said classification task, we propose a novel deep learning architecture (MHATC) consisting of multi-head attention and temporal consolidation modules for classifying an individual as a patient of ASD. The devised architecture results from an in-depth analysis of the limitations of current deep neural network solutions for similar applications. Our approach is not only robust but computationally efficient, which can allow its adoption in a variety of other research and clinical settings.
翻訳日:2022-01-09 12:57:33 公開日:2021-12-27
# アンテナ傾き最適化のためのグラフ注意学習手法

A Graph Attention Learning Approach to Antenna Tilt Optimization ( http://arxiv.org/abs/2112.14843v1 )

ライセンス: Link先を確認
Yifei Jin, Filippo Vannella, Maxime Bouton, Jaeseong Jeong and Ezeddin Al Hakim(参考訳) 6Gはモバイルネットワークを複雑さのレベルに引き上げる。 この複雑さに対処するため、ネットワークパラメータの最適化は、動的ネットワーク環境に対する高い性能とタイムリーな適応性を保証する鍵となる。 アンテナ傾きの最適化は、ネットワークのカバレッジと容量を改善するための実用的でコスト効率のよい方法を提供する。 強化学習(rl)に基づく従来の手法は,従来の傾き最適化法よりも適応ポリシーを学習することにより,傾き最適化に大きな期待を寄せている。 しかし、既存のRLメソッドの多くはシングルセルの特徴表現に基づいており、エージェントの状態を完全に特徴付けることができず、結果としてサブ最適性能が得られる。 また、このような手法の多くは、状態-作用の爆発と一般化能力によりスケーラビリティに欠ける。 本稿では,傾き最適化のためのグラフ注意q-learning(gaq)アルゴリズムを提案する。 GAQはグラフ注意機構を利用して、関連する隣人情報を選択し、エージェントの状態表現を改善し、Deep Q-Network (DQN) を用いた観測履歴に基づいて傾き制御ポリシーを更新する。 GAQは,重要なネットワーク情報を効率よく取得し,ローカル情報による標準DQNよりも高い性能を示す。 さらに,サイズや密度の異なるネットワーク展開に一般化できることを実証する。

6G will move mobile networks towards increasing levels of complexity. To deal with this complexity, optimization of network parameters is key to ensure high performance and timely adaptivity to dynamic network environments. The optimization of the antenna tilt provides a practical and cost-efficient method to improve coverage and capacity in the network. Previous methods based on Reinforcement Learning (RL) have shown great promise for tilt optimization by learning adaptive policies outperforming traditional tilt optimization methods. However, most existing RL methods are based on single-cell features representation, which fails to fully characterize the agent state, resulting in suboptimal performance. Also, most of such methods lack scalability, due to state-action explosion, and generalization ability. In this paper, we propose a Graph Attention Q-learning (GAQ) algorithm for tilt optimization. GAQ relies on a graph attention mechanism to select relevant neighbors information, improve the agent state representation, and update the tilt control policy based on a history of observations using a Deep Q-Network (DQN). We show that GAQ efficiently captures important network information and outperforms standard DQN with local information by a large margin. In addition, we demonstrate its ability to generalize to network deployments of different sizes and densities.
翻訳日:2022-01-09 12:42:50 公開日:2021-12-27
# (参考訳) 地図による経済活動の予測

Using maps to predict economic activity ( http://arxiv.org/abs/2112.13850v1 )

ライセンス: CC BY 4.0
Imryoung Jeong and Hyunjoo Yang(参考訳) 本稿では,歴史地図と現代地図を用いて経済統計を体系的に予測する新しい機械学習手法を提案する。 リモートセンシングデータは、地域経済活動の信頼できるプロキシとして使われてきた。 しかし、これらは近年しか利用できないため、長期的な分析の適用性は制限されている。 一方、歴史地図は数十年前に遡る。 簡単なアルゴリズムでは,色組成に基づいて地図から意味のある特徴を抽出する。 本手法によるグリッドレベルの人口予測は,従来のCNNによる生地図画像による予測よりも優れていた。 また、夜間衛星画像や土地被覆分類を入力として、他のアプローチよりも人口を予測している。

We introduce a novel machine learning approach to leverage historical and contemporary maps to systematically predict economic statistics. Remote sensing data have been used as reliable proxies for local economic activity. However, they have only become available in recent years, thus limiting their applicability for long-term analysis. Historical maps, on the other hand, date back several decades. Our simple algorithm extracts meaningful features from the maps based on their color compositions. The grid-level population predictions by our approach outperform the conventional CNN-based predictions using raw map images. It also predicts population better than other approaches using night light satellite images or land cover classifications as the input for predictions.
翻訳日:2021-12-31 08:42:19 公開日:2021-12-27
# (参考訳) 生成逆ネットワークによる天文画像のカラー化とアップスケーリング

Astronomical Image Colorization and upscaling with Generative Adversarial Networks ( http://arxiv.org/abs/2112.13865v1 )

ライセンス: CC BY 4.0
Shreyas Kalvankar, Hrushikesh Pandit, Pranav Parwate, Atharva Patil and Snehal Kamalapur(参考訳) 人間の介入を伴わない画像の自動着色は、機械学習コミュニティにおいて短期間の関心の対象となっている。 画像に色を割り当てることは、非常に高い自由度を持つという本質的な性質から、非常に不適切な問題である。 カラー化に加えて、画像の再構成における別の問題は、低解像度画像を高解像度に変換することを目的としたSingle Image Super Resolutionである。 本研究では,天体画像の特定領域に着目し,gan(generative adversarial network)を用いて処理することにより,この問題に対する自動的アプローチを提供することを目的としている。 RGBとL*a*bという2つの異なる色空間における様々なモデルの利用について検討する。 私たちは、小さなデータセットのために転送学習を使い、事前訓練されたresnet-18をバックボーン、すなわちu-netのエンコーダとして使用し、さらにそれを微調整します。 このモデルは、画像に存在しない高解像度で色付けされたデータを幻覚させる視覚的に魅力的な画像を生成する。 本研究では,各色空間におけるL1距離,L2距離などの距離測定値を用いて,GANを定量的に評価し,比較分析を行った。 本稿では,frechetインセプション距離(fid)を用いて,生成画像の分布と実画像の分布を比較し,モデルの性能を評価する。

Automatic colorization of images without human intervention has been a subject of interest in the machine learning community for a brief period of time. Assigning color to an image is a highly ill-posed problem because of its innate nature of possessing very high degrees of freedom; given an image, there is often no single color-combination that is correct. Besides colorization, another problem in reconstruction of images is Single Image Super Resolution, which aims at transforming low resolution images to a higher resolution. This research aims to provide an automated approach for the problem by focusing on a very specific domain of images, namely astronomical images, and process them using Generative Adversarial Networks (GANs). We explore the usage of various models in two different color spaces, RGB and L*a*b. We use transferred learning owing to a small data set, using pre-trained ResNet-18 as a backbone, i.e. encoder for the U-net and fine-tune it further. The model produces visually appealing images which hallucinate high resolution, colorized data in these results which does not exist in the original image. We present our results by evaluating the GANs quantitatively using distance metrics such as L1 distance and L2 distance in each of the color spaces across all channels to provide a comparative analysis. We use Frechet inception distance (FID) to compare the distribution of the generated images with the distribution of the real image to assess the model's performance.
翻訳日:2021-12-31 08:32:43 公開日:2021-12-27
# (参考訳) 社会的オントロジー的知識表現は機械学習を用いて測定できるか?

Can Social Ontological Knowledge Representations be Measured Using Machine Learning? ( http://arxiv.org/abs/2112.13870v1 )

ライセンス: CC BY 4.0
Ahmed Izzidien(参考訳) 個人社会オントロジー (personal social ontology, pso) とは、個人が用語のオントロジー的性質をどのように知覚するかである。 例えば、絶対的致命論者は、人からいかなる形の代理者も排除する用語を使う。 このような致命論は、例えば勝利、勝利、成功といった存在論的に定義された行為が、非ファタリストが存在論的にそれらを定義する方法とは逆の方法で影響する。 致命論者と非致命論者の両方がこれらの用語の辞書定義について同意するが、それらは何とどのように引き起こされるかによって異なる。 この2つの個人の違いは、各個人が使用する用語の共起から引き起こすことができると論じられている。 このような共起は、その人に特有の社会的存在論を暗示している。 社会心理学や社会神経科学の文献で証明されているように、主要な社会的知覚の使用は、そのようなテキストを特徴付けるための実行可能な方法として提案されている。 これらの機能の自然言語的特徴化により、機械学習パイプラインで使用できるようになる。

Personal Social Ontology (PSO), it is proposed, is how an individual perceives the ontological properties of terms. For example, an absolute fatalist would arguably use terms that remove any form of agency from a person. Such fatalism has the impact of ontologically defining acts such as winning, victory and success, for example, in a manner that is contrary to how a non-fatalist would ontologically define them. While both a fatalist and non-fatalist would agree on the dictionary definition of these terms, they would differ on what and how they can be caused. This difference between the two individuals, it is argued, can be induced from the co-occurrence of terms used by each individual. That such co-occurrence carries an implied social ontology, one that is specific to that person. The use of principal social perceptions -as evidenced by the social psychology and social neuroscience literature, is put forward as a viable method to feature engineer such texts. With the natural language characterisation of these features, they are then usable in machine learning pipelines.
翻訳日:2021-12-31 08:20:31 公開日:2021-12-27
# (参考訳) spvit:soft token pruningによる視覚トランスフォーマーの高速化

SPViT: Enabling Faster Vision Transformers via Soft Token Pruning ( http://arxiv.org/abs/2112.13890v1 )

ライセンス: CC BY 4.0
Zhenglun Kong, Peiyan Dong, Xiaolong Ma, Xin Meng, Wei Niu, Mengshu Sun, Bin Ren, Minghai Qin, Hao Tang, Yanzhi Wang(参考訳) 近年,ビジョントランスフォーマー (ViT) はコンピュータビジョン分野において新たなマイルストーンを継続的に確立しており,高い計算とメモリコストが産業生産における伝播を困難にしている。 ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。 それでも、ViT構造上で排他的プルーニングを行う方法については曖昧である。 我々は,vitの構造特性,vitの内部データパターン,関連するエッジデバイス配置の3つのキーポイントを考慮し,入力トークンスパーシティを活用し,プール型vit (pit) などのフラット構造およびcnn型構造のバニラトランス上に設定可能な,計算対応なソフトプルーニングフレームワークを提案する。 より具体的には、適応型インスタンス単位のトークン選択のための軽量モジュールである動的アテンションベースのマルチヘッドトークンセレクタを設計する。 我々はさらに,セレクタモジュールが生成する情報量が少ないトークンをパッケージトークンに統合するソフトプルーニング技術についても紹介する。 我々のフレームワークは,提案した計算対応トレーニング戦略を通じて,特定のエッジデバイスの精度と計算制約のトレードオフに縛られている。 実験の結果,vitsの計算コストを大幅に削減し,画像分類における同等の性能を維持した。 さらに,本フレームワークは,モバイルデバイスやFPGAのリソース仕様を満たすための特定モデルを保証し,モバイルプラットフォーム上でのDeiT-Tのリアルタイム実行を実現する。 例えば、当社の手法では、モバイルデバイス上のDeiT-Tのレイテンシを26ミリ秒(既存の作業よりも41%高い26%)に短縮し、ImageNetでは0.25%$\sim $4%高いトップ1精度を実現しています。 私たちのコードはまもなくリリースされます。

Recently, Vision Transformer (ViT) has continuously established new milestones in the computer vision field, while the high computation and memory cost makes its propagation in industrial production difficult. Pruning, a traditional model compression paradigm for hardware efficiency, has been widely applied in various DNN structures. Nevertheless, it stays ambiguous on how to perform exclusive pruning on the ViT structure. Considering three key points: the structural characteristics, the internal data pattern of ViTs, and the related edge device deployment, we leverage the input token sparsity and propose a computation-aware soft pruning framework, which can be set up on vanilla Transformers of both flatten and CNN-type structures, such as Pooling-based ViT (PiT). More concretely, we design a dynamic attention-based multi-head token selector, which is a lightweight module for adaptive instance-wise token selection. We further introduce a soft pruning technique, which integrates the less informative tokens generated by the selector module into a package token that will participate in subsequent calculations rather than being completely discarded. Our framework is bound to the trade-off between accuracy and computation constraints of specific edge devices through our proposed computation-aware training strategy. Experimental results show that our framework significantly reduces the computation cost of ViTs while maintaining comparable performance on image classification. Moreover, our framework can guarantee the identified model to meet resource specifications of mobile devices and FPGA, and even achieve the real-time execution of DeiT-T on mobile platforms. For example, our method reduces the latency of DeiT-T to 26 ms (26%$\sim $41% superior to existing works) on the mobile device with 0.25%$\sim $4% higher top-1 accuracy on ImageNet. Our code will be released soon.
翻訳日:2021-12-31 08:09:03 公開日:2021-12-27
# (参考訳) 勾配統計とフィードフォワードニューラルネットワークを用いたディジタル画像の非参照品質モニタリング

Non-Reference Quality Monitoring of Digital Images using Gradient Statistics and Feedforward Neural Networks ( http://arxiv.org/abs/2112.13893v1 )

ライセンス: CC BY 4.0
Nisar Ahmed, Hafiz Muhammad Shahzad Asif, Hassan Khalid(参考訳) デジタル画像には多くの冗長性が含まれているため、画像品質を損なうことなく画像サイズを小さくするために圧縮を適用する。 画像シーケンスを含むビデオと高い圧縮比が低スループットネットワークで達成される場合には、同様のことがより顕著になる。 このようなシナリオにおける画像の品質評価は特に注目される。 ほとんどのシナリオにおける主観的評価は実現不可能となり、客観的評価が望ましい。 3つの客観的品質指標のうち、完全参照法と縮小参照法は、放送やipビデオのようなシナリオでは実現不可能な品質スコアを計算するために、何らかの形でオリジナル画像を必要とする。 そこで,非参照品質尺度を提案し,輝度と多スケール勾配の統計量を計算するデジタル画像の品質と平均減算コントラスト正規化積を,スケール化共役勾配を用いたフィードフォワードニューラルネットワークの学習機能として評価する。 トレーニングされたネットワークは、優れた回帰とR2測定を提供し、LIVE画像品質評価データベースリリース2でのさらなるテストは、有望な結果を示している。 ピアソン、ケンドール、スピアマンの相関は予測された品質スコアと実際の品質スコアの間で計算され、その結果は最先端のシステムに匹敵する。 さらに,提案手法は,提案手法よりも計算速度が速く,画像シーケンスの品質評価に使用できる。

Digital images contain a lot of redundancies, therefore, compressions are applied to reduce the image size without the loss of reasonable image quality. The same become more prominent in the case of videos that contains image sequences and higher compression ratios are achieved in low throughput networks. Assessment of the quality of images in such scenarios becomes of particular interest. Subjective evaluation in most of the scenarios becomes infeasible so objective evaluation is preferred. Among the three objective quality measures, full-reference and reduced-reference methods require an original image in some form to calculate the quality score which is not feasible in scenarios such as broadcasting or IP video. Therefore, a non-reference quality metric is proposed to assess the quality of digital images which calculates luminance and multiscale gradient statistics along with mean subtracted contrast normalized products as features to train a Feedforward Neural Network with Scaled Conjugate Gradient. The trained network has provided good regression and R2 measures and further testing on LIVE Image Quality Assessment database release-2 has shown promising results. Pearson, Kendall, and Spearman's correlation are calculated between predicted and actual quality scores and their results are comparable to the state-of-the-art systems. Moreover, the proposed metric is computationally faster than its counterparts and can be used for the quality assessment of image sequences.
翻訳日:2021-12-31 07:44:54 公開日:2021-12-27
# (参考訳) スパース・スパース・ネットワークのパフォーマンスの利点を解き放つ2つのスパリティ

Two Sparsities Are Better Than One: Unlocking the Performance Benefits of Sparse-Sparse Networks ( http://arxiv.org/abs/2112.13896v1 )

ライセンス: CC BY 4.0
Kevin Lee Hunter, Lawrence Spracklen and Subutai Ahmad(参考訳) 原則として、スパースニューラルネットワークは従来の高密度ネットワークよりもはるかに効率的であるべきです。 脳内のニューロンは2種類あり、緩やかに相互に結合し、わずかに活動する。 これら2種類の疎度は、重み間隔とアクティベーション間隔と呼ばれ、組み合わせることで、ニューラルネットワークの計算コストを2桁に削減する可能性がある。 この可能性にもかかわらず、今日のニューラルネットワークは、重みのスパースのみを使用して、ささやかなパフォーマンスの利点しか提供しない。 本稿では,既存のハードウェア上での二重スパースネットワークの性能を大幅に向上させる新しい手法であるComplementary Sparsityを紹介する。 我々は,高パフォーマンスな重み分散ネットワークを実現できることを実証し,アクティベーションスパーシティを組み込むことで,高速化を実現する。 また,Complementary Sparsityを用いてFPGAのスループットとエネルギー効率を最大100倍向上させる。 ResNet-50やMobileNetV2のような商用畳み込みネットワークに典型的なカーネルのスケーラビリティとリソースのトレードオフを分析する。 その結果, 重みと活性化のスパース性は, 将来のaiモデルを効率的にスケーリングするための強力な組み合わせであることが示唆された。

In principle, sparse neural networks should be significantly more efficient than traditional dense networks. Neurons in the brain exhibit two types of sparsity; they are sparsely interconnected and sparsely active. These two types of sparsity, called weight sparsity and activation sparsity, when combined, offer the potential to reduce the computational cost of neural networks by two orders of magnitude. Despite this potential, today's neural networks deliver only modest performance benefits using just weight sparsity, because traditional computing hardware cannot efficiently process sparse networks. In this article we introduce Complementary Sparsity, a novel technique that significantly improves the performance of dual sparse networks on existing hardware. We demonstrate that we can achieve high performance running weight-sparse networks, and we can multiply those speedups by incorporating activation sparsity. Using Complementary Sparsity, we show up to 100X improvement in throughput and energy efficiency performing inference on FPGAs. We analyze scalability and resource tradeoffs for a variety of kernels typical of commercial convolutional networks such as ResNet-50 and MobileNetV2. Our results with Complementary Sparsity suggest that weight plus activation sparsity can be a potent combination for efficiently scaling future AI models.
翻訳日:2021-12-31 07:43:59 公開日:2021-12-27
# (参考訳) 位置情報を用いた深度推定の改善

Improving Depth Estimation using Location Information ( http://arxiv.org/abs/2112.13925v1 )

ライセンス: CC BY 4.0
Ahmed Zaitoon, Hossam El Din Abd El Munim, Hazem Abbas(参考訳) 深度情報を正確に推定する能力は、周囲を囲む環境を認識し、重要な物体の深さを予測する多くの自律的アプリケーションにとって不可欠である。 最も最近使用されているテクニックの1つは、単一の画像から深さマップを推測する単眼深度推定である。 本稿では,自己教師付き深層学習手法を改良し,高精度な単眼深度推定を行う。 主なアイデアは、異なるフレームのシーケンスを考慮し、各フレームに位置情報を付加してジオタグを付けるようにディープモデルにトレーニングすることだ。 これにより、モデルが与えられた領域のセマンティクスの深さ推定を強化することができる。 深度推定結果を改善するためのモデルの有効性を示す。 モデルは現実的な環境で訓練され、モデルトレーニングフェーズに位置データを付加した後の深度マップの改善を示す。

The ability to accurately estimate depth information is crucial for many autonomous applications to recognize the surrounded environment and predict the depth of important objects. One of the most recently used techniques is monocular depth estimation where the depth map is inferred from a single image. This paper improves the self-supervised deep learning techniques to perform accurate generalized monocular depth estimation. The main idea is to train the deep model to take into account a sequence of the different frames, each frame is geotagged with its location information. This makes the model able to enhance depth estimation given area semantics. We demonstrate the effectiveness of our model to improve depth estimation results. The model is trained in a realistic environment and the results show improvements in the depth map after adding the location data to the model training phase.
翻訳日:2021-12-31 07:42:48 公開日:2021-12-27
# (参考訳) 連続制御のためのマルチエージェントモデルに基づくクレジット割り当て

Multiagent Model-based Credit Assignment for Continuous Control ( http://arxiv.org/abs/2112.13937v1 )

ライセンス: CC BY 4.0
Dongge Han, Chris Xiaoxuan Lu, Tomasz Michalak, Michael Wooldridge(参考訳) 深部強化学習(RL)は最近、ロボット連続制御タスクにおいて大きな可能性を示している。 それでも、この研究は、ロボットのすべてのコンポーネント間のコミュニケーションの可用性に大きく依存する集中的な学習環境を中心に行われた。 しかし、現実世界のエージェントは、レイテンシの要求、限られた電力予算、安全上の懸念により、通信なしで分散的に運用されることが多い。 分散エージェントのシステムとしてロボットコンポーネントを定式化することにより,連続制御のための分散マルチエージェント強化学習フレームワークを提案する。 そこで,我々はまず,訓練中の集中型最適化と実行時の分散型運用を可能にする協調型マルチエージェントppoフレームワークを開発した。 しかし、システムは、各エージェントに属さないグローバル報酬信号を受信するだけである。 この課題に対処するために,エージェント固有の報酬信号を計算する汎用ゲーム理論クレジット割り当てフレームワークを提案する。 最後に重要なことは、モデルベースのRLモジュールをクレジット割り当てフレームワークに組み込むことで、サンプル効率が大幅に向上することです。 ムジョコ運動制御タスクにおける実験結果に対するフレームワークの有効性を示す。 デモビデオは、https://youtu.be/gfyvpm4svey。

Deep reinforcement learning (RL) has recently shown great promise in robotic continuous control tasks. Nevertheless, prior research in this vein center around the centralized learning setting that largely relies on the communication availability among all the components of a robot. However, agents in the real world often operate in a decentralised fashion without communication due to latency requirements, limited power budgets and safety concerns. By formulating robotic components as a system of decentralised agents, this work presents a decentralised multiagent reinforcement learning framework for continuous control. To this end, we first develop a cooperative multiagent PPO framework that allows for centralized optimisation during training and decentralised operation during execution. However, the system only receives a global reward signal which is not attributed towards each agent. To address this challenge, we further propose a generic game-theoretic credit assignment framework which computes agent-specific reward signals. Last but not least, we also incorporate a model-based RL module into our credit assignment framework, which leads to significant improvement in sample efficiency. We demonstrate the effectiveness of our framework on experimental results on Mujoco locomotion control tasks. For a demo video please visit: https://youtu.be/gFyVPm4svEY.
翻訳日:2021-12-31 07:29:02 公開日:2021-12-27
# (参考訳) SPIDER:フェデレーションラーニングのためのパーソナライズされたニューラルネットワーク

SPIDER: Searching Personalized Neural Architecture for Federated Learning ( http://arxiv.org/abs/2112.13939v1 )

ライセンス: CC BY 4.0
Erum Mushtaq, Chaoyang He, Jie Ding, Salman Avestimehr(参考訳) federated learning(fl)は、プライバシと規制上の制約のためにデータが集中型サーバと共有できない場合に、分散機械学習を支援する効率的な学習フレームワークである。 FLの最近の進歩は、すべてのクライアントに対して事前定義されたアーキテクチャベースの学習を使用する。 しかし、クライアントのデータがサーバに見えず、データ分散がクライアント間で識別できないことを考えると、集中的な設定で発見された事前定義されたアーキテクチャは、FLのすべてのクライアントにとって最適な解決策ではないかもしれない。 この課題に動機づけられた本研究では、フェデレーション学習のためのパーソナライズされたニューラルネットワークアーキテクチャ検索を目的としたアルゴリズムフレームワークであるSPIDERを紹介する。 spiderは、1つのアーキテクチャに均質なグローバルモデル(スーパーネット)をジェネリックfl方式で交互に最適化する2つの特徴と、重み共有に基づく正規化によってグローバルモデルと接続される1つのアーキテクチャヘテロジェンスローカルモデル (2)新しいニューラルネットワーク探索(nas)法によるアーキテクチャヘテロジェンスローカルモデルの実現 操作レベルの摂動を基準として、最適なサブネットを段階的に選択できる。 実験の結果、SPIDERは他の最先端のパーソナライズ手法よりも優れており、検索されたパーソナライズされたアーキテクチャの方が推論効率が高いことがわかった。

Federated learning (FL) is an efficient learning framework that assists distributed machine learning when data cannot be shared with a centralized server due to privacy and regulatory restrictions. Recent advancements in FL use predefined architecture-based learning for all the clients. However, given that clients' data are invisible to the server and data distributions are non-identical across clients, a predefined architecture discovered in a centralized setting may not be an optimal solution for all the clients in FL. Motivated by this challenge, in this work, we introduce SPIDER, an algorithmic framework that aims to Search Personalized neural architecture for federated learning. SPIDER is designed based on two unique features: (1) alternately optimizing one architecture-homogeneous global model (Supernet) in a generic FL manner and one architecture-heterogeneous local model that is connected to the global model by weight sharing-based regularization (2) achieving architecture-heterogeneous local model by a novel neural architecture search (NAS) method that can select optimal subnet progressively using operation-level perturbation on the accuracy value as the criterion. Experimental results demonstrate that SPIDER outperforms other state-of-the-art personalization methods, and the searched personalized architectures are more inference efficient.
翻訳日:2021-12-31 07:07:06 公開日:2021-12-27
# 同時多目的・多忠実度最適化のための超体積改善の期待

Expected hypervolume improvement for simultaneous multi-objective and multi-fidelity optimization ( http://arxiv.org/abs/2112.13901v1 )

ライセンス: Link先を確認
Faran Irshad, Stefan Karsch and Andreas D\"opp(参考訳) ベイズ最適化は費用対評価システムの効率的な最適化方法であることが証明されている。 しかし、単一観測のコストによっては、1つまたはそれ以上の目的の多次元最適化は禁止的に高価である。 多重忠実度最適化は、数値シミュレーションにおいて低分解能近似のようなより安価な複数の情報源を含むことでこの問題を改善する。 多重忠実度最適化のための獲得関数は、通常、複数の目的に対する最適化と組み合わせが難しい探索重度アルゴリズムに基づいている。 ここでは,期待される超ボリューム改善政策が,多くの状況において適切な代替手段として機能することを示す。 評価コストは2段階評価または1つの取得関数に付加的忠実性に関連した目的を組み込む。 これにより、多目的および多忠実性の同時最適化が可能となり、パレート集合とフロントを分数コストで正確に確立することができる。 ベンチマークは1桁以上のオーダーのコスト削減を示している。 これにより,超拡張ブラックボックス関数のパレート最適化が可能となる。 提案したメソッドは、既存の最適化されたベイズ最適化フレームワークで簡単に実装でき、すぐにバッチ最適化に拡張できる。 この技術は、様々な連続的および/または離散的忠実度次元を組み合わせるためにも使用することができ、プラズマ物理学、流体力学、その他多くの科学計算分野におけるシミュレーション問題に特に関係している。

Bayesian optimization has proven to be an efficient method to optimize expensive-to-evaluate systems. However, depending on the cost of single observations, multi-dimensional optimizations of one or more objectives may still be prohibitively expensive. Multi-fidelity optimization remedies this issue by including multiple, cheaper information sources such as low-resolution approximations in numerical simulations. Acquisition functions for multi-fidelity optimization are typically based on exploration-heavy algorithms that are difficult to combine with optimization towards multiple objectives. Here we show that the expected hypervolume improvement policy can act in many situations as a suitable substitute. We incorporate the evaluation cost either via a two-step evaluation or within a single acquisition function with an additional fidelity-related objective. This permits simultaneous multi-objective and multi-fidelity optimization, which allows to accurately establish the Pareto set and front at fractional cost. Benchmarks show a cost reduction of an order of an order of magnitude or more. Our method thus allows for Pareto optimization of extremely expansive black-box functions. The presented methods are simple and straightforward to implement in existing, optimized Bayesian optimization frameworks and can immediately be extended to batch optimization. The techniques can also be used to combine different continuous and/or discrete fidelity dimensions, which makes them particularly relevant for simulation problems in plasma physics, fluid dynamics and many other branches of scientific computing.
翻訳日:2021-12-30 16:38:12 公開日:2021-12-27
# RELDEC: 正規長LDPC符号の強化学習に基づく復号化

RELDEC: Reinforcement Learning-Based Decoding of Moderate Length LDPC Codes ( http://arxiv.org/abs/2112.13934v1 )

ライセンス: Link先を確認
Salman Habib, Allison Beemer, and Joerg Kliewer(参考訳) 本研究では,中等長低密度パリティチェック(LDPC)符号の逐次復号化手法であるRELDECを提案する。 RELDECの背景にある主要な考え方は、マルコフ決定プロセス(MDP)に基づいた強化学習によって最適化された復号法が得られたことである。 エージェントがひとつのグループ(クラスタ)内の1つのチェックノード(cn)だけをスケジュールすることを学ぶ以前の作業とは対照的に、この作業では、エージェントにクラスタ内のすべてのcnと、イテレーション毎にすべてのクラスタをスケジュールするようにトレーニングします。 すなわち、RELDECの各学習ステップにおいて、エージェントは特定のクラスタのスケジューリング結果に関連する報酬に応じて、CNクラスタを順次スケジュールすることを学ぶ。 また、MPPの状態空間の表現も変更し、RELDECが以前の研究よりも大きなブロック長LDPC符号に適合できるようにした。 さらに,様々なチャネル条件下での復号化に対処するため,メタ強化学習を用いたアジャイルメタRELDEC (AM-RELDEC) とメタRELDEC (M-RELDEC) の2つの手法を提案する。 提案したRELDEC方式は,5G新無線用に設計されたコードを含む様々なLDPC符号に対して,標準的なフラッディングとランダムなシーケンシャルデコーディングを著しく上回っている。

In this work we propose RELDEC, a novel approach for sequential decoding of moderate length low-density parity-check (LDPC) codes. The main idea behind RELDEC is that an optimized decoding policy is subsequently obtained via reinforcement learning based on a Markov decision process (MDP). In contrast to our previous work, where an agent learns to schedule only a single check node (CN) within a group (cluster) of CNs per iteration, in this work we train the agent to schedule all CNs in a cluster, and all clusters in every iteration. That is, in each learning step of RELDEC an agent learns to schedule CN clusters sequentially depending on a reward associated with the outcome of scheduling a particular cluster. We also modify the state space representation of the MDP, enabling RELDEC to be suitable for larger block length LDPC codes than those studied in our previous work. Furthermore, to address decoding under varying channel conditions, we propose two related schemes, namely, agile meta-RELDEC (AM-RELDEC) and meta-RELDEC (M-RELDEC), both of which employ meta-reinforcement learning. The proposed RELDEC scheme significantly outperforms standard flooding and random sequential decoding for a variety of LDPC codes, including codes designed for 5G new radio.
翻訳日:2021-12-30 16:37:52 公開日:2021-12-27
# 確率制約モデル予測制御による安全強化学習

Safe Reinforcement Learning with Chance-constrained Model Predictive Control ( http://arxiv.org/abs/2112.13941v1 )

ライセンス: Link先を確認
Samuel Pfrommer, Tanmay Gautam, Alec Zhou, Somayeh Sojoudi(参考訳) 現実世界の強化学習(rl)問題はしばしば、エージェントが設計された制約に従うことで安全に振る舞うことを要求する。 本稿では,モデル予測制御(MPC)に基づく安全ガイドを,連続動作を伴う線形設定で変更したポリシー勾配フレームワークに結合することにより,安全RLの課題に対処する。 本ガイドでは,MPCの定式化において,安全要件をチャンス制約として組み込むことで,システムの安全な運転を実施できる。 次に、ポリシー勾配トレーニングステップは、ベースポリシーを安全に振る舞うように訓練する安全ペナルティを含む。 このペナルティがトレーニング後の安全ガイドの除去を可能にすることを理論的に示し,シミュレータを用いた実験を用いてその方法を説明する。

Real-world reinforcement learning (RL) problems often demand that agents behave safely by obeying a set of designed constraints. We address the challenge of safe RL by coupling a safety guide based on model predictive control (MPC) with a modified policy gradient framework in a linear setting with continuous actions. The guide enforces safe operation of the system by embedding safety requirements as chance constraints in the MPC formulation. The policy gradient training step then includes a safety penalty which trains the base policy to behave safely. We show theoretically that this penalty allows for the safety guide to be removed after training and illustrate our method using experiments with a simulator quadrotor.
翻訳日:2021-12-30 16:37:23 公開日:2021-12-27
# ハニカムブロックの輪郭認識アルゴリズム

Algorithm for recognizing the contour of a honeycomb block ( http://arxiv.org/abs/2112.13846v1 )

ライセンス: Link先を確認
Maksim Viktorovich Kubrikov, Mikhail Vladimirovich Saramud, Ivan Alekseevich Paulin, Evgeniy Petrovich Talay(参考訳) この記事では,ハニカムブロックの断片の輪郭を認識するアルゴリズムについて論じる。 OpenCVライブラリの既製の機能の適用性を示す。 2つのアルゴリズムが提案されている。 直接走査アルゴリズムは、二値化画像中の極端に白い画素を見つけ、製品の凸形状に適切に作用するが、凹部や製品キャビティの輪郭は見当たらない。 この問題を解決するために、任意の形状の製品に対して正しく動作するスライディングマトリックスを用いた走査アルゴリズムを提案する。

The article discusses an algorithm for recognizing the contour of fragments of a honeycomb block. The inapplicability of ready-made functions of the OpenCV library is shown. Two proposed algorithms are considered. The direct scanning algorithm finds the extreme white pixels in the binarized image, it works adequately on convex shapes of products, but does not find a contour on concave areas and in cavities of products. To solve this problem, a scanning algorithm using a sliding matrix is proposed, which works correctly on products of any shape.
翻訳日:2021-12-30 16:10:37 公開日:2021-12-27
# MedShift:医療データセットのキュレーションのためのシフトデータ識別

MedShift: identifying shift data for medical dataset curation ( http://arxiv.org/abs/2112.13885v1 )

ライセンス: Link先を確認
Xiaoyuan Guo, Judy Wawira Gichoya, Hari Trivedi, Saptarshi Purkayastha and Imon Banerjee(参考訳) 高品質なデータセットをキュレートするには、内部および外部ソース間のデータのばらつきを特定することが基本的で重要なステップである。 しかし,データの変化やばらつきを検出する手法は研究されていない。 これに対する課題は、データセットの密接な表現を学ぶための効果的なアプローチの欠如と、医療機関間でプライベートデータを共有することの難しさである。 この問題を解決するため,トップレベルのシフトサンプルを検出し,医用キュレーションを容易にするため,MedShiftと呼ばれる統合パイプラインを提案する。 ベースソースとして内部データセットaが与えられると、まず各クラスのデータセットaの異常検出器を訓練し、教師なしの方法で内部分布を学習する。 第二に、ソース間でデータを交換することなく、各クラスの外部データセットB上でトレーニングされた異常検出を実行します。 異常スコアの高いデータサンプルをシフトデータとして識別する。 外部データセットのシフトを定量化するために、得られたスコアに基づいてBのデータをクラスワイズにクラスタリングする。 次に、a 上の多重クラス分類器を訓練し、b 上の分類器のパフォーマンスのばらつきでシフト度を測定し、各クラスで最大のアノマリースコアを持つ群を徐々に落としていく。 さらに,複数の医療ソースの分布差を調べるために,データセットの品質指標を適用した。 筋骨格X線写真(MU)と胸部X線データを用いたMedShiftの有効性を検討した。 提案するシフトデータ検出パイプラインは、医療センターがより効率的に高品質なデータセットをキュレートするのに有用であることを示す。 結果を視覚化するインターフェース紹介ビデオはhttps://youtu.be/V3BF0P1sxQEで公開されている。

To curate a high-quality dataset, identifying data variance between the internal and external sources is a fundamental and crucial step. However, methods to detect shift or variance in data have not been significantly researched. Challenges to this are the lack of effective approaches to learn dense representation of a dataset and difficulties of sharing private data across medical institutions. To overcome the problems, we propose a unified pipeline called MedShift to detect the top-level shift samples and thus facilitate the medical curation. Given an internal dataset A as the base source, we first train anomaly detectors for each class of dataset A to learn internal distributions in an unsupervised way. Second, without exchanging data across sources, we run the trained anomaly detectors on an external dataset B for each class. The data samples with high anomaly scores are identified as shift data. To quantify the shiftness of the external dataset, we cluster B's data into groups class-wise based on the obtained scores. We then train a multi-class classifier on A and measure the shiftness with the classifier's performance variance on B by gradually dropping the group with the largest anomaly score for each class. Additionally, we adapt a dataset quality metric to help inspect the distribution differences for multiple medical sources. We verify the efficacy of MedShift with musculoskeletal radiographs (MURA) and chest X-rays datasets from more than one external source. Experiments show our proposed shift data detection pipeline can be beneficial for medical centers to curate high-quality datasets more efficiently. An interface introduction video to visualize our results is available at https://youtu.be/V3BF0P1sxQE.
翻訳日:2021-12-30 16:10:27 公開日:2021-12-27
# 単一スパースrgb-d入力によるヒューマンビュー合成

Human View Synthesis using a Single Sparse RGB-D Input ( http://arxiv.org/abs/2112.13889v1 )

ライセンス: Link先を確認
Phong Nguyen, Nikolaos Sarafianos, Christoph Lassner, Janne Heikkila, Tony Tung(参考訳) 動き中の人間の新しいビュー合成は、自由視点ビデオのような応用を可能にするコンピュータビジョンの問題である。 既存のメソッドは通常、複数の入力ビュー、3d監督、あるいは新しいアイデンティティーにうまく一般化しない事前学習されたモデルを持つ複雑なセットアップを使用する。 これらの制約に対処するために,低解像度の深度カメラやアクター固有のモデルを用いない,低解像度のRGB-Dの単一ビューセンサから撮影した人間をリアルにレンダリングするビュー合成フレームワークを提案する。 本研究では,球面型ニューラルレンダリングによって得られた新しいビューの密集した特徴を学習し,グローバルコンテキストインパインティングモデルを用いて完全なレンダリングを作成するアーキテクチャを提案する。 さらに、エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。 提案手法は,rgb-d入力の少ない合成・実演者の高画質な斬新な映像を生成する。 身元不明、新しいポーズ、忠実に表情を再構築するために一般化される。 提案手法は,従来の人間の視点合成法よりも優れており,異なるレベルの入力スパーシティに頑健である。

Novel view synthesis for humans in motion is a challenging computer vision problem that enables applications such as free-viewpoint video. Existing methods typically use complex setups with multiple input views, 3D supervision, or pre-trained models that do not generalize well to new identities. Aiming to address these limitations, we present a novel view synthesis framework to generate realistic renders from unseen views of any human captured from a single-view sensor with sparse RGB-D, similar to a low-cost depth camera, and without actor-specific models. We propose an architecture to learn dense features in novel views obtained by sphere-based neural rendering, and create complete renders using a global context inpainting model. Additionally, an enhancer network leverages the overall fidelity, even in occluded areas from the original view, producing crisp renders with fine details. We show our method generates high-quality novel views of synthetic and real human actors given a single sparse RGB-D input. It generalizes to unseen identities, new poses and faithfully reconstructs facial expressions. Our approach outperforms prior human view synthesis methods and is robust to different levels of input sparsity.
翻訳日:2021-12-30 16:10:00 公開日:2021-12-27
# エッジの不均質性を考慮した資源効率と遅延対応型フェデレーション学習設計

Resource-Efficient and Delay-Aware Federated Learning Design under Edge Heterogeneity ( http://arxiv.org/abs/2112.13926v1 )

ライセンス: Link先を確認
David Nickel and Frank Po-Chen Lin and Seyyedali Hosseinalipour and Nicolo Michelusi and Christopher G. Brinton(参考訳) フェデレーテッド・ラーニング(FL)は、ワイヤレスエッジデバイスに機械学習を分散するための一般的な方法論として登場した。 本稿では,デバイスサーバ間通信遅延とデバイス計算の不均一性を考慮した,flにおけるモデル性能とリソース利用のトレードオフの最適化について検討する。 提案するstofeddelavアルゴリズムは,局所大域モデル結合器をfl同期ステップに組み込む。 理論上,stofeddelavの収束挙動を特徴付け,各装置における大域モデル遅延と予測局所勾配誤差を考慮した最適結合重みを求める。 次に,各機器のミニバッチサイズを調整し,エネルギー消費と機械学習トレーニング損失を最小化し,一連の凸近似を用いて非凸問題を解くネットワーク対応最適化問題を定式化する。 シミュレーションの結果,stofeddelavは,ミニバッチサイズとコンバインタ重みを調整した場合のモデル収束速度とネットワーク資源利用率で,flの現在の技術を上回ることがわかった。 さらに,本手法は,モデルトレーニング期間中に必要となるアップリンク通信ラウンド数を削減し,同じ精度を実現する。

Federated learning (FL) has emerged as a popular methodology for distributing machine learning across wireless edge devices. In this work, we consider optimizing the tradeoff between model performance and resource utilization in FL, under device-server communication delays and device computation heterogeneity. Our proposed StoFedDelAv algorithm incorporates a local-global model combiner into the FL synchronization step. We theoretically characterize the convergence behavior of StoFedDelAv and obtain the optimal combiner weights, which consider the global model delay and expected local gradient error at each device. We then formulate a network-aware optimization problem which tunes the minibatch sizes of the devices to jointly minimize energy consumption and machine learning training loss, and solve the non-convex problem through a series of convex approximations. Our simulations reveal that StoFedDelAv outperforms the current art in FL in terms of model convergence speed and network resource utilization when the minibatch size and the combiner weights are adjusted. Additionally, our method can reduce the number of uplink communication rounds required during the model training period to reach the same accuracy.
翻訳日:2021-12-30 16:06:23 公開日:2021-12-27
# ニューラルネットワーク識別器の深度と特徴学習はおそらく有用である

Depth and Feature Learning are Provably Beneficial for Neural Network Discriminators ( http://arxiv.org/abs/2112.13867v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich(参考訳) 分布の対を$\mu_d, \nu_d$ on $\mathbb{R}^d$とすると、ある3層ReLUネットワークに対して$\Omega(1/d^2)$として$|\mathbb{E}_{x \sim \mu_d} [F(x)] - \mathbb{E}_{x \sim \nu_d} [F(x)]|$が$\Omega(1/d^2)$として減少する。 このことは、深いGAN差別者は浅い差別者ができない分布を区別できることを示している。 類似して、$\mu_d, \nu_d$ on $\mathbb{R}^d$ {\displaystyle $|\mathbb{E}_{x \sim \mu_d} [F(x)]\mathbb{E}_{x \sim \nu_d} [F(x)]|$は多項式重みを持つ2層ReLUネットワークに対して$\Omega(1/(d\log d))$として減少するが、関連するRKHSの有界ノルム関数に対して指数関数的に減少する。 これは、特徴学習が差別者にとって有益であることを確認する。 我々の境界はフーリエ変換に基づいている。

We construct pairs of distributions $\mu_d, \nu_d$ on $\mathbb{R}^d$ such that the quantity $|\mathbb{E}_{x \sim \mu_d} [F(x)] - \mathbb{E}_{x \sim \nu_d} [F(x)]|$ decreases as $\Omega(1/d^2)$ for some three-layer ReLU network $F$ with polynomial width and weights, while declining exponentially in $d$ if $F$ is any two-layer network with polynomial weights. This shows that deep GAN discriminators are able to distinguish distributions that shallow discriminators cannot. Analogously, we build pairs of distributions $\mu_d, \nu_d$ on $\mathbb{R}^d$ such that $|\mathbb{E}_{x \sim \mu_d} [F(x)] - \mathbb{E}_{x \sim \nu_d} [F(x)]|$ decreases as $\Omega(1/(d\log d))$ for two-layer ReLU networks with polynomial weights, while declining exponentially for bounded-norm functions in the associated RKHS. This confirms that feature learning is beneficial for discriminators. Our bounds are based on Fourier transforms.
翻訳日:2021-12-30 15:47:51 公開日:2021-12-27
# AET-SGD:非同期イベントトリガー型確率勾配

AET-SGD: Asynchronous Event-triggered Stochastic Gradient Descent ( http://arxiv.org/abs/2112.13935v1 )

ライセンス: Link先を確認
Nhuong Nguyen, Song Han(参考訳) 効果的な分散学習アルゴリズムを設計する上で,通信コストが大きなボトルネックとなっている。 近年,計算ノード間の情報交換を削減し,通信コストの軽減を図るイベントトリガー手法が提案されている。 しかしながら、既存のイベントトリガードアプローチのほとんどは、ヒューリスティックなイベントトリガードしきい値のみを考慮する。 また、トレーニングのパフォーマンスに重要な役割を果たす計算とネットワーク遅延の影響も無視する。 本稿では,AET-SGD(Asynchronous Event-Triggered Stochastic Gradient Descent)フレームワークを提案する。 一 計算ノード間の通信コストの削減、及び 二 遅延の影響を軽減すること。 AET-SGDは, ベースラインのイベントトリガー方式と比較して, サンプリングサイズを線形に増加させ, コンバージェンス性能を維持しつつ通信コストを大幅に削減することができる。 我々は、AET-SGDを実装し、MNIST、FashionMNIST、KMNIST、CIFAR10を含む複数の代表データセットの性能を評価する。 実験により, 設計の正しさを検証し, 技術状況と比較して, 通信コストを44倍から120倍に低減した。 また, AET-SGDは, 良好な性能と所望のスピードアップ比を得ながら, ストラグラーノードからの大きな遅延に抵抗できることを示した。

Communication cost is the main bottleneck for the design of effective distributed learning algorithms. Recently, event-triggered techniques have been proposed to reduce the exchanged information among compute nodes and thus alleviate the communication cost. However, most existing event-triggered approaches only consider heuristic event-triggered thresholds. They also ignore the impact of computation and network delay, which play an important role on the training performance. In this paper, we propose an Asynchronous Event-triggered Stochastic Gradient Descent (SGD) framework, called AET-SGD, to i) reduce the communication cost among the compute nodes, and ii) mitigate the impact of the delay. Compared with baseline event-triggered methods, AET-SGD employs a linear increasing sample size event-triggered threshold, and can significantly reduce the communication cost while keeping good convergence performance. We implement AET-SGD and evaluate its performance on multiple representative data sets, including MNIST, FashionMNIST, KMNIST and CIFAR10. The experimental results validate the correctness of the design and show a significant communication cost reduction from 44x to 120x, compared to the state of the art. Our results also show that AET-SGD can resist large delay from the straggler nodes while obtaining a decent performance and a desired speedup ratio.
翻訳日:2021-12-30 15:47:00 公開日:2021-12-27
# 単語の断片:バグ・オブ・ワード・スーパービジョンから伝達可能な視覚モデルを学ぶ

A Fistful of Words: Learning Transferable Visual Models from Bag-of-Words Supervision ( http://arxiv.org/abs/2112.13884v1 )

ライセンス: Link先を確認
Ajinkya Tejankar, Ajinkya Tejankar, Bichen Wu, Saining Xie, Madian Khabsa, Hamed Pirsiavash, Hamed Firooz(参考訳) 自然言語を視覚認識モデルの訓練の監督として使用することは大きな約束である。 近年の研究では、大規模なトレーニングデータセットにおける画像とキャプションのアライメントの形でこのような監督が使われる場合、結果のアライメントモデルは、下流タスク2のようにゼロショット分類でうまく機能することが示された。 本稿では,ゼロショット画像分類モデルの学習において,言語指導のどの部分が不可欠かを理解することに焦点を当てる。 広範囲で慎重な実験を通して 1) 単純なBag-of-Words(BoW)キャプションをデータセットのほとんどのイメージキャプションの代替として使用することができる。 驚くことに、このアプローチは単語のバランスと組み合わせることでゼロショット分類のパフォーマンスが向上する。 2)BoW事前学習モデルを用いて,キャプションを持たない画像に擬似BoWキャプションを生成することにより,より多くのトレーニングデータを得ることができる。 実画像と疑似画像のキャプションで訓練されたモデルは、ゼロショット性能が向上する。 ImageNet-1kゼロショット評価では、3Mイメージキャプションペアのみを使用する最良のモデルが、15Mイメージキャプションペア(31.5%対31.3%)でトレーニングされたCLIPモデルでオンパーを実行する。

Using natural language as a supervision for training visual recognition models holds great promise. Recent works have shown that if such supervision is used in the form of alignment between images and captions in large training datasets, then the resulting aligned models perform well on zero-shot classification as downstream tasks2. In this paper, we focus on teasing out what parts of the language supervision are essential for training zero-shot image classification models. Through extensive and careful experiments, we show that: 1) A simple Bag-of-Words (BoW) caption could be used as a replacement for most of the image captions in the dataset. Surprisingly, we observe that this approach improves the zero-shot classification performance when combined with word balancing. 2) Using a BoW pretrained model, we can obtain more training data by generating pseudo-BoW captions on images that do not have a caption. Models trained on images with real and pseudo-BoW captions achieve stronger zero-shot performance. On ImageNet-1k zero-shot evaluation, our best model, that uses only 3M image-caption pairs, performs on-par with a CLIP model trained on 15M image-caption pairs (31.5% vs 31.3%).
翻訳日:2021-12-30 15:30:39 公開日:2021-12-27
# SurFit: 表面のフィットを学ぶことで、ポイントクラウドでのショット学習が改善

SurFit: Learning to Fit Surfaces Improves Few Shot Learning on Point Clouds ( http://arxiv.org/abs/2112.13942v1 )

ライセンス: Link先を確認
Gopal Sharma and Bidya Dash and Matheus Gadelha and Aruni RoyChowdhury and Marios Loizou and Evangelos Kalogerakis and Liangliang Cao and Erik Learned-Miller and Rui Wang andSubhransu Maji(参考訳) 本稿では,SurFitという3次元形状分割ネットワークのラベル付き学習手法を提案する。 SurFitは3次元形状の表面を幾何学的プリミティブに分解する自己指導型タスクに基づいている。 3次元形状セグメンテーションのための既存のネットワークアーキテクチャに容易に適用でき、広く使われているshapenetとpartnetベンチマークで示されるように、少数の設定でパフォーマンスが向上する。 この設定では、SurFitは以前の最先端よりも優れており、プリミティブへの分解性は意味的な部分の予測を学習する上で有用であることを示している。 提案手法の有効性を実証するために,幾何的プリミティブと下流タスクの選択を変える実験をいくつか提示する。

We present SurFit, a simple approach for label efficient learning of 3D shape segmentation networks. SurFit is based on a self-supervised task of decomposing the surface of a 3D shape into geometric primitives. It can be readily applied to existing network architectures for 3D shape segmentation and improves their performance in the few-shot setting, as we demonstrate in the widely used ShapeNet and PartNet benchmarks. SurFit outperforms the prior state-of-the-art in this setting, suggesting that decomposability into primitives is a useful prior for learning representations predictive of semantic parts. We present a number of experiments varying the choice of geometric primitives and downstream tasks to demonstrate the effectiveness of the method.
翻訳日:2021-12-30 15:30:17 公開日:2021-12-27
# ユークリッド距離測定によるGPU加速平均シフト

GPU-accelerated Faster Mean Shift with euclidean distance metrics ( http://arxiv.org/abs/2112.13891v1 )

ライセンス: Link先を確認
Le You, Han Jiang, Jinyong Hu, Chorng Chang, Lingxi Chen, Xintong Cui, Mengyang Zhao(参考訳) クラスタリング問題は、データ統計、パターン認識、画像処理において重要である。 一般的な教師なしアルゴリズムである平均シフトアルゴリズムは、クラスタリング問題を解決するために広く使われている。 しかし、平均シフトアルゴリズムはその膨大な計算資源コストによって制限される。 前研究[10]では,コサイン埋め込みクラスタリング問題を大幅に高速化するGPUアクセラレーション高速平均シフトアルゴリズムを提案した。 本研究では,ユークリッド距離測定値を扱うために,従来のアルゴリズムを拡張し改良する。 従来のGPUベースの平均シフトアルゴリズムとは違って,提案アルゴリズムはSeed Selection & Early Stoppingアプローチを採用し,計算速度を大幅に向上させ,GPUメモリ使用量を削減する。 シミュレーションテストでは,200k点のクラスタリング問題を処理する場合,gpuメモリ消費を最適化したgpuベース平均シフトアルゴリズムと比較して,約3倍の高速化を達成した。 さらに,本研究では,より高速な平均シフトアルゴリズムのためのプラグ・アンド・プレイモデルを実装した。 (プラグアンドプレイモデルはhttps://github.com/masqm/faster-mean-shift-euc)

Handling clustering problems are important in data statistics, pattern recognition and image processing. The mean-shift algorithm, a common unsupervised algorithms, is widely used to solve clustering problems. However, the mean-shift algorithm is restricted by its huge computational resource cost. In previous research[10], we proposed a novel GPU-accelerated Faster Mean-shift algorithm, which greatly speed up the cosine-embedding clustering problem. In this study, we extend and improve the previous algorithm to handle Euclidean distance metrics. Different from conventional GPU-based mean-shift algorithms, our algorithm adopts novel Seed Selection & Early Stopping approaches, which greatly increase computing speed and reduce GPU memory consumption. In the simulation testing, when processing a 200K points clustering problem, our algorithm achieved around 3 times speedup compared to the state-of-the-art GPU-based mean-shift algorithms with optimized GPU memory consumption. Moreover, in this study, we implemented a plug-and-play model for faster mean-shift algorithm, which can be easily deployed. (Plug-and-play model is available: https://github.com/masqm/Faster-Mean-Shift-Euc)
翻訳日:2021-12-30 14:48:56 公開日:2021-12-27
# CLIPは医療領域における視覚的質問応答に一般領域と同じくらい適しているか?

Does CLIP Benefit Visual Question Answering in the Medical Domain as Much as it Does in the General Domain? ( http://arxiv.org/abs/2112.13906v1 )

ライセンス: Link先を確認
Sedigheh Eslami, Gerard de Melo, Christoph Meinel(参考訳) コントラスト言語-画像事前学習(CLIP)は、大量の画像テキストペアをオンラインで収集し、モダクティブな相互監督による学習において顕著な成功を収めた。 これまでのところ、CLIPの有効性は、主に汎用マルチモーダル問題において研究されている。 本研究は,MedVQA(MedVQA)の課題に対するCLIPの有効性を評価する。 この目的のために, PubMedCLIPは, PubMedの記事に基づく医療領域用CLIPの微調整版である。 我々は,2つのMedVQAベンチマークデータセットを用いて,MEVF(Mixture of Enhanced Visual Features)とQCR(Question answering via Conditional Reasoning)という2つのMedVQA手法について検討した。 それぞれについて,従来のCLIPであるPubMedCLIPと,ビジュアルデータのみに基づいて事前学習した最先端MAML(Model-Agnostic Meta-Learning)ネットワークを用いて,視覚表現学習のメリットを評価する。 MedVQAパイプラインのコードをオープンソース化し、PubMedCLIPを事前トレーニングしています。 CLIPとPubMedCLIPは、MAMLのビジュアルエンコーダと比較して改善されている。 pubmedclipは、全体の精度を最大3%向上させることで、最高の結果を得る。 個々の例は、これまで広く使われていたMAMLネットワークと比較してPubMedCLIPの強みを示している。 PubMedCLIPにおける視覚表現学習は、MedVQAに顕著な改善をもたらす。 実験により,従来の研究で提供されていない2つのMedVQAベンチマークデータセットの分布差が明らかになり,PubMedCLIPの異なるバックエンドビジュアルエンコーダがこれらのデータセットに異なる振る舞いを示す。 さらに,VQAの医療領域と医療領域の基本的な性能差を観察した。

Contrastive Language--Image Pre-training (CLIP) has shown remarkable success in learning with cross-modal supervision from extensive amounts of image--text pairs collected online. Thus far, the effectiveness of CLIP has been investigated primarily in general-domain multimodal problems. This work evaluates the effectiveness of CLIP for the task of Medical Visual Question Answering (MedVQA). To this end, we present PubMedCLIP, a fine-tuned version of CLIP for the medical domain based on PubMed articles. Our experiments are conducted on two MedVQA benchmark datasets and investigate two MedVQA methods, MEVF (Mixture of Enhanced Visual Features) and QCR (Question answering via Conditional Reasoning). For each of these, we assess the merits of visual representation learning using PubMedCLIP, the original CLIP, and state-of-the-art MAML (Model-Agnostic Meta-Learning) networks pre-trained only on visual data. We open source the code for our MedVQA pipeline and pre-training PubMedCLIP. CLIP and PubMedCLIP achieve improvements in comparison to MAML's visual encoder. PubMedCLIP achieves the best results with gains in the overall accuracy of up to 3%. Individual examples illustrate the strengths of PubMedCLIP in comparison to the previously widely used MAML networks. Visual representation learning with language supervision in PubMedCLIP leads to noticeable improvements for MedVQA. Our experiments reveal distributional differences in the two MedVQA benchmark datasets that have not been imparted in previous work and cause different back-end visual encoders in PubMedCLIP to exhibit different behavior on these datasets. Moreover, we witness fundamental performance differences of VQA in general versus medical domains.
翻訳日:2021-12-30 14:04:11 公開日:2021-12-27
# (参考訳) ToxTree:hERGとNav1.5の心臓毒性障害予測のためのディスクリプタベースの機械学習モデル

ToxTree: descriptor-based machine learning models for both hERG and Nav1.5 cardiotoxicity liability predictions ( http://arxiv.org/abs/2112.13467v1 )

ライセンス: CC BY 4.0
Issar Arab and Khaled Barakat(参考訳) 薬物による電位ゲートカリウムチャネル(hERG)と電圧ゲートナトリウムチャネル(Nav1.5)の遮断は、重症心血管合併症を引き起こす。 この懸念は、多くの承認された薬物からの心臓毒性の頻発によって使用が中止されるか、場合によっては市場から撤退するなど、薬物開発分野に反映されている。 薬物発見プロセスの初期段階でhERGとNav1.5ブロッカーを予測することはこの問題を解決し、そのため、安全な薬物を開発するための時間とコストを削減できる。 高速かつ費用対効果の高いアプローチの1つは、シリコ予測法を用いて薬開発の初期段階において、潜在的なhergおよびnav1.5ブロッカーを除草することである。 本稿では,hergとnav1.5の双方に対するロバストな2次元ディスクリプタに基づくqsar予測モデルを提案する。 ランダムフォレストモデルのパイプラインであるToxTree-hERG分類器(英語版)は8380個のユニークな分子化合物からなる大規模キュレートデータセットでトレーニングされた。 一方、カーネル化されたSVMモデルのパイプラインであるToxTree-Nav1.5分類器は、ChEMBLとPubChemから取得した1550個のユニークな化合物からなる大規模な手作業で訓練された。 提案されたhERGインデューサは、最先端の公開モデルやその他の既存のツールの指標よりも優れていた。 さらに,最初のnav1.5負債予測モデルを導入することで,q4 = 74.9%,q2 = 86.7%,mcc = 71.2%の2次分類が可能となる。 このプロジェクトで使用されるキュレートされたデータセットは、研究コミュニティで公開されています。

Drug-mediated blockade of the voltage-gated potassium channel(hERG) and the voltage-gated sodium channel (Nav1.5) can lead to severe cardiovascular complications. This rising concern has been reflected in the drug development arena, as the frequent emergence of cardiotoxicity from many approved drugs led to either discontinuing their use or, in some cases, their withdrawal from the market. Predicting potential hERG and Nav1.5 blockers at the outset of the drug discovery process can resolve this problem and can, therefore, decrease the time and expensive cost of developing safe drugs. One fast and cost-effective approach is to use in silico predictive methods to weed out potential hERG and Nav1.5 blockers at the early stages of drug development. Here, we introduce two robust 2D descriptor-based QSAR predictive models for both hERG and Nav1.5 liability predictions. The machine learning models were trained for both regression, predicting the potency value of a drug, and multiclass classification at three different potency cut-offs (i.e. 1{\mu}M, 10{\mu}M, and 30{\mu}M), where ToxTree-hERG Classifier, a pipeline of Random Forest models, was trained on a large curated dataset of 8380 unique molecular compounds. Whereas ToxTree-Nav1.5 Classifier, a pipeline of kernelized SVM models, was trained on a large manually curated set of 1550 unique compounds retrieved from both ChEMBL and PubChem publicly available bioactivity databases. The proposed hERG inducer outperformed most metrics of the state-of-the-art published model and other existing tools. Additionally, we are introducing the first Nav1.5 liability predictive model achieving a Q4 = 74.9% and a binary classification of Q2 = 86.7% with MCC = 71.2% evaluated on an external test set of 173 unique compounds. The curated datasets used in this project are made publicly available to the research community.
翻訳日:2021-12-29 02:37:07 公開日:2021-12-27
# (参考訳) 大規模セキュリティ制約付き経済分散のための学習最適化プロキシ

Learning Optimization Proxies for Large-Scale Security-Constrained Economic Dispatch ( http://arxiv.org/abs/2112.13469v1 )

ライセンス: CC BY 4.0
Wenbo Chen, Seonho Park, Mathieu Tanneau, Pascal Van Hentenryck(参考訳) SCED(Security-Constrained Economic Dispatch)は、送電系統オペレーター(TSO)が電力網の信頼性を確保しつつ、リアルタイムエネルギー市場をクリアするための基本的な最適化モデルである。 再生可能発電機や分散型エネルギー資源の普及により、運用の不確実性が高まる中で、オペレーターは、負荷や再生可能エネルギーのさまざまな変化下でのシステムの挙動を迅速に評価し、リアルタイムでリスクを継続的に監視しなければならない。 残念ながら、リアルタイム操作の厳密な制約を考えると、このようなシナリオごとに最適化問題を体系的に解くことは現実的ではない。 この制限を克服するために,本論文では,sceの最適化プロキシ,すなわちsceの最適解をミリ秒で予測可能な機械学習(ml)モデルについて学ぶことを提案する。 そこで本稿では,misoの市場開拓最適化の原理的分析に動機づけられ,sceソリューション学習の主な課題,すなわち負荷変動,再生可能生産,生産コスト,コミットメント決定の組合せ構造に対処する新しいmlパイプラインを提案する。 また,SCEDソリューションの挙動をさらに把握するために,新たな分類・解釈アーキテクチャを提案する。 数値実験はフランスの伝送システムで報告され、リアルタイム操作と互換性のある時間枠内で、相対誤差を0.6\%$以下にする正確な最適化プロキシを生成する手法の能力を示す。

The Security-Constrained Economic Dispatch (SCED) is a fundamental optimization model for Transmission System Operators (TSO) to clear real-time energy markets while ensuring reliable operations of power grids. In a context of growing operational uncertainty, due to increased penetration of renewable generators and distributed energy resources, operators must continuously monitor risk in real-time, i.e., they must quickly assess the system's behavior under various changes in load and renewable production. Unfortunately, systematically solving an optimization problem for each such scenario is not practical given the tight constraints of real-time operations. To overcome this limitation, this paper proposes to learn an optimization proxy for SCED, i.e., a Machine Learning (ML) model that can predict an optimal solution for SCED in milliseconds. Motivated by a principled analysis of the market-clearing optimizations of MISO, the paper proposes a novel ML pipeline that addresses the main challenges of learning SCED solutions, i.e., the variability in load, renewable output and production costs, as well as the combinatorial structure of commitment decisions. A novel Classification-Then-Regression architecture is also proposed, to further capture the behavior of SCED solutions. Numerical experiments are reported on the French transmission system, and demonstrate the approach's ability to produce, within a time frame that is compatible with real-time operations, accurate optimization proxies that produce relative errors below $0.6\%$.
翻訳日:2021-12-29 02:08:23 公開日:2021-12-27
# (参考訳) ロバスト画像透かしのためのコンパクトニューラルネットワークアルゴリズム

A Compact Neural Network-based Algorithm for Robust Image Watermarking ( http://arxiv.org/abs/2112.13491v1 )

ライセンス: CC BY 4.0
Hong-Bo Xu, Rong Wang, Jia Wei, Shao-Ping Lu(参考訳) デジタル画像透かしは、デジタル画像にメッセージを埋め込んで抽出する不正アクセスからデジタルメディア情報を保護することを目的としており、画像圧縮やインタラクティブなコンテンツ編集など、さまざまなデータ処理においてノイズや歪みが適用されている。 従来の画像透かしソリューションは、いくつかの制約で指定された場合、容易に堅牢性に悩まされるが、近年のディープラーニングベースの透かし手法は、様々な機能エンコーダとデコーダのパイプラインにおいて、情報損失問題にうまく対処できなかった。 本稿では,Invertible Watermarking Network (IWN) という,コンパクトなニューラルネットワークを用いた新しいデジタル画像透かしソリューションを提案する。 我々のIWNアーキテクチャは、単一のInvertible Neural Network (INN) に基づいており、この単射伝搬フレームワークは、メッセージ埋め込みと抽出の課題を、互いに逆問題として受け取り、安定した非可逆写像を学習することで、同時に解決することができる。 ウォーターマーキングソリューションのロバスト性を高めるため,埋め込みするビットメッセージを凝縮するためのシンプルだが効果的なビットメッセージ正規化モジュールを導入し,IWNフレームワーク下での様々な実用的な攻撃をシミュレートするノイズ層を設計した。 大規模な実験は、様々な歪み下での解の優越性を実証する。

Digital image watermarking seeks to protect the digital media information from unauthorized access, where the message is embedded into the digital image and extracted from it, even some noises or distortions are applied under various data processing including lossy image compression and interactive content editing. Traditional image watermarking solutions easily suffer from robustness when specified with some prior constraints, while recent deep learning-based watermarking methods could not tackle the information loss problem well under various separate pipelines of feature encoder and decoder. In this paper, we propose a novel digital image watermarking solution with a compact neural network, named Invertible Watermarking Network (IWN). Our IWN architecture is based on a single Invertible Neural Network (INN), this bijective propagation framework enables us to effectively solve the challenge of message embedding and extraction simultaneously, by taking them as a pair of inverse problems for each other and learning a stable invertible mapping. In order to enhance the robustness of our watermarking solution, we specifically introduce a simple but effective bit message normalization module to condense the bit message to be embedded, and a noise layer is designed to simulate various practical attacks under our IWN framework. Extensive experiments demonstrate the superiority of our solution under various distortions.
翻訳日:2021-12-29 01:50:38 公開日:2021-12-27
# (参考訳) ブロックモデリング誘導グラフ畳み込みニューラルネットワーク

Block Modeling-Guided Graph Convolutional Neural Networks ( http://arxiv.org/abs/2112.13507v1 )

ライセンス: CC BY 4.0
Dongxiao He and Chundong Liang and Huixin Liu and Mingxiang Wen and Pengfei Jiao and Zhiyong Feng(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ表現を探索する著しい可能性を示している。 しかし、GCN集約機構は、現実世界のネットワークに一般的に存在する多くのノードが異なるクラスから隣接しているヘテロフィリーのネットワークに一般化できない。 gcnの伝播・凝集機構をホモフィアとヘテロフィアリー(またはそれらの混合物)の両方に適合させるため、gcnのフレームワークにブロックモデリングを導入し、「ブロック誘導された機密集約」を実現し、異なるクラスの近隣のアグリゲーションルールを自動的に学習する。 ブロックモデリングを集約プロセスに組み込むことにより、gcnはホモフィリシー度に応じてホモ親和性およびヘテロ親和性の隣人からの情報を識別的に集約することができる。 我々はこのアルゴリズムを異種問題を扱う最先端手法と比較した。 実験により,同好性データセットにおける競合性能を維持しつつ,異好性データセットにおける既存手法に対する新たなアプローチの優位性を実証した。

Graph Convolutional Network (GCN) has shown remarkable potential of exploring graph representation. However, the GCN aggregating mechanism fails to generalize to networks with heterophily where most nodes have neighbors from different classes, which commonly exists in real-world networks. In order to make the propagation and aggregation mechanism of GCN suitable for both homophily and heterophily (or even their mixture), we introduce block modeling into the framework of GCN so that it can realize "block-guided classified aggregation", and automatically learn the corresponding aggregation rules for neighbors of different classes. By incorporating block modeling into the aggregation process, GCN is able to aggregate information from homophilic and heterophilic neighbors discriminately according to their homophily degree. We compared our algorithm with state-of-art methods which deal with the heterophily problem. Empirical results demonstrate the superiority of our new approach over existing methods in heterophilic datasets while maintaining a competitive performance in homophilic datasets.
翻訳日:2021-12-29 01:28:12 公開日:2021-12-27
# (参考訳) duck swarm algorithm: 新しいswarm intelligenceアルゴリズム

Duck swarm algorithm: a novel swarm intelligence algorithm ( http://arxiv.org/abs/2112.13508v1 )

ライセンス: CC BY 4.0
Mengjian Zhang, Guihua Wen, and Jing Yang(参考訳) 本稿では,duck swarm algorithm (dsa) と呼ばれる群知能に基づく最適化アルゴリズムを提案する。 このアルゴリズムは、食物源の探索とアヒル群れの採餌行動に触発されている。 dsaの性能は18のベンチマーク関数を用いて検証され、統計(最高値、平均値、標準偏差、平均実行時間)の結果は、粒子群最適化(pso)、fireflyアルゴリズム(fa)、チキン群最適化(cso)、grey wolf optimizationr(gwo)、sine cosineアルゴリズム(sca)、marine-predatorsアルゴリズム(mpa)、archimedes最適化アルゴリズム(aoa)といった7つのよく知られたアルゴリズムと比較される。 さらに、他のアルゴリズムに対するDSAの優位性を証明するために、ウィルコクソンランクサム試験、フリードマン試験、および比較結果の収束曲線を用いる。 その結果、DSAは高次元最適化関数を解くための収束速度と探索-探索バランスの観点から高性能な最適化手法であることが示された。 また、DSAは2つの制約付きエンジニアリング問題(三バートラス問題とソーミル演算問題)の最適設計に適用される。 さらに、提案されたdsaの性能を分析するために4つのエンジニアリング制約問題も用いられている。 比較の結果,dsaは様々な最適化問題を解決するための有望で非常に競争力のあるアルゴリズムであることが判明した。

A swarm intelligence-based optimization algorithm, named Duck Swarm Algorithm (DSA), is proposed in this paper. This algorithm is inspired by the searching for food sources and foraging behaviors of the duck swarm. The performance of DSA is verified by using eighteen benchmark functions, where it is statistical (best, mean, standard deviation, and average running time) results are compared with seven well-known algorithms like Particle swarm optimization (PSO), Firefly algorithm (FA), Chicken swarm optimization (CSO), Grey wolf optimizer (GWO), Sine cosine algorithm (SCA), and Marine-predators algorithm (MPA), and Archimedes optimization algorithm (AOA). Moreover, the Wilcoxon rank-sum test, Friedman test, and convergence curves of the comparison results are used to prove the superiority of the DSA against other algorithms. The results demonstrate that DSA is a high-performance optimization method in terms of convergence speed and exploration-exploitation balance for solving high-dimension optimization functions. Also, DSA is applied for the optimal design of two constrained engineering problems (the Three-bar truss problem, and the Sawmill operation problem). Additionally, four engineering constraint problems have also been used to analyze the performance of the proposed DSA. Overall, the comparison results revealed that the DSA is a promising and very competitive algorithm for solving different optimization problems.
翻訳日:2021-12-29 01:15:35 公開日:2021-12-27
# (参考訳) dnn訓練における最適通信スケジューリングの自動構成

Automatic Configuration for Optimal Communication Scheduling in DNN Training ( http://arxiv.org/abs/2112.13509v1 )

ライセンス: CC BY 4.0
Yiqing Ma, Hao Wang, Yiming Zhang, Kai Chen(参考訳) ByteSchedulerは、分散Deep Neural Network(DNN)トレーニングの通信効率を改善するために、テンソル送信を分割して再配置する。 ハイパーパラメータの構成(すなわち、パーティショニングサイズとクレジットサイズ)は、パーティショニングと再配置の有効性に不可欠である。 現在ByteSchedulerは、ハイパーパラメータの最適設定を事前に見つけるためにBayesian Optimization (BO)を採用している。 しかし実際には、様々なランタイム要因(例えば、ワーカーノードの状態とネットワーク条件)が時間とともに変化し、静的に決定されたワンショット構成結果が現実世界のDNNトレーニングに最適化される。 この問題を解決するために、トレーニングシステムが動的に変化するにつれて最適なハイパーパラメータを自動的にタイムリーに検索するリアルタイム構成法(AutoByte)を提案する。 AutoByteはByteSchedulerフレームワークをメタネットワークで拡張し、システムのランタイム統計を入力として、特定の設定下でのスピードアップの予測を出力する。 様々なDNNモデルの評価結果から、AutoByteはリソース使用量の少ないハイパーパラメータを動的にチューニングでき、ByteSchedulerの最高の静的構成よりも最大33.2\%高いパフォーマンスを提供する。

ByteScheduler partitions and rearranges tensor transmissions to improve the communication efficiency of distributed Deep Neural Network (DNN) training. The configuration of hyper-parameters (i.e., the partition size and the credit size) is critical to the effectiveness of partitioning and rearrangement. Currently, ByteScheduler adopts Bayesian Optimization (BO) to find the optimal configuration for the hyper-parameters beforehand. In practice, however, various runtime factors (e.g., worker node status and network conditions) change over time, making the statically-determined one-shot configuration result suboptimal for real-world DNN training. To address this problem, we present a real-time configuration method (called AutoByte) that automatically and timely searches the optimal hyper-parameters as the training systems dynamically change. AutoByte extends the ByteScheduler framework with a meta-network, which takes the system's runtime statistics as its input and outputs predictions for speedups under specific configurations. Evaluation results on various DNN models show that AutoByte can dynamically tune the hyper-parameters with low resource usage, and deliver up to 33.2\% higher performance than the best static configuration in ByteScheduler.
翻訳日:2021-12-29 00:50:36 公開日:2021-12-27
# (参考訳) 事前訓練言語モデルを用いた放射線診断報告からのイベントベース臨床所見抽出

Event-based clinical findings extraction from radiology reports with pre-trained language model ( http://arxiv.org/abs/2112.13512v1 )

ライセンス: CC BY 4.0
Wilson Lau, Kevin Lybarger, Martin L. Gunn, Meliha Yetisgen(参考訳) 放射線医学報告には、画像の解釈中に放射線技師によって記録された多様で豊富な臨床異常が含まれている。 放射線学的所見の包括的意味表現は、診断、トリアージ、結果予測、臨床研究をサポートするための幅広い二次的応用を可能にする。 本稿では,臨床所見を付加した新しい放射線診断報告のコーパスについて述べる。 このアノテーションスキーマは,画像診断や医療上の問題(医学的問題)で観察可能な病理所見の詳細な表現を抽出する。 スキーマはイベントベースの表現を使用して、アサーション、解剖学、特性、サイズ、カウントなど、詳細な詳細をキャプチャした。 金の標準コーパスには、計500の注釈付きct (annotated ct) が記録された。 BERTを含む2つの最先端ディープラーニングアーキテクチャを用いて、トリガと引数エンティティを抽出した。 次に, bertに基づく関係抽出モデルを用いて, トリガーエンティティと引数エンティティ(引数ロールと呼ばれる)の連鎖を予測した。 当施設の放射線学報告300万件に事前学習したBERTモデルを用いて, 引き金の発見に90.9%-93.4%, 引き金の発見に72.0%-85.6%, F1が有効であった。 モデル一般化性を評価するために,MIMIC Chest X-ray(MIMIC-CXR)データベースからランダムにサンプリングされた外部検証セットを用いた。 この検証セットの抽出性能は95.6%が引き金の発見、79.1%-89.7%が引数の役割の発見であり、モデルは異なる画像モダリティを持つクロスインスティカルデータによく一般化されたことを示した。 我々はMIMIC-CXRデータベースの全放射線学報告から発見イベントを抽出し,研究コミュニティに提供した。

Radiology reports contain a diverse and rich set of clinical abnormalities documented by radiologists during their interpretation of the images. Comprehensive semantic representations of radiological findings would enable a wide range of secondary use applications to support diagnosis, triage, outcomes prediction, and clinical research. In this paper, we present a new corpus of radiology reports annotated with clinical findings. Our annotation schema captures detailed representations of pathologic findings that are observable on imaging ("lesions") and other types of clinical problems ("medical problems"). The schema used an event-based representation to capture fine-grained details, including assertion, anatomy, characteristics, size, count, etc. Our gold standard corpus contained a total of 500 annotated computed tomography (CT) reports. We extracted triggers and argument entities using two state-of-the-art deep learning architectures, including BERT. We then predicted the linkages between trigger and argument entities (referred to as argument roles) using a BERT-based relation extraction model. We achieved the best extraction performance using a BERT model pre-trained on 3 million radiology reports from our institution: 90.9%-93.4% F1 for finding triggers 72.0%-85.6% F1 for arguments roles. To assess model generalizability, we used an external validation set randomly sampled from the MIMIC Chest X-ray (MIMIC-CXR) database. The extraction performance on this validation set was 95.6% for finding triggers and 79.1%-89.7% for argument roles, demonstrating that the model generalized well to the cross-institutional data with a different imaging modality. We extracted the finding events from all the radiology reports in the MIMIC-CXR database and provided the extractions to the research community.
翻訳日:2021-12-29 00:32:11 公開日:2021-12-27
# (参考訳) ベイズ推論としての力学系解釈

Interpreting Dynamical Systems as Bayesian Reasoners ( http://arxiv.org/abs/2112.13523v1 )

ライセンス: CC BY 4.0
Nathaniel Virgo and Martin Biehl and Simon McGregor(参考訳) アクティブ推論における中心的な概念は、物理系の内部状態が外界の状態上の確率測度をパラメトリするということである。 これらはエージェントの信念と見なすことができ、ベイジアンの前置または後置として表現される。 ここでは、国家をこの方法での信念を表すものとして解釈することが適切であるかどうかを示す一般的な理論の開発を始める。 本稿では,システムがベイズフィルタあるいはベイズ推論のいずれかを実行すると解釈できる場合に焦点を当てる。 カテゴリ理論の手法を用いて,そのような解釈が存在することの意味を形式的に定義する。

A central concept in active inference is that the internal states of a physical system parametrise probability measures over states of the external world. These can be seen as an agent's beliefs, expressed as a Bayesian prior or posterior. Here we begin the development of a general theory that would tell us when it is appropriate to interpret states as representing beliefs in this way. We focus on the case in which a system can be interpreted as performing either Bayesian filtering or Bayesian inference. We provide formal definitions of what it means for such an interpretation to exist, using techniques from category theory.
翻訳日:2021-12-29 00:12:29 公開日:2021-12-27
# (参考訳) wasserstein flowがreplicator dynamicsを満たす - actor-criticにおける表現学習の平均場解析

Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic ( http://arxiv.org/abs/2112.13530v1 )

ライセンス: CC0 1.0
Yufeng Zhang, Siyu Chen, Zhuoran Yang, Michael I. Jordan, Zhaoran Wang(参考訳) ニューラルネットワークによるアクタ-クリティック(ac)アルゴリズムは近年、実証的な成功を収めている。 しかしながら、既存のACアルゴリズムの理論的サポートのほとんどは、トレーニング中に特徴表現が固定される線形関数近似や線形化ニューラルネットワークの場合に焦点を当てている。 このような制限は、実用的な問題において重要な神経交流における表現学習のキーとなる側面を捉えることに失敗する。 本研究では,特徴量に基づくニューラル ac の進化と収束について,平均場的視点から考察する。 具体的には、アクターと批評家が過パラメータ化された2層ニューラルネットワークで表現され、2段階の学習率で更新されるACのバージョンを検討する。 批評家は時間差学習(TD)によってより大きなステップサイズで更新され、アクターはより小さなステップサイズでPPOによって更新される。 連続時間および無限幅制限系では、時間スケールが適切に分離された場合、ニューラルACはサブリニアレートで世界的最適ポリシーを見出す。 さらに,批判ネットワークによって誘導される特徴表現が,初期近傍で進化することが証明された。

Actor-critic (AC) algorithms, empowered by neural networks, have had significant empirical success in recent years. However, most of the existing theoretical support for AC algorithms focuses on the case of linear function approximations, or linearized neural networks, where the feature representation is fixed throughout training. Such a limitation fails to capture the key aspect of representation learning in neural AC, which is pivotal in practical problems. In this work, we take a mean-field perspective on the evolution and convergence of feature-based neural AC. Specifically, we consider a version of AC where the actor and critic are represented by overparameterized two-layer neural networks and are updated with two-timescale learning rates. The critic is updated by temporal-difference (TD) learning with a larger stepsize while the actor is updated via proximal policy optimization (PPO) with a smaller stepsize. In the continuous-time and infinite-width limiting regime, when the timescales are properly separated, we prove that neural AC finds the globally optimal policy at a sublinear rate. Additionally, we prove that the feature representation induced by the critic network is allowed to evolve within a neighborhood of the initial one.
翻訳日:2021-12-29 00:11:43 公開日:2021-12-27
# (参考訳) ドメイン一般化意味セグメンテーションのためのメタ学習特徴批判

Meta-Learned Feature Critics for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2112.13538v1 )

ライセンス: CC BY 4.0
Zu-Yun Shiau, Wei-Wei Lin, Ci-Siang Lin, Yu-Chiang Frank Wang(参考訳) ドメイン間で視覚データを認識またはセグメンテーションする際のドメインシフトの処理方法は、学習とビジョンコミュニティによって研究されている。 本稿では、セグメンテーションモデルを複数のソースドメインで訓練し、非知覚データドメインに一般化することが期待されるドメイン一般化意味セグメンテーションについて述べる。 本稿では,セマンティクスセグメンテーションのためのドメイン不変特徴をドメイン一般化保証付きで導出する特徴的不等角化能力を備えた新しいメタラーニング手法を提案する。 特に、クラス固有の特徴批判モジュールをフレームワークに導入し、ドメインの一般化を保証することで、アンタングル化された視覚的特徴を強制する。 最後に,提案モデルの有効性とロバスト性を確認し,セグメント化における最先端領域適応と一般化手法に好意的に対応した。

How to handle domain shifts when recognizing or segmenting visual data across domains has been studied by learning and vision communities. In this paper, we address domain generalized semantic segmentation, in which the segmentation model is trained on multiple source domains and is expected to generalize to unseen data domains. We propose a novel meta-learning scheme with feature disentanglement ability, which derives domain-invariant features for semantic segmentation with domain generalization guarantees. In particular, we introduce a class-specific feature critic module in our framework, enforcing the disentangled visual features with domain generalization guarantees. Finally, our quantitative results on benchmark datasets confirm the effectiveness and robustness of our proposed model, performing favorably against state-of-the-art domain adaptation and generalization methods in segmentation.
翻訳日:2021-12-29 00:09:45 公開日:2021-12-27
# (参考訳) 視覚領域横断メタラーニングによる未確認領域のFew-Shot分類

Few-Shot Classification in Unseen Domains by Episodic Meta-Learning Across Visual Domains ( http://arxiv.org/abs/2112.13539v1 )

ライセンス: CC BY 4.0
Yuan-Chia Cheng, Ci-Siang Lin, Fu-En Yang, Yu-Chiang Frank Wang(参考訳) 興味のあるカテゴリのラベル付き例がほとんどないため、いくつかのショット分類が目的である。 いくつかのアプローチが提案されているが、既存のいくつかのショットラーニング(FSL)モデルは、ベースクラスと新しいクラスが同じデータドメインから引き出されると仮定している。 未知のドメインで新しいクラスデータを認識する場合、これはドメインの一般化された少数ショット分類のさらに困難なタスクとなる。 本稿では,ベースクラスは均質な複数ソースドメインから,新しいクラスはトレーニング中に見ない対象ドメインから,という,ドメイン一般化された少数ショット分類のためのユニークな学習フレームワークを提案する。 メタラーニング戦略の進展により、我々の学習フレームワークは、複数のソースドメインにまたがるデータを利用して、ドメイン不変の機能をキャプチャし、サポートとクエリーデータ間のメトリックラーニングベースのメカニズムによってFSL機能を導入します。 提案する学習フレームワークの有効性を検証するために広範な実験を行い、小規模ながら均質なソースデータからの学習が、大規模学習に対して好適であることを示す。 さらに、ドメイン一般化された少数ショット分類のためのバックボーンモデルの選択に関する洞察を提供する。

Few-shot classification aims to carry out classification given only few labeled examples for the categories of interest. Though several approaches have been proposed, most existing few-shot learning (FSL) models assume that base and novel classes are drawn from the same data domain. When it comes to recognizing novel-class data in an unseen domain, this becomes an even more challenging task of domain generalized few-shot classification. In this paper, we present a unique learning framework for domain-generalized few-shot classification, where base classes are from homogeneous multiple source domains, while novel classes to be recognized are from target domains which are not seen during training. By advancing meta-learning strategies, our learning framework exploits data across multiple source domains to capture domain-invariant features, with FSL ability introduced by metric-learning based mechanisms across support and query data. We conduct extensive experiments to verify the effectiveness of our proposed learning framework and show learning from small yet homogeneous source data is able to perform preferably against learning from large-scale one. Moreover, we provide insights into choices of backbone models for domain-generalized few-shot classification.
翻訳日:2021-12-29 00:00:13 公開日:2021-12-27
# (参考訳) ViR:Vision Reservoir

ViR:the Vision Reservoir ( http://arxiv.org/abs/2112.13545v1 )

ライセンス: CC BY 4.0
Bin Wang and Jiehuang Shi and Xian Wei(参考訳) 最新の年では、画像分類にViT(Vision Transformer)を適用することに成功した。 しかし、ViTが2つの側面に苦しむことを示す証拠がまだ残っている。 一 大規模データセットにおける事前学習のための複数の変圧器層の適用による高計算とメモリ負担 二 小さいデータセットをスクラッチからトレーニングするときの過度な適合 これらの問題に対処するために,vitと並行して画像分類のための新しい手法であるvision reservoir computing (vir) が提案されている。 各画像を一定長さのトークン列に分割することで、ViRは、ほぼ完全に接続された位相を持つ純粋な貯水池を構築し、ViTのTransformerモジュールを置き換える。 その後、ネットワーク性能を向上させるために2種類のディープViRモデルが提案されている。 いくつかの画像分類ベンチマークにおいて、ViRとViTの比較実験を行った。 事前学習プロセスがなければ、ViRはモデルと計算の複雑さの両方でViTより優れている。 具体的には、ViRのパラメータの数はViTの約15%または5%であり、メモリフットプリントはViTの約20%から40%である。 ViR性能の優位性は、Small-World特性、リアプノフ指数、メモリ容量によって説明される。

The most recent year has witnessed the success of applying the Vision Transformer (ViT) for image classification. However, there are still evidences indicating that ViT often suffers following two aspects, i) the high computation and the memory burden from applying the multiple Transformer layers for pre-training on a large-scale dataset, ii) the over-fitting when training on small datasets from scratch. To address these problems, a novel method, namely, Vision Reservoir computing (ViR), is proposed here for image classification, as a parallel to ViT. By splitting each image into a sequence of tokens with fixed length, the ViR constructs a pure reservoir with a nearly fully connected topology to replace the Transformer module in ViT. Two kinds of deep ViR models are subsequently proposed to enhance the network performance. Comparative experiments between the ViR and the ViT are carried out on several image classification benchmarks. Without any pre-training process, the ViR outperforms the ViT in terms of both model and computational complexity. Specifically, the number of parameters of the ViR is about 15% even 5% of the ViT, and the memory footprint is about 20% to 40% of the ViT. The superiority of the ViR performance is explained by Small-World characteristics, Lyapunov exponents, and memory capacity.
翻訳日:2021-12-28 23:51:30 公開日:2021-12-27
# (参考訳) FitAct: 微粒化ポストトレインアクティベーション関数による誤差回復型ディープニューラルネットワーク

FitAct: Error Resilient Deep Neural Networks via Fine-Grained Post-Trainable Activation Functions ( http://arxiv.org/abs/2112.13544v1 )

ライセンス: CC BY 4.0
Behnam Ghavami, Mani Sadati, Zhenman Fang, and Lesley Shannon(参考訳) ディープニューラルネットワーク(DNN)は、パーソナルヘルスケアデバイスや自動運転車などの安全クリティカルなシステムにますます導入されている。 このようなDNNベースのシステムでは、DNN推論の欠陥が誤予測や安全性の危険をもたらす可能性があるため、エラーレジリエンスが最優先事項である。 リソース制約のあるエッジデバイス上での遅延クリティカルなdnn推論では、従来の冗長性に基づくフォールトトレランス手法を適用することは非自明である。 本稿では,DNNの微粒化後のアクティベーション機能を実装することで,DNNのエラーレジリエンスを高めるための低コストなアプローチであるFitActを提案する。 主なアイデアは、個々のニューロンの活性化値をニューロン単位の活性化関数を介して正確に束縛し、ネットワーク内の障害伝播を防ぐことである。 複雑なDNNモデルの再訓練を避けるため、精度トレーニングとレジリエンストレーニングを分離し、これらのアクティベーション関数を正確なバウンド値で学習するための軽量な後学習フェーズを開発することを提案する。 alexnet、vgg16、resnet50といった広く使われているdnnモデルの実験結果によると、fitactはdnnエラーのレジリエンスを広範囲の障害率で向上させ、ランタイムとメモリ空間のオーバーヘッドを管理できるという。

Deep neural networks (DNNs) are increasingly being deployed in safety-critical systems such as personal healthcare devices and self-driving cars. In such DNN-based systems, error resilience is a top priority since faults in DNN inference could lead to mispredictions and safety hazards. For latency-critical DNN inference on resource-constrained edge devices, it is nontrivial to apply conventional redundancy-based fault tolerance techniques. In this paper, we propose FitAct, a low-cost approach to enhance the error resilience of DNNs by deploying fine-grained post-trainable activation functions. The main idea is to precisely bound the activation value of each individual neuron via neuron-wise bounded activation functions so that it could prevent fault propagation in the network. To avoid complex DNN model re-training, we propose to decouple the accuracy training and resilience training and develop a lightweight post-training phase to learn these activation functions with precise bound values. Experimental results on widely used DNN models such as AlexNet, VGG16, and ResNet50 demonstrate that FitAct outperforms state-of-the-art studies such as Clip-Act and Ranger in enhancing the DNN error resilience for a wide range of fault rates while adding manageable runtime and memory space overheads.
翻訳日:2021-12-28 23:37:22 公開日:2021-12-27
# (参考訳) 畳み込みニューラルネットワーク(CNN)を用いた肺癌の病理組織像の分類

Classification of Histopathology Images of Lung Cancer Using Convolutional Neural Network (CNN) ( http://arxiv.org/abs/2112.13553v1 )

ライセンス: CC0 1.0
Neha Baranwal, Preethi Doravari and Renu Kachhoria(参考訳) がんは人体内の異常な細胞の制御不能な細胞分裂であり、他の臓器に拡がることがある。 非免疫性疾患(NCD)の1つであり、NCDは全世界で死者の71%を占めており、肺癌は女性乳癌に次ぐ2番目に診断されたがんである。 肺癌の生存率は19%である。 X線、CTスキャン、PET-CTスキャン、気管支鏡、生検など、肺がんの診断には様々な方法がある。 しかし、組織型HおよびE染色に基づく肺癌の亜型を知るために広く用いられており、生検で吸引された組織上で染色を行う。 研究によると、この組織学のタイプは肺癌の予後と治療に関連している。 したがって,早期かつ正確な肺がん組織診は必要不可欠であり,その治療は病の組織像の種類,分子プロファイル,ステージに依存しているため,肺癌の病理像を解析することが最も重要である。 したがって, 肺癌の診断を迅速化し, 病理医の負担を軽減するため, 深層学習技術が用いられている。 これらの手法は、がんの病理組織学的スライスの解析において改善された効果を示した。 コンボリューションニューラルネットワーク(CNN)は脳、皮膚、乳房、肺、大腸癌などの様々ながんの病理組織像の分類において重要であると報告されている。 本研究では,ResNet 50,VGG-19,Inception_ResNet_V2,DenseNetを用いて肺がん画像(正常,腺癌,扁平上皮癌)の3カテゴリ分類を行い,CNNを誘導し,クラスタ間距離を増大させ,クラスタ内距離を減少させる。

Cancer is the uncontrollable cell division of abnormal cells inside the human body, which can spread to other body organs. It is one of the non-communicable diseases (NCDs) and NCDs accounts for 71% of total deaths worldwide whereas lung cancer is the second most diagnosed cancer after female breast cancer. Cancer survival rate of lung cancer is only 19%. There are various methods for the diagnosis of lung cancer, such as X-ray, CT scan, PET-CT scan, bronchoscopy and biopsy. However, to know the subtype of lung cancer based on the tissue type H and E staining is widely used, where the staining is done on the tissue aspirated from a biopsy. Studies have reported that the type of histology is associated with prognosis and treatment in lung cancer. Therefore, early and accurate detection of lung cancer histology is an urgent need and as its treatment is dependent on the type of histology, molecular profile and stage of the disease, it is most essential to analyse the histopathology images of lung cancer. Hence, to speed up the vital process of diagnosis of lung cancer and reduce the burden on pathologists, Deep learning techniques are used. These techniques have shown improved efficacy in the analysis of histopathology slides of cancer. Several studies reported the importance of convolution neural networks (CNN) in the classification of histopathological pictures of various cancer types such as brain, skin, breast, lung, colorectal cancer. In this study tri-category classification of lung cancer images (normal, adenocarcinoma and squamous cell carcinoma) are carried out by using ResNet 50, VGG-19, Inception_ResNet_V2 and DenseNet for the feature extraction and triplet loss to guide the CNN such that it increases inter-cluster distance and reduces intra-cluster distance.
翻訳日:2021-12-28 23:23:59 公開日:2021-12-27
# (参考訳) マルチパースペクティブな選好モデルによるeコマースにおけるパーソナライズされた回答生成

Towards Personalized Answer Generation in E-Commerce via Multi-Perspective Preference Modeling ( http://arxiv.org/abs/2112.13556v1 )

ライセンス: CC BY 4.0
Yang Deng, Yaliang Li, Wenxuan Zhang, Bolin Ding, Wai Lam(参考訳) 近年,Eコマースプラットフォーム上での製品質問回答(PQA)は,インテリジェントなオンラインショッピングアシスタントとして機能し,顧客ショッピング体験を改善することで注目を集めている。 その鍵となる機能である製品関連質問に対する自動回答生成は、質問関連回答中にコンテンツ保存を生成することを目的として研究されている。 しかし、PQAの重要な特徴、すなわちパーソナライゼーションは既存の手法では無視されている。 多くの顧客は、製品面や情報ニーズに対する自身の好みを考慮に入れて、カスタマイズされた情報のみを使ったパーソナライズされた回答を自分自身で見ることを好まないため、すべての顧客に同じ「完全に要約された」回答を提供することは不十分です。 この課題に対処するため、PQAにおけるパーソナライズされた回答を生成するために、過去のユーザ生成コンテンツをモデル化するマルチパースペクティブ・プライオリティ・モデリングを用いたPAGE(Personalized Answer GEneration Method)を提案する。 具体的には,まず質問関連ユーザ履歴を外部知識として検索し,知識レベルのユーザ嗜好をモデル化する。 次に,gaussian softmax分散モデルを用いて潜在的なアスペクトレベルのユーザ嗜好を捉える。 最後に,パーソナライズされたポインターネットワークを開発し,個人的ユーザ嗜好と動的ユーザ語彙を用いて,コンテンツとスタイルの両方からパーソナライズされた回答を生成する。 実世界のEコマースQAデータセットに対する実験結果から,提案手法は情報的,カスタマイズされた回答を生成し,既存の手法よりも優れており,Eコマースにおける回答生成はパーソナライズによるメリットがあることが示された。

Recently, Product Question Answering (PQA) on E-Commerce platforms has attracted increasing attention as it can act as an intelligent online shopping assistant and improve the customer shopping experience. Its key function, automatic answer generation for product-related questions, has been studied by aiming to generate content-preserving while question-related answers. However, an important characteristic of PQA, i.e., personalization, is neglected by existing methods. It is insufficient to provide the same "completely summarized" answer to all customers, since many customers are more willing to see personalized answers with customized information only for themselves, by taking into consideration their own preferences towards product aspects or information needs. To tackle this challenge, we propose a novel Personalized Answer GEneration method (PAGE) with multi-perspective preference modeling, which explores historical user-generated contents to model user preference for generating personalized answers in PQA. Specifically, we first retrieve question-related user history as external knowledge to model knowledge-level user preference. Then we leverage Gaussian Softmax distribution model to capture latent aspect-level user preference. Finally, we develop a persona-aware pointer network to generate personalized answers in terms of both content and style by utilizing personal user preference and dynamic user vocabulary. Experimental results on real-world E-Commerce QA datasets demonstrate that the proposed method outperforms existing methods by generating informative and customized answers, and show that answer generation in E-Commerce can benefit from personalization.
翻訳日:2021-12-28 22:58:07 公開日:2021-12-27
# (参考訳) ダイアリー対話データにおける会話分析のための丁寧な感情対話行為

Polite Emotional Dialogue Acts for Conversational Analysis in Dialy Dialog Data ( http://arxiv.org/abs/2112.13572v1 )

ライセンス: CC BY 4.0
Chandrakant Bothe(参考訳) 多くの社会言語学的な手がかりは、感情、感情、対話行動などの会話分析に使われている。 基本的な社会的手がかりの1つは丁寧さであり、言語的に会話分析に有用な特性を持っている。 本稿では、これらの社会言語学的な手がかり間の関係関係を関連づけることができる、丁寧な感情対話行動の簡単な発見について述べる。 感情のクラスでは、Anger と Disgust の発話は、幸福と悲しみが丁寧であるのに対して、不愉快である傾向が見られた。 同様の現象は対話行為で起こり、情報とコミュニケーションは質問や指示よりも多くの丁寧な発話を含んでいる。 最後に,これらの知見の今後の研究についてまとめる。

Many socio-linguistic cues are used in the conversational analysis, such as emotion, sentiment, and dialogue acts. One of the fundamental social cues is politeness, which linguistically possesses properties useful in conversational analysis. This short article presents some of the brief findings of polite emotional dialogue acts, where we can correlate the relational bonds between these socio-linguistics cues. We found that the utterances with emotion classes Anger and Disgust are more likely to be impolite while Happiness and Sadness to be polite. Similar phenomenon occurs with dialogue acts, Inform and Commissive contain many polite utterances than Question and Directive. Finally, we will conclude on the future work of these findings.
翻訳日:2021-12-28 22:30:16 公開日:2021-12-27
# (参考訳) ワイブル塩基強度を有するホークス過程に基づく圧縮機ステーションの生存率解析

Survival Analysis of the Compressor Station Based on Hawkes Process with Weibull Base Intensity ( http://arxiv.org/abs/2112.13581v1 )

ライセンス: CC BY 4.0
Lu-ning Zhang, Jian-wei Liu, Xin Zuo(参考訳) 本稿では, ホークス法を用いて, コンプレッサーステーションの故障シーケンス, すなわち, コンプレッサーステーションの故障イベントをモデル化し, コンプレッサーステーションの各種故障事象の生存解析を行う。 しかし、これまでホークス点過程のほぼすべての関連する文献は、条件付強度関数の基底強度は時間不変であると仮定している。 この仮定は、検証するには厳しすぎるようだ。 例えば、財務分析、信頼性分析、サバイバル分析、社会ネットワーク分析といった実用的な応用では、真理条件強度関数の基本強度は、時間変動である可能性が非常に高い。 一定のベース強度は、時間とともに発生する失敗のベース確率を反映しない。 そこで本稿では,この問題を解決するために,例えばワイブル分布の時間変化ベース強度を提案する。 まず,Weibull分布の基底強度を導入し,最大確率推定器による効果的な学習アルゴリズムを提案する。 時間変化ベース強度合成データ,時間変化ベース強度合成データ,実世界のデータを用いた実験により,ホークス過程のトリガパターンと時間変化ベース強度を同時に,強固に学習できることが判明した。 実世界のデータによる実験では、さまざまな種類の障害のグレンジャー因果関係と、時間とともに変化する障害のベース確率が明らかになった。

In this paper, we use the Hawkes process to model the sequence of failure, i.e., events of compressor station and conduct survival analysis on various failure events of the compressor station. However, until now, nearly all relevant literatures of the Hawkes point processes assume that the base intensity of the conditional intensity function is time-invariant. This assumption is apparently too harsh to be verified. For example, in the practical application, including financial analysis, reliability analysis, survival analysis and social network analysis, the base intensity of the truth conditional intensity function is very likely to be time-varying. The constant base intensity will not reflect the base probability of the failure occurring over time. Thus, in order to solve this problem, in this paper, we propose a new time-varying base intensity, for example, which is from Weibull distribution. First, we introduce the base intensity from the Weibull distribution, and then we propose an effective learning algorithm by maximum likelihood estimator. Experiments on the constant base intensity synthetic data, time-varying base intensity synthetic data, and real-world data show that our method can learn the triggering patterns of the Hawkes processes and the time-varying base intensity simultaneously and robustly. Experiments on the real-world data reveal the Granger causality of different kinds of failures and the base probability of failure varying over time.
翻訳日:2021-12-28 22:24:44 公開日:2021-12-27
# (参考訳) グラフニューラルネットワークにおける層間接続の学習

Learn Layer-wise Connections in Graph Neural Networks ( http://arxiv.org/abs/2112.13585v1 )

ライセンス: CC BY 4.0
Lanning Wei, Huan Zhao, Zhiqiang He(参考訳) 近年、グラフニューラルネットワーク(GNN)は、現実世界のデータセット上の多様なアプリケーションにおいて、優れたパフォーマンスを示している。 モデルキャパシティの向上と過平滑化問題を緩和するため,レイヤワイド接続により中間層を組み込む手法が提案されている。 しかし,グラフの種類が非常に多様であるため,既存手法の性能は多種多様であり,データ固有のレイヤワイド接続方式が必要である。 この問題に対処するために,ニューラルアーキテクチャサーチ(NAS)に基づく新しいフレームワーク LLC(Learn Layer-wise Connections)を提案し,GNNにおける中間層間の適応接続を学習する。 LLCには、3種類のブロックと学習可能な接続からなる新しい検索空間と、効率的な検索プロセスを実現するための1つの異なる検索アルゴリズムが含まれている。 実世界の5つのデータセットに関する広範囲な実験を行い,検索した層間接続が性能を向上させるだけでなく,余計な問題も軽減できることを示した。

In recent years, Graph Neural Networks (GNNs) have shown superior performance on diverse applications on real-world datasets. To improve the model capacity and alleviate the over-smoothing problem, several methods proposed to incorporate the intermediate layers by layer-wise connections. However, due to the highly diverse graph types, the performance of existing methods vary on diverse graphs, leading to a need for data-specific layer-wise connection methods. To address this problem, we propose a novel framework LLC (Learn Layer-wise Connections) based on neural architecture search (NAS) to learn adaptive connections among intermediate layers in GNNs. LLC contains one novel search space which consists of 3 types of blocks and learnable connections, and one differentiable search algorithm to enable the efficient search process. Extensive experiments on five real-world datasets are conducted, and the results show that the searched layer-wise connections can not only improve the performance but also alleviate the over-smoothing problem.
翻訳日:2021-12-28 22:23:30 公開日:2021-12-27
# (参考訳) マルチモーダル画像合成と編集:調査

Multimodal Image Synthesis and Editing: A Survey ( http://arxiv.org/abs/2112.13592v1 )

ライセンス: CC BY 4.0
Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Shijian Lu(参考訳) 実世界の様々なモダリティに情報が存在するため、コンピュータビジョンやディープラーニング研究において、マルチモーダル情報間の効果的な相互作用と融合がマルチモーダルデータの生成と認識に重要な役割を果たしている。 近年,マルチモーダル情報間の相互作用をモデル化するスーパーパワーによって,マルチモーダル画像合成と編集が注目されている。 明確な手がかりを提供する従来のビジュアルガイダンスとは異なり、マルチモーダルガイダンスは画像合成と編集において直感的で柔軟な手段を提供する。 一方で、本分野は、固有のモダリティギャップ、高解像度画像の合成、忠実な評価指標など、特徴のアライメントに関するいくつかの課題にも直面している。 本研究では,最近のマルチモーダル画像合成の進歩を包括的に理解し,データモダリティとモデルアーキテクチャによる分類学の定式化を行う。 まず、画像合成と編集における様々な種類のガイダンスモダリティの導入から始める。 次に,多モード画像合成と編集手法について,gan(generative adversarial network),ganインバージョン,トランスフォーマー,およびnrfや拡散モデルなどの他の手法など,詳細なフレームワークを用いて詳細に述べる。 続いて、マルチモーダル画像合成と編集に広く採用されているベンチマークデータセットと対応する評価指標の包括的な説明と、それぞれの利点と限界の分析と異なる合成方法の詳細な比較が行われる。 最後に,現在の研究課題と今後の研究方向性について考察する。 この調査に関連するプロジェクトはhttps://github.com/fnzhan/miseで入手できる。

As information exists in various modalities in real world, effective interaction and fusion among multimodal information plays a key role for the creation and perception of multimodal data in computer vision and deep learning research. With superb power in modelling the interaction among multimodal information, multimodal image synthesis and editing have become a hot research topic in recent years. Different from traditional visual guidance which provides explicit clues, multimodal guidance offers intuitive and flexible means in image synthesis and editing. On the other hand, this field is also facing several challenges in alignment of features with inherent modality gaps, synthesis of high-resolution images, faithful evaluation metrics, etc. In this survey, we comprehensively contextualize the advance of the recent multimodal image synthesis \& editing and formulate taxonomies according to data modality and model architectures. We start with an introduction to different types of guidance modalities in image synthesis and editing. We then describe multimodal image synthesis and editing approaches extensively with detailed frameworks including Generative Adversarial Networks (GANs), GAN Inversion, Transformers, and other methods such as NeRF and Diffusion models. This is followed by a comprehensive description of benchmark datasets and corresponding evaluation metrics as widely adopted in multimodal image synthesis and editing, as well as detailed comparisons of different synthesis methods with analysis of respective advantages and limitations. Finally, we provide insights into the current research challenges and possible future research directions. A project associated with this survey is available at https://github.com/fnzhan/MISE
翻訳日:2021-12-28 22:14:33 公開日:2021-12-27
# (参考訳) MIMO干渉チャンネル上でのオーバー・ザ・エアマルチタスクフェデレーション学習

Over-the-Air Multi-Task Federated Learning Over MIMO Interference Channel ( http://arxiv.org/abs/2112.13603v1 )

ライセンス: CC BY 4.0
Chenxi Zhong, Huiyuan Yang, and Xiaojun Yuan(参考訳) データと無線機器の爆発的な成長により、大規模インテリジェントシステムにとって有望な技術としてフェデレートラーニング(FL)が誕生した。 電磁波のアナログ重ね合わせを利用して、over-the-air計算はflモデルアグリゲーションにおける通信の負担を軽減するための魅力的な手法である。 しかし、インテリジェントシステムに対する緊急の要求により、オーバー・ザ・エア計算による複数のタスクの訓練により、通信資源の不足はさらに増大する。 この問題は、共有通信リソースと並行して複数のタスクをトレーニングすることである程度緩和できるが、後者は必然的にタスク間干渉の問題をもたらす。 本稿では,マルチ入力マルチタスクfl(oa-mtfl)をmimo(multiple-input multiple-output)干渉チャネル上で検討する。 本稿では,異なる機器の局所勾配のアライメントのための新しいモデル集約法を提案し,チャネルの不均一性による空域計算において広く存在するストラグラー問題を緩和する。 我々は、デバイス間の空間的相関を考慮したOA-MTFL方式の統一的な通信計算分析フレームワークを構築し、トランシーバビームフォーミングとデバイス選択を設計する最適化問題を定式化する。 この問題を解決するために交互最適化(ao)と分数プログラミング(fp)を用いて,タスク間干渉がfl学習性能に与える影響を効果的に軽減するアルゴリズムを開発した。 提案手法では,新しいモデルアグリゲーション手法を用いることで,デバイス選択が不要となり,デバイス選択によって生じる計算負荷を回避できることを示した。 解析結果から,解析の正確さと提案手法の優れた性能が示された。

With the explosive growth of data and wireless devices, federated learning (FL) has emerged as a promising technology for large-scale intelligent systems. Utilizing the analog superposition of electromagnetic waves, over-the-air computation is an appealing approach to reduce the burden of communication in the FL model aggregation. However, with the urgent demand for intelligent systems, the training of multiple tasks with over-the-air computation further aggravates the scarcity of communication resources. This issue can be alleviated to some extent by training multiple tasks simultaneously with shared communication resources, but the latter inevitably brings about the problem of inter-task interference. In this paper, we study over-the-air multi-task FL (OA-MTFL) over the multiple-input multiple-output (MIMO) interference channel. We propose a novel model aggregation method for the alignment of local gradients for different devices, which alleviates the straggler problem that exists widely in over-the-air computation due to the channel heterogeneity. We establish a unified communication-computation analysis framework for the proposed OA-MTFL scheme by considering the spatial correlation between devices, and formulate an optimization problem of designing transceiver beamforming and device selection. We develop an algorithm by using alternating optimization (AO) and fractional programming (FP) to solve this problem, which effectively relieves the impact of inter-task interference on the FL learning performance. We show that due to the use of the new model aggregation method, device selection is no longer essential to our scheme, thereby avoiding the heavy computational burden caused by implementing device selection. The numerical results demonstrate the correctness of the analysis and the outstanding performance of the proposed scheme.
翻訳日:2021-12-28 21:12:03 公開日:2021-12-27
# (参考訳) 3次元強化α-GANを用いたラット脳MRI画像の合成

Generation of Synthetic Rat Brain MRI scans with a 3D Enhanced Alpha-GAN ( http://arxiv.org/abs/2112.13626v1 )

ライセンス: CC BY-SA 4.0
Andr\'e Ferreira (1), Ricardo Magalh\~aes (2), S\'ebastien M\'eriaux (2), Victor Alves (1) ((1) Centro Algoritmi, University of Minho, Braga, Portugal, (2) Universit\'e Paris-Saclay, CEA, CNRS, BAOBAB, NeuroSpin, Gif-sur-Yvette, France)(参考訳) 磁気共鳴イメージング(MRI)を用いた翻訳脳の研究は、動物モデルが科学研究の不可欠な部分であり、超高磁場スキャナーがより利用できるようになるにつれて、ますます人気が高まっている。 MRIの欠点は、MRIスキャナーの可用性と完全なスキャンセッションの実行に必要な時間(通常は30分以上かかる)である。 データ保護法と3R倫理規則により、ディープラーニングモデルをトレーニングするための大規模なデータセットの作成も困難になる。 GAN(Generative Adversarial Networks)は他の技術よりも高い品質でデータ拡張を行うことができる。 この研究で、α-GANアーキテクチャは、ラット脳の現実的な3DMRIスキャンを生成する能力をテストするために使用される。 著者たちが認識している限り、GANに基づくアプローチが前臨床データのデータ拡張に使用されるのはこれが初めてである。 生成したスキャンは、様々な質的および定量的指標を用いて評価される。 4人の専門家によるチューリングテストでは、生成されたスキャンはほとんどの専門家を騙すことができる。 生成されたスキャンは、ラットの脳の白質、灰白質、脳脊髄液のセグメンテーションのために開発された既存のディープラーニングモデルのパフォーマンスに与える影響を評価するためにも用いられた。 モデルはDiceスコアを用いて比較された。 全脳と白質のセグメンテーションの最良の結果は、0.0172と0.00129の改善で、174のリアルスキャンと348の合成スキャンを用いたことである。 174のリアルスキャンと87の合成スキャンを用いることで、0.0038と0.0764の灰白質と脳脊髄液の分画が改善された。 そこで, 提案した新しい正規化層と損失関数を用いて, 生成したラットMRIスキャンのリアリズムを改善することができ, 生成したデータにより, 従来のデータ拡張よりもセグメンテーションモデルを改善した。

Translational brain research using Magnetic Resonance Imaging (MRI) is becoming increasingly popular as animal models are an essential part of scientific studies and ultra-high-field scanners become more available. Some drawbacks of MRI are MRI scanner availability, and the time needed to perform a full scanning session (it usually takes over 30 minutes). Data protection laws and 3R ethical rule also make it difficult to create large data sets for training Deep Learning models. Generative Adversarial Networks (GAN) have been shown capable of performing data augmentation with higher quality than other techniques. In this work, the alpha-GAN architecture is used to test its ability to generate realistic 3D MRI scans of the rat brain. As far as the authors are aware, this is the first time an approach based on GANs is used for data augmentation in preclinical data. The generated scans are evaluated using various qualitative and quantitative metrics. A Turing test performed by 4 experts has shown that the generated scans can trick almost any expert. The generated scans were also used to evaluate their impact on the performance of an existing deep learning model developed for rat brain segmentation of white matter, grey matter, and cerebrospinal fluid. The models were compared using the Dice score. The best results for the segmentation of whole brain and white matter were achieved when 174 real scans and 348 synthetic ones were used, with improvements of 0.0172 and 0.0129. The use of 174 real scans and 87 synthetic ones led to improvements of 0.0038 and 0.0764 of grey matter and cerebrospinal fluid segmentation. Thus, by using the proposed new normalisation layer and loss functions, it was possible to improve the realism of the generated rat MRI scans and it was demonstrated that using the data generated improved the segmentation model more than using conventional data augmentation.
翻訳日:2021-12-28 20:35:54 公開日:2021-12-27
# (参考訳) AdaptivePose: 適応ポイントとしての人間部品

AdaptivePose: Human Parts as Adaptive Points ( http://arxiv.org/abs/2112.13635v1 )

ライセンス: CC BY 4.0
Yabo Xiao, Xiaojuan Wang, Dongdong Yu, Guoli Wang, Qian Zhang, Mingshu He(参考訳) 複数の人物のポーズ推定法は一般にトップダウンとボトムアップのパラダイムに従っており、どちらも2段階のアプローチとみなすことができ、高い計算コストと低い効率をもたらす。 本稿では、多人数ポーズ推定タスクのためのコンパクトで効率的なパイプラインに向けて、人間部位をポイントとして表現し、人間中心を含む適応点集合と、7つの人間関連点を活用して、より細かな方法で人間のインスタンスを表現する新しいボディ表現を提案する。 斬新な表現は、様々なポーズの変形を捉えることができ、長距離中心対結合の変位を適応的に分解することで、AdaptivePoseと呼ばれるより正確に複数の人物のポーズを復元するシングルステージの微分可能なネットワークを提供する。 推測のために,提案するネットワークはグループ化と改良を排除し,複数対人ポーズを形成するための単一ステップの切り離しプロセスのみを必要とする。 DLA-34では67.4% AP / 29.4 fps、COCOテストデブデータセットでは71.3% AP / 9.1 fps、HRNet-W48では9.1 fpsである。

Multi-person pose estimation methods generally follow top-down and bottom-up paradigms, both of which can be considered as two-stage approaches thus leading to the high computation cost and low efficiency. Towards a compact and efficient pipeline for multi-person pose estimation task, in this paper, we propose to represent the human parts as points and present a novel body representation, which leverages an adaptive point set including the human center and seven human-part related points to represent the human instance in a more fine-grained manner. The novel representation is more capable of capturing the various pose deformation and adaptively factorizes the long-range center-to-joint displacement thus delivers a single-stage differentiable network to more precisely regress multi-person pose, termed as AdaptivePose. For inference, our proposed network eliminates the grouping as well as refinements and only needs a single-step disentangling process to form multi-person pose. Without any bells and whistles, we achieve the best speed-accuracy trade-offs of 67.4% AP / 29.4 fps with DLA-34 and 71.3% AP / 9.1 fps with HRNet-W48 on COCO test-dev dataset.
翻訳日:2021-12-28 20:22:09 公開日:2021-12-27
# (参考訳) マルチグラニュラ性知覚を用いた弱教師付き視聴覚サリエンシー検出

Weakly Supervised Visual-Auditory Saliency Detection with Multigranularity Perception ( http://arxiv.org/abs/2112.13697v1 )

ライセンス: CC BY 4.0
Guotao Wang, Chenglizhao Chen, Dengping Fan, Aimin Hao, and Hong Qin(参考訳) ディープラーニング技術の急激な進歩と大規模トレーニングセットの広範な利用により,ビデオサリエンシ検出モデルの性能は着実に向上している。 しかし、ディープラーニングベースのvisualaudioフィクスレーション予測はまだ初期段階にある。 現在、実際の視覚音響環境において実際の固定が記録されているのは、少数の視覚音響シーケンスのみである。 したがって、同じ視覚的な状況下で実際の固定を再現することは効率的でも必要でもない。 そこで本研究では,視覚・音響モデルトレーニングのための大規模トレーニングセットの需要を軽減するために,弱教師付きアプローチを提案する。 ビデオカテゴリタグのみを用いて、選択型クラスアクティベーションマッピング(SCAM)とそのアップグレード(SCAM+)を提案する。 空間的-時間的-聴覚的状況において、前者は最も識別的な領域を選択するための粗い対極戦略に従っており、これらの領域は通常、実際の人間の眼の固定と高い一貫性を示すことができる。 後者はSCAMに追加の多粒性知覚機構を備えており、実際の人間の視覚システムとプロセス全体がより整合している。 さらに,これらの領域の知識を蒸留して空間-時間-音声(sta)固定化予測(fp)ネットワークを新たに構築し,ビデオタグが利用できない場合に幅広い応用が可能となった。 実際の人目固定に頼らず、これらのSTA FPネットワークの性能は、完全に監督されたネットワークと同等である。 コードと結果はhttps://github.com/guotaowang/STANetで公開されている。

Thanks to the rapid advances in deep learning techniques and the wide availability of large-scale training sets, the performance of video saliency detection models has been improving steadily and significantly. However, deep learning-based visualaudio fixation prediction is still in its infancy. At present, only a few visual-audio sequences have been furnished, with real fixations being recorded in real visual-audio environments. Hence, it would be neither efficient nor necessary to recollect real fixations under the same visual-audio circumstances. To address this problem, this paper promotes a novel approach in a weakly supervised manner to alleviate the demand of large-scale training sets for visual-audio model training. By using only the video category tags, we propose the selective class activation mapping (SCAM) and its upgrade (SCAM+). In the spatial-temporal-audio circumstance, the former follows a coarse-to-fine strategy to select the most discriminative regions, and these regions are usually capable of exhibiting high consistency with the real human-eye fixations. The latter equips the SCAM with an additional multi-granularity perception mechanism, making the whole process more consistent with that of the real human visual system. Moreover, we distill knowledge from these regions to obtain complete new spatial-temporal-audio (STA) fixation prediction (FP) networks, enabling broad applications in cases where video tags are not available. Without resorting to any real human-eye fixation, the performances of these STA FP networks are comparable to those of fully supervised networks. The code and results are publicly available at https://github.com/guotaowang/STANet.
翻訳日:2021-12-28 20:07:49 公開日:2021-12-27
# (参考訳) 多視点3次元ポーズ推定のための擬似ラベルを用いた能動学習

Active Learning with Pseudo-Labels for Multi-View 3D Pose Estimation ( http://arxiv.org/abs/2112.13709v1 )

ライセンス: CC BY 4.0
Qi Feng, Kun He, He Wen, Cem Keskin, Yuting Ye(参考訳) 人体/手の位置推定はコンピュータビジョンの基本的な問題であり、学習ベースのソリューションは大量の注釈付きデータを必要とする。 注釈予算が限られている場合、ラベル効率を向上させるための一般的なアプローチはアクティブラーニング(al)であり、注釈に最も価値のある例を選択するが、選択戦略を選択することはしばしば非自明である。 本研究では,多視点設定における3次元ポーズ推定問題に対するアクティブラーニングの改善について述べる。 我々は,既存の単一視点al戦略を効率的に拡張可能なフレームワークを開発し,マルチビュー幾何学をフルに活用する2つの新しいal戦略を提案する。 さらに,自己学習の形式である予測擬似ラベルを組み込むことにより,さらなる性能向上を示す。 このシステムは,CMU Panoptic Studio と InterHand2.6M の2つの大規模ベンチマークにおいて,3次元ボディでのベースラインと手ポーズの精度を著しく向上させる。 特に、CMU Panoptic Studioでは、ラベル付きトレーニングデータの20%しか使用せず、完全に教師されたモデルのパフォーマンスにマッチできる。

Pose estimation of the human body/hand is a fundamental problem in computer vision, and learning-based solutions require a large amount of annotated data. Given limited annotation budgets, a common approach to increasing label efficiency is Active Learning (AL), which selects examples with the highest value to annotate, but choosing the selection strategy is often nontrivial. In this work, we improve Active Learning for the problem of 3D pose estimation in a multi-view setting, which is of increasing importance in many application scenarios. We develop a framework that allows us to efficiently extend existing single-view AL strategies, and then propose two novel AL strategies that make full use of multi-view geometry. Moreover, we demonstrate additional performance gains by incorporating predicted pseudo-labels, which is a form of self-training. Our system significantly outperforms baselines in 3D body and hand pose estimation on two large-scale benchmarks: CMU Panoptic Studio and InterHand2.6M. Notably, on CMU Panoptic Studio, we are able to match the performance of a fully-supervised model using only 20% of labeled training data.
翻訳日:2021-12-28 19:24:55 公開日:2021-12-27
# (参考訳) マルチドメインバランスサンプリングによる胸部X線病変予測モデルの一般化

Multi-Domain Balanced Sampling Improves Out-of-Generalization of Chest X-ray Pathology Prediction Models ( http://arxiv.org/abs/2112.13734v1 )

ライセンス: CC BY 4.0
Enoch Tetteh, Joseph Viviano, Yoshua Bengio, David Krueger, Joseph Paul Cohen(参考訳) 医療画像の異なる分布シフトの下で一般化する学習モデルは、長年にわたる研究課題である。 視覚研究実践者の間では、特に敏感でクリティカルなバイオメディカル領域において、効率的で堅牢な視覚表現学習が提案されている。 本稿では,単純なバランスのとれたバッチサンプリング手法を用いた胸部x線病理の分散的一般化を提案する。 複数のトレーニングデータセット間のバランスの取れたサンプリングは、バランスを取らずにトレーニングされたベースラインモデルよりもパフォーマンスが向上する。

Learning models that generalize under different distribution shifts in medical imaging has been a long-standing research challenge. There have been several proposals for efficient and robust visual representation learning among vision research practitioners, especially in the sensitive and critical biomedical domain. In this paper, we propose an idea for out-of-distribution generalization of chest X-ray pathologies that uses a simple balanced batch sampling technique. We observed that balanced sampling between the multiple training datasets improves the performance over baseline models trained without balancing.
翻訳日:2021-12-28 19:07:38 公開日:2021-12-27
# (参考訳) Hamtajoo: 学術文書のためのペルシャのプラジャリズムチェッカー

Hamtajoo: A Persian Plagiarism Checker for Academic Manuscripts ( http://arxiv.org/abs/2112.13742v1 )

ライセンス: CC BY 4.0
Vahid Zarrabi, Salar Mohtaj, Habibollah Asghari(参考訳) 近年,Web を利用した電子文書の高可用性により,特に学者の間では,盗用が深刻な課題となっている。 テキストの再使用を防止し、盗作に対抗するために様々な盗作検出システムが開発されている。 学術写本における重複テキストの発見はほぼ容易であるが、意味的に変化したテキスト再利用のパターンを見つけることは極めて重要である。 もうひとつの重要な問題は、リソースの少ない言語に対処することであり、トレーニング目的のテキスト量は少なく、NLPアプリケーション向けのツールのパフォーマンスも低い。 本稿では,ペルシャ語による学術写本の盗作検知システムであるハムタジョを紹介する。 さらに,各ステージで使用されるアルゴリズムとともに,システム全体の構造について述べる。 提案システムの性能を評価するために,PAN規格に準拠した盗作検出コーパスを用いた。

In recent years, due to the high availability of electronic documents through the Web, the plagiarism has become a serious challenge, especially among scholars. Various plagiarism detection systems have been developed to prevent text re-use and to confront plagiarism. Although it is almost easy to detect duplicate text in academic manuscripts, finding patterns of text re-use that has been semantically changed is of great importance. Another important issue is to deal with less resourced languages, which there are low volume of text for training purposes and also low performance in tools for NLP applications. In this paper, we introduce Hamtajoo, a Persian plagiarism detection system for academic manuscripts. Moreover, we describe the overall structure of the system along with the algorithms used in each stage. In order to evaluate the performance of the proposed system, we used a plagiarism detection corpus comply with the PAN standards.
翻訳日:2021-12-28 19:02:49 公開日:2021-12-27
# (参考訳) 微分プライベートサブリニア時間クラスタリング

Differentially-Private Sublinear-Time Clustering ( http://arxiv.org/abs/2112.13751v1 )

ライセンス: CC BY 4.0
Jeremiah Blocki, Elena Grigorescu, Tamalika Mukherjee(参考訳) クラスタリングは教師なし機械学習において必須のプリミティブである。 本稿では,研究の自然な方向性として,サブ線形時間差分的クラスタリングの問題を提起する。 mishra et al. (soda, 2001) と czumaj and sohler (rand. struct. and algorithms, 2007) の k$-means と $k$-median sublinear-time の結果と、balcan et al. (icml 2017) と gupta et al. (soda, 2010) と ghazi et al. (neurips, 2020) のプライベートクラスタリングに関する最近の結果とを組み合わせることで、サブサンプリングを通じてサブリニアタイムのプライベート $k$-means と $k$median アルゴリズムを得ることができる。 グループプライバシに対するサブサンプリングのプライバシーメリットについても検討する。

Clustering is an essential primitive in unsupervised machine learning. We bring forth the problem of sublinear-time differentially-private clustering as a natural and well-motivated direction of research. We combine the $k$-means and $k$-median sublinear-time results of Mishra et al. (SODA, 2001) and of Czumaj and Sohler (Rand. Struct. and Algorithms, 2007) with recent results on private clustering of Balcan et al. (ICML 2017), Gupta et al. (SODA, 2010) and Ghazi et al. (NeurIPS, 2020) to obtain sublinear-time private $k$-means and $k$-median algorithms via subsampling. We also investigate the privacy benefits of subsampling for group privacy.
翻訳日:2021-12-28 18:54:52 公開日:2021-12-27
# (参考訳) インフルエンザ検出のためのウェアラブルセンサ時系列データの自己監督

Self-supervision of wearable sensors time-series data for influenza detection ( http://arxiv.org/abs/2112.13755v1 )

ライセンス: CC BY 4.0
Arinbj\"orn Kolbeinsson, Piyusha Gade, Raghu Kainkaryam, Filip Jankovic, Luca Foschini(参考訳) セルフスーパービジョンは、下流タスクにおけるモデルパフォーマンスを高める可能性がある。 しかし、最も適応可能なモデルを生み出す自己監督対象を選択するための原則的な方法はない。 本稿では,インフルエンザ様疾患(ili)の発症を検出するウェアラブルセンサから発生する時系列データを用いて,この問題について検討する。 まず,自己教師付き学習を用いて次の日の時系列値を予測することにより,精度の高いili予測に適応可能な豊かな表現を学習できることを示す。 第2に、ILI予測への適応性を評価するために、3つの異なる自己監督対象の実証分析を行った。 その結果,翌日の安静時心拍数や睡眠中の就寝時間を予測することで,ili予測の表現が向上した。 これらの知見は,活動データからの自己教師あり学習の実践的応用を実証し,健康予測の改善に寄与する。

Self-supervision may boost model performance in downstream tasks. However, there is no principled way of selecting the self-supervised objectives that yield the most adaptable models. Here, we study this problem on daily time-series data generated from wearable sensors used to detect onset of influenza-like illness (ILI). We first show that using self-supervised learning to predict next-day time-series values allows us to learn rich representations which can be adapted to perform accurate ILI prediction. Second, we perform an empirical analysis of three different self-supervised objectives to assess their adaptability to ILI prediction. Our results show that predicting the next day's resting heart rate or time-in-bed during sleep provides better representations for ILI prediction. These findings add to previous work demonstrating the practical application of self-supervised learning from activity data to improve health predictions.
翻訳日:2021-12-28 18:29:56 公開日:2021-12-27
# (参考訳) ニューラルネットワークによる疾患コードアサインメントのための臨床問題リストの二次的活用

Secondary Use of Clinical Problem List Entries for Neural Network-Based Disease Code Assignment ( http://arxiv.org/abs/2112.13756v1 )

ライセンス: CC BY 4.0
Markus Kreuzthaler and Stefan Schulz(参考訳) 臨床情報システムは、半構造化アノテートされた医療データのための大規模なリポジトリとなり、教師付きデータ駆動ニューラルネットワークアプローチで興味深い重要な質量に達している。 国際疾病分類分類(icd-10)を用いて50文字の長期臨床課題リスト項目の自動符号化を行い、上位100のicd-103桁コードで3種類のネットワークアーキテクチャを評価した。 fastTextベースラインは、マクロ平均F1測定値0.83に達し、その後、マクロ平均F1測定値0.84の文字レベルLSTMが続いた。 トップパフォーマンスは、マクロ平均F1測定値0.88のカスタム言語モデルを使用した、ダウンストリームのRoBERTaモデルである。 ニューラルネットワークのアクティベーション解析と偽陽性と偽陰性の調査により、手作業による符号化が主な制限要因であることが明らかとなった。

Clinical information systems have become large repositories for semi-structured annotated healthcare data, which have reached a critical mass that makes them interesting for supervised data-driven neural network approaches. We explored automated coding of 50 character long clinical problem list entries using the International Classification of Diseases (ICD-10) and evaluated three different types of network architectures on the top 100 ICD-10 three-digit codes. A fastText baseline reached a macro-averaged F1-measure of 0.83, followed by a character-level LSTM with a macro-averaged F1-measure of 0.84. Top performing was a downstreamed RoBERTa model using a custom language model with a macro-averaged F1-measure of 0.88. A neural network activation analysis together with an investigation of the false positives and false negatives unveiled inconsistent manual coding as a main limiting factor.
翻訳日:2021-12-28 18:23:57 公開日:2021-12-27
# (参考訳) スマートウォーターメータデータの社会経済特性を明らかにするための動的時温クラスタリング

Dynamic Time Warping Clustering to Discover Socio-Economic Characteristics in Smart Water Meter Data ( http://arxiv.org/abs/2112.13778v1 )

ライセンス: CC BY-SA 4.0
D. B. Steffelbauer, E. J. M. Blokker, S. G. Buchberger, A. Knobbe, E. Abraham(参考訳) 社会経済的特性は、水需要の時間的・空間的変動に影響を与えている。 これらの影響に関する知識を向上させることで、需要の不確実性を減らすことができる。 本稿では,日々の需要パターンに動的時間変化量を用いたクラスタリングアルゴリズムを適用し,スマートウォーターメーターデータと社会経済的ユーザ特性を結びつけることを目的とする。 このアプローチは、シミュレーションおよび測定されたシングルファミリーホームデータセットでテストされる。 提案アルゴリズムは,クラスタの適切な数の探索やパターンの割り当てにおいて,一般的なクラスタリング手法と比較して,優れた性能を示すことを示す。 さらに、この方法論は需要パターンのクラスタ内の異常値を特定するのに使うことができる。 さらに, 社会経済的特性(雇用状況, 居住者数など)が, 単一集団内に存在するかを調査し, その結果, 集団のバリセンタの形状と関連づけられるかを検討した。 将来,提案手法と確率的需要モデルを組み合わせることで,水理モデルにおけるデータギャップを埋めることができる。

Socio-economic characteristics are influencing the temporal and spatial variability of water demand - the biggest source of uncertainties within water distribution system modeling. Improving our knowledge on these influences can be utilized to decrease demand uncertainties. This paper aims to link smart water meter data to socio-economic user characteristics by applying a novel clustering algorithm that uses a dynamic time warping metric on daily demand patterns. The approach is tested on simulated and measured single family home datasets. We show that the novel algorithm performs better compared to commonly used clustering methods, both, in finding the right number of clusters as well as assigning patterns correctly. Additionally, the methodology can be used to identify outliers within clusters of demand patterns. Furthermore, this study investigates which socio-economic characteristics (e.g. employment status, number of residents) are prevalent within single clusters and, consequently, can be linked to the shape of the cluster's barycenters. In future, the proposed methods in combination with stochastic demand models can be used to fill data-gaps in hydraulic models.
翻訳日:2021-12-28 18:10:18 公開日:2021-12-27
# (参考訳) ロボットの視覚・触覚物体認識のためのAUデータセット

AU Dataset for Visuo-Haptic Object Recognition for Robots ( http://arxiv.org/abs/2112.13761v1 )

ライセンス: CC BY 4.0
Lasse Emil R. Bonner, and Daniel Daugaard Buhl, and Kristian Kristensen, and Nicol\'as Navarro-Guerrero(参考訳) マルチモーダルオブジェクト認識はまだ新興分野である。 したがって、公開されているデータセットはまだ稀で、サイズも小さい。 このデータセットは、この空白を埋めるために開発され、視覚的および触覚的曖昧さのある63のオブジェクトに対してマルチモーダルデータを提示する。 データセットには、視覚、審美、触覚(オーディオ/振動)データが含まれている。 感覚の曖昧さを完全に解決するには、感覚統合/融合が必要である。 本報告ではデータセットの作成と構造について述べる。 最初のセクションでは、オブジェクトの視覚的および触覚的特性をキャプチャするために使用される基礎となるアプローチを説明します。 第2のセクションでは、データ収集に必要な技術的側面(実験的なセットアップ)について説明する。 第3のセクションではオブジェクトを紹介し、最後のセクションではデータセットの構造と内容について説明する。

Multimodal object recognition is still an emerging field. Thus, publicly available datasets are still rare and of small size. This dataset was developed to help fill this void and presents multimodal data for 63 objects with some visual and haptic ambiguity. The dataset contains visual, kinesthetic and tactile (audio/vibrations) data. To completely solve sensory ambiguity, sensory integration/fusion would be required. This report describes the creation and structure of the dataset. The first section explains the underlying approach used to capture the visual and haptic properties of the objects. The second section describes the technical aspects (experimental setup) needed for the collection of the data. The third section introduces the objects, while the final section describes the structure and content of the dataset.
翻訳日:2021-12-28 17:49:36 公開日:2021-12-27
# マスク誘導型多極性統合ニューラルネットワークによる異種土壌環境における樹木根のパラメータ推定

Estimating Parameters of the Tree Root in Heterogeneous Soil Environments via Mask-Guided Multi-Polarimetric Integration Neural Network ( http://arxiv.org/abs/2112.13494v1 )

ライセンス: Link先を確認
Hai-Han Sun, Yee Hui Lee, Qiqi Dai, Chongyi Li, Genevieve Ow, Mohamed Lokman Mohd Yusof, and Abdulkadir C. Yucel(参考訳) 地中レーダ(GPR)は樹木根検査の非破壊ツールとして使用されている。 GPRレーダグラムから根関連パラメータを推定することは根の健康モニタリングとイメージングを大いに促進する。 しかし、ルート反射は複数のルートパラメータとルート配向の複雑な関数であるため、根関連パラメータを推定する作業は困難である。 既存の手法では、他のパラメータやルート方向の影響を考慮せずに、一度に1つのルートパラメータを推定できるため、異なるルート条件下での推定精度は限られている。 さらに、土壌の不均一性はGPRレーダグラムに乱れを導入し、データ処理と解釈をさらに困難にする。 これらの問題に対処するために、マスク誘導多極性統合ニューラルネットワーク(MMI-Net)と呼ばれる新しいニューラルネットワークアーキテクチャを提案し、異種土壌環境における複数のルート関連パラメータを自動かつ同時に推定する。 MMI-Netには2つのサブネットワークがある: マスクを予測してルート反射領域をハイライトし、干渉する環境クラッタを除去するMaskNetと、予測マスクをガイダンスとして使用して5つの主要なルート関連パラメータを正確に推定するマルチポーラリメトリックレーダグラムにおける情報的特徴の統合、抽出、強調するParaNetである。 パラメータには、根の深さ、直径、相対誘電率、水平方向および垂直方向角が含まれる。 MMI-Netはこれらのルート関連パラメータにおいて高い推定精度が得られることを示す。 これは、ルートパラメータと空間方向の結合寄与を考慮し、同時に複数のルート関連パラメータを推定する最初の仕事である。 この論文で実装されたデータとコードはhttps://haihan-sun.github.io/GPR.htmlで見ることができる。

Ground-penetrating radar (GPR) has been used as a non-destructive tool for tree root inspection. Estimating root-related parameters from GPR radargrams greatly facilitates root health monitoring and imaging. However, the task of estimating root-related parameters is challenging as the root reflection is a complex function of multiple root parameters and root orientations. Existing methods can only estimate a single root parameter at a time without considering the influence of other parameters and root orientations, resulting in limited estimation accuracy under different root conditions. In addition, soil heterogeneity introduces clutter in GPR radargrams, making the data processing and interpretation even harder. To address these issues, a novel neural network architecture, called mask-guided multi-polarimetric integration neural network (MMI-Net), is proposed to automatically and simultaneously estimate multiple root-related parameters in heterogeneous soil environments. The MMI-Net includes two sub-networks: a MaskNet that predicts a mask to highlight the root reflection area to eliminate interfering environmental clutter, and a ParaNet that uses the predicted mask as guidance to integrate, extract, and emphasize informative features in multi-polarimetric radargrams for accurate estimation of five key root-related parameters. The parameters include the root depth, diameter, relative permittivity, horizontal and vertical orientation angles. Experimental results demonstrate that the proposed MMI-Net achieves high estimation accuracy in these root-related parameters. This is the first work that takes the combined contributions of root parameters and spatial orientations into account and simultaneously estimates multiple root-related parameters. The data and code implemented in the paper can be found at https://haihan-sun.github.io/GPR.html.
翻訳日:2021-12-28 17:41:14 公開日:2021-12-27
# dam-al: 3次元乳児脳画像分割における注意損失を伴う拡張注意機構

DAM-AL: Dilated Attention Mechanism with Attention Loss for 3D Infant Brain Image Segmentation ( http://arxiv.org/abs/2112.13559v1 )

ライセンス: Link先を確認
Dinh-Hieu Hoang, Gia-Han Diep, Minh-Triet Tran and Ngan T.H Le(参考訳) 磁気共鳴イメージング(MRI)は、乳児の脳分析において重要な役割を担っているが、MRIを灰白質(GM)、白質(WM)、髄液(CSF)などの多くの組織に分割することは、約6~9ヶ月の組織間の非常に低いコントラスト、増幅ノイズ、ミエリン化、不完全体積のために重要で複雑である。 そこで本稿では,本論文では,拡張注意機構とハードケース注意損失という2つの主な貢献を含む,新しい深層学習モデルであるdam-alを開発した。 DAM-ALネットワークはスキップブロック層とアトラスブロック畳み込みによって設計されている。 高レベルの空間的特徴に対するチャネルワイドの注意と低レベルの空間的特徴に対する空間的注意の両方を含んでいる。 我々の注意喪失は、地域情報とハードサンプルの注意に対応する2つの用語からなる。 提案するdam-alは乳児脳iseg 2017データセットで評価され,検証とテストの両方で実験が行われている。 我々はDice係数とASD値のDAM-ALをベンチマークし、最先端の手法と比較した。

While Magnetic Resonance Imaging (MRI) has played an essential role in infant brain analysis, segmenting MRI into a number of tissues such as gray matter (GM), white matter (WM), and cerebrospinal fluid (CSF) is crucial and complex due to the extremely low intensity contrast between tissues at around 6-9 months of age as well as amplified noise, myelination, and incomplete volume. In this paper, we tackle those limitations by developing a new deep learning model, named DAM-AL, which contains two main contributions, i.e., dilated attention mechanism and hard-case attention loss. Our DAM-AL network is designed with skip block layers and atrous block convolution. It contains both channel-wise attention at high-level context features and spatial attention at low-level spatial structural features. Our attention loss consists of two terms corresponding to region information and hard samples attention. Our proposed DAM-AL has been evaluated on the infant brain iSeg 2017 dataset and the experiments have been conducted on both validation and testing sets. We have benchmarked DAM-AL on Dice coefficient and ASD metrics and compared it with state-of-the-art methods.
翻訳日:2021-12-28 17:40:43 公開日:2021-12-27
# sim-to-real転送を用いた内視鏡の深さ推定

Depth estimation of endoscopy using sim-to-real transfer ( http://arxiv.org/abs/2112.13595v1 )

ライセンス: Link先を確認
Bong Hyuk Jeong, Hang Keun Kim, and Young Don Son(参考訳) ナビゲーションシステムを効果的に利用するためには,深度センサなどの距離情報センサが不可欠である。 深度センサは内視鏡での使用が困難であるため,多くのグループが畳み込みニューラルネットワークを用いた手法を提案する。 本稿では,ct大腸造影法で分割した大腸モデルを用いて内視鏡シミュレーションを行い,深度像と内視鏡像の基底的真理を明らかにした。 光実写シミュレーション画像は、内視鏡画像にCycleGANを用いたシミュレートリアルアプローチを用いて作成することができる。 生成されたデータセットをトレーニングすることにより,定量的な内視鏡深度推定ネットワークを提案する。 提案手法は,既存の教師なし学習結果よりも優れた評価スコアを示す。

In order to use the navigation system effectively, distance information sensors such as depth sensors are essential. Since depth sensors are difficult to use in endoscopy, many groups propose a method using convolutional neural networks. In this paper, the ground truth of the depth image and the endoscopy image is generated through endoscopy simulation using the colon model segmented by CT colonography. Photo-realistic simulation images can be created using a sim-to-real approach using cycleGAN for endoscopy images. By training the generated dataset, we propose a quantitative endoscopy depth estimation network. The proposed method represents a better-evaluated score than the existing unsupervised training-based results.
翻訳日:2021-12-28 17:40:15 公開日:2021-12-27
# パーキンソン病DaTscan画像の自己正規化分類

Self-normalized Classification of Parkinson's Disease DaTscan Images ( http://arxiv.org/abs/2112.13637v1 )

ライセンス: Link先を確認
Yuan Zhou and Hemant D. Tagare(参考訳) SPECT画像の分類には、正規化領域を使用して画像を正規化する前処理ステップが必要である。 正規化領域の選択は標準ではなく、異なる正規化領域を使用することで正規化領域依存の変動性がもたらされる。 本稿では、正規化領域の効果を数学的に解析し、正規化分類が乗法同値下の画像の半光線の部分空間分離と正確に等価であることを示す。 この幾何を用いて、新しい自己正規化分類戦略を提案する。 この戦略は正規化領域を完全に排除する。 この理論は、パーキンソン病(PD)とパーキンソン進歩マーカーイニシアチブ(PPMI)の208人の健康管理(HC)被験者のDaTscan画像の分類に用いられている。 この理論は、PD進行をベースラインから年4まで理解するためにも用いられる。

Classifying SPECT images requires a preprocessing step which normalizes the images using a normalization region. The choice of the normalization region is not standard, and using different normalization regions introduces normalization region-dependent variability. This paper mathematically analyzes the effect of the normalization region to show that normalized-classification is exactly equivalent to a subspace separation of the half rays of the images under multiplicative equivalence. Using this geometry, a new self-normalized classification strategy is proposed. This strategy eliminates the normalizing region altogether. The theory is used to classify DaTscan images of 365 Parkinson's disease (PD) subjects and 208 healthy control (HC) subjects from the Parkinson's Progression Marker Initiative (PPMI). The theory is also used to understand PD progression from baseline to year 4.
翻訳日:2021-12-28 17:40:06 公開日:2021-12-27
# 時間拘束型ニューラルネットワーク(TCNN):半教師付きビデオセマンティックセグメンテーションのためのフレームワーク

Temporally Constrained Neural Networks (TCNN): A framework for semi-supervised video semantic segmentation ( http://arxiv.org/abs/2112.13815v1 )

ライセンス: Link先を確認
Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan, Alain Garcia, Nariaki Okamoto, Didier Mutter, Jacques Marescaux, Guido Costamagna, Bernard Dallemagne, Nicolas Padoy(参考訳) 効果的なセマンティクスセグメンテーション、特にビデオセマンティクスセグメンテーションのためのモデルを構築する上での大きな障害は、大きな注釈付きデータセットの欠如である。 このボトルネックは、ビデオ意味セマンティクスのセグメンテーションが重要な用途を持つが、データや専門家のアノテーションが不足する、医療や手術のような高度に専門的で規制された分野において、特に禁止されている。 これらの設定では、時間的手がかりと解剖学的制約がトレーニング中に活用され、パフォーマンスが向上する。 本稿では,手術ビデオのセマンティックセグメンテーションに使用される半教師付きフレームワークであるTCNNを紹介する。 本研究では,自動エンコーダネットワークを用いて,空間的および時間的監視信号を効率的に提供し,ディープラーニングモデルをトレーニングできることを示す。 本手法は,腹腔鏡下胆嚢摘出術,内分泌術,白内障手術の適応の動画データセットであるCaDISを用いて試験を行った。 予測マスクの低次元表現は、推論時に余分な計算コストを伴わないスパースラベル付きデータセットに一貫した改善をもたらすことができることを示す。 さらに、tcnnフレームワークはモデルに依存しず、最小限の複雑さで他のモデル設計選択と併用することができる。

A major obstacle to building models for effective semantic segmentation, and particularly video semantic segmentation, is a lack of large and well annotated datasets. This bottleneck is particularly prohibitive in highly specialized and regulated fields such as medicine and surgery, where video semantic segmentation could have important applications but data and expert annotations are scarce. In these settings, temporal clues and anatomical constraints could be leveraged during training to improve performance. Here, we present Temporally Constrained Neural Networks (TCNN), a semi-supervised framework used for video semantic segmentation of surgical videos. In this work, we show that autoencoder networks can be used to efficiently provide both spatial and temporal supervisory signals to train deep learning models. We test our method on a newly introduced video dataset of laparoscopic cholecystectomy procedures, Endoscapes, and an adaptation of a public dataset of cataract surgeries, CaDIS. We demonstrate that lower-dimensional representations of predicted masks can be leveraged to provide a consistent improvement on both sparsely labeled datasets with no additional computational cost at inference time. Further, the TCNN framework is model-agnostic and can be used in conjunction with other model design choices with minimal additional complexity.
翻訳日:2021-12-28 17:38:46 公開日:2021-12-27
# Mind the Gap:階層的知識強化による言語間情報検索

Mind the Gap: Cross-Lingual Information Retrieval with Hierarchical Knowledge Enhancement ( http://arxiv.org/abs/2112.13510v1 )

ライセンス: Link先を確認
Fuwei Zhang, Zhao Zhang, Xiang Ao, Dehong Gao, Fuzhen Zhuang, Yi Wei, Qing He(参考訳) Cross-Lingual Information Retrieval (CLIR) は、ユーザのクエリとは異なる言語で書かれたドキュメントをランク付けすることを目的としている。 異なる言語間の固有のギャップは、CLIRにとって重要な課題である。 本稿では,複数の言語におけるエンティティの十分な情報により,多言語知識グラフ(KG)をCLIRタスクに導入する。 クエリとドキュメント間の明示的なアライメントを同時に実行し、クエリの表現を広げる「銀の弾丸」と見なされている。 また,階層的知識向上(HIKE)を用いたCLIRというモデルを提案する。 提案モデルでは,クエリやドキュメント,KGのテキスト情報を多言語BERTでエンコードし,クエリ文書マッチングプロセスに階層的な情報融合機構を組み込む。 特に、HIKEはまず、KGのエンティティとその周辺を知識レベルの融合とクエリ表現に統合し、ソース言語とターゲット言語の両方からの知識を組み合わせて言語レベルの融合と言語ギャップをさらに緩和する。 最後に,実験結果から,HIKEは最先端の競争相手よりも大幅に改善されていることが示された。

Cross-Lingual Information Retrieval (CLIR) aims to rank the documents written in a language different from the user's query. The intrinsic gap between different languages is an essential challenge for CLIR. In this paper, we introduce the multilingual knowledge graph (KG) to the CLIR task due to the sufficient information of entities in multiple languages. It is regarded as a "silver bullet" to simultaneously perform explicit alignment between queries and documents and also broaden the representations of queries. And we propose a model named CLIR with hierarchical knowledge enhancement (HIKE) for our task. The proposed model encodes the textual information in queries, documents and the KG with multilingual BERT, and incorporates the KG information in the query-document matching process with a hierarchical information fusion mechanism. Particularly, HIKE first integrates the entities and their neighborhood in KG into query representations with a knowledge-level fusion, then combines the knowledge from both source and target languages to further mitigate the linguistic gap with a language-level fusion. Finally, experimental results demonstrate that HIKE achieves substantial improvements over state-of-the-art competitors.
翻訳日:2021-12-28 17:31:58 公開日:2021-12-27
# シナリオ適応混合によるクリックスルー率予測

SAME: Scenario Adaptive Mixture-of-Experts for Promotion-Aware Click-Through Rate Prediction ( http://arxiv.org/abs/2112.13747v1 )

ライセンス: Link先を確認
Xiaofeng Pan, Yibin Shen, Jing Zhang, Keren Yu, Hong Wen, Shui Liu, Chengjun Mao and Bo Cao(参考訳) eコマースプラットフォームでは、顧客を惹きつけ、売上を増やすためにプロモーションがより重要で普及している。 しかし、レコメンデータシステムにおけるクリックスルーレート(CTR)予測手法は、このような状況にうまく対応できない。 1) オンラインデータ配信が不確実であるため,今後の昇進が期待できるため,サービス提供に適さない。 2) シナリオ信号に十分な注意を払わずに,各シナリオに共存する異なる特徴表現パターンを学習することができない。 本研究では,プロモーショナルシナリオとノーマルシナリオの両方に対応する,単純かつ効果的なモデルであるsame(adaptive mix-of-experts)を提案する。 技術的には、複数の専門家を用いて特徴表現を学習し、注意機構を通じて特徴ゲーテッドネットワーク(FGN)によって変調される。 高品質な表現を得るために,各専門家がユーザ動作シーケンスをよりよく処理できるように,SPAU(Stacked Parallel Attention Unit)を設計する。 分布の不確実性に対処するために、時系列予測の観点からシナリオ信号のセットを精巧に考案し、FGNに入力し、その出力を各専門家の特徴表現と結合して注意を喚起する。 これにより、シナリオ適応的に特徴表現の混合を取得し、最終的なCTR予測に使用する。 このようにして、各専門家は識別表現パターンを学ぶことができる。 我々の知る限りでは、CTR予測の促進を意識した最初の研究である。 実世界のデータセットにおける実験結果は、その優越性を検証する。 オンラインA/Bテストでは、PASEはCTRで3.58%、IPVで5.94%、通常日で3.93%、そして6.57%の大幅な上昇を示している。

Promotions are becoming more important and prevalent in e-commerce platforms to attract customers and boost sales. However, Click-Through Rate (CTR) prediction methods in recommender systems are not able to handle such circumstances well since: 1) they can't generalize well to serving because the online data distribution is uncertain due to the potentially upcoming promotions; 2) without paying enough attention to scenario signals, they are incapable of learning different feature representation patterns which coexist in each scenario. In this work, we propose Scenario Adaptive Mixture-of-Experts (SAME), a simple yet effective model that serves both promotion and normal scenarios. Technically, it follows the idea of Mixture-of-Experts by adopting multiple experts to learn feature representations, which are modulated by a Feature Gated Network (FGN) via an attention mechanism. To obtain high-quality representations, we design a Stacked Parallel Attention Unit (SPAU) to help each expert better handle user behavior sequence. To tackle the distribution uncertainty, a set of scenario signals are elaborately devised from a perspective of time series prediction and fed into the FGN, whose output is concatenated with feature representation from each expert to learn the attention. Accordingly, a mixture of the feature representations is obtained scenario-adaptively and used for the final CTR prediction. In this way, each expert can learn a discriminative representation pattern. To the best of our knowledge, this is the first study for promotion-aware CTR prediction. Experimental results on real-world datasets validate the superiority of SAME. Online A/B test also shows SAME achieves significant gains of 3.58% on CTR and 5.94% on IPV during promotion periods as well as 3.93% and 6.57% in normal days, respectively.
翻訳日:2021-12-28 17:31:39 公開日:2021-12-27
# 小規模レコメンデーションシナリオにおけるメタラーニングによるコンバージョン率予測

Conversion Rate Prediction via Meta Learning in Small-Scale Recommendation Scenarios ( http://arxiv.org/abs/2112.13753v1 )

ライセンス: Link先を確認
Xiaofeng Pan, Ming Li, Jing Zhang, Keren Yu, Luping Wang, Hong Wen, Chengjun Mao and Bo Cao(参考訳) taobaoやamazonのような大規模プラットフォームとは異なり、小規模レコメンデーションシナリオでのcvrモデルの開発は、深刻なデータ分散変動(ddf)の問題のため、より困難である。 DDFは既存のCVRモデルが有効になるのを防ぐ 1)小さなシナリオで十分なCVRモデルをトレーニングするためには、数ヶ月のデータが必要であり、トレーニングとオンラインサービスの間にかなりの分散不一致が生じます。 2)電子商取引の促進は小規模なシナリオに多大な影響を与え、今後の期間の流通の不確実性をもたらす。 本研究では,メタ学習の観点からメタCVRという新しいCVR手法を提案し,DDF問題に対処する。 まず、機能表現ネットワーク(frn)と出力層からなるベースcvrモデルを精巧に設計し、数ヶ月にわたってサンプルで十分に訓練する。 そして、異なるデータ分布を持つ期間を異なる機会として扱い、対応するサンプルと予め訓練されたfrnを用いて、各機会に正負のプロトタイプを得る。 その後、分散距離ネットワーク(DMN)が考案され、各サンプルとプロトタイプ間の距離メトリクスを計算し、分布の不確実性を緩和する。 最終的に、FRNとDMNの出力を組み込んだEnsemble Prediction Network (EPN)を開発し、最終的なCVR予測を行う。 この段階では、FRNを凍結し、近年のサンプルでDMNとEPNを訓練することにより、分散の相違を効果的に緩和する。 我々の知る限りでは、小規模なレコメンデーションシナリオにおけるDFF問題を対象としたCVR予測の最初の研究である。 MetaCVRとオンラインA/Bテストの優位性を実証する実世界のデータセットの実験結果からも、PCVRでは11.92%、GMVでは8.64%という驚くべき成果が得られた。

Different from large-scale platforms such as Taobao and Amazon, developing CVR models in small-scale recommendation scenarios is more challenging due to the severe Data Distribution Fluctuation (DDF) issue. DDF prevents existing CVR models from being effective since 1) several months of data are needed to train CVR models sufficiently in small scenarios, leading to considerable distribution discrepancy between training and online serving; and 2) e-commerce promotions have much more significant impacts on small scenarios, leading to distribution uncertainty of the upcoming time period. In this work, we propose a novel CVR method named MetaCVR from a perspective of meta learning to address the DDF issue. Firstly, a base CVR model which consists of a Feature Representation Network (FRN) and output layers is elaborately designed and trained sufficiently with samples across months. Then we treat time periods with different data distributions as different occasions and obtain positive and negative prototypes for each occasion using the corresponding samples and the pre-trained FRN. Subsequently, a Distance Metric Network (DMN) is devised to calculate the distance metrics between each sample and all prototypes to facilitate mitigating the distribution uncertainty. At last, we develop an Ensemble Prediction Network (EPN) which incorporates the output of FRN and DMN to make the final CVR prediction. In this stage, we freeze the FRN and train the DMN and EPN with samples from recent time period, therefore effectively easing the distribution discrepancy. To the best of our knowledge, this is the first study of CVR prediction targeting the DDF issue in small-scale recommendation scenarios. Experimental results on real-world datasets validate the superiority of our MetaCVR and online A/B test also shows our model achieves impressive gains of 11.92% on PCVR and 8.64% on GMV.
翻訳日:2021-12-28 17:31:07 公開日:2021-12-27
# 最悪の場合の予測誤差に対する高速アルゴリズムと定数下限

Faster Algorithms and Constant Lower Bounds for the Worst-Case Expected Error ( http://arxiv.org/abs/2112.13832v1 )

ライセンス: Link先を確認
Jonah Brown-Cohen(参考訳) データ値の分布的仮定を伴わない統計的推定法の研究が最近, chen, valiant, valiant (neurips 2020) によって紹介された。 このフレームワークでは、最悪のエラーを最小限に抑える推定器を設計することが目標である。 ここでは、一部の個体群から既知のランダム化データ収集プロセスが期待され、個体群の各要素に対応するデータ値が最悪のケースであると仮定する。 Chen, Valiant および Valiant は、データ値が $\ell_{\infty}$-正規化されているとき、半線形推定器の自然クラスにおける最適値の係数 $\frac{\pi}{2}$ 内の最悪の予測誤差の平均に対する推定器を計算する多項式時間アルゴリズムが存在することを示した。 しかし、それらのアルゴリズムは、正の半定値行列の制約付き集合に対して幾分複雑な凸目的関数を最適化することに基づいているため、入力における多項式時間以上の明示的なランタイム保証は持たない。 本稿では,オンライン凸最適化に基づく最適半線形推定器の近似アルゴリズムの設計を行う。 データ値が$\ell_{\infty}$-正規化されている場合、我々のアルゴリズムは標準SDPの列を反復的に解くことによって$\frac{\pi}{2}$-近似を達成する。 データ値が$\ell_2$正規化されるとき、このアルゴリズムは行列列の最上位固有ベクトルを反復計算し、乗法近似係数を失うことはない。 データ収集プロセスで満たされた場合、平均の任意の(必ずしも半線形ではない)推定器が常に最悪のケース予測誤差を持つことを示す単純な組合せ条件を述べることで、これらの肯定的な結果を補完する。

The study of statistical estimation without distributional assumptions on data values, but with knowledge of data collection methods was recently introduced by Chen, Valiant and Valiant (NeurIPS 2020). In this framework, the goal is to design estimators that minimize the worst-case expected error. Here the expectation is over a known, randomized data collection process from some population, and the data values corresponding to each element of the population are assumed to be worst-case. Chen, Valiant and Valiant show that, when data values are $\ell_{\infty}$-normalized, there is a polynomial time algorithm to compute an estimator for the mean with worst-case expected error that is within a factor $\frac{\pi}{2}$ of the optimum within the natural class of semilinear estimators. However, their algorithm is based on optimizing a somewhat complex concave objective function over a constrained set of positive semidefinite matrices, and thus does not come with explicit runtime guarantees beyond being polynomial time in the input. In this paper we design provably efficient algorithms for approximating the optimal semilinear estimator based on online convex optimization. In the setting where data values are $\ell_{\infty}$-normalized, our algorithm achieves a $\frac{\pi}{2}$-approximation by iteratively solving a sequence of standard SDPs. When data values are $\ell_2$-normalized, our algorithm iteratively computes the top eigenvector of a sequence of matrices, and does not lose any multiplicative approximation factor. We complement these positive results by stating a simple combinatorial condition which, if satisfied by a data collection process, implies that any (not necessarily semilinear) estimator for the mean has constant worst-case expected error.
翻訳日:2021-12-28 17:30:36 公開日:2021-12-27
# (参考訳) MSeg: マルチドメインセマンティックセグメンテーションのための複合データセット

MSeg: A Composite Dataset for Multi-domain Semantic Segmentation ( http://arxiv.org/abs/2112.13762v1 )

ライセンス: CC BY-SA 4.0
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun(参考訳) セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。 構成データセットのナイーブなマージは、一貫性のない分類とアノテーションのプラクティスのためにパフォーマンスが低下する。 我々は分類学を精査し、20万枚以上のオブジェクトマスクを8万枚以上の画像で再現することでピクセルレベルのアノテーションを調整し、1.34年以上のアノテータの努力を要する。 その結果得られた複合データセットは、ドメイン間で効果的に機能し、トレーニング中に見えないデータセットに一般化する単一の意味セグメンテーションモデルのトレーニングを可能にする。 モデルのロバスト性を体系的に評価するベンチマークとしてゼロショットクロスデータセット転送を採用し、MSegトレーニングは、個々のデータセットのトレーニングや、提案されたコントリビューションを伴わないデータセットの単純混合と比較して、よりロバストなモデルを生成することを示す。 MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。 我々は,2020年のロバスト・ビジョン・チャレンジ(RVC)で,このモデルを極端な一般化実験として評価した。 MSegトレーニングセットには、RVCの7つのデータセットのうち3つしか含まれていない。 驚いたことに、私たちのモデルは競争力のあるパフォーマンスを示し、ランキング2位です。 堅牢で効率的、かつ完全なシーン理解という大きな目標にどれほど近いかを評価するため、データセットを使用してインスタンスセグメンテーションとpanopticセグメンテーションモデルをトレーニングすることで、セマンティックセグメンテーションを超えていきます。 さらに,解決法や計算効率など,様々な工学的設計判断や指標についても評価した。 私たちのモデルは、この大きな目標には程遠いが、進歩には総合的な評価が不可欠である。 すべてのモデルとコードをコミュニティと共有しています。

We present MSeg, a composite dataset that unifies semantic segmentation datasets from different domains. A naive merge of the constituent datasets yields poor performance due to inconsistent taxonomies and annotation practices. We reconcile the taxonomies and bring the pixel-level annotations into alignment by relabeling more than 220,000 object masks in more than 80,000 images, requiring more than 1.34 years of collective annotator effort. The resulting composite dataset enables training a single semantic segmentation model that functions effectively across domains and generalizes to datasets that were not seen during training. We adopt zero-shot cross-dataset transfer as a benchmark to systematically evaluate a model's robustness and show that MSeg training yields substantially more robust models in comparison to training on individual datasets or naive mixing of datasets without the presented contributions. A model trained on MSeg ranks first on the WildDash-v1 leaderboard for robust semantic segmentation, with no exposure to WildDash data during training. We evaluate our models in the 2020 Robust Vision Challenge (RVC) as an extreme generalization experiment. MSeg training sets include only three of the seven datasets in the RVC; more importantly, the evaluation taxonomy of RVC is different and more detailed. Surprisingly, our model shows competitive performance and ranks second. To evaluate how close we are to the grand aim of robust, efficient, and complete scene understanding, we go beyond semantic segmentation by training instance segmentation and panoptic segmentation models using our dataset. Moreover, we also evaluate various engineering design decisions and metrics, including resolution and computational efficiency. Although our models are far from this grand aim, our comprehensive evaluation is crucial for progress. We share all the models and code with the community.
翻訳日:2021-12-28 17:23:15 公開日:2021-12-27
# 政策に基づく深層強化学習によるインテリジェントトラヒックライト

Intelligent Traffic Light via Policy-based Deep Reinforcement Learning ( http://arxiv.org/abs/2112.13817v1 )

ライセンス: Link先を確認
Yue Zhu, Mingyu Cai, Chris Schwarz, Junchao Li, and Shaoping Xiao(参考訳) スマートシティのインテリジェントな交通ライトは、交通渋滞を最適に減らすことができる。 本研究では,都市移動シミュレータ上で交通信号の制御エージェントを訓練するために強化学習を利用する。 従来の作業と異なり,政策に基づく深層強化学習手法であるPPO(Proximal Policy Optimization)が,Deep Q Network(DQN)やDouble DQN(DDQN)といった価値ベースの手法以外に利用される。 まず、PPOから得られた最適ポリシーをDQNおよびDDQNから得たポリシーと比較する。 PPOの方針は他の政策よりも優れていることが判明した。 次に,一定のインターバルのトラヒック光位相ではなく,時間間隔の異なる光位相を採用することにより,トラヒックフローを通過させるポリシが向上する。 そして,学習ベースコントローラが頑健であることを示すため,環境と行動障害の影響について検討した。 最終的に、バランスの取れていない交通の流れを考慮し、バランスの取れていない交通シナリオに対してインテリジェントな交通信号が適度に機能することを発見した。

Intelligent traffic lights in smart cities can optimally reduce traffic congestion. In this study, we employ reinforcement learning to train the control agent of a traffic light on a simulator of urban mobility. As a difference from existing works, a policy-based deep reinforcement learning method, Proximal Policy Optimization (PPO), is utilized other than value-based methods such as Deep Q Network (DQN) and Double DQN (DDQN). At first, the obtained optimal policy from PPO is compared to those from DQN and DDQN. It is found that the policy from PPO performs better than the others. Next, instead of the fixed-interval traffic light phases, we adopt the light phases with variable time intervals, which result in a better policy to pass the traffic flow. Then, the effects of environment and action disturbances are studied to demonstrate the learning-based controller is robust. At last, we consider unbalanced traffic flows and find that an intelligent traffic light can perform moderately well for the unbalanced traffic scenarios, although it learns the optimal policy from the balanced traffic scenarios only.
翻訳日:2021-12-28 16:51:26 公開日:2021-12-27
# 一般信念ベースリビジョンの意味的特徴

Semantic Characterizations of General Belief Base Revision ( http://arxiv.org/abs/2112.13557v1 )

ライセンス: Link先を確認
Faiq Miftakhul Falakh, Sebastian Rudolph, Kai Sauerwald(参考訳) The AGM postulates by Alchourr\'on, G\"ardenfors, and Makinson continue to represent a cornerstone in research related to belief change. Katsuno and Mendelzon (K&M) adopted the AGM postulates for changing belief bases and characterized AGM belief base revision in propositional logic over finite signatures. We generalize K&M's approach to the setting of (multiple) base revision in arbitrary Tarskian logics, covering all logics with a classical model-theoretic semantics and hence a wide variety of logics used in knowledge representation and beyond. Our generic formulation applies to various notions of "base" (such as belief sets, arbitrary or finite sets of sentences, or single sentences). The core result is a representation theorem showing a two-way correspondence between AGM base revision operators and certain "assignments": functions mapping belief bases to total - yet not transitive"preference" relations between interpretations. 同時に、AGMの構文独立性の仮定が放棄された場合の相補的な結果を示す。 我々はまた、この結果が(K&Mの原著のように)推移的選好関係を生み出す代入に強化され、構文依存と独立性に応じて、そのような論理に対する2つのさらなる表現定理がもたらされるような全ての論理の特徴づけも提供する。

The AGM postulates by Alchourr\'on, G\"ardenfors, and Makinson continue to represent a cornerstone in research related to belief change. Katsuno and Mendelzon (K&M) adopted the AGM postulates for changing belief bases and characterized AGM belief base revision in propositional logic over finite signatures. We generalize K&M's approach to the setting of (multiple) base revision in arbitrary Tarskian logics, covering all logics with a classical model-theoretic semantics and hence a wide variety of logics used in knowledge representation and beyond. Our generic formulation applies to various notions of "base" (such as belief sets, arbitrary or finite sets of sentences, or single sentences). The core result is a representation theorem showing a two-way correspondence between AGM base revision operators and certain "assignments": functions mapping belief bases to total - yet not transitive - "preference" relations between interpretations. Alongside, we present a companion result for the case when the AGM postulate of syntax-independence is abandoned. We also provide a characterization of all logics for which our result can be strengthened to assignments producing transitive preference relations (as in K&M's original work), giving rise to two more representation theorems for such logics, according to syntax dependence vs. independence.
翻訳日:2021-12-28 16:50:18 公開日:2021-12-27
# (参考訳) 『インドへの旅』:インド語への事前教育語埋め込み

"A Passage to India": Pre-trained Word Embeddings for Indian Languages ( http://arxiv.org/abs/2112.13800v1 )

ライセンス: CC BY 4.0
Kumar Saurav, Kumar Saunack, Diptesh Kanojia, Pushpak Bhattacharyya(参考訳) センセーショナルな単語ベクトルや単語の埋め込みは、機械翻訳(MT)、質問回答(QA)、単語センスの曖昧さ(WSD)、情報検索(IR)といったNLPタスクに不可欠なものになっている。 本稿では,14のインドの言語に複数の単語を埋め込む手法について述べる。 これらすべての言語に対して、viz., assamese, bengali, gujarati, hindi, kannada, konkani, malayalam, marathi, nepali, odiya, punjabi, sanskrit, tamil, teluguの埋め込みを単一のリポジトリに配置します。 比較的新しいアプローチでは、コンテキストへのキャタリング(BERT、ELMoなど)が大幅に改善されているが、使用可能なモデルを生成するには大量のリソースが必要である。 文脈的手法と非文脈的手法の両方を用いて事前学習した埋め込みを生成する。 また、MUSEとXLMを使って、上記の言語のすべてのペアに対して言語間埋め込みをトレーニングしています。 組込みの有効性を示すために、これらすべての言語に対するxpos、upos、nerタスクの組込みモデルを評価します。 8つの異なるアプローチで合計436モデルをリリースします。 資源制約のあるインド語NLPに役立てることを願っている。 本書の題名は1924年に出版されたE・M・フォースターの有名な小説「インドへの旅」にちなむ。

Dense word vectors or 'word embeddings' which encode semantic properties of words, have now become integral to NLP tasks like Machine Translation (MT), Question Answering (QA), Word Sense Disambiguation (WSD), and Information Retrieval (IR). In this paper, we use various existing approaches to create multiple word embeddings for 14 Indian languages. We place these embeddings for all these languages, viz., Assamese, Bengali, Gujarati, Hindi, Kannada, Konkani, Malayalam, Marathi, Nepali, Odiya, Punjabi, Sanskrit, Tamil, and Telugu in a single repository. Relatively newer approaches that emphasize catering to context (BERT, ELMo, etc.) have shown significant improvements, but require a large amount of resources to generate usable models. We release pre-trained embeddings generated using both contextual and non-contextual approaches. We also use MUSE and XLM to train cross-lingual embeddings for all pairs of the aforementioned languages. To show the efficacy of our embeddings, we evaluate our embedding models on XPOS, UPOS and NER tasks for all these languages. We release a total of 436 models using 8 different approaches. We hope they are useful for the resource-constrained Indian language NLP. The title of this paper refers to the famous novel 'A Passage to India' by E.M. Forster, published initially in 1924.
翻訳日:2021-12-28 16:44:20 公開日:2021-12-27
# 局所スムースネス推定による深部画像マッチングの改善

Improving Deep Image Matting Via Local Smoothness Assumption ( http://arxiv.org/abs/2112.13809v1 )

ライセンス: Link先を確認
Rui Wang and Jun Xie and Jiacheng Han and Dezhen Qi(参考訳) 自然な画像マッチングは、基本的で挑戦的なコンピュータビジョンタスクである。 従来、問題は制約の少ない問題として定式化されていた。 問題は正しくないため、その問題をうまく提示するためには、データ分布に関するさらなる仮定が必要である。 古典的なマットング法では、前景と背景色における局所的な滑らかさの仮定が一般的である。 しかし,このような仮定は,深層学習に基づくマットリングでは体系的に考慮されなかった。 本研究では,深部画像マッチングモデルの改善に役立つ2つの局所滑らか性仮定について考察する。 局所的な滑らかさの仮定に基づいて、深部画像マッチングモデルの性能を大幅に向上させることができるトレーニングセットの洗練、色増色、バックプロパゲーションの3つの手法を提案する。 提案アルゴリズムの有効性を検討する実験を行った。 実験の結果,提案手法は既存手法と比較して良好な性能を示した。

Natural image matting is a fundamental and challenging computer vision task. Conventionally, the problem is formulated as an underconstrained problem. Since the problem is ill-posed, further assumptions on the data distribution are required to make the problem well-posed. For classical matting methods, a commonly adopted assumption is the local smoothness assumption on foreground and background colors. However, the use of such assumptions was not systematically considered for deep learning based matting methods. In this work, we consider two local smoothness assumptions which can help improving deep image matting models. Based on the local smoothness assumptions, we propose three techniques, i.e., training set refinement, color augmentation and backpropagating refinement, which can improve the performance of the deep image matting model significantly. We conduct experiments to examine the effectiveness of the proposed algorithm. The experimental results show that the proposed method has favorable performance compared with existing matting methods.
翻訳日:2021-12-28 16:33:01 公開日:2021-12-27
# 因果推論のための深層治療適応ネットワーク

Deep Treatment-Adaptive Network for Causal Inference ( http://arxiv.org/abs/2112.13502v1 )

ライセンス: Link先を確認
Qian Li, Zhichao Wang, Shaowu Liu, Gang Li, Guandong Xu(参考訳) 因果推論は、様々な領域における意思決定に利益をもたらす治療効果(すなわち、結果に対する治療の因果効果)を推定することができる。 この研究の基本的な課題は、観察データにおける治療課題の偏りである。 因果推論に関する観察的研究の妥当性を高めるために,最先端の表現ベース手法が治療効果推定の優れた性能を示している。 ほとんどの表現に基づく方法は、すべての観察された共変体が前処理(すなわち、治療の影響を受けない)であると仮定し、これらの観察された共変体から平衡表現を学び、治療効果を推定する。 残念なことに、この仮定は実際には厳格すぎるため、一部の共変種は治療の介入(つまり後処理)によって変更される。 対照的に、変化しない共変量から学習した平衡表現は、処理効果の推定をバイアスする。

Causal inference is capable of estimating the treatment effect (i.e., the causal effect of treatment on the outcome) to benefit the decision making in various domains. One fundamental challenge in this research is that the treatment assignment bias in observational data. To increase the validity of observational studies on causal inference, representation based methods as the state-of-the-art have demonstrated the superior performance of treatment effect estimation. Most representation based methods assume all observed covariates are pre-treatment (i.e., not affected by the treatment), and learn a balanced representation from these observed covariates for estimating treatment effect. Unfortunately, this assumption is often too strict a requirement in practice, as some covariates are changed by doing an intervention on treatment (i.e., post-treatment). By contrast, the balanced representation learned from unchanged covariates thus biases the treatment effect estimation.
翻訳日:2021-12-28 16:26:03 公開日:2021-12-27
# リプシッツ制約下での一変数学習モデル

Sparsest Univariate Learning Models Under Lipschitz Constraint ( http://arxiv.org/abs/2112.13542v1 )

ライセンス: Link先を確認
Shayan Aziznejad, Thomas Debarre, Michael Unser(参考訳) 予測誤差の最小化に加えて、回帰スキームの最も望ましい2つの特性は安定性と解釈性である。 これらの原理に基づいて、1次元回帰問題に対する連続領域の定式化を提案する。 最初のアプローチでは、リプシッツ定数を正規化器として使用し、学習したマッピングの全体的なロバスト性が暗黙的にチューニングされます。 第2のアプローチでは、ユーザ定義上界を用いて明示的にリプシッツ定数を制御し、スパーシティープロモーティング正規化器を用いてより単純な(そしてより解釈可能な)ソリューションを選択する。 後者の定式化の理論的な研究は、リプシッツに制約された2層単層ニューラルネットワークの強化線形単位(ReLU)アクティベーションと重み減衰のトレーニングにより、その等価性によって部分的に動機づけられる。 代表者定理の証明により、両問題とも連続かつピースワイズ線形(CPWL)関数である大域最小化を許容することを示した。 さらに,最小の線形領域を持つCPWLマッピングという,各問題の最も広い解を求める効率的なアルゴリズムを提案する。 最後に, 定式化の結果を数値的に示す。

Beside the minimization of the prediction error, two of the most desirable properties of a regression scheme are stability and interpretability. Driven by these principles, we propose continuous-domain formulations for one-dimensional regression problems. In our first approach, we use the Lipschitz constant as a regularizer, which results in an implicit tuning of the overall robustness of the learned mapping. In our second approach, we control the Lipschitz constant explicitly using a user-defined upper-bound and make use of a sparsity-promoting regularizer to favor simpler (and, hence, more interpretable) solutions. The theoretical study of the latter formulation is motivated in part by its equivalence, which we prove, with the training of a Lipschitz-constrained two-layer univariate neural network with rectified linear unit (ReLU) activations and weight decay. By proving representer theorems, we show that both problems admit global minimizers that are continuous and piecewise-linear (CPWL) functions. Moreover, we propose efficient algorithms that find the sparsest solution of each problem: the CPWL mapping with the least number of linear regions. Finally, we illustrate numerically the outcome of our formulations.
翻訳日:2021-12-28 16:25:48 公開日:2021-12-27
# ホモフィリーとヘテロフィリーの適応的伝播機構を持つ強力なグラフコンボリューティアルネットワーク

Powerful Graph Convolutioal Networks with Adaptive Propagation Mechanism for Homophily and Heterophily ( http://arxiv.org/abs/2112.13562v1 )

ライセンス: Link先を確認
Tao Wang and Rui Wang and Di Jin and Dongxiao He and Yuxiao Huang(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフ構造化データ処理において大きな影響力を持つため、様々な分野に広く応用されている。 典型的なGCNとその変種はホモフィリーな仮定の下で作用する(すなわち、同じクラスを持つノードは互いに接続する傾向がある)一方で、多くの現実世界のネットワークに存在するヘテロフィリーを無視している(すなわち、異なるクラスを持つノードはエッジを形成する傾向がある)。 既存の手法では、主に高階の近傍を集約したり、直接表現を混ぜたりすることでヘテロフィリを扱う。 しかし、これらの手法は、ホモフィリーな仮定の下で機能する伝播機構(GCNの基本的な部分)を変えなかった。 これにより、異なるクラスからノードの表現を区別することが困難になる。 この問題に対処するために,ノード間のホモフィリーやヘテロフィリーに応じて自動的に伝搬と凝集の過程を変更できる新しい伝搬機構を設計する。 伝搬過程を適応的に学習するために,位相情報と属性情報に基づいて学習したノードペア間のホモフィリディエンスの測定を2つ導入する。 次に、学習可能なホモフィリ次数をグラフ畳み込みフレームワークに組み込み、エンドツーエンドのスキーマでトレーニングし、ホモフィリの仮定を超えることができるようにする。 さらに重要なことは、我々のモデルは、そのホモフィリー次数に応じてノード間の表現の類似性を制限できることを理論的に証明する。 7つの実世界のデータセットの実験により、この新しいアプローチはヘテロフィリーまたは低ホモフィリーの下で最先端の手法よりも優れ、ホモフィリーの下での競争性能が向上することを示した。

Graph Convolutional Networks (GCNs) have been widely applied in various fields due to their significant power on processing graph-structured data. Typical GCN and its variants work under a homophily assumption (i.e., nodes with same class are prone to connect to each other), while ignoring the heterophily which exists in many real-world networks (i.e., nodes with different classes tend to form edges). Existing methods deal with heterophily by mainly aggregating higher-order neighborhoods or combing the immediate representations, which leads to noise and irrelevant information in the result. But these methods did not change the propagation mechanism which works under homophily assumption (that is a fundamental part of GCNs). This makes it difficult to distinguish the representation of nodes from different classes. To address this problem, in this paper we design a novel propagation mechanism, which can automatically change the propagation and aggregation process according to homophily or heterophily between node pairs. To adaptively learn the propagation process, we introduce two measurements of homophily degree between node pairs, which is learned based on topological and attribute information, respectively. Then we incorporate the learnable homophily degree into the graph convolution framework, which is trained in an end-to-end schema, enabling it to go beyond the assumption of homophily. More importantly, we theoretically prove that our model can constrain the similarity of representations between nodes according to their homophily degree. Experiments on seven real-world datasets demonstrate that this new approach outperforms the state-of-the-art methods under heterophily or low homophily, and gains competitive performance under homophily.
翻訳日:2021-12-28 16:25:27 公開日:2021-12-27
# 異種材料における高速2次元き裂進展予測の確率モデル

A probabilistic model for fast-to-evaluate 2D crack path prediction in heterogeneous materials ( http://arxiv.org/abs/2112.13578v1 )

ライセンス: Link先を確認
Kathleen Pele (ECM, MIST), Jean Baccou (IRSN, MIST), Lo\"ic Daridon (MIST, M\'eTICE), Jacques Liandrat (ECM, I2M), Thibaut Le Gouic (ECM, I2M), Yann Monerie (MIST, M\'eTICE), Fr\'ed\'eric P\'eral\`es (IRSN, MIST)(参考訳) 本稿では, コンクリート状構造物における2次元き裂経路予測のための新しい高速評価モデルの構築に着目する。 モデルはマルコフ連鎖モデルを用いて選択されたセグメンテーション点を持つ断片的線形き裂経路を生成する。 マルコフ連鎖核は機械的関心の局所指標を含み、そのパラメータはxperと呼ばれる凝集体積有限要素解法を用いてクレーキングの数値フルフィールド2次元シミュレーションから学習される。 結果として得られたモデルは、XPERのシミュレーションと比較してCPU時間を大幅に改善した。

This paper is devoted to the construction of a new fast-to-evaluate model for the prediction of 2D crack paths in concrete-like microstructures. The model generates piecewise linear cracks paths with segmentation points selected using a Markov chain model. The Markov chain kernel involves local indicators of mechanical interest and its parameters are learnt from numerical full-field 2D simulations of craking using a cohesive-volumetric finite element solver called XPER. The resulting model exhibits a drastic improvement of CPU time in comparison to simulations from XPER.
翻訳日:2021-12-28 16:24:57 公開日:2021-12-27
# (参考訳) 乳幼児の脳年齢分類:2D CNNは小データセットで3D CNNより優れている

Infant Brain Age Classification: 2D CNN Outperforms 3D CNN in Small Dataset ( http://arxiv.org/abs/2112.13811v1 )

ライセンス: CC BY 4.0
Mahdieh Shabanian, Markus Wenzel, John P. DeVincenzo(参考訳) 脳が正常に発達しているかどうかを決定することは、小児神経放射線学と神経学の重要な要素である。 乳児の脳磁気共鳴画像(MRI)は、単純なミエリン化以上の発達パターンを示す。 放射線学者は、ミエリン化パターン、脳形態、大きさの特徴を年齢に合った脳の成熟度を決定するために用いているが、これは小児神経放射線学における長年の経験を必要とする。 標準的な基準がないため、3歳以前のmriから脳の構造成熟度を視覚的に推定することは、オブザーバ間およびオブザーバ内変動によって支配されている。 より客観的な脳発達年齢の推定は、医師がより早くより確実に多くの神経発達状態や疾患を特定するのに役立つ。 しかし、そのようなデータを得るのは自然に困難であり、観察者は評価の主観性のために金本位制の真理をあまり持っていない。 本研究では,t1重み付き,t2重み付き,およびプロトン密度 (pd) の融合を訓練した2次元および3次元畳み込みニューラルネットワーク (cnn) を,出生から3歳までの4つの年齢グループに分けた84名の被験者の重み付きシーケンスに適用する。 中央軸厚スラブ上に2次元CNNを用いて0.90[95% CI:0.86-0.94]の精度を実現した。 本稿では,3次元ネットワークとの比較を行い,その性能を1つのシーケンス(T1w)で比較した。 結論として、3D CNNアプローチの理論的優位性にもかかわらず、限られたデータ状況では、そのようなアプローチはより単純なアーキテクチャよりも劣っている。 コードはhttps://github.com/shabanian2018/Age_MRI-Classificationにある。

Determining if the brain is developing normally is a key component of pediatric neuroradiology and neurology. Brain magnetic resonance imaging (MRI) of infants demonstrates a specific pattern of development beyond simply myelination. While radiologists have used myelination patterns, brain morphology and size characteristics to determine age-adequate brain maturity, this requires years of experience in pediatric neuroradiology. With no standardized criteria, visual estimation of the structural maturity of the brain from MRI before three years of age remains dominated by inter-observer and intra-observer variability. A more objective estimation of brain developmental age could help physicians identify many neurodevelopmental conditions and diseases earlier and more reliably. Such data, however, is naturally hard to obtain, and the observer ground truth not much of a gold standard due to subjectivity of assessment. In this light, we explore the general feasibility to tackle this task, and the utility of different approaches, including two- and three-dimensional convolutional neural networks (CNN) that were trained on a fusion of T1-weighted, T2-weighted, and proton density (PD) weighted sequences from 84 individual subjects divided into four age groups from birth to 3 years of age. In the best performing approach, we achieved an accuracy of 0.90 [95% CI:0.86-0.94] using a 2D CNN on a central axial thick slab. We discuss the comparison to 3D networks and show how the performance compares to the use of only one sequence (T1w). In conclusion, despite the theoretical superiority of 3D CNN approaches, in limited-data situations, such approaches are inferior to simpler architectures. The code can be found in https://github.com/shabanian2018/Age_MRI-Classification
翻訳日:2021-12-28 16:22:29 公開日:2021-12-27
# MSHT : 膵癌のROSE画像解析のための多段階ハイブリッドトランス

MSHT: Multi-stage Hybrid Transformer for the ROSE Image Analysis of Pancreatic Cancer ( http://arxiv.org/abs/2112.13513v1 )

ライセンス: Link先を確認
Tianyi Zhang, Yunlu Feng, Yu Zhao, Guangda Fan, Aiming Yang, Shangqin Lyu, Peng Zhang, Fan Song, Chenbin Ma, Yangyang Sun, Youdan Feng, and Guanglei Zhang(参考訳) 膵癌は世界で最も悪性ながんの1つであり、非常に高い死亡率で急速に悪化する。 迅速オンサイト評価 (ROSE) 技術は, 早期の染色細胞病理像を現場病理医に即時解析することで, そのワークフローを革新し, 時間的圧迫による診断を高速化する。 しかし、ROSEの診断範囲の拡大は、経験豊富な病理医の欠如によって妨げられている。 この問題を解決するために、我々は、自動化ワークフローを実現するためのハイブリッドな高性能ディープラーニングモデルを提案する。 まず,多段ハイブリッド設計によるトランスフォーマーブロックの導入により,畳み込みニューラルネットワーク(cnn)が生成する空間的特徴により,トランスフォーマーグローバルモデリングが大幅に向上した。 この設計は、cnnの帰納的バイアスとトランスフォーマの洗練されたグローバルモデリング能力との強固さを組み合わせたものである。 4240個のROSE画像のデータセットを収集し、この未探索領域における手法を評価する。 提案する多段ハイブリッド変圧器 (msht) は分類精度95.68%を達成し, 最新モデルよりも顕著に高い。 解釈可能性の必要性に直面したMSHTは、より正確な注意領域を持つ相手よりも優れている。 以上の結果から,MSHTは前例のない画像スケールでがん検体を正確に識別し,自動判定システムの構築と臨床実践におけるROSEの拡張を可能にする基盤を築き上げた。 コードとレコードは、https://github.com/sagizty/Multi-Stage-Hybrid-Transformerで入手できる。

Pancreatic cancer is one of the most malignant cancers in the world, which deteriorates rapidly with very high mortality. The rapid on-site evaluation (ROSE) technique innovates the workflow by immediately analyzing the fast stained cytopathological images with on-site pathologists, which enables faster diagnosis in this time-pressured process. However, the wider expansion of ROSE diagnosis has been hindered by the lack of experienced pathologists. To overcome this problem, we propose a hybrid high-performance deep learning model to enable the automated workflow, thus freeing the occupation of the valuable time of pathologists. By firstly introducing the Transformer block into this field with our particular multi-stage hybrid design, the spatial features generated by the convolutional neural network (CNN) significantly enhance the Transformer global modeling. Turning multi-stage spatial features as global attention guidance, this design combines the robustness from the inductive bias of CNN with the sophisticated global modeling power of Transformer. A dataset of 4240 ROSE images is collected to evaluate the method in this unexplored field. The proposed multi-stage hybrid Transformer (MSHT) achieves 95.68% in classification accuracy, which is distinctively higher than the state-of-the-art models. Facing the need for interpretability, MSHT outperforms its counterparts with more accurate attention regions. The results demonstrate that the MSHT can distinguish cancer samples accurately at an unprecedented image scale, laying the foundation for deploying automatic decision systems and enabling the expansion of ROSE in clinical practice. The code and records are available at: https://github.com/sagizty/Multi-Stage-Hybrid-Transformer.
翻訳日:2021-12-28 16:12:21 公開日:2021-12-27
# グラフ協調推論

Graph Collaborative Reasoning ( http://arxiv.org/abs/2112.13705v1 )

ライセンス: Link先を確認
Hanxiong Chen, Yunqi Li, Shaoyun Shi, Shuchang Liu, He Zhu and Yongfeng Zhang(参考訳) グラフはエンティティ間の関係情報を表現し、グラフ構造は検索、レコメンデーション、質問応答など多くの知的なタスクで広く使われている。 しかし、実際にはグラフ構造データの多くは不完全性に苦しむため、リンク予測は重要な研究課題となる。 リンク予測には多くのモデルが提案されているが,(1) 関連リンクからの豊富な情報を使わずにリンクを個別にモデル化する手法がほとんどであり,(2) 既存のモデルは連想学習に基づいて設計されており,考察されていない。 本稿では,グラフの論理的推論の観点から,グラフ上の関係推論に隣接リンク情報を利用するグラフ協調推論(GCR)を提案する。 グラフ構造を論理式に変換するための単純なアプローチを提供し、リンク予測タスクをニューラルネットワークの推論問題に変換することができる。 論理的制約付きニューラルネットワークを用いて、論理的表現に従ってネットワークアーキテクチャを構築し、モデルパラメータを効率的に学習し、統一アーキテクチャにおける微分可能な学習と記号的推論を橋渡しする。 本研究の有効性を示すために,一般的なベンチマークデータセットに基づくリンク予測やレコメンデーションなどのグラフ関連タスクの実験を行い,グラフコラボレーティブ推論手法により最先端のパフォーマンスを実現する。

Graphs can represent relational information among entities and graph structures are widely used in many intelligent tasks such as search, recommendation, and question answering. However, most of the graph-structured data in practice suffers from incompleteness, and thus link prediction becomes an important research problem. Though many models are proposed for link prediction, the following two problems are still less explored: (1) Most methods model each link independently without making use of the rich information from relevant links, and (2) existing models are mostly designed based on associative learning and do not take reasoning into consideration. With these concerns, in this paper, we propose Graph Collaborative Reasoning (GCR), which can use the neighbor link information for relational reasoning on graphs from logical reasoning perspectives. We provide a simple approach to translate a graph structure into logical expressions, so that the link prediction task can be converted into a neural logic reasoning problem. We apply logical constrained neural modules to build the network architecture according to the logical expression and use back propagation to efficiently learn the model parameters, which bridges differentiable learning and symbolic reasoning in a unified architecture. To show the effectiveness of our work, we conduct experiments on graph-related tasks such as link prediction and recommendation based on commonly used benchmark datasets, and our graph collaborative reasoning approach achieves state-of-the-art performance.
翻訳日:2021-12-28 16:11:51 公開日:2021-12-27
# 対話的意思決定の統計的複雑性

The Statistical Complexity of Interactive Decision Making ( http://arxiv.org/abs/2112.13487v1 )

ライセンス: Link先を確認
Dylan J. Foster and Sham M. Kakade and Jian Qian and Alexander Rakhlin(参考訳) バンディット問題から強化学習まで,インタラクティブな学習と意思決定における基本的な課題は,サンプル効率が高く適応的な学習アルゴリズムを提供することである。 この問題は、学習の統計的複雑さを管理するよく知られた複雑性尺度(VC次元やラデマチャー複雑性など)が存在する、最適(教師付き)統計学習という古典的な問題に類似している。 しかし,対話型学習の統計的複雑性を特徴付けることは,問題に適応性があることから,かなり困難である。 この研究の主な結果は、サンプル効率の良い対話型学習に必要かつ十分であることが証明された、複雑性尺度、決定・推定係数を提供する。 特に、1) 対話的な意思決定問題に対する最適後悔の限界を低くし、決定推定係数を基本的な限界として確立する。 2. 統合されたアルゴリズム設計原則である推定決定(E2D)は、教師付き推定のための任意のアルゴリズムを意思決定のためのオンラインアルゴリズムに変換する。 E2Dは、我々の下界と一致する残差境界に達し、決定推定係数によって特徴づけられる最適なサンプル効率学習を実現する。 これらの結果は,対話型意思決定における学習可能性の理論を構成する。 強化学習設定に適用すると、決定推定係数は本質的に既存のハードネス結果と下限値を回復する。 より広くは、このアプローチは古典的なル・カム理論の統計的推定における決定論的類似と見なすことができる。

A fundamental challenge in interactive learning and decision making, ranging from bandit problems to reinforcement learning, is to provide sample-efficient, adaptive learning algorithms that achieve near-optimal regret. This question is analogous to the classical problem of optimal (supervised) statistical learning, where there are well-known complexity measures (e.g., VC dimension and Rademacher complexity) that govern the statistical complexity of learning. However, characterizing the statistical complexity of interactive learning is substantially more challenging due to the adaptive nature of the problem. The main result of this work provides a complexity measure, the Decision-Estimation Coefficient, that is proven to be both necessary and sufficient for sample-efficient interactive learning. In particular, we provide: 1. a lower bound on the optimal regret for any interactive decision making problem, establishing the Decision-Estimation Coefficient as a fundamental limit. 2. a unified algorithm design principle, Estimation-to-Decisions (E2D), which transforms any algorithm for supervised estimation into an online algorithm for decision making. E2D attains a regret bound matching our lower bound, thereby achieving optimal sample-efficient learning as characterized by the Decision-Estimation Coefficient. Taken together, these results constitute a theory of learnability for interactive decision making. When applied to reinforcement learning settings, the Decision-Estimation Coefficient recovers essentially all existing hardness results and lower bounds. More broadly, the approach can be viewed as a decision-theoretic analogue of the classical Le Cam theory of statistical estimation; it also unifies a number of existing approaches -- both Bayesian and frequentist.
翻訳日:2021-12-28 16:11:28 公開日:2021-12-27
# 中国語学習者の中国語/i/から一般アメリカ英語への音素移動 : 知覚と生産実験からの証拠

Chinese Learners' Phonetic Transfer of /i/ from Mandarin Chinese to General American English: Evidence from Perception and Production Experiments ( http://arxiv.org/abs/2112.13571v1 )

ライセンス: Link先を確認
Lintao Chen(参考訳) 1950年代にコントラスト分析 (Contrastive Analysis, CA) が開発されて以来、言語学者は第二言語習得における母語の影響を体系的に探求し始めている。 この現象は後に「言語伝達」と定義される。 本論文は,中国語学習者による英語母音/i/とそのラックスの習得に係わる伝達現象に着目し,音素レベルでの言語伝達について述べる。 先進的な中国語学習者(ELL)が/i/とその語彙を正確に区別できるかどうかを判断し、それらを正確に英語で発音することで、中国語のELLの言語移行をさらに研究するための参考となる。 まず,母音/i/とlaxを区別する学習者の知覚能力について検討し,次に音素伝達の効果について検討した。 これら2つの目的を達成するために知覚試験と生産試験が用いられた。 両試験は12名の中国人EL、男性6名、女性6名によって完了した。 その結果、男女ともに意識的に/i/とLaxの区別が可能であった。 すべての参加者は発音に否定的な音韻伝達を経験する徴候を持っているが、現在のデータは、英語の単語における女性の前ラックス母音獲得に対する音韻移動の影響を決定的に反映していない。

Ever since the development of Contrastive Analysis (CA) in the 1950s, which focuses on comparing and contrasting two language systems, linguists have started to systematically explore the influence of the mother tongue on acquiring a second language. This phenomenon is later defined as "language transfer". The current paper concerns language transfer at the phonetic level and concentrates on the transfer phenomenon existing in advanced-level Chinese learners' acquisition of English vowels /i/ and its lax counterpart. By determining whether advanced-level Chinese English-language learners (ELLs) can accurately distinguish between /i/ and its lax counterpart, and pronounce them in English words precisely, this paper serves as a reference for further studying Chinese ELLs' language transfer. Two objectives were to be met: firstly, learners' perceptual ability to distinguish between vowels /i/ and its lax counterpart should be examined; and secondly, the effect of the phonetic transfer should be determined. A perception test and a production test were used to attain these two objectives. Both tests were completed by 12 advanced-level Chinese ELLs, six males and six females. Results indicate that both male and female participants could consciously distinguish between /i/ and its lax counterpart. All participants have signs of experiencing negative phonetic transfer in their pronunciation, except that the current data do not decisively reflect an impact of the phonetic transfer on female ELLs' acquisition of the high front lax vowel in English words.
翻訳日:2021-12-28 16:08:28 公開日:2021-12-27
# CUGE: 中国語理解と生成評価ベンチマーク

CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark ( http://arxiv.org/abs/2112.13610v1 )

ライセンス: Link先を確認
Yuan Yao, Qingxiu Dong, Jian Guan, Boxi Cao, Zhengyan Zhang, Chaojun Xiao, Xiaozhi Wang, Fanchao Qi, Junwei Bao, Jinran Nie, Zheni Zeng, Yuxian Gu, Kun Zhou, Xuancheng Huang, Wenhao Li, Shuhuai Ren, Jinliang Lu, Chengqiang Xu, Huadong Wang, Guoyang Zeng, Zile Zhou, Jiajun Zhang, Juanzi Li, Minlie Huang, Rui Yan, Xiaodong He, Xiaojun Wan, Xin Zhao, Xu Sun, Yang Liu, Zhiyuan Liu, Xianpei Han, Erhong Yang, Zhifang Sui, Maosong Sun(参考訳) 汎用言語インテリジェンスの実現は、標準評価ベンチマークが基本的で指針となる自然言語処理の長年の目標である。 汎用言語インテリジェンス評価には,ベンチマーク自体を包括的かつ体系的にする必要がある。 この目的のために,中国における言語理解・生成評価ベンチマークCUGEを提案する。(1)階層型ベンチマークフレームワークでは,データセットを主に選択し,言語能力-タスク-データセット階層で整理する。 2)マルチレベルのスコアリング戦略では,階層的な枠組みに基づいて異なるレベルのモデル性能が提供される。 CUGEを容易にするために、フレキシブルモデル判定基準をサポートするためにカスタマイズ可能なパブリックリーダーボードを提供する。 代表的な事前学習言語モデルの評価結果は、汎用言語インテリジェンスに向けた改善の余地が十分にあることを示している。 CUGEはcuge.baai.ac.cnで公開されている。

Realizing general-purpose language intelligence has been a longstanding goal for natural language processing, where standard evaluation benchmarks play a fundamental and guiding role. We argue that for general-purpose language intelligence evaluation, the benchmark itself needs to be comprehensive and systematic. To this end, we propose CUGE, a Chinese Language Understanding and Generation Evaluation benchmark with the following features: (1) Hierarchical benchmark framework, where datasets are principally selected and organized with a language capability-task-dataset hierarchy. (2) Multi-level scoring strategy, where different levels of model performance are provided based on the hierarchical framework. To facilitate CUGE, we provide a public leaderboard that can be customized to support flexible model judging criteria. Evaluation results on representative pre-trained language models indicate ample room for improvement towards general-purpose language intelligence. CUGE is publicly available at cuge.baai.ac.cn.
翻訳日:2021-12-28 16:08:05 公開日:2021-12-27
# パラメータ微分に基づく多言語ニューラルマシン翻訳

Parameter Differentiation based Multilingual Neural Machine Translation ( http://arxiv.org/abs/2112.13619v1 )

ライセンス: Link先を確認
Qian Wang and Jiajun Zhang(参考訳) MNMT(Multilingual Neural Machine Translation)は、複数の言語を単一のモデルで翻訳することを目的としており、共通のパラメータを持つ異なる言語間で効果的な知識伝達が成功している。 しかし、どのパラメータを共有すべきか、どのパラメータをタスク固有にする必要があるのかはまだ不明だ。 現在、言語固有のモジュールをヒューリスティックに設計または検索することが一般的であり、最適な構成を見つけるのは難しい。 本稿では,学習中にどのパラメータが言語固有であるべきかをモデルが決定できる,パラメータ分化に基づく新しい手法を提案する。 細胞分化にインスパイアされた本手法の共有パラメータは,動的により特殊な型に分化することができる。 さらに、微分基準をタスク間の勾配類似性として定義する。 したがって、タスク間の勾配が相反するパラメータは言語固有のものが多い。 多言語データセットに対する大規模な実験により,パラメータ共有構成の異なる強力なベースラインを著しく上回ることを示した。 さらに分析した結果,本手法で得られたパラメータ共有構成は,言語的近さとよく相関していることがわかった。

Multilingual neural machine translation (MNMT) aims to translate multiple languages with a single model and has been proved successful thanks to effective knowledge transfer among different languages with shared parameters. However, it is still an open question which parameters should be shared and which ones need to be task-specific. Currently, the common practice is to heuristically design or search language-specific modules, which is difficult to find the optimal configuration. In this paper, we propose a novel parameter differentiation based method that allows the model to determine which parameters should be language-specific during training. Inspired by cellular differentiation, each shared parameter in our method can dynamically differentiate into more specialized types. We further define the differentiation criterion as inter-task gradient similarity. Therefore, parameters with conflicting inter-task gradients are more likely to be language-specific. Extensive experiments on multilingual datasets have demonstrated that our method significantly outperforms various strong baselines with different parameter sharing configurations. Further analyses reveal that the parameter sharing configuration obtained by our method correlates well with the linguistic proximities.
翻訳日:2021-12-28 16:07:51 公開日:2021-12-27
# 非英語質問回答データセットに関する調査

A Survey on non-English Question Answering Dataset ( http://arxiv.org/abs/2112.13634v1 )

ライセンス: Link先を確認
Andreas Chandra, Affandy Fahrizain, Ibrahim, Simon Willyanto Laufried(参考訳) データセットとモデルの質問に答えるリサーチは、研究コミュニティで多くの注目を集めています。 それらの多くは、データセットとモデルに答える独自の質問をリリースしている。 この研究領域では、非常に進歩しています。 この調査の目的は、多くの研究者がリリースした既存のデータセット、特に英語以外のデータセット、研究コードや評価指標などのリソースを認識し、要約し、分析することである。 本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて述べる。

Research in question answering datasets and models has gained a lot of attention in the research community. Many of them release their own question answering datasets as well as the models. There is tremendous progress that we have seen in this area of research. The aim of this survey is to recognize, summarize and analyze the existing datasets that have been released by many researchers, especially in non-English datasets as well as resources such as research code, and evaluation metrics. In this paper, we review question answering datasets that are available in common languages other than English such as French, German, Japanese, Chinese, Arabic, Russian, as well as the multilingual and cross-lingual question-answering datasets.
翻訳日:2021-12-28 16:07:33 公開日:2021-12-27
# Pedagogical Word Recommendation:L2学習者のためのパーソナライズされた語彙獲得のための新しいタスクとデータセット

Pedagogical Word Recommendation: A novel task and dataset on personalized vocabulary acquisition for L2 learners ( http://arxiv.org/abs/2112.13808v1 )

ライセンス: Link先を確認
Jamin Shin, Juneyoung Park(参考訳) 第二言語(L2)を学ぶとき、その非効率さと非効率さで生徒を非難する最も重要だが退屈な要素の1つは語彙習得、またはより単純に記憶する単語である。 それを踏まえて、学習者の語彙知識状態を追跡するパーソナライズされた教育用語彙レコメンデーションシステムは、両方の問題を解決することができるので、大きな学習への影響をもたらすだろう。 そこで本稿では, Pedagogical Word Recommendation (PWR) と呼ばれる新しいタスクのためのデータの提案と公開を行う。 PWRの主な目的は、学習者が既に見た他の単語に基づいて、ある単語を知っているかどうかを予測することである。 そこで我々は,このデータを,標準英語試験(TOEIC)を勉強する1万L2学習者に提供した知能学習システム(ITS)を介して収集する。 その特徴として、生徒は単語ブックを作成するために解決した質問から知らない単語を直接示すことができる。 最後に,探索的データ分析とともに,ニューラルコラボレーティブフィルタリング手法の評価結果を報告し,今後の研究のベースラインとしてのデータセットの効果と有効性について考察する。

When learning a second language (L2), one of the most important but tedious components that often demoralizes students with its ineffectiveness and inefficiency is vocabulary acquisition, or more simply put, memorizing words. In light of such, a personalized and educational vocabulary recommendation system that traces a learner's vocabulary knowledge state would have an immense learning impact as it could resolve both issues. Therefore, in this paper, we propose and release data for a novel task called Pedagogical Word Recommendation (PWR). The main goal of PWR is to predict whether a given learner knows a given word based on other words the learner has already seen. To elaborate, we collect this data via an Intelligent Tutoring System (ITS) that is serviced to ~1M L2 learners who study for the standardized English exam, TOEIC. As a feature of this ITS, students can directly indicate words they do not know from the questions they solved to create wordbooks. Finally, we report the evaluation results of a Neural Collaborative Filtering approach along with an exploratory data analysis and discuss the impact and efficacy of this dataset as a baseline for future studies on this task.
翻訳日:2021-12-28 16:07:22 公開日:2021-12-27
# 大きな言語モデルはスクリプトについて何を学ぶのか?

What do Large Language Models Learn about Scripts? ( http://arxiv.org/abs/2112.13834v1 )

ライセンス: Link先を確認
Abhilasha Sancheti and Rachel Rudinger(参考訳) スクリプト知識(Schank and Abelson, 1975)は、物語の未発表情報を埋めるのに役立つため、言語理解にとって非常に重要であると長年認識されてきた。 しかし、そのような知識は、レポートバイアスによるテキストから手作業で作り出すのが難しく、コストがかかる(Gordon and Van Durme, 2013)。 本研究では,事前学習された生成言語モデル(LM)を通じて,明示的なスクリプト知識が存在するか,アクセス可能であるか,という科学的問題に関心を持つ。 そこで本稿では,自然言語プロンプトの形式でシナリオが与えられたイベントシーケンス記述(ESD)を生成するタスクを紹介する。 ゼロショット探索実験では、生成型LMは、主に省略、無関係、繰り返し、または誤順序のイベントを発生させる。 そこで本研究では,パイプラインベースのスクリプトインダクションフレームワーク (sif) を提案する。 SIFは2段階のフレームワークで、最初の段階で小さなESDの例でLMを微調整する。 第2段階では、目に見えないシナリオのために生成されたESDは、RoBERTaベースのモデルを使用して後処理され、無関係なイベントをフィルタリングし、繰り返しを削除し、時間的に誤ったイベントを順序付けする。 自動的および手動的な評価により、SIFは微調整されたLMに対して実質的な改善(1$-$3$ BLUE)を得ることを示した。 しかし,手動による分析では,スクリプトの知識を誘導する新たな研究の方向性として,改善の余地が十分にあることが示された。

Script Knowledge (Schank and Abelson, 1975) has long been recognized as crucial for language understanding as it can help in filling in unstated information in a narrative. However, such knowledge is expensive to produce manually and difficult to induce from text due to reporting bias (Gordon and Van Durme, 2013). In this work, we are interested in the scientific question of whether explicit script knowledge is present and accessible through pre-trained generative language models (LMs). To this end, we introduce the task of generating full event sequence descriptions (ESDs) given a scenario in the form of natural language prompts. In zero-shot probing experiments, we find that generative LMs produce poor ESDs with mostly omitted, irrelevant, repeated or misordered events. To address this, we propose a pipeline-based script induction framework (SIF) which can generate good quality ESDs for unseen scenarios (e.g., bake a cake). SIF is a two-staged framework that fine-tunes LM on a small set of ESD examples in the first stage. In the second stage, ESD generated for an unseen scenario is post-processed using RoBERTa-based models to filter irrelevant events, remove repetitions, and reorder the temporally misordered events. Through automatic and manual evaluations, we demonstrate that SIF yields substantial improvements ($1$-$3$ BLUE points) over a fine-tuned LM. However, manual analysis shows that there is great room for improvement, offering a new research direction for inducing script knowledge.
翻訳日:2021-12-28 16:05:35 公開日:2021-12-27
# answer-setプログラム更新の簡単な歴史

A Brief History of Updates of Answer-Set Programs ( http://arxiv.org/abs/2112.13477v1 )

ライセンス: Link先を確認
Jo\~ao Leite, Martin Slota(参考訳) 過去数十年にわたり、安定したモデルセマンティクス(すなわち、応答セットプログラム)の下で論理プログラムを更新するという問題や、言い換えれば、世界が変化を記述したときに論理プログラムを最新のものにするという結果を特徴付ける問題に、多くの努力が費やされてきた。 最先端のアプローチは、古典論理学の文脈における信念の更新と同じ基本的な直観と願望によって導かれるが、それらは根本的に異なる原則と方法に基づいて構築されており、信念とルールの更新の両方を取り入れ得る統一フレームワークを妨げている。 本稿では,本トピックにおける研究が直面した課題を指摘した上で,回答セットプログラミング更新に関する主なアプローチと結果について概説する。

Over the last couple of decades, there has been a considerable effort devoted to the problem of updating logic programs under the stable model semantics (a.k.a. answer-set programs) or, in other words, the problem of characterising the result of bringing up-to-date a logic program when the world it describes changes. Whereas the state-of-the-art approaches are guided by the same basic intuitions and aspirations as belief updates in the context of classical logic, they build upon fundamentally different principles and methods, which have prevented a unifying framework that could embrace both belief and rule updates. In this paper, we will overview some of the main approaches and results related to answer-set programming updates, while pointing out some of the main challenges that research in this topic has faced.
翻訳日:2021-12-28 16:04:42 公開日:2021-12-27
# 階層的トランスフォーマによる共商品化のためのビデオジョイントモデリング

Video Joint Modelling Based on Hierarchical Transformer for Co-summarization ( http://arxiv.org/abs/2112.13478v1 )

ライセンス: Link先を確認
Li Haopeng, Ke Qiuhong, Gong Mingming, Zhang Rui(参考訳) ビデオ要約は、ビデオの要約(ストーリーボードまたはビデオスキム)を自動的に生成することを目的としている。 既存の手法のほとんどは個々のビデオでビデオ要約を行い、類似したビデオ間の相関を無視する。 しかし,このような相関関係は映像理解や映像要約にも有用である。 この制限に対処するために,ビデオ間のセマンティック依存関係を考慮した階層変換器(VJMHT)を用いたビデオジョイントモデリングを提案する。 具体的には、vjmhtはトランスフォーマーの2層で構成され、第1層は類似したビデオの個々のショットから意味表現を抽出し、第2層はショットレベルのビデオジョイントモデリングを行い、ビデオ間の意味情報を集約する。 つまり、完全なクロスビデオのハイレベルパターンは、個々のビデオの要約のために明示的にモデル化され、学習される。 さらに,トランスフォーマーに基づく映像表現再構成を導入し,要約とオリジナル映像との高レベルな類似性を最大化する。 提案したモジュールの有効性と,F測定およびランクベース評価の観点からVJMHTの優位性を検証するために,広範囲な実験を行った。

Video summarization aims to automatically generate a summary (storyboard or video skim) of a video, which can facilitate large-scale video retrieving and browsing. Most of the existing methods perform video summarization on individual videos, which neglects the correlations among similar videos. Such correlations, however, are also informative for video understanding and video summarization. To address this limitation, we propose Video Joint Modelling based on Hierarchical Transformer (VJMHT) for co-summarization, which takes into consideration the semantic dependencies across videos. Specifically, VJMHT consists of two layers of Transformer: the first layer extracts semantic representation from individual shots of similar videos, while the second layer performs shot-level video joint modelling to aggregate cross-video semantic information. By this means, complete cross-video high-level patterns are explicitly modelled and learned for the summarization of individual videos. Moreover, Transformer-based video representation reconstruction is introduced to maximize the high-level similarity between the summary and the original video. Extensive experiments are conducted to verify the effectiveness of the proposed modules and the superiority of VJMHT in terms of F-measure and rank-based evaluation.
翻訳日:2021-12-28 15:58:45 公開日:2021-12-27
# 小型データセットのための視覚トランスフォーマー

Vision Transformer for Small-Size Datasets ( http://arxiv.org/abs/2112.13492v1 )

ライセンス: Link先を確認
Seung Hoon Lee, Seunghyun Lee, Byung Cheol Song(参考訳) 近年、画像分類タスクにトランス構造を適用した視覚変換器(ViT)は、畳み込みニューラルネットワークよりも優れています。 しかし、JFT-300Mのような大規模データセットを用いた事前学習によるViTの性能向上は、局所性誘導バイアスの低いため、大規模なデータセットへの依存を解釈する。 本稿では、局所性帰納バイアスの欠如を効果的に解決し、小規模なデータセットでもスクラッチから学習できるシフトトパッチトークン化(SPT)と局所性自己認識(LSA)を提案する。 さらに、SPT と LSA は、様々な ViT に容易に適用可能な汎用的で効果的なアドオンモジュールである。 実験の結果、sptとlsaの両方をvitsに適用すると、代表的な小型データセットであるtiny-imagenetでは、パフォーマンスが平均2.96%向上した。 特にSwin TransformerはSPTとLSAによって4.08%の性能向上を達成した。

Recently, the Vision Transformer (ViT), which applied the transformer structure to the image classification task, has outperformed convolutional neural networks. However, the high performance of the ViT results from pre-training using a large-size dataset such as JFT-300M, and its dependence on a large dataset is interpreted as due to low locality inductive bias. This paper proposes Shifted Patch Tokenization (SPT) and Locality Self-Attention (LSA), which effectively solve the lack of locality inductive bias and enable it to learn from scratch even on small-size datasets. Moreover, SPT and LSA are generic and effective add-on modules that are easily applicable to various ViTs. Experimental results show that when both SPT and LSA were applied to the ViTs, the performance improved by an average of 2.96% in Tiny-ImageNet, which is a representative small-size dataset. Especially, Swin Transformer achieved an overwhelming performance improvement of 4.08% thanks to the proposed SPT and LSA.
翻訳日:2021-12-28 15:58:21 公開日:2021-12-27
# 顔偽検出のための二重コントラスト学習

Dual Contrastive Learning for General Face Forgery Detection ( http://arxiv.org/abs/2112.13522v1 )

ライセンス: Link先を確認
Ke Sun, Taiping Yao, Shen Chen, Shouhong Ding, Jilin L, Rongrong Ji(参考訳) 様々な顔操作技術が生まれ、顔偽造検出はセキュリティ上の懸念から注目を集めている。 従来の研究は常に、クロスエントロピー損失に基づく分類問題として顔偽造検出を定式化しており、これは、実在の顔と偽の顔の本質的な相違よりもカテゴリーレベルの差異を強調し、目に見えない領域におけるモデル一般化を制限する。 そこで本研究では, 正と負のペアデータを構築し, 異なる粒度で設計したコントラスト学習を行い, 一般化した特徴表現を学習する, デュアルコントラスト学習 (dcl) という新しい顔偽造検出フレームワークを提案する。 具体的には,厳密なサンプル選択戦略と組み合わせて,特にインスタンスペアの構築によるタスク関連識別特徴学習を促進するために,Inter-ICL(Inter-Instance Contrastive Learning)を提案する。 さらに、本質的な相違点をさらに探求するため、インスタンス内の局所領域ペアを構築して、偽顔で広く見られる局所的内容の不整合に焦点を合わせるために、イントラインスタンスコントラストラーニング(Intra-ICL)を導入している。 いくつかのデータセットにおける広範囲な実験と可視化は、最先端の競合相手に対する手法の一般化を示している。

With various facial manipulation techniques arising, face forgery detection has drawn growing attention due to security concerns. Previous works always formulate face forgery detection as a classification problem based on cross-entropy loss, which emphasizes category-level differences rather than the essential discrepancies between real and fake faces, limiting model generalization in unseen domains. To address this issue, we propose a novel face forgery detection framework, named Dual Contrastive Learning (DCL), which specially constructs positive and negative paired data and performs designed contrastive learning at different granularities to learn generalized feature representation. Concretely, combined with the hard sample selection strategy, Inter-Instance Contrastive Learning (Inter-ICL) is first proposed to promote task-related discriminative features learning by especially constructing instance pairs. Moreover, to further explore the essential discrepancies, Intra-Instance Contrastive Learning (Intra-ICL) is introduced to focus on the local content inconsistencies prevalent in the forged faces by constructing local-region pairs inside instances. Extensive experiments and visualizations on several datasets demonstrate the generalization of our method against the state-of-the-art competitors.
翻訳日:2021-12-28 15:58:05 公開日:2021-12-27
# エネルギーベース潜在空間を用いた学習生成型視覚トランスによる塩分予測

Learning Generative Vision Transformer with Energy-Based Latent Space for Saliency Prediction ( http://arxiv.org/abs/2112.13528v1 )

ライセンス: Link先を確認
Jing Zhang, Jianwen Xie, Nick Barnes, Ping Li(参考訳) ビジョントランスフォーマーネットワークは多くのコンピュータビジョンタスクにおいて優れている。 本稿では, 有意エネルギーに基づく物体検出に先立って, 潜在変数を持つ新しい生成視覚変換器を提案することにより, さらなる一歩を踏み出した。 視覚変換器ネットワークとエネルギーベース先行モデルの両方はマルコフ連鎖モンテカルロによる最大推定により共同で訓練され、この場合、遅延変数の抽出可能な後方および先行分布からのサンプリングはランゲヴィンダイナミクスによって実行される。 また、生成視覚変換器を用いて画像から画素方向の不確かさマップを容易に得ることができ、画像からの塩分予測に対するモデルの信頼度を示す。 既約変数の事前分布を単純な等方性ガウス分布として定義する既存の生成モデルとは異なり、本モデルはエネルギーに基づく情報的前置法を用い、データの潜在空間をより表現豊かに捉えることができる。 提案手法をrgbおよびrgb-dサルエントオブジェクト検出タスクに適用する。 広範な実験結果から,我々の枠組みは,正確な塩分予測だけでなく,人間の知覚と整合する有意義な不確実性マップを実現できることが示された。

Vision transformer networks have shown superiority in many computer vision tasks. In this paper, we take a step further by proposing a novel generative vision transformer with latent variables following an informative energy-based prior for salient object detection. Both the vision transformer network and the energy-based prior model are jointly trained via Markov chain Monte Carlo-based maximum likelihood estimation, in which the sampling from the intractable posterior and prior distributions of the latent variables are performed by Langevin dynamics. Further, with the generative vision transformer, we can easily obtain a pixel-wise uncertainty map from an image, which indicates the model confidence in predicting saliency from the image. Different from the existing generative models which define the prior distribution of the latent variables as a simple isotropic Gaussian distribution, our model uses an energy-based informative prior which can be more expressive to capture the latent space of the data. We apply the proposed framework to both RGB and RGB-D salient object detection tasks. Extensive experimental results show that our framework can achieve not only accurate saliency predictions but also meaningful uncertainty maps that are consistent with the human perception.
翻訳日:2021-12-28 15:57:45 公開日:2021-12-27
# 画像エッジ復元フィルタ

Image Edge Restoring Filter ( http://arxiv.org/abs/2112.13540v1 )

ライセンス: Link先を確認
Qian Liu, Yongpeng Li, Zhihang Wang(参考訳) コンピュータビジョン、画像処理、コンピュータグラフィックスにおいて、画像平滑化フィルタリングは非常に基本的で重要な課題であり、良好なエッジ保存平滑化特性を有することが期待される。 ここでは、多くの局所スムースティングフィルタのエッジ保存能力を改善する必要がある問題に対処する。 本稿では,局所的な平滑化フィルタの出力のぼやけたエッジ画素をクリアに復元するための画像エッジ復元フィルタ(ERF)を提案する。 提案フィルタは,ボックスフィルタ,ガウスフィルタ,バイラテラルフィルタ,ガイドフィルタなど,多くの局所スムージングフィルタの後に実装可能である。 元の局所平滑フィルタ+ERF」の組み合わせは、元の局所平滑フィルタよりもエッジ保存平滑性が高い。 画像平滑化,画像雑音除去,画像強調実験により,提案フィルタの優れたエッジ復元性能と,"オリジナル局所平滑化フィルタ+erf"の組み合わせによるエッジ保存平滑化特性が実証された。 提案するフィルタは, 平滑化フィルタが多用され, 基本操作となるため, 様々な応用が期待できる。

In computer vision, image processing and computer graphics, image smoothing filtering is a very basic and important task and to be expected possessing good edge-preserving smoothing property. Here we address the problem that the edge-preserving ability of many popular local smoothing filters needs to be improved. In this paper, we propose the image Edge Restoring Filter (ERF) to restore the blur edge pixels in the output of local smoothing filters to be clear. The proposed filter can been implemented after many local smoothing filter (such as Box filter, Gaussian filter, Bilateral Filter, Guided Filter and so on). The combinations of "original local smoothing filters + ERF" have better edge-preserving smoothing property than the original local smoothing filters. Experiments on image smoothing, image denoising and image enhancement demonstrate the excellent edges restoring ability of the proposed filter and good edgepreserving smoothing property of the combination "original local smoothing filters + ERF". The proposed filter would benefit a great variety of applications given that smoothing filtering is a high frequently used and fundamental operation.
翻訳日:2021-12-28 15:57:26 公開日:2021-12-27
# 応答型リスニングヘッド生成:ベンチマークデータセットとベースライン

Responsive Listening Head Generation: A Benchmark Dataset and Baseline ( http://arxiv.org/abs/2112.13548v1 )

ライセンス: Link先を確認
Mohan Zhou, Yalong Bai, Wei Zhang, Tiejun Zhao, Tao Mei(参考訳) 対面会話中のレスポンシブリスニングは、社会的相互作用の重要な要素であり、心理的研究においてよく確立されている。 話者の言葉、イントネーション、行動に応答する非言語的信号によって、リスナーはどのように対話を行うかを示す。 本研究では,67人の話者と76人のリスナーによる3つの異なる態度の会話ビデオコーパスであるResponsive Listener Dataset (RLD)を構築した。 我々は、応答型リスニングヘッド生成タスクを、話者の音声や視覚信号を含む複数の入力に応答する動きや表現を持つ非言語ヘッドの合成として定義する。 音声駆動ジェスチャや音声ヘッド生成と異なり,人間間インタラクション,ビデオ間翻訳,クロスモーダル理解,生成など,いくつかの研究分野のメリットを期待して,この課題により多くのモーダルを導入する。 さらに,姿勢条件付きリスニングヘッド生成ベースラインをリリースする。 プロジェクトページ: \url{https://project.mhzhou.com/rld}。

Responsive listening during face-to-face conversations is a critical element of social interaction and is well established in psychological research. Through non-verbal signals response to the speakers' words, intonations, or behaviors in real-time, listeners show how they are engaged in dialogue. In this work, we build the Responsive Listener Dataset (RLD), a conversation video corpus collected from the public resources featuring 67 speakers, 76 listeners with three different attitudes. We define the responsive listening head generation task as the synthesis of a non-verbal head with motions and expressions reacting to the multiple inputs, including the audio and visual signal of the speaker. Unlike speech-driven gesture or talking head generation, we introduce more modals in this task, hoping to benefit several research fields, including human-to-human interaction, video-to-video translation, cross-modal understanding, and generation. Furthermore, we release an attitude conditioned listening head generation baseline. Project page: \url{https://project.mhzhou.com/rld}.
翻訳日:2021-12-28 15:57:04 公開日:2021-12-27
# 分離構造変換によるロバスト・軽量モデルの学習

Learning Robust and Lightweight Model through Separable Structured Transformations ( http://arxiv.org/abs/2112.13551v1 )

ライセンス: Link先を確認
Yanhui Huang, Yangyu Xu and Xian Wei(参考訳) モバイルデバイスやモノのインターネットの普及に伴い、ディープラーニングモデルは、限られたコンピューティングリソースとメモリを持つデバイスにますますデプロイされ、敵対的ノイズの脅威にさらされている。 これらの機器には軽量で堅牢な深層モデルを学ぶ必要がある。 しかし、現在のディープラーニングソリューションでは、これら2つの特性を持つモデルを、どちらか一方を劣化させることなく学習することは困難である。 よく知られているように、完全連結層は畳み込みニューラルネットワークのパラメータの大半に寄与する。 そこでは, 完全連結層の大規模重み行列を, 分離可能な小型行列のテンソル積で分解し, パラメータを小さくするために, 完全連結層の分離可能な構造変換を行う。 画像などのデータは、完全に接続された層に供給される前にフラット化される必要がなくなり、データの貴重な空間幾何学的情報を保持することに注意されたい。 さらに, 軽量性, 堅牢性を両立させるため, これらの分離可能な行列に課される疎度と微分可能な条件数の合同制約を提案する。 MLP, VGG-16, Vision Transformer に対する提案手法の評価を行った。 ImageNet, SVHN, CIFAR-100, CIFAR10などのデータセットを用いた実験結果から, ネットワークパラメータの90%削減に成功し, 頑健な精度損失は1.5%未満であり, 元の完全接続層に基づくSOTA法よりも優れていることがわかった。 興味深いことに、200倍のような高い圧縮速度でも圧倒的な利点が得られる。

With the proliferation of mobile devices and the Internet of Things, deep learning models are increasingly deployed on devices with limited computing resources and memory, and are exposed to the threat of adversarial noise. Learning deep models with both lightweight and robustness is necessary for these equipments. However, current deep learning solutions are difficult to learn a model that possesses these two properties without degrading one or the other. As is well known, the fully-connected layers contribute most of the parameters of convolutional neural networks. We perform a separable structural transformation of the fully-connected layer to reduce the parameters, where the large-scale weight matrix of the fully-connected layer is decoupled by the tensor product of several separable small-sized matrices. Note that data, such as images, no longer need to be flattened before being fed to the fully-connected layer, retaining the valuable spatial geometric information of the data. Moreover, in order to further enhance both lightweight and robustness, we propose a joint constraint of sparsity and differentiable condition number, which is imposed on these separable matrices. We evaluate the proposed approach on MLP, VGG-16 and Vision Transformer. The experimental results on datasets such as ImageNet, SVHN, CIFAR-100 and CIFAR10 show that we successfully reduce the amount of network parameters by 90%, while the robust accuracy loss is less than 1.5%, which is better than the SOTA methods based on the original fully-connected layer. Interestingly, it can achieve an overwhelming advantage even at a high compression rate, e.g., 200 times.
翻訳日:2021-12-28 15:56:45 公開日:2021-12-27
# 画像検索のためのハードサンプル誘導ハッシュ

Hard Example Guided Hashing for Image Retrieval ( http://arxiv.org/abs/2112.13565v1 )

ライセンス: Link先を確認
Hai Su, Meiyin Han, Junle Liang, Jun Liang, Songsen Yu(参考訳) 従来のハッシュ法と比較して、深いハッシュ法はリッチな意味情報を持つハッシュコードを生成し、画像検索領域の性能を大幅に向上させる。 しかし, ハードサンプルの類似性を予測するため, 現在のディープハッシュ法には不満足である。 ハードサンプルの学習能力に影響を及ぼす主な要因は2つあり、これは弱い特徴抽出とハードサンプルの不足である。 本稿では,実例から重要な特徴を抽出し,正確な意味情報を持つハッシュコードを得るための,新しいエンドツーエンドモデルを提案する。 さらに,厳密なペアワイズ損失関数を再設計し,実例の厳密度を評価し,ペナルティ重みを更新する。 困難例の不足問題を効果的に軽減する。 CIFAR-10 と NUS-WIDE の実験結果から,本モデルが主流のハッシュ画像検索手法より優れていることが示された。

Compared with the traditional hashing methods, deep hashing methods generate hash codes with rich semantic information and greatly improves the performances in the image retrieval field. However, it is unsatisfied for current deep hashing methods to predict the similarity of hard examples. It exists two main factors affecting the ability of learning hard examples, which are weak key features extraction and the shortage of hard examples. In this paper, we give a novel end-to-end model to extract the key feature from hard examples and obtain hash code with the accurate semantic information. In addition, we redesign a hard pair-wise loss function to assess the hard degree and update penalty weights of examples. It effectively alleviates the shortage problem in hard examples. Experimental results on CIFAR-10 and NUS-WIDE demonstrate that our model outperformances the mainstream hashing-based image retrieval methods.
翻訳日:2021-12-28 15:55:18 公開日:2021-12-27
# 航空機搭載LiDAR3次元点雲からの植生成層活動予測

Vegetation Stratum Occupancy Prediction from Airborne LiDAR 3D Point Clouds ( http://arxiv.org/abs/2112.13583v1 )

ライセンス: Link先を確認
Ekaterina Kalinicheva, Loic Landrieu, Cl\'ement Mallet, Nesrine Chehata(参考訳) 本研究では,空中プラットフォームから採取した3次元点雲から植生層を推定する新しい深層学習手法を提案する。 本モデルでは,低地,中地,高地の三植生のラスタ化占有マップを予測した。 我々のトレーニングスキームでは、我々のネットワークは、ピクセルワイドやポイントワイドのアノテーションよりも簡単に生成できる円筒プロットに集約された値でのみ重畳される。 本手法は,手作りのベースラインと深層学習のベースラインを精度で上回り,同時に視覚的かつ解釈可能な予測を提供する。 本手法のオープンソース実装と,199個の農業プロットのデータセットを用いて,居住回帰アルゴリズムの訓練と評価を行う。

We propose a new deep learning-based method for estimating the occupancy of vegetation strata from 3D point clouds captured from an aerial platform. Our model predicts rasterized occupancy maps for three vegetation strata: lower, medium, and higher strata. Our training scheme allows our network to only being supervized with values aggregated over cylindrical plots, which are easier to produce than pixel-wise or point-wise annotations. Our method outperforms handcrafted and deep learning baselines in terms of precision while simultaneously providing visual and interpretable predictions. We provide an open-source implementation of our method along along a dataset of 199 agricultural plots to train and evaluate occupancy regression algorithms.
翻訳日:2021-12-28 15:55:03 公開日:2021-12-27
# 物体検出のための加算ニューラルネットワークの実験的検討

An Empirical Study of Adder Neural Networks for Object Detection ( http://arxiv.org/abs/2112.13608v1 )

ライセンス: Link先を確認
Xinghao Chen, Chang Xu, Minjing Dong, Chunjing Xu, Yunhe Wang(参考訳) 加算ニューラルネットワーク(AdderNets)は、加算操作のみを含む画像分類において印象的な性能を示しており、乗算で構築された従来の畳み込みニューラルネットワークよりもエネルギー効率が高い。 分類と比較すると、自動運転や顔検出のような現実世界のアプリケーションのための加算網による現代の物体検出器のエネルギー消費を減らすという強い需要がある。 本稿では,オブジェクト検出のためのAdderNetの実証的研究を行う。 まず,事前学習した加算器バックボーンのバッチ正規化統計を凍結すべきではないことを明らかにした。 さらに,ネック部により多くのショートカット接続を挿入し,加算層のスパースな特徴を回避するための新機能フュージョンアーキテクチャを設計する。 我々は,加算器検出器の設計選択を探究するために,広範なアブレーション研究を行う。 COCOとPASCAL VOCのベンチマークで最先端との比較を行った。 具体的には、提案されたAdder FCOSは、COCO val集合上で37.8 %のAPを達成し、約1.4 倍のエネルギー還元で畳み込み型と同等の性能を示す。

Adder neural networks (AdderNets) have shown impressive performance on image classification with only addition operations, which are more energy efficient than traditional convolutional neural networks built with multiplications. Compared with classification, there is a strong demand on reducing the energy consumption of modern object detectors via AdderNets for real-world applications such as autonomous driving and face detection. In this paper, we present an empirical study of AdderNets for object detection. We first reveal that the batch normalization statistics in the pre-trained adder backbone should not be frozen, since the relatively large feature variance of AdderNets. Moreover, we insert more shortcut connections in the neck part and design a new feature fusion architecture for avoiding the sparse features of adder layers. We present extensive ablation studies to explore several design choices of adder detectors. Comparisons with state-of-the-arts are conducted on COCO and PASCAL VOC benchmarks. Specifically, the proposed Adder FCOS achieves a 37.8\% AP on the COCO val set, demonstrating comparable performance to that of the convolutional counterpart with an about $1.4\times$ energy reduction.
翻訳日:2021-12-28 15:54:51 公開日:2021-12-27
# 注意に基づく集約による畳み込みネットワークの拡張

Augmenting Convolutional networks with attention-based aggregation ( http://arxiv.org/abs/2112.13692v1 )

ライセンス: Link先を確認
Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Piotr Bojanowski, Armand Joulin, Gabriel Synnaeve, Herv\'e J\'egou(参考訳) 非局所的推論を実現するために,注意に基づくグローバルマップを用いた畳み込みネットワークの拡張方法を示す。 最終平均プーリングを1つの変圧器ブロックに似たアテンションベースのアグリゲーション層に置き換え、パッチが分類決定にどのように関与しているかを重み付けする。 この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。 ピラミッドの設計とは対照的に、このアーキテクチャファミリーはすべてのレイヤにまたがる入力パッチの解像度を維持している。 これは、オブジェクトの分類、画像分割、検出といった様々なコンピュータビジョンタスクの実験で示されるように、正確性と複雑さ、特にメモリ消費の面で驚くほど競合的なトレードオフをもたらします。

We show how to augment any convolutional network with an attention-based global map to achieve non-local reasoning. We replace the final average pooling by an attention-based aggregation layer akin to a single transformer block, that weights how the patches are involved in the classification decision. We plug this learned aggregation layer with a simplistic patch-based convolutional network parametrized by 2 parameters (width and depth). In contrast with a pyramidal design, this architecture family maintains the input patch resolution across all the layers. It yields surprisingly competitive trade-offs between accuracy and complexity, in particular in terms of memory consumption, as shown by our experiments on various computer vision tasks: object classification, image segmentation and detection.
翻訳日:2021-12-28 15:54:32 公開日:2021-12-27
# 深度画像からの視覚的位置表現と認識

Visual Place Representation and Recognition from Depth Images ( http://arxiv.org/abs/2112.13707v1 )

ライセンス: Link先を確認
Farah Ibelaiden and Slimane Larabi(参考訳) 本研究は,シーンアーキテクチャに基づく新しい位置認識手法を提案する。 深度映像から3Dモデルを計算し,提案アルゴリズムのコアを構成するためにシーン記述子を推論した2Dマップを幾何学的に導出し記述する。 得られた結果から,シーンの出現変化や光の変動に対する推定ディスクリプタの効率性とロバスト性が示された。

This work proposes a new method for place recognition based on the scene architecture. From depth video, we compute the 3D model and we derive and describe geometrically the 2D map from which the scene descriptor is deduced to constitute the core of the proposed algorithm. The obtained results show the efficiency and the robustness of the propounded descriptor to scene appearance changes and light variations.
翻訳日:2021-12-28 15:54:20 公開日:2021-12-27
# smoothnet:ビデオで人間のポーズを磨くためのプラグ&プレイネットワーク

SmoothNet: A Plug-and-Play Network for Refining Human Poses in Videos ( http://arxiv.org/abs/2112.13715v1 )

ライセンス: Link先を確認
Ailing Zeng, Lei Yang, Xuan Ju, Jiefeng Li, Jianyi Wang, Qiang Xu(参考訳) 人間のモーションビデオを分析する際、既存のポーズ推定器からの出力ジッタは高度に不均衡である。 ほとんどのフレームはわずかなジッタしか持たないが、多くのジッタはオクルージョンや画質の悪いフレームで発生する。 このような複雑なポーズはビデオでしばしば持続し、推定結果の悪い連続フレームと大きなジッタに繋がる。 時間的畳み込みネットワーク、リカレントニューラルネットワーク、ローパスフィルタに基づく既存のポーズ平滑化ソリューションは、ジッタリングビデオセグメント内の重要かつ永続的なエラーを考慮せずに、そのような長期的なジッタ問題に対処することはできない。 そこで本研究では,既存のポーズ推定器にスムースネットを接続し,時間的平滑性の向上とフレーム単位の精度向上を両立させた新しいプラグ・アンド・プレイ・リファインメントネットワークを提案する。 特にSMOOTHNETは、大きな受容場を持つシンプルで効果的なデータ駆動完全接続ネットワークであり、信頼性の低い推定結果で長期ジッタの影響を効果的に軽減する。 2次元および3次元ポーズ推定、ボディリカバリ、ダウンストリームタスクにまたがる7つのデータセットを含む12のバックボーンネットワークについて広範な実験を行った。 提案したSMOOTHNETは,特に高い誤差と長期的ジッタを有するクリップにおいて,既存のソリューションよりも一貫して優れていることを示す。

When analyzing human motion videos, the output jitters from existing pose estimators are highly-unbalanced. Most frames only suffer from slight jitters, while significant jitters occur in those frames with occlusion or poor image quality. Such complex poses often persist in videos, leading to consecutive frames with poor estimation results and large jitters. Existing pose smoothing solutions based on temporal convolutional networks, recurrent neural networks, or low-pass filters cannot deal with such a long-term jitter problem without considering the significant and persistent errors within the jittering video segment. Motivated by the above observation, we propose a novel plug-and-play refinement network, namely SMOOTHNET, which can be attached to any existing pose estimators to improve its temporal smoothness and enhance its per-frame precision simultaneously. Especially, SMOOTHNET is a simple yet effective data-driven fully-connected network with large receptive fields, effectively mitigating the impact of long-term jitters with unreliable estimation results. We conduct extensive experiments on twelve backbone networks with seven datasets across 2D and 3D pose estimation, body recovery, and downstream tasks. Our results demonstrate that the proposed SMOOTHNET consistently outperforms existing solutions, especially on those clips with high errors and long-term jitters.
翻訳日:2021-12-28 15:54:13 公開日:2021-12-27
# (参考訳) バンドの腕の重度変化の追跡

Tracking Most Severe Arm Changes in Bandits ( http://arxiv.org/abs/2112.13838v1 )

ライセンス: CC BY 4.0
Joe Suk and Samory Kpotufe(参考訳) 分布シフトを伴う帯域幅において、報酬分布の変化の未知数$L$を自動的に検出し、必要に応じて探索を再開することを目的としている。 この問題は長年公にされてきたが、最近の Auer et al. (2018, 2019) のブレークスルーは、$L$の知識のない$T$ラウンドに対して最適(動的)後悔$\sqrt{LT}$を保証するための最初の適応手順を提供する。 しかし、全ての分布シフトが等しく深刻であるわけではない、例えば、最高のアームスイッチが起こらないと仮定すると、後悔の$O(\sqrt{T})$が引き続き可能であると断定することはできない。 様々な試み(auer et al., 2019, foster et al., 2020)にもかかわらず、このことはあいまいなままである。 ここでは、$\tilde {O}(\sqrt{\tilde{L} T})$で、$\tilde L \ll L$は、未知の数の深刻なベストアーム変更をキャプチャする。 その結果、これらの厳しいシフト以外の分布シフトの任意の数$L$に対して、我々の手順は単に$\tilde{O}(\sqrt{T})\ll \tilde{O}(\sqrt{LT})$である。 最後に,重度シフトの概念は,確率的スイッチングバンディットと逆バンディットの両方の古典的な設定に適用できる点に留意する。

In bandits with distribution shifts, one aims to automatically detect an unknown number $L$ of changes in reward distribution, and restart exploration when necessary. While this problem remained open for many years, a recent breakthrough of Auer et al. (2018, 2019) provide the first adaptive procedure to guarantee an optimal (dynamic) regret $\sqrt{LT}$, for $T$ rounds, with no knowledge of $L$. However, not all distributional shifts are equally severe, e.g., suppose no best arm switches occur, then we cannot rule out that a regret $O(\sqrt{T})$ may remain possible; in other words, is it possible to achieve dynamic regret that optimally scales only with an unknown number of severe shifts? This unfortunately has remained elusive, despite various attempts (Auer et al., 2019, Foster et al., 2020). We resolve this problem in the case of two-armed bandits: we derive an adaptive procedure that guarantees a dynamic regret of order $\tilde{O}(\sqrt{\tilde{L} T})$, where $\tilde L \ll L$ captures an unknown number of severe best arm changes, i.e., with significant switches in rewards, and which last sufficiently long to actually require a restart. As a consequence, for any number $L$ of distributional shifts outside of these severe shifts, our procedure achieves regret just $\tilde{O}(\sqrt{T})\ll \tilde{O}(\sqrt{LT})$. Finally, we note that our notion of severe shift applies in both classical settings of stochastic switching bandits and of adversarial bandits.
翻訳日:2021-12-28 15:52:55 公開日:2021-12-27
# 永続的進化戦略をもつアンロール型計算グラフの非バイアス勾配推定

Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies ( http://arxiv.org/abs/2112.13835v1 )

ライセンス: Link先を確認
Paul Vicol, Luke Metz, Jascha Sohl-Dickstein(参考訳) 未ロール計算グラフは、rnnのトレーニング、未ロール最適化によるハイパーパラメータのチューニング、学習したオプティマイザのトレーニングなど、多くのシナリオで発生します。 このような計算グラフのパラメータを最適化する現在のアプローチは、高い分散勾配、バイアス、遅い更新、大きなメモリ使用に苦しむ。 そこで我々は,PES(Persistent Evolution Strategies)と呼ばれる手法を導入し,計算グラフを一連の切り離されたアンロールに分割し,各アンロール後の進化戦略に基づく更新ステップを実行する。 pesは、アンロールのシーケンス全体にわたって補正項を蓄積することにより、これらの切断からバイアスを取り除く。 PESは高速なパラメータ更新を可能にし、メモリ使用量が少なく、バイアスがなく、合理的な分散特性を持つ。 合成タスクの勾配推定法と比較して, PESの利点を実験的に実証し, 学習したオプティマイザのトレーニングやハイパーパラメータのチューニングへの適用性を示した。

Unrolled computation graphs arise in many scenarios, including training RNNs, tuning hyperparameters through unrolled optimization, and training learned optimizers. Current approaches to optimizing parameters in such computation graphs suffer from high variance gradients, bias, slow updates, or large memory usage. We introduce a method called Persistent Evolution Strategies (PES), which divides the computation graph into a series of truncated unrolls, and performs an evolution strategies-based update step after each unroll. PES eliminates bias from these truncations by accumulating correction terms over the entire sequence of unrolls. PES allows for rapid parameter updates, has low memory usage, is unbiased, and has reasonable variance characteristics. We experimentally demonstrate the advantages of PES compared to several other methods for gradient estimation on synthetic tasks, and show its applicability to training learned optimizers and tuning hyperparameters.
翻訳日:2021-12-28 15:17:15 公開日:2021-12-27
# PRIME: 民事破壊でロバスト性を高めるプリミティブは少ない

PRIME: A Few Primitives Can Boost Robustness to Common Corruptions ( http://arxiv.org/abs/2112.13547v1 )

ライセンス: Link先を確認
Apostolos Modas, Rahul Rade, Guillermo Ortiz-Jim\'enez, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard(参考訳) 画像分類タスクにおける優れたパフォーマンスにもかかわらず、ディープネットワークはデータの多くの一般的な破損を一般化するのは難しい。 この脆弱性を修正するために、以前の作業は主にトレーニングパイプラインの複雑さを増し、多様性という名目で複数のメソッドを組み合わせることに焦点を当てていた。 しかし、本研究では、我々は一歩後退し、共通の腐敗に対する堅牢性を達成するための原則的なアプローチに従う。 本稿では,最大エントロピー画像変換の単純なファミリーからなる汎用データ拡張スキームPRIMEを提案する。 PRIMEは従来の汚損防止技術よりも優れており,そのシンプルさとプラグアンドプレイ性により,他の手法と組み合わせて堅牢性をさらに向上させることができる。 さらに, 画像の合成における混合戦略の重要性に光を当てるためにPRIMEを解析し, 共通の腐敗の文脈で生じるロバスト性-精度トレードオフを明らかにする。 最後に,本手法の計算効率は,オンラインとオフラインのデータ拡張方式の両方において容易に利用できることを示す。

Despite their impressive performance on image classification tasks, deep networks have a hard time generalizing to many common corruptions of their data. To fix this vulnerability, prior works have mostly focused on increasing the complexity of their training pipelines, combining multiple methods, in the name of diversity. However, in this work, we take a step back and follow a principled approach to achieve robustness to common corruptions. We propose PRIME, a general data augmentation scheme that consists of simple families of max-entropy image transformations. We show that PRIME outperforms the prior art for corruption robustness, while its simplicity and plug-and-play nature enables it to be combined with other methods to further boost their robustness. Furthermore, we analyze PRIME to shed light on the importance of the mixing strategy on synthesizing corrupted images, and to reveal the robustness-accuracy trade-offs arising in the context of common corruptions. Finally, we show that the computational efficiency of our method allows it to be easily used in both on-line and off-line data augmentation schemes.
翻訳日:2021-12-28 15:16:33 公開日:2021-12-27
# マルチチャネル学習による性能向上

A Multi-channel Training Method Boost the Performance ( http://arxiv.org/abs/2112.13727v1 )

ライセンス: Link先を確認
Yingdong Hu(参考訳) 深層畳み込みニューラルネットワークは大きな革命を遂げ、分類やセグメンテーションといったコンピュータビジョンタスクにおいて優れたパフォーマンスを示している。 近年,携帯電話などの組み込みシステムにおけるメモリ容量の制限に適応するため,ネットワーク規模を拡大する努力が盛んに行われている。 本稿では,ターゲットネットワークの性能とロバストを高度に向上させるマルチチャネル学習手法を提案する。 提案手法は,組込みプラットフォームの計算能力に独立して作用する2組のネットワークと2組の情報パイプラインを含むが,平均的に分類精度も良好に向上している。

Deep convolutional neural network has made huge revolution and shown its superior performance on computer vision tasks such as classification and segmentation. Recent years, researches devote much effort to scaling down size of network while maintaining its ability, to adapt to the limited memory on embedded systems like mobile phone. In this paper, we propose a multi-channel training procedure which can highly facilitate the performance and robust of the target network. The proposed procedure contains two sets of networks and two information pipelines which can work independently hinge on the computation ability of the embedded platform, while in the mean time, the classification accuracy is also admirably enhanced.
翻訳日:2021-12-28 15:16:13 公開日:2021-12-27
# ストックムーブメント予測のためのマルチモーダルアテンションネットワーク

Multi-modal Attention Network for Stock Movements Prediction ( http://arxiv.org/abs/2112.13593v1 )

ライセンス: Link先を確認
Shwai He and Shi Gu(参考訳) 株価は、純粋にランダムなウォークではなく、断片的なトレンド変動として動く。 伝統的に、将来の株価変動の予測は歴史取引記録に基づいている。 今日では、ソーシャルメディアの発展に伴い、市場の多くのアクティブな参加者が自身の戦略を公表することを選び、ソーシャルメディアの背景にある意味を抽出し、将来の動きに対する市場全体の態度を垣間見る機会を提供している。 しかし、ソーシャルメディアには矛盾する情報が含まれており、歴史的記録を完全に置き換えることはできない。 本研究では,競合を低減し,意味的特徴と数値的特徴を統合し,将来の株価変動を包括的に予測する多モードアテンションネットワークを提案する。 具体的には、まずソーシャルメディアから意味情報を抽出し、ポスターのアイデンティティと評判に基づいて信頼性を推定する。 そして、オンライン投稿のセマンティクスと歴史的記録の数値的特徴を取り入れ、取引戦略を作ります。 実験の結果,予測精度 (61.20\%) と取引利益 (9.13\%) の両面で, 従来の手法よりも優れていた。 本手法は, 株価変動予測の性能を向上し, 将来の株価変動予測に向けた多モード融合研究の成果を示す。

Stock prices move as piece-wise trending fluctuation rather than a purely random walk. Traditionally, the prediction of future stock movements is based on the historical trading record. Nowadays, with the development of social media, many active participants in the market choose to publicize their strategies, which provides a window to glimpse over the whole market's attitude towards future movements by extracting the semantics behind social media. However, social media contains conflicting information and cannot replace historical records completely. In this work, we propose a multi-modality attention network to reduce conflicts and integrate semantic and numeric features to predict future stock movements comprehensively. Specifically, we first extract semantic information from social media and estimate their credibility based on posters' identity and public reputation. Then we incorporate the semantic from online posts and numeric features from historical records to make the trading strategy. Experimental results show that our approach outperforms previous methods by a significant margin in both prediction accuracy (61.20\%) and trading profits (9.13\%). It demonstrates that our method improves the performance of stock movements prediction and informs future research on multi-modality fusion towards stock prediction.
翻訳日:2021-12-28 15:13:44 公開日:2021-12-27
# 強化学習は,ミオピックフォロワを持つ一般サムマルコフゲームにおいて,stackelberg-nash平衡を見つけることができるか?

Can Reinforcement Learning Find Stackelberg-Nash Equilibria in General-Sum Markov Games with Myopic Followers? ( http://arxiv.org/abs/2112.13521v1 )

ライセンス: Link先を確認
Han Zhong, Zhuoran Yang, Zhaoran Wang, Michael I. Jordan(参考訳) 我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーとフォロワーとみなすプレイヤーの1人を用いて研究した。 特に、フォロワーが近視的であり、即座の報酬を最大化することを目的としているゲームの種類に焦点をあてる。 このようなゲームの場合、我々の目標は、ポリシーペア $(\pi^*, \nu^*)$ であるstackelberg-nash equilibrium (sne) を見つけることである。 (i)$\pi^*$は、常にフォロワーが最善の反応をするときに、リーダーにとって最適なポリシーであり、 (ii)$\nu^*$はフォロワーの最良のレスポンスポリシーであり、$\pi^*$によって誘導されるフォロワーのゲームのナッシュ均衡である。 オンラインとオフラインの両方でSNEのためのサンプル効率強化学習(RL)アルゴリズムを開発した。 我々のアルゴリズムは最小二乗値反復の楽観的で悲観的な変種であり、大きな状態空間の設定に関数近似ツールを組み込むことができる。 さらに, 線形関数近似の場合, オンラインおよびオフライン環境において, アルゴリズムがそれぞれsublinear regretとsuboptimalityを達成することを証明した。 我々の知識を最大限に活用するために、筋電図フォロワーを持つ一般的なマルコフゲームにおいて、SNEを解くための最初の証明可能なRLアルゴリズムを確立する。

We study multi-player general-sum Markov games with one of the players designated as the leader and the other players regarded as followers. In particular, we focus on the class of games where the followers are myopic, i.e., they aim to maximize their instantaneous rewards. For such a game, our goal is to find a Stackelberg-Nash equilibrium (SNE), which is a policy pair $(\pi^*, \nu^*)$ such that (i) $\pi^*$ is the optimal policy for the leader when the followers always play their best response, and (ii) $\nu^*$ is the best response policy of the followers, which is a Nash equilibrium of the followers' game induced by $\pi^*$. We develop sample-efficient reinforcement learning (RL) algorithms for solving for an SNE in both online and offline settings. Our algorithms are optimistic and pessimistic variants of least-squares value iteration, and they are readily able to incorporate function approximation tools in the setting of large state spaces. Furthermore, for the case with linear function approximation, we prove that our algorithms achieve sublinear regret and suboptimality under online and offline setups respectively. To the best of our knowledge, we establish the first provably efficient RL algorithms for solving for SNEs in general-sum Markov games with myopic followers.
翻訳日:2021-12-28 15:10:21 公開日:2021-12-27
# 高分解能微分方程式による鞍点オプティマイザのラストイテレート収束

Last-Iterate Convergence of Saddle Point Optimizers via High-Resolution Differential Equations ( http://arxiv.org/abs/2112.13826v1 )

ライセンス: Link先を確認
Tatjana Chavdarova, Michael I. Jordan and Manolis Zampetakis(参考訳) 広く使われている一階サドル点最適化法は、勾配降下上昇法 (gda) 法と同一の連続時間常微分方程式 (ode) を与える。 しかし、それらの収束特性は単純双線型ゲームでも大きく異なる。 高分解能微分方程式(hrdes)と呼ばれる流体力学の手法を用いて複数の鞍点最適化法のodeを設計する。 双線型ゲームでは、導出したHRDEの収束特性は開始離散法の収束特性に対応する。 これらの手法を用いて,OGDA (Optimistic Gradient Descent Ascent) のHRDEは,一般単調変分不等式に対する最終点収束性を示す。 我々の知る限り、これはそのような一般的な設定に収束することが示されている最初の連続時間力学である。 さらに, 単調作用素の1次滑らかさにのみ依存して, OGDA法の最適点収束率を示す。

Several widely-used first-order saddle point optimization methods yield an identical continuous-time ordinary differential equation (ODE) to that of the Gradient Descent Ascent (GDA) method when derived naively. However, their convergence properties are very different even on simple bilinear games. We use a technique from fluid dynamics called High-Resolution Differential Equations (HRDEs) to design ODEs of several saddle point optimization methods. On bilinear games, the convergence properties of the derived HRDEs correspond to that of the starting discrete methods. Using these techniques, we show that the HRDE of Optimistic Gradient Descent Ascent (OGDA) has last-iterate convergence for general monotone variational inequalities. To our knowledge, this is the first continuous-time dynamics shown to converge for such a general setting. Moreover, we provide the rates for the best-iterate convergence of the OGDA method, relying solely on the first-order smoothness of the monotone operator.
翻訳日:2021-12-28 15:09:55 公開日:2021-12-27
# (参考訳) HeteroQA:異種グラフモデリングによる複数の情報ソースによる質問・回答の学習

HeteroQA: Learning towards Question-and-Answering through Multiple Information Sources via Heterogeneous Graph Modeling ( http://arxiv.org/abs/2112.13597v1 )

ライセンス: CC BY 4.0
Shen Gao, Yuchi Zhang, Yongliang Wang, Yang Dong, Xiuying Chen, Dongyan Zhao and Rui Yan(参考訳) コミュニティ質問回答(Community Question Answering, CQA)は、Eコマースやオンラインユーザコミュニティなど、多くのシナリオで利用することができる、明確に定義されたタスクである。 これらのコミュニティでは、ユーザーは記事の投稿、コメントの投稿、質問の募集、それに答えることができる。 これらのデータは、各情報ソースが独自の特殊構造と文脈(記事や関連質問に添付された記事)を持つ異種情報ソースを形成する。 CQAの手法のほとんどは、知識を抽出し、ユーザの質問に答えるために記事やウィキペディアしか含まない。 しかし、コミュニティ内の様々な情報ソースはこれらのCQA手法によって完全には探索されておらず、これらの複数の情報ソース(MIS)は、ユーザの質問にもっと関連性のある知識を提供することができる。 そこで本研究では,MISをユーザコミュニティに組み込んで回答を自動的に生成する問合せ対応の異種グラフ変換器を提案する。 提案手法を評価するために、ベンチマークデータセットMS-MARCOの修正版である$\text{MSM}^{\text{plus}}と、4種類のMISを持つ最初の大規模CQAデータセットであるAntQAデータセットの2つのデータセットで実験を行った。 2つのデータセットに対する大規模な実験は、我々のモデルがすべての指標ですべてのベースラインを上回っていることを示している。

Community Question Answering (CQA) is a well-defined task that can be used in many scenarios, such as E-Commerce and online user community for special interests. In these communities, users can post articles, give comment, raise a question and answer it. These data form the heterogeneous information sources where each information source have their own special structure and context (comments attached to an article or related question with answers). Most of the CQA methods only incorporate articles or Wikipedia to extract knowledge and answer the user's question. However, various types of information sources in the community are not fully explored by these CQA methods and these multiple information sources (MIS) can provide more related knowledge to user's questions. Thus, we propose a question-aware heterogeneous graph transformer to incorporate the MIS in the user community to automatically generate the answer. To evaluate our proposed method, we conduct the experiments on two datasets: $\text{MSM}^{\text{plus}}$ the modified version of benchmark dataset MS-MARCO and the AntQA dataset which is the first large-scale CQA dataset with four types of MIS. Extensive experiments on two datasets show that our model outperforms all the baselines in terms of all the metrics.
翻訳日:2021-12-28 15:07:18 公開日:2021-12-27
# 非同期イベントベースデータの逆攻撃

Adversarial Attack for Asynchronous Event-based Data ( http://arxiv.org/abs/2112.13534v1 )

ライセンス: Link先を確認
Wooju Lee and Hyun Myung(参考訳) 深層ニューラルネットワーク(dnn)は、ディープラーニングモデルに誤りをもたらすよう慎重に設計されている敵の例に対して脆弱である。 2次元画像と3次元点雲の逆例は広く研究されているが、事象に基づくデータの研究は限られている。 イベントベースのデータは、自律運転などの高速動作下での2D画像の代替となる。 しかし、特定の敵のイベントによって、現在のディープラーニングモデルは安全性の問題に対して脆弱になる。 この作業では、逆の例を生成し、イベントベースのデータの堅牢なモデルを初めてトレーニングします。 アルゴリズムは元のイベントの時刻をシフトし、さらに逆のイベントを生成する。 追加の反対イベントは2段階に分けて発生する。 まず、nullイベントがイベントベースのデータに追加され、追加の敵イベントが生成される。 摂動サイズはnullイベントの数で制御できる。 次に、追加の敵イベントの位置と時刻が、勾配に基づく攻撃でDNNを誤解させるように設定される。 N-Caltech101データセットの攻撃成功率は97.95 %である。 さらに、敵意トレーニングモデルでは、敵意イベントデータのロバスト性が元のモデルと比較して向上する。

Deep neural networks (DNNs) are vulnerable to adversarial examples that are carefully designed to cause the deep learning model to make mistakes. Adversarial examples of 2D images and 3D point clouds have been extensively studied, but studies on event-based data are limited. Event-based data can be an alternative to a 2D image under high-speed movements, such as autonomous driving. However, the given adversarial events make the current deep learning model vulnerable to safety issues. In this work, we generate adversarial examples and then train the robust models for event-based data, for the first time. Our algorithm shifts the time of the original events and generates additional adversarial events. Additional adversarial events are generated in two stages. First, null events are added to the event-based data to generate additional adversarial events. The perturbation size can be controlled with the number of null events. Second, the location and time of additional adversarial events are set to mislead DNNs in a gradient-based attack. Our algorithm achieves an attack success rate of 97.95\% on the N-Caltech101 dataset. Furthermore, the adversarial training model improves robustness on the adversarial event data compared to the original model.
翻訳日:2021-12-28 14:46:25 公開日:2021-12-27
# 財務データに基づく感情予測のための文脈文分析

Contextual Sentence Analysis for the Sentiment Prediction on Financial Data ( http://arxiv.org/abs/2112.13790v1 )

ライセンス: Link先を確認
Elvys Linhares Pontes, Mohamed Benjannet(参考訳) ニューズレターやソーシャルネットワークは、アナリストや一般大衆が企業が提供する製品やサービスに関して、市場や特定の株式についての意見を反映することができる。 したがって、これらのテキストの感情分析は、投資家が市場で取引するのに役立つ有用な情報を提供する。 本稿では,企業や株式に関する感情を,-1~+1の範囲のスコア(データ型実数)を予測し,階層的なトランスフォーマーモデルスタックを提案する。 具体的には、見出しとマイクロブログを処理するためにRoBERTaモデルを微調整し、さらにトランスフォーマー層と組み合わせて、感情分析を改善するために感情辞書を用いて文解析を処理した。 我々はSemEval-2017 Task 5の財務データに基づいて評価を行い、SemEval-2017 Task 5の最高のシステムと強力なベースラインよりも優れた性能を示した。 実際、文脈分析と金融および一般感情辞書の組み合わせは、モデルに有用な情報を提供し、より信頼性の高い感情スコアを生成することができた。

Newsletters and social networks can reflect the opinion about the market and specific stocks from the perspective of analysts and the general public on products and/or services provided by a company. Therefore, sentiment analysis of these texts can provide useful information to help investors trade in the market. In this paper, a hierarchical stack of Transformers model is proposed to identify the sentiment associated with companies and stocks, by predicting a score (of data type real) in a range between -1 and +1. Specifically, we fine-tuned a RoBERTa model to process headlines and microblogs and combined it with additional Transformer layers to process the sentence analysis with sentiment dictionaries to improve the sentiment analysis. We evaluated it on financial data released by SemEval-2017 task 5 and our proposition outperformed the best systems of SemEval-2017 task 5 and strong baselines. Indeed, the combination of contextual sentence analysis with the financial and general sentiment dictionaries provided useful information to our model and allowed it to generate more reliable sentiment scores.
翻訳日:2021-12-28 14:45:53 公開日:2021-12-27
# RoBERTaのムードを理解する: 抑うつ予測のためのユーザ表現としてのコンテキスト埋め込みの役割

Understanding RoBERTa's Mood: The Role of Contextual-Embeddings as User-Representations for Depression Prediction ( http://arxiv.org/abs/2112.13795v1 )

ライセンス: Link先を確認
Matthew Matero, Albert Hung, H. Andrew Schwartz(参考訳) 自然言語処理に関する多くの研究は、個人の談話と個性、人口統計、精神保健状態との関係を示している。 しかしながら、そのような人間の特性を予測する機械学習モデルの多くは、事前訓練された言語モデルと文脈埋め込みの役割を十分に考慮していない。 人の抑うつの程度をケーススタディとして使用し,人間レベルのnlpタスクに適用した場合,オフ・ザ・セット言語モデル,個々のレイヤ,レイヤの組み合わせが最も有望であることを示す経験的分析を行った。 注目すべきは、過去の2層目と最後の4層の両方の使用を推奨する作業の標準にもかかわらず、19層(最後は6層目)はそれ自体が最も理想的なものであるのに対して、複数の層を使用する場合、24層の後半(つまり12層以上)に分散するのが最善である、ということです。

Many works in natural language processing have shown connections between a person's personal discourse and their personality, demographics, and mental health states. However, many of the machine learning models that predict such human traits have yet to fully consider the role of pre-trained language models and contextual embeddings. Using a person's degree of depression as a case study, we do an empirical analysis on which off-the-shelf language model, individual layers, and combinations of layers seem most promising when applied to human-level NLP tasks. Notably, despite the standard in past work of suggesting use of either the second-to-last or the last 4 layers, we find layer 19 (sixth-to last) is the most ideal by itself, while when using multiple layers, distributing them across the second half(i.e. Layers 12+) of the 24 layers is best.
翻訳日:2021-12-28 14:45:37 公開日:2021-12-27
# BALanCe: 等価クラスアニーリングによるディープベイズ的アクティブラーニング

BALanCe: Deep Bayesian Active Learning via Equivalence Class Annealing ( http://arxiv.org/abs/2112.13737v1 )

ライセンス: Link先を確認
Renyu Zhang, Aly A. Khan, Robert L. Grossman, Yuxin Chen(参考訳) アクティブラーニングは多くの分野でデータ効率を示している。 既存のアクティブラーニングアルゴリズム、特にディープベイズアクティブモデルの文脈では、モデルの不確実性推定の品質に大きく依存している。 しかし、このような不確実性の推定は、特に限られた不均衡なトレーニングデータでは、非常に偏りがある。 本稿では,このようなバイアスの影響を軽減するベイズ型深層アクティブ学習フレームワークである balance を提案する。 具体的には、バランスは同値仮説クラスによってキャプチャされた構造を利用し、異なる同値クラス間の分化を促進する新しい獲得関数を用いる。 直感的には、各同値クラスは類似の予測を持つ深層モデルのインスタンス化で構成され、バランスは学習が進むにつれて同値クラスのサイズを適応的に調整する。 完全逐次設定の他に,逐次アルゴリズムのバッチ設定への一般化であるバッチバランスも提案し,モデル改善に協調的に有効であるトレーニング例のバッチを効率的に選択する。 Batch-BALanCeは、アクティブラーニングのためのいくつかのベンチマークデータセットで最先端のパフォーマンスを実現し、両方のアルゴリズムが、しばしばマルチクラスとアンバランスなデータを含む現実的な課題を効果的に処理できることを示します。

Active learning has demonstrated data efficiency in many fields. Existing active learning algorithms, especially in the context of deep Bayesian active models, rely heavily on the quality of uncertainty estimations of the model. However, such uncertainty estimates could be heavily biased, especially with limited and imbalanced training data. In this paper, we propose BALanCe, a Bayesian deep active learning framework that mitigates the effect of such biases. Concretely, BALanCe employs a novel acquisition function which leverages the structure captured by equivalence hypothesis classes and facilitates differentiation among different equivalence classes. Intuitively, each equivalence class consists of instantiations of deep models with similar predictions, and BALanCe adaptively adjusts the size of the equivalence classes as learning progresses. Besides the fully sequential setting, we further propose Batch-BALanCe -- a generalization of the sequential algorithm to the batched setting -- to efficiently select batches of training examples that are jointly effective for model improvement. We show that Batch-BALanCe achieves state-of-the-art performance on several benchmark datasets for active learning, and that both algorithms can effectively handle realistic challenges that often involve multi-class and imbalanced data.
翻訳日:2021-12-28 14:39:33 公開日:2021-12-27
# カプセルネットワークを用いた高次元データセットの異常検出

Anomaly Detection using Capsule Networks for High-dimensional Datasets ( http://arxiv.org/abs/2112.13514v1 )

ライセンス: Link先を確認
Inderjeet Singh and Nandyala Hemachandra(参考訳) 異常検出は機械学習の重要な問題である。 アプリケーション領域には、ネットワークセキュリティ、医療、不正検出など、高次元データセットが含まれる。 典型的な異常検出システムは、クラス間のサンプルサイズが大きく異なるという形で常にクラス不均衡問題に直面している。 クラスオーバーラップの問題が多い。 本研究は,異常検出タスクにカプセルネットワークを用いた。 我々の知る限りでは、これはカプセルネットワークが高次元の複雑なデータ設定における異常検出タスクのために解析される最初の例である。 また,関連する新奇性および異常検出問題にも対処する。 カプセルネットワークのアーキテクチャはバイナリ分類タスクに好適に修正された。 カプセルネットワークは、内部カプセルアーキテクチャで捉えた視点不変性や視点等価性の影響により、異常を検出するための優れた選択肢を提供する。 カプセルを含む第2層と第3層の6層非完全オートエンコーダアーキテクチャを用いた。 カプセルは動的ルーティングアルゴリズムを用いて訓練された。 私たちはオリジナルのMNISTデータセットから10ドルの不均衡データセットを作成し、カプセルネットワークのパフォーマンスを5ドルのベースラインモデルと比較しました。 我々の主要なテストセットは、ROC曲線の下でのマイノリティクラスとエリアに対するF1スコアである。 カプセルネットワークは,データレベルやアルゴリズムレベルでのアプローチを使わずに,トレーニングに10エポックしか使わないことで,異常検出タスクにおける他のすべてのベースラインモデルよりも優れていた。 その結果,カプセルネットワークは複雑な高次元不均衡データセットのモデル化に優れることがわかった。

Anomaly detection is an essential problem in machine learning. Application areas include network security, health care, fraud detection, etc., involving high-dimensional datasets. A typical anomaly detection system always faces the class-imbalance problem in the form of a vast difference in the sample sizes of different classes. They usually have class overlap problems. This study used a capsule network for the anomaly detection task. To the best of our knowledge, this is the first instance where a capsule network is analyzed for the anomaly detection task in a high-dimensional non-image complex data setting. We also handle the related novelty and outlier detection problems. The architecture of the capsule network was suitably modified for a binary classification task. Capsule networks offer a good option for detecting anomalies due to the effect of viewpoint invariance captured in its predictions and viewpoint equivariance captured in internal capsule architecture. We used six-layered under-complete autoencoder architecture with second and third layers containing capsules. The capsules were trained using the dynamic routing algorithm. We created $10$-imbalanced datasets from the original MNIST dataset and compared the performance of the capsule network with $5$ baseline models. Our leading test set measures are F1-score for minority class and area under the ROC curve. We found that the capsule network outperformed every other baseline model on the anomaly detection task by using only ten epochs for training and without using any other data level and algorithm level approach. Thus, we conclude that capsule networks are excellent in modeling complex high-dimensional imbalanced datasets for the anomaly detection task.
翻訳日:2021-12-28 14:38:29 公開日:2021-12-27
# 行列ベース Renyi のエントロピーに対する計算効率の良い近似法

Computationally Efficient Approximations for Matrix-based Renyi's Entropy ( http://arxiv.org/abs/2112.13720v1 )

ライセンス: Link先を確認
Tieliang Gong and Yuxin Dong and Shujian Yu and Hong Chen and Bo Dong and Chen Li and Qinghua Zheng(参考訳) 最近開発されたRenyiのエントロピーは、基盤となるデータ分布を推定することなく、カーネルヒルベルト空間を再現する対称正半定値行列の固有スペクトルを用いてデータ中の情報を測定することができる。 この興味深い性質は、複数の統計的推論および学習タスクにおいて、新しい情報測定を広く採用する。 しかし、そのような量の計算には、PSD行列の$G$上のトレース作用素が$\alpha$(すなわち$tr(G^\alpha)$)を出力し、通常の複雑さは$O(n^3)$に近くなり、サンプル数(すなわち$n$)が大きければその実用的利用を著しく損なう。 本研究では,この新しいエントロピー関数を計算効率良く近似し,その複雑性を最大で$o(n^2)$ 以下まで低減する手法を提案する。 この目的のために、まずランダム化近似を$\tr(\G^\alpha)$に発展させ、トレース推定を行列ベクトル乗法問題に変換する。 そのような戦略を$\alpha$(整数または非整数)の任意の値に対して拡張する。 次に、行列ベースのRenyiのエントロピーとPSD行列近似の接続を確立することにより、クラスタリングと$\G$の低ランク構造の両方を利用でき、計算コストをさらに削減できる。 理論的には近似精度保証を提供し、異なる近似の特性を示す。 合成データと実世界のデータの両方に関する大規模な実験的評価は、理論的な結果と相関し、精度の低下を無視できるスピードアップを示す。

The recently developed matrix based Renyi's entropy enables measurement of information in data simply using the eigenspectrum of symmetric positive semi definite (PSD) matrices in reproducing kernel Hilbert space, without estimation of the underlying data distribution. This intriguing property makes the new information measurement widely adopted in multiple statistical inference and learning tasks. However, the computation of such quantity involves the trace operator on a PSD matrix $G$ to power $\alpha$(i.e., $tr(G^\alpha)$), with a normal complexity of nearly $O(n^3)$, which severely hampers its practical usage when the number of samples (i.e., $n$) is large. In this work, we present computationally efficient approximations to this new entropy functional that can reduce its complexity to even significantly less than $O(n^2)$. To this end, we first develop randomized approximations to $\tr(\G^\alpha)$ that transform the trace estimation into matrix-vector multiplications problem. We extend such strategy for arbitrary values of $\alpha$ (integer or non-integer). We then establish the connection between the matrix-based Renyi's entropy and PSD matrix approximation, which enables us to exploit both clustering and block low-rank structure of $\G$ to further reduce the computational cost. We theoretically provide approximation accuracy guarantees and illustrate the properties of different approximations. Large-scale experimental evaluations on both synthetic and real-world data corroborate our theoretical findings, showing promising speedup with negligible loss in accuracy.
翻訳日:2021-12-28 14:38:11 公開日:2021-12-27
# (参考訳) 階層的確率的注意による変圧器の不確かさ推定

Transformer Uncertainty Estimation with Hierarchical Stochastic Attention ( http://arxiv.org/abs/2112.13776v1 )

ライセンス: CC BY 4.0
Jiahuan Pei, Cheng Wang, Gy\"orgy Szarvas(参考訳) トランスフォーマーは幅広いnlpタスクにおいて最先端であり、多くの現実世界製品にも適用されている。 トランスフォーマーモデル予測の信頼性と確実性を理解することは、信頼できる機械学習アプリケーションを構築するために重要である。 近年,多くの変圧器拡張が提案されているが,変圧器モデルの不確実性評価は未検討である。 本研究では, トランスフォーマーが不確実性推定能力を持ち, かつ, 当初の予測性能を維持するための新しい手法を提案する。 これは、それぞれ値と学習可能なセントロイドの集合に対応する階層的確率的自己認識を学習することで達成される。 次に、Gumbel-Softmaxトリックを用いて、サンプルのセントロイドを混合した新しい注目ヘッドを形成する。 ガムベル分布からのサンプリングによる自己アテンション近似が上界的であることを理論的に示す。 我々は、ドメイン内(ID)とドメイン外(OOD)の両方のデータセットを用いて、2つのテキスト分類タスクでモデルを実証的に評価する。 その結果,(1)比較手法の最適予測性能と不確実性トレードオフを達成し,(2)idデータセット上で非常に競合性の高い(ほとんどの場合は改善された)予測性能を示すこと,(3)oodデータセットにおける不確実性推定においてモンテカルロドロップアウトやアンサンブル法と同等であることがわかった。

Transformers are state-of-the-art in a wide range of NLP tasks and have also been applied to many real-world products. Understanding the reliability and certainty of transformer model predictions is crucial for building trustable machine learning applications, e.g., medical diagnosis. Although many recent transformer extensions have been proposed, the study of the uncertainty estimation of transformer models is under-explored. In this work, we propose a novel way to enable transformers to have the capability of uncertainty estimation and, meanwhile, retain the original predictive performance. This is achieved by learning a hierarchical stochastic self-attention that attends to values and a set of learnable centroids, respectively. Then new attention heads are formed with a mixture of sampled centroids using the Gumbel-Softmax trick. We theoretically show that the self-attention approximation by sampling from a Gumbel distribution is upper bounded. We empirically evaluate our model on two text classification tasks with both in-domain (ID) and out-of-domain (OOD) datasets. The experimental results demonstrate that our approach: (1) achieves the best predictive performance and uncertainty trade-off among compared methods; (2) exhibits very competitive (in most cases, improved) predictive performance on ID datasets; (3) is on par with Monte Carlo dropout and ensemble methods in uncertainty estimation on OOD datasets.
翻訳日:2021-12-28 14:35:05 公開日:2021-12-27
# HOPE:より効果的なMT評価に向けたプロフェッショナルポスト編集を用いたタスク指向・人間中心評価フレームワーク

HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using Professional Post-Editing Towards More Effective MT Evaluation ( http://arxiv.org/abs/2112.13833v1 )

ライセンス: Link先を確認
Serge Gladkoff, Lifeng Han(参考訳) 機械翻訳の伝統的な自動評価指標は、言語学者によって、その正確さの低さ、透明性の欠如、意味論よりも言語力学の重視、人的品質評価との低一致により広く批判されている。 MQMライクなスコアカードの形式での人間による評価は、クライアントと翻訳サービスプロバイダ(TSP)の両方によって、常に実業界環境で行われてきた。 しかし、従来の人間の翻訳品質の評価は、高い言語的詳細度を保ち、レート間信頼性(irr)の問題を提起し、高級翻訳よりも悪い品質を測定するようには設計されていない。 本稿では,プロのポスト編集アノテーションに基づく機械翻訳出力のためのタスク指向・人間中心の評価フレームワークであるhopeを紹介する。 一般的に発生するエラータイプは限られており、各翻訳ユニットに対するエラー重大度レベルを反映したエラーペナルティポイント(epps)の幾何進行を伴うスコアリングモデルを使用する。 高い技術領域から得られたテキストのマーケティング内容タイプに関する英語とロシア語のペアMT出力に関する実験結果から,システムレベルの性能とセグメントレベルの透明性の両方に関して,MT出力品質を反映する上で,我々の評価フレームワークが極めて有効であることを明らかにした。 このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。 実験データは \url{https://github.com/lhan87/hope} で入手できます。

Traditional automatic evaluation metrics for machine translation have been widely criticized by linguists due to their low accuracy, lack of transparency, focus on language mechanics rather than semantics, and low agreement with human quality evaluation. Human evaluations in the form of MQM-like scorecards have always been carried out in real industry setting by both clients and translation service providers (TSPs). However, traditional human translation quality evaluations are costly to perform and go into great linguistic detail, raise issues as to inter-rater reliability (IRR) and are not designed to measure quality of worse than premium quality translations. In this work, we introduce HOPE, a task-oriented and human-centric evaluation framework for machine translation output based on professional post-editing annotations. It contains only a limited number of commonly occurring error types, and use a scoring model with geometric progression of error penalty points (EPPs) reflecting error severity level to each translation unit. The initial experimental work carried out on English-Russian language pair MT outputs on marketing content type of text from highly technical domain reveals that our evaluation framework is quite effective in reflecting the MT output quality regarding both overall system-level performance and segment-level transparency, and it increases the IRR for error type interpretation. The approach has several key advantages, such as ability to measure and compare less than perfect MT output from different systems, ability to indicate human perception of quality, immediate estimation of the labor effort required to bring MT output to premium quality, low-cost and faster application, as well as higher IRR. Our experimental data is available at \url{https://github.com/lHan87/HOPE}.
翻訳日:2021-12-28 14:18:20 公開日:2021-12-27
# (参考訳) ギャップを埋める:深い音響表現を用いて知覚と生音声から基底言語を学習する

Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded Language from Percepts and Raw Speech ( http://arxiv.org/abs/2112.13758v1 )

ライセンス: CC BY 4.0
Gaoussou Youssouf Kebe, Luke E. Richards, Edward Raff, Francis Ferraro, Cynthia Matuszek(参考訳) 自然言語と知覚をつなぐ基底言語を理解することを学ぶことは重要な研究分野である。 基礎言語習得の以前の仕事は、主にテキスト入力に焦点を当てていた。 本研究は,対の視覚知覚と生の音声入力を用いた基礎的言語獲得の実現可能性を示す。 これにより、エンドユーザーから新しいタスクや環境に関する言語が学習され、テキスト入力への依存を減らし、広く利用可能な音声認識システムで見られる人口統計バイアスの影響を軽減することができる。 自己教師型音声表現モデルにおける最近の研究を活用し、学習した音声表現が言語基盤システムをより特定のグループに包括的にし、一般的な性能を維持したり、さらに向上させたりすることができることを示す。

Learning to understand grounded language, which connects natural language to percepts, is a critical research area. Prior work in grounded language acquisition has focused primarily on textual inputs. In this work we demonstrate the feasibility of performing grounded language acquisition on paired visual percepts and raw speech inputs. This will allow interactions in which language about novel tasks and environments is learned from end users, reducing dependence on textual inputs and potentially mitigating the effects of demographic bias found in widely available speech recognition systems. We leverage recent work in self-supervised speech representation models and show that learned representations of speech can make language grounding systems more inclusive towards specific groups while maintaining or even increasing general performance.
翻訳日:2021-12-28 14:14:35 公開日:2021-12-27
# マルチイメージビジュアル質問応答

Multi-Image Visual Question Answering ( http://arxiv.org/abs/2112.13706v1 )

ライセンス: Link先を確認
Harsh Raj, Janhavi Dadhania, Akhilesh Bhardwaj(参考訳) Visual Question Answeringの問題に対処するモデルの開発には、多くの作業が行われているが、これらのモデルが問題と画像の特徴を関連付ける能力はまだ検討されていない。 損失関数の異なる特徴抽出法について実験的検討を行った。 本稿では,複数の画像入力が1つの基礎的真理しか持たない視覚質問応答タスクのための新しいデータセットを提案し,その結果をベンチマークする。 resnet + rcnnイメージ機能とbert埋め込みを利用する最終モデルは、stacked attention networkにインスパイアされて、39%の単語精度と99%の画像精度を賢く+tinyimagenetデータセットに与えます。

While a lot of work has been done on developing models to tackle the problem of Visual Question Answering, the ability of these models to relate the question to the image features still remain less explored. We present an empirical study of different feature extraction methods with different loss functions. We propose New dataset for the task of Visual Question Answering with multiple image inputs having only one ground truth, and benchmark our results on them. Our final model utilising Resnet + RCNN image features and Bert embeddings, inspired from stacked attention network gives 39% word accuracy and 99% image accuracy on CLEVER+TinyImagenet dataset.
翻訳日:2021-12-28 13:56:44 公開日:2021-12-27