このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220906となっている論文です。

PDF登録状況(公開日: 20220906)

TitleAuthorsAbstract論文公表日・翻訳日
# 密度汎関数論における7つの有用な疑問

Seven Useful Questions in Density Functional Theory ( http://arxiv.org/abs/2207.05794v2 )

ライセンス: Link先を確認
Steven Crisostomo, Ryan Pederson, John Kozlowski, Bhupalee Kalita, Antonio C. Cancio, Kiril Datchev, Adam Wasserman, Suhwan Song, and Kieron Burke(参考訳) 我々は密度汎関数論において、数学者が有用であることを示す様々な未解決問題を探求する。 我々は、異なる問題の背景と背景、そしてそれらの解決に向けた進歩が、密度汎関数理論を用いて計算を行う人々に役立つ理由を与える。 対象はハートリー・フォック計算における運動エネルギーの大きさ、断熱接続曲線の形状、入力密度による制約付き探索、状態密度、半古典的エネルギー展開、リーブ・オックスフォード境界の強み、近似密度の精度の決定方法などである。

We explore a variety of unsolved problems in density functional theory, where mathematicians might prove useful. We give the background and context of the different problems, and why progress toward resolving them would help those doing computations using density functional theory. Subjects covered include the magnitude of the kinetic energy in Hartree-Fock calculations, the shape of adiabatic connection curves, using the constrained search with input densities, densities of states, the semiclassical expansion of energies, the tightness of Lieb-Oxford bounds, and how we decide the accuracy of an approximate density.
翻訳日:2023-02-05 09:19:41 公開日:2022-09-06
# re-qgan: 最適化された量子回路学習フレームワーク

Re-QGAN: an optimized adversarial quantum circuit learning framework ( http://arxiv.org/abs/2208.02165v2 )

ライセンス: Link先を確認
Sandra Nguemto, Vicente Leyton-Ortega(参考訳) 逆学習はデータ統計を生成する強力な技術である。 量子計算プラットフォームにおけるその成功は、接続性の限界、量子演算の忠実性、統計的に関連する結果に対する量子プロセッサへのアクセスの制限のため、単純ではない。 量子演算数を制限し、コンパイルコストが低い設計を提供するため、実ヒルベルト空間を生成モデルのためのフレームワークとして用いる量子生成逆ネットワーク設計と、古典情報を量子フレームワークにエンコードする新しい戦略を提案する。 我々は,変分量子回路に基づく量子発生器と判別器のアーキテクチャを考える。 ステレオ射影によって古典情報をエンコードし、正規化手順を使わずに古典領域全体を使うことができる。 低深度 ans\atze の設計に対しては、実ヒルベルト空間を量子対向ゲームのための作業空間とみなす。 このアーキテクチャは、浅い量子回路と少ないパラメータセットを維持しながら、最先端の量子生成対向性能を向上させる。 我々は、MNISTを参照データセットとして手書き桁を生成し、低リソースで設計を検証した。 検出されていないデータ(digits)を15エポックで生成して、実ヒルベルト空間(2, 3, 4 qubits)で動作させることができる。 我々の設計では、超伝導系量子プロセッサで確立されたネイティブ量子演算を使い、イオントラッピング系アーキテクチャと互換性がある。

Adversarial learning represents a powerful technique for generating data statistics. Its successful implementation in quantum computational platforms is not straightforward due to limitations in connectivity, quantum operation fidelity, and limited access to the quantum processor for statistically relevant results. Constraining the number of quantum operations and providing a design with a low compilation cost, we propose a quantum generative adversarial network design that uses real Hilbert spaces as the framework for the generative model and a novel strategy to encode classical information into the quantum framework. We consider quantum generator and discriminator architectures based on a variational quantum circuit. We encode classical information by the stereographic projection, which allows us to use the entire classical domain without normalization procedures. For low-depth ans\"atze designs, we consider the real Hilbert space as the working space for the quantum adversarial game. This architecture improves state-of-the-art quantum generative adversarial performance while maintaining a shallow-depth quantum circuit and a reduced parameter set. We tested our design in a low resource regime, generating handwritten digits with the MNIST as the reference dataset. We could generate undetected data (digits) with just 15 epochs working in the real Hilbert space of 2, 3, and 4 qubits. Our design uses native quantum operations established in superconducting-based quantum processors and is compatible with ion-trapped-based architectures.
翻訳日:2023-02-02 10:07:24 公開日:2022-09-06
# 復号化計測-準備された量子相と遷移:イジングモデルからゲージ理論まで

Decoding Measurement-Prepared Quantum Phases and Transitions: from Ising model to gauge theory, and beyond ( http://arxiv.org/abs/2208.11699v2 )

ライセンス: Link先を確認
Jong Yeon Lee, Wenjie Ji, Zhen Bi, Matthew P. A. Fisher(参考訳) 測定は、測定結果に基づいて追加変換を条件に、長距離絡み合う興味深い量子多体状態の効率的な作成を可能にする。 本稿では, クラスター状態について, $d\geq2$ で適切な基準で一般単サイト測定を行うことにより, いわゆる共形量子臨界点(cqcp)が得られることを示す。 それらの状態の等時相関子は、有限温度における特定の$d$次元古典モデルの相関関数によって記述される。 これは、測定準備された臨界状態と、慣れ親しんだイジングモデルやゲージ理論を含む様々な臨界スピンモデルの共形場理論との正確な対応を確立する。 さらに、測定された量子状態の長距離エンタングルメント構造を対応する熱スピンモデルの相関にマッピングすることにより、理想設定から逸脱した測定準備量子状態における長距離エンタングルメントの安定性条件を厳格に確立する。 最も重要なのは、結果の量子位相と遷移をポスト選択せずに復号するプロトコルを記述することで、指数関数的測定複雑性を多項式古典計算に移す。 したがって、量子臨界波動関数が出現する新しいメカニズムが示唆され、量子位相や共形量子臨界点を研究する新しい実用的な方法が提案されている。

Measurements allow efficient preparation of interesting quantum many-body states with long-range entanglement, conditioned on additional transformations based on measurement outcomes. Here, we demonstrate that the so-called conformal quantum critical points (CQCP) can be obtained by performing general single-site measurements in an appropriate basis on the cluster states in $d\geq2$. The equal-time correlators of the said states are described by correlation functions of certain $d$-dimensional classical models at finite temperatures and feature spatial conformal invariance. This establishes an exact correspondence between the measurement-prepared critical states and conformal field theories of a range of critical spin models, including familiar Ising models and gauge theories. Furthermore, by mapping the long-range entanglement structure of measured quantum states into the correlations of the corresponding thermal spin model, we rigorously establish the stability condition of the long-range entanglement in the measurement-prepared quantum states deviating from the ideal setting. Most importantly, we describe protocols to decode the resulting quantum phases and transitions without post-selection, thus transferring the exponential measurement complexity to a polynomial classical computation. Therefore, our findings suggest a novel mechanism in which a quantum critical wavefunction emerges, providing new practical ways to study quantum phases and conformal quantum critical points.
翻訳日:2023-01-29 23:49:27 公開日:2022-09-06
# ベル実験の最適統計解析

Optimal statistical analyses of Bell experiments ( http://arxiv.org/abs/2209.00702v2 )

ライセンス: Link先を確認
Richard D. Gill(参考訳) 本稿では,ベルの$s$ や eberhard の$j$ の推定において,無符号等式からの統計的偏差を用いて,より小さく,より信頼性の高い p-値の計算方法を示す。 さらに、4つの設定組み合わせごとに異なる結果組合せのカウントのテトラノミカル分布ベクトルに基づいてウィルクス確率比検定を行うことにより、さらなる改善が得られる。 この方法論は2015年と2016年の抜け穴のないベル実験に適用され、デルフトとミュンヘン、nist、ウィーンでそれぞれ実施された。

We show how both smaller and more reliable p-values can be computed in Bell-type experiments by using statistical deviations from no-signalling equalities to reduce statistical noise in the estimation of Bell's $S$ or Eberhard's $J$. Further improvement is obtained by using Wilks likelihood ratio test based on the tetranomially distributed vectors of counts of different outcome combinations for each of the four setting combinations. The methodology is illustrated by application to the loophole-free Bell experiments of 2015 and 2016 performed in Delft and Munich, at NIST, and in Vienna respectively.
翻訳日:2023-01-28 06:20:54 公開日:2022-09-06
# シリコン中のスピン量子ビットのフィードバックに基づくアクティブリセット

Feedback-based active reset of a spin qubit in silicon ( http://arxiv.org/abs/2209.02259v1 )

ライセンス: Link先を確認
Takashi Kobayashi (1 and 2), Takashi Nakajima (2), Kenta Takeda (2), Akito Noiri (2), Jun Yoneda (2), Seigo Tarucha (1 and 2) ((1) RIKEN Center for Quantum Computing, Wako, Saitama 351-0198, Japan, (2) Center for Emerging Matter Science, RIKEN, Wako, Saitama 351-0198, Japan)(参考訳) 量子ビットのフィードバック制御は、量子誤り訂正のような高度な量子情報プロトコルの要求の高い技術である。 ここではフィードバック制御を用いたシリコンスピン量子ビットのアクティブリセットを示す。 アクティブリセットは、ハードウェアデータ処理とシークエンシングによって有効にされる、キュービットの量子非復調読み出しと読み出し結果によるフィードバックに基づいている。 我々は,能動リセットプロトコルに累積読み出し手法を組み込み,単一のQND測定フィリティの精度によって課される制限よりも初期化フィリティを高める。 リセットプロトコルの解析に基づいて、フォールトトレラント量子計算に十分な初期化忠実度を実現する方法を提案する。

Feedback control of qubits is a highly demanded technique for advanced quantum information protocols such as quantum error correction. Here we demonstrate active reset of a silicon spin qubit using feedback control. The active reset is based on quantum non-demolition readout of the qubit and feedback according to the readout results, which is enabled by hardware data processing and sequencing. We incorporate a cumulative readout technique to the active reset protocol, enhancing initialization fidelity above a limitation imposed by accuracy of the single QND measurement fidelity. Based on an analysis of the reset protocol, we suggest a way to achieve the initialization fidelity sufficient for the fault-tolerant quantum computation.
翻訳日:2023-01-27 18:37:52 公開日:2022-09-06
# 虚時密度-密度相関関数の物理的考察

Physical insights from imaginary-time density--density correlation functions ( http://arxiv.org/abs/2209.02254v1 )

ライセンス: Link先を確認
Tobias Dornheim and Zhandos Moldabekov and Panagiotis Tolias and Maximilian B\"ohme and Jan Vorberger(参考訳) 動的構造因子 $S(\mathbf{q},\omega)$ のような相関量子多体系の動的性質の正確な理論的記述は多くの分野において重要なタスクを構成する。 残念ながら、非常に正確な量子モンテカルロ法は通常、虚時領域に制限されており、実周波数への虚時密度-密度相関関数 $F(\mathbf{q},\tau)$ の解析的連続は、非常に難しい問題である。 この研究において、そのような解析的連続性は、定義上、$F(\mathbf{q},\tau)$と同じ物理情報を含むものであってはならない、と論じる。 具体的には、極端条件下での物質の状態方程式に非常に関係のある$\tau$- domainから、温度や準粒子励起エネルギーなどの重要な情報を直接抽出する方法を示す。 実用的な例として、一様電子ガス (ueg) に対する \emph{ab initio} 経路積分モンテカルロの結果を考察し、低密度での ueg の \emph{roton feature} のような非自明な過程でさえ、直接的に $f(\mathbf{q},\tau)$ で表されることを示した。 実際、$\tau$-ドメインで直接働くことは、多くの理由から有利であり、理論と実験の間の前例のない合意の約束を守る。

The accurate theoretical description of the dynamic properties of correlated quantum many-body systems such as the dynamic structure factor $S(\mathbf{q},\omega)$ constitutes an important task in many fields. Unfortunately, highly accurate quantum Monte Carlo methods are usually restricted to the imaginary time domain, and the analytic continuation of the imaginary time density--density correlation function $F(\mathbf{q},\tau)$ to real frequencies is a notoriously hard problem. In this work, we argue that no such analytic continuation is required as $F(\mathbf{q},\tau)$ contains, by definition, the same physical information as $S(\mathbf{q},\omega)$, only in an unfamiliar representation. Specifically, we show how we can directly extract key information such as the temperature or quasi-particle excitation energies from the $\tau$-domain, which is highly relevant for equation-of-state measurements of matter under extreme conditions. As a practical example, we consider \emph{ab initio} path integral Monte Carlo results for the uniform electron gas (UEG), and demonstrate that even nontrivial processes such as the \emph{roton feature} of the UEG at low density straightforwardly manifest in $F(\mathbf{q},\tau)$. In fact, directly working in the $\tau$-domain is advantageous for many reasons and holds the enticing promise for unprecedented agreement between theory and experiment.
翻訳日:2023-01-27 18:37:41 公開日:2022-09-06
# 量子マルコフ鎖のサンプル最適トモグラフィー

Sample optimal tomography of quantum Markov chains ( http://arxiv.org/abs/2209.02240v1 )

ライセンス: Link先を確認
Li Gao, and Nengkun Yu(参考訳) A state on a tripartite quantum system $\mathcal{H}_{A}\otimes \mathcal{H}_{B}\otimes\mathcal{H}_{C} $ forms a Markov chain, i.e., quantum conditional independence, if it can be reconstructed from its marginal on $\mathcal{H}_{A}\otimes \mathcal{H}_{B}$ by a quantum operation from $\mathcal{H}_{B}$ to $\mathcal{H}_{B}\otimes\mathcal{H}_{C}$ via the famous Petz map: a quantum Markov chain $\rho_{ABC}$ satisfies $\rho_{ABC}=\rho_{BC}^{1/2}(\rho_B^{-1/2}\rho_{AB}\rho_B^{-1/2}\otimes id_C)\rho_{BC}^{1/2}$. 本稿では,異なる指標に対するpetzマップのロバスト性,すなわち,petzマップの結果の近さを示す辺の近さについて検討する。 ロバスト性の結果は不忠実$\delta$とトレース距離$\epsilon$に対して次元に依存しない。 量子マルコフ連鎖トモグラフィーのサンプル複雑性、すなわち、状態を決定するために未知の量子マルコフ鎖のコピーがいくつ必要で十分であるかは、$\tilde{\Theta}(\frac{(d_A^2+d_C^2)d_B^2}{\delta})$、$\tilde{\Theta}(\frac{(d_A^2+d_C^2)d_B^2}{\epsilon^2})$である。 量子マルコフ鎖証明のサンプル複雑性、すなわち、三成分状態が固定された量子マルコフ鎖 $\sigma_{abc}$ または少なくとも$\delta$-far が$\sigma_{abc}$ から等しいかどうかを証明するために、${\theta}(\frac{(d_a+d_c)d_b}{\delta})$、${\theta}(\frac{(d_a+d_c)d_b}{\epsilon^2})$である。 $\tilde{O}(\frac{\min\{d_Ad_B^3d_C^3,d_A^3d_B^3d_C\}}{\epsilon^2})$\rho_{ABC}$が量子マルコフ連鎖か、またはペッツ回復状態から$\epsilon$-farかをテストするための$コピー。 トモグラフィーの結果を多成分量子系に一般化し、$\tilde{o}(\frac{n^2\max_{i} \{d_i^2d_{i+1}^2\}}{\delta}) のコピーで、$n$ の量子マルコフ連鎖トモグラフィーには$d_i$ が十分であることを示した。

A state on a tripartite quantum system $\mathcal{H}_{A}\otimes \mathcal{H}_{B}\otimes\mathcal{H}_{C} $ forms a Markov chain, i.e., quantum conditional independence, if it can be reconstructed from its marginal on $\mathcal{H}_{A}\otimes \mathcal{H}_{B}$ by a quantum operation from $\mathcal{H}_{B}$ to $\mathcal{H}_{B}\otimes\mathcal{H}_{C}$ via the famous Petz map: a quantum Markov chain $\rho_{ABC}$ satisfies $\rho_{ABC}=\rho_{BC}^{1/2}(\rho_B^{-1/2}\rho_{AB}\rho_B^{-1/2}\otimes id_C)\rho_{BC}^{1/2}$. In this paper, we study the robustness of the Petz map for different metrics, i.e., the closeness of marginals implies the closeness of the Petz map outcomes. The robustness results are dimension-independent for infidelity $\delta$ and trace distance $\epsilon$. The applications of robustness results are The sample complexity of quantum Markov chain tomography, i.e., how many copies of an unknown quantum Markov chain are necessary and sufficient to determine the state, is $\tilde{\Theta}(\frac{(d_A^2+d_C^2)d_B^2}{\delta})$, and $\tilde{\Theta}(\frac{(d_A^2+d_C^2)d_B^2}{\epsilon^2}) $. The sample complexity of quantum Markov Chain certification, i.e., to certify whether a tripartite state equals a fixed given quantum Markov Chain $\sigma_{ABC}$ or at least $\delta$-far from $\sigma_{ABC}$, is ${\Theta}(\frac{(d_A+d_C)d_B}{\delta})$, and ${\Theta}(\frac{(d_A+d_C)d_B}{\epsilon^2})$. $\tilde{O}(\frac{\min\{d_Ad_B^3d_C^3,d_A^3d_B^3d_C\}}{\epsilon^2})$ copies to test whether $\rho_{ABC}$ is a quantum Markov Chain or $\epsilon$-far from its Petz recovery state. We generalized the tomography results into multipartite quantum system by showing $\tilde{O}(\frac{n^2\max_{i} \{d_i^2d_{i+1}^2\}}{\delta})$ copies for infidelity $\delta$ are enough for $n$-partite quantum Markov chain tomography with $d_i$ being the dimension of the $i$-th subsystem.
翻訳日:2023-01-27 18:37:08 公開日:2022-09-06
# スピン系$I=7/2$におけるレッドフィールド方程式によるNMR緩和

NMR Relaxation by Redfield's equation in a spin system $I=7/2$ ( http://arxiv.org/abs/2209.02187v1 )

ライセンス: Link先を確認
A. Consuelo-Leal, A. G. Araujo-Ferreira, E. Lucas-Oliveira, T. J. Bonagamba, and R. Auccaise(参考訳) レッドフィールドのマスター方程式はスピン$i=7/2$の核系に対して解析的に解かれる。 各密度行列要素の解は既約テンソル作用素基底を用いて計算される。 ネマティック相および室温の液状結晶試料中のセシウム-ペンタデカフルオロオクタノエート分子の$^{133}$Cs核を実験装置として使用した。 実験により,$^{133}$cs核信号の縦および横方向の磁化ダイナミクスを観測し,数値的手法により,最も精度の高い数値式を生成する。 導入された手法は他の核種に対して大きな困難を伴わずに拡張することができる。

Redfield's master equation is solved analytically for a nuclear system with spin $I=7/2$. The solutions of each density matrix element are computed using the irreducible tensor operator basis. The $^{133}$Cs nuclei of the caesium-pentadecafluorooctanoate molecule in a lyotropic liquid crystal sample at the nematic phase and at room temperature was used as an experimental setup. Experimental longitudinal and transverse magnetization dynamics of the $^{133}$Cs nuclei signal were monitored and by numerical procedures the theoretical approach generates valuable mathematical expressions with the highest accuracy. The methodology introduced could be extended without major difficulties to other nuclei species.
翻訳日:2023-01-27 18:35:06 公開日:2022-09-06
# PT対称系における量子状態の識別

Quantum state discrimination in a PT-symmetric system ( http://arxiv.org/abs/2209.02481v1 )

ライセンス: Link先を確認
Dong-Xu Chen, Yu Zhang, Jun-Long Zhao, Qi-Cheng Wu, Yu-Liang Fang, Chui-Ping Yang, and Franco Nori(参考訳) nonorthogonal quantum state discrimination (qsd) は量子情報と量子通信において重要な役割を果たす。 加えて、エルミート量子系と比較すると、パリティタイム($\mathcal{pt}$-)対称非エルミート量子系は新しい現象を示し、かなりの注目を集めている。 ここでは、量子状態が損失線形光学的セットアップにおいて$\mathcal{PT}$-symmetric Hamiltonianの下で進化させることにより、$\mathcal{PT}$-symmetric system(つまり、$\mathcal{PT}$-symmetric QSD)でQSDを実験的に示す。 我々は、2つの初期非直交状態が急速に直交状態へと発展し、ハミルトニアンの行列要素が十分に大きくなれば、必要な進化時間もなくなることを観測する。 また、このような差別のコストは、環境への量子状態の散逸であることも観察する。 さらに、$\mathcal{PT}$-symmetric QSD と Hermitian 系の最適戦略を比較することで、臨界値において $\mathcal{PT}$-symmetric QSD は Hermitian 系の最適不明確な状態判別と同値であることが分かる。 また、$\mathcal{pt}$-symmetric qsd を3つの非直交状態を判別する場合にも拡張する。 qsd は $\mathcal{pt}$-symmetric system において量子状態識別の新たな扉を開き、量子コンピューティング、量子暗号、量子通信において重要な応用を行っている。

Nonorthogonal quantum state discrimination (QSD) plays an important role in quantum information and quantum communication. In addition, compared to Hermitian quantum systems, parity-time-($\mathcal{PT}$-)symmetric non-Hermitian quantum systems exhibit novel phenomena and have attracted considerable attention. Here, we experimentally demonstrate QSD in a $\mathcal{PT}$-symmetric system (i.e., $\mathcal{PT}$-symmetric QSD), by having quantum states evolve under a $\mathcal{PT}$-symmetric Hamiltonian in a lossy linear optical setup. We observe that two initially nonorthogonal states can rapidly evolve into orthogonal states, and the required evolution time can even be vanishing provided the matrix elements of the Hamiltonian become sufficiently large. We also observe that the cost of such a discrimination is a dissipation of quantum states into the environment. Furthermore, by comparing $\mathcal{PT}$-symmetric QSD with optimal strategies in Hermitian systems, we find that at the critical value, $\mathcal{PT}$-symmetric QSD is equivalent to the optimal unambiguous state discrimination in Hermitian systems. We also extend the $\mathcal{PT}$-symmetric QSD to the case of discriminating three nonorthogonal states. The QSD in a $\mathcal{PT}$-symmetric system opens a new door for quantum state discrimination, which has important applications in quantum computing, quantum cryptography, and quantum communication.
翻訳日:2023-01-27 18:31:17 公開日:2022-09-06
# 非対称ビーム干渉における波動粒子双対関係の実験的研究

Experimental investigation of wave-particle duality relations in asymmetric beam interference ( http://arxiv.org/abs/2209.02473v1 )

ライセンス: Link先を確認
Dong-Xu Chen, Yu Zhang, Jun-Long Zhao, Qi-Cheng Wu, Yu-Liang Fang, Chui-Ping Yang, and Franco Nori(参考訳) 波動粒子双対関係は量子物理学の基本である。 それまでの二重性関係の実験的な研究は、主に対称ビーム干渉に基づく2次関係である$D^2+V^2\leq1$に焦点が当てられていた。 さらに、二次形式と線形形式の違いについては、まだ検討されていない。 本研究では,非対称ビーム干渉の設計と光子の偏光度を双方向検出器として利用することにより,両形態の双対性関係を実験的に確認する。 その結果,二次の場合,より多くの経路情報が得られた。 この2つの双対関係の差が明らかとなり、これらの重要な双対関係の理解に基礎的な意味を持つ。

Wave-particle duality relations are fundamental for quantum physics. Previous experimental studies of duality relations mainly focus on the quadratic relation $D^2+V^2\leq1$, based on symmetric beam interference, while a linear form of the duality relation, predicated earlier theoretically, has never been experimentally tested. In addition, the difference between the quadratic form and the linear form has not been explored yet. In this work, with a designed asymmetric beam interference and by utilizing the polarization degree of freedom of the photon as a which-way detector, we experimentally confirm both forms of the duality relations. The results show that more path information is obtained in the quadratic case. Our findings reveal the difference between the two duality relations and have fundamental implications in better understanding these important duality relations.
翻訳日:2023-01-27 18:30:49 公開日:2022-09-06
# 量子prey-predator dynamics:ガウスアンサンブル解析

Quantum prey-predator dynamics: a gaussian ensemble analysis ( http://arxiv.org/abs/2209.02450v1 )

ライセンス: Link先を確認
Alex E. Bernardini and Orfeu Bertolami(参考訳) 競合する生態システムや自己組織化構造をモデル化するための量子フレームワークは、量子力学によって複数の視点で研究されている。 これらは、ワイル・ウィグナー量子力学の枠組みにおける相空間prey-predator競合ダイナミクスの記述である。 この場合、ロトカ・ボルテラ・ハミルトニアン(LV)によって記述される古典力学から、統計的ガウスアンサンブルによって畳まれた量子状態が解析的に評価できる。 次に、平衡パターンの量子的修正と、捕食者力学の安定性を同定することができる。 例えば、lvダイナミクスの平衡点ドライバ上の量子歪は、オンセットハミルトニアン背景から得られるウィグナー電流流束によって定量化される。 さらに、平衡点の周囲に高度に局在したガウスアンサンブルでは、安定性特性は、ある場合において、絶滅と復活のシナリオまたはミクロシステムにおいて量子観測可能と同定された獲物と捕食者の両方の永久共存につながるような、創発的なトポロジカル量子ドメインに影響されていることが示されている。 結論として、量子およびガウス統計駆動パラメータは、このような微生物的コミュニティの安定性基準と時間発展パターンに影響を与えることが示されている。

Quantum frameworks for modeling competitive ecological systems and self-organizing structures have been investigated under multiple perspectives yielded by quantum mechanics. These comprise the description of the phase-space prey-predator competition dynamics in the framework of the Weyl-Wigner quantum mechanics. In this case, from the classical dynamics described by the Lotka-Volterra (LV) Hamiltonian, quantum states convoluted by statistical gaussian ensembles can be analytically evaluated. Quantum modifications on the patterns of equilibrium and stability of the prey-predator dynamics can then be identified. These include quantum distortions over the equilibrium point drivers of the LV dynamics which are quantified through the Wigner current fluxes obtained from an onset Hamiltonian background. In addition, for gaussian ensembles highly localized around the equilibrium point, stability properties are shown to be affected by emergent topological quantum domains which, in some cases, could lead either to extinction and revival scenarios or to the perpetual coexistence of both prey and predator agents identified as quantum observables in microscopic systems. Conclusively, quantum and gaussian statistical driving parameters are shown to affect the stability criteria and the time evolution pattern for such microbiological-like communities.
翻訳日:2023-01-27 18:30:05 公開日:2022-09-06
# 強い測定依存性の存在下での量子非局所性

Quantum nonlocality in presence of strong measurement dependence ( http://arxiv.org/abs/2209.02337v1 )

ライセンス: Link先を確認
Ivan \v{S}upi\'c, Jean-Daniel Bancal, Nicolas Brunner(参考訳) ベルの不等式違反によって見られるような量子非局所性の影響は、測定独立性の仮定を緩和した場合でも観測可能であることがよく知られている。 しかし、量子非局所性の観測に必要な測定独立度は、どの程度か? ここでは、ベル試験のほぼ全てのラウンドで測定選択が完全に決定できるような、測定依存の強い局所性を持つモデルについて考察する。 しかし、このシナリオでは量子非局所性はまだ観測可能であることが示され、これは我々が使用するフレームワークの中では最小限である。 また,ランダム性増幅の応用の可能性についても考察する。

It is well known that the effect of quantum nonlocality, as witnessed by violation of a Bell inequality, can be observed even when relaxing the assumption of measurement independence, i.e. allowing for the source to be partially correlated with the choices of measurement settings. But what is the minimal amount of measurement independence needed for observing quantum nonlocality? Here we explore this question and consider models with strong measurement-dependent locality, where measurement choices can be perfectly determined in almost all rounds of the Bell test. Yet, we show that quantum nonlocality can still be observed in this scenario, which we conjecture is minimal within the framework we use. We also discuss potential applications in randomness amplification.
翻訳日:2023-01-27 18:29:21 公開日:2022-09-06
# 非退化三光子自然転化におけるホモダイン検出による光Schr\"odinger cat状態の遠隔作製

Remotely preparing optical Schr\"odinger cat states via homodyne detection in nondegenerate triple-photon spontaneous downconversion ( http://arxiv.org/abs/2209.02289v1 )

ライセンス: Link先を確認
Miaomiao Wei, Huatang Tan, Qiongyi He(参考訳) 光ダウンコンバージョンは非古典的状態を生成するための重要なリソースである。 近年, 超伝導デバイス (2020 Phys. Rev. X 10 011011) において, 明るい光子三重項と強い3次相関を持つ直接非退化三重光子自発ダウンコンバージョン (NTPSD) が実証されている。 また、この過程における線形および非線形三部構造も予測されている(2018 Phys. Rev. 120 043601; 2020 Phys. Rev. 125 020502)。 本稿では,非古典的光量子重ね合わせの発生を考察し,NTPSDにおける非線形量子ステアリング効果について検討する。 また、2光子ベルエンタングル状態は1つのモードのみをホモダイニングした場合に生成でき、遠隔状態ステアリングの能力は三重項間の非線形量子ステアブル相関から生じることをさらに明らかにする。 これは、他のモードにおけるホモダイン検出の結果、すなわち、オリジナルのEPRステアリングと比較して、非可換な2つの非可換な高次二次方程式の推論された分散に対するハイゼンベルクの不確実性関係の違反によって特に具体化されている。 NTPSDの非ガウス的非古典的特徴を実証し,量子物理学の基礎実験や光量子技術の実装に有用であることを示す。

Optical downconversion is a key resource for generating nonclassical states. Very recently, direct nondegenerate triple-photon spontaneous downconversion (NTPSD) with bright photon triplets and strong third-order correlations has been demonstrated in a superconducting device (2020 Phys. Rev. X 10 011011). Besides, linear and nonlinear tripartite entanglement in this process have also been predicted (2018 Phys. Rev. Lett. 120 043601; 2020 Phys. Rev. Lett. 125 020502). In this paper, we consider the generation of nonclassical optical quantum superpositions and investigate nonlinear quantum steering effects in NTPSD.We find that large-size Schr\"odinger cat states of one downconverted mode can be achieved when the other two modes are subjected to homodyne detection. Also, a two-photon Bell entangled state can be generated when only one mode is homodyned.We further reveal that such ability of remote state steering originates from nonlinear quantum steerable correlations among the triplets. This is specifically embodied by the seeming violation of the Heisenberg uncertainty relation for the inferred variances of two noncommutating higher-order quadratures of downconverted modes, based on the outcomes of homodyne detection on the other mode, i.e., nonlinear quantum steering, compared to original EPR steering. Our results demonstrate non-Gaussian nonclassical features in NTPSD and would be useful for the fundamental tests of quantum physics and implementations of optical quantum technologies.
翻訳日:2023-01-27 18:28:46 公開日:2022-09-06
# 還元動力学の研究における全状態分解の利用について

On the use of total state decompositions for the study of reduced dynamics ( http://arxiv.org/abs/2209.02288v1 )

ライセンス: Link先を確認
Andrea Smirne, Nina Megier and Bassano Vacchini(参考訳) 環境との初期相関の存在下での開量子システムのダイナミクスの記述は、時間依存完全正のトレース保存(cptp)マップの使用に基づく減少ダイナミクスに対する標準的なアプローチとは異なる数学的ツールを必要とする。 本稿では,環境上の統計演算子とシステム上の一般線形演算子を包含する円錐的結合として,関連する任意の2成分状態の分解を基礎とする手法を考察する。 特に、そのような分解は常に無限次元ヒルベルト空間に対して存在し、得られた CPTP 写像の数は、初期大域状態のシュミット階数によって有界であることを示す。 さらに、CPTP写像がGorini-Kossakowski-Lindblad-Sudarshan形式で生成子を持つ半群である場合についても検討し、2つの単純な量子ビットモデルに対して、CPTP半群によって固定された進化の任意の時点において、初期状態によって定義された正の領域を適切な状態にマッピングする。

The description of the dynamics of an open quantum system in the presence of initial correlations with the environment needs different mathematical tools than the standard approach to reduced dynamics, which is based on the use of a time-dependent completely positive trace preserving (CPTP) map. Here, we take into account an approach that is based on a decomposition of any possibly correlated bipartite state as a conical combination involving statistical operators on the environment and general linear operators on the system, which allows one to fix the reduced-system evolution via a finite set of time-dependent CPTP maps. In particular, we show that such a decomposition always exists, also for infinite dimensional Hilbert spaces, and that the number of resulting CPTP maps is bounded by the Schmidt rank of the initial global state. We further investigate the case where the CPTP maps are semigroups with generators in the Gorini-Kossakowski-Lindblad-Sudarshan form; for two simple qubit models, we identify the positivity domain defined by the initial states that are mapped into proper states at any time of the evolution fixed by the CPTP semigroups.
翻訳日:2023-01-27 18:28:14 公開日:2022-09-06
# コヒーレンス、非局所性、文脈性を目撃する不平等

Inequalities witnessing coherence, nonlocality, and contextuality ( http://arxiv.org/abs/2209.02670v1 )

ライセンス: Link先を確認
Rafael Wagner, Rui Soares Barbosa, Ernesto F. Galv\~ao(参考訳) 量子コヒーレンス(quantum coherence)、非局所性(nonlocality)、文脈性(contextity)は、計量学、通信、計算における量子優位の重要な資源である。 我々は、局所的、非文脈的、コヒーレンスのないモデルに縛られる古典性不等式を導出するグラフベースのアプローチを導入し、これらの異なる量子資源を統一的に記述する。 提案手法は,最近提案された基底非依存コヒーレンス証人を一般化し,排他的グラフアプローチのすべての非文脈性不等式を回復する。 さらに、ある古典的不平等の違反は、文脈的な準備を目撃する。 このような古典的不等式をすべて探索するアルゴリズムを記述し、それを用いて最も単純なシナリオを解析する。

Quantum coherence, nonlocality, and contextuality are key resources for quantum advantage in metrology, communication, and computation. We introduce a graph-based approach to derive classicality inequalities that bound local, non-contextual, and coherence-free models, offering a unified description of these seemingly disparate quantum resources. Our approach generalizes recently proposed basis-independent coherence witnesses, and recovers all non-contextuality inequalities of the exclusivity graph approach. Moreover, violations of certain classicality inequalities witness preparation contextuality. We describe an algorithm to find all such classicality inequalities, and use it to analyze some of the simplest scenarios.
翻訳日:2023-01-27 18:21:25 公開日:2022-09-06
# 量子電気力学メタマテリアル

Quantum Electrodynamical Metamaterials ( http://arxiv.org/abs/2209.02656v1 )

ライセンス: Link先を確認
Josephine Yu, Jamison Sloan, Nicholas Rivera, and Marin Soljacic(参考訳) 最近の実験では、電気輸送、化学反応速度、超伝導などの材料特性を変えるための、光と物質の超強結合が期待できる道として明らかにされている。 本稿では,超強結合系における構成単位のアンサンブルに基づくメタマテリアルの光学的応答を操作する手段として,(ウルトラ)強結合を考察する。 量子電気力学系に対する線形応答に基づくフレームワークを開発し,光-物質結合が光応答に与える影響について検討する。 この枠組みを適用して、単一キャビティモードに結合した2レベルエミッタの光学応答を見つけ、このシステムの繰り返しユニットから構築されたメタマテリアルの「メタ原子」と見なすことができる。 単純な2レベル系(ローレンツオシレータ)から効果的に透明になるまでの光学的挙動は、結合が弱い状態から深い結合状態へと変化するためである。 これらのメタ原子の1次元鎖を探索し、その光学的挙動のチューニング性を示す。 提案手法は最終的に,低損失,高閉じ込めモード,可変(単一光子)非線形性を有する新しいメタマテリアルを設計するためのフレームワークを提供するかもしれない。

Recent experiments have revealed ultrastrong coupling between light and matter as a promising avenue for modifying material properties, such as electrical transport, chemical reaction rates, and even superconductivity. Here, we explore (ultra)strong coupling as a means for manipulating the optical response of metamaterials based on ensembles of constituent units individually in the ultrastrong coupling regime. We develop a framework based on linear response for quantum electrodynamical systems to study how light-matter coupling affects the optical response. We begin by applying this framework to find the optical response of a two-level emitter coupled to a single cavity mode, which could be seen as a "meta-atom" of a metamaterial built from repeated units of this system. We find optical behaviors ranging from that of a simple two-level system (Lorentz-oscillator) to effectively transparent, as the coupling goes from the weak to deep strong coupling regimes. We explore a one-dimensional chain of these meta-atoms, demonstrating the tunability of its optical behavior. Our scheme may ultimately provide a framework for designing new metamaterials with low-loss, highly-confined modes, as well as tunable (single-photon) nonlinearities.
翻訳日:2023-01-27 18:20:43 公開日:2022-09-06
# エヴェレットの多話における個人的アイデンティティと不確かさ

Personal Identity and Uncertainty in Everett's Multiverse ( http://arxiv.org/abs/2209.02639v1 )

ライセンス: Link先を確認
Zhonghao Lu(参考訳) EQMの決定論的性質は、EQMの確率論とは矛盾しているようで、これは「不整合問題」と呼ばれる。 サンダースとウォレスは、不一致問題を解決するために個人的アイデンティティのルイスの勘定を呼び出そうとする。 本稿では,その解に対する異議を明確にし,その解の解釈を2つにまとめる。 私は、各タイプの1つの物理的状態に重なる1つの3次元実体が存在する場合、それらの解は不整合問題を解くのに失敗するだろうと論じる。 したがって、1つの物理的状態に重なる少なくとも1つのタイプの3次元実体が1つ以上存在するはずである。 この残りの解釈は物理主義と矛盾していると私は主張する。 これは、個人のアイデンティティの問題や、EQMの非物理主義解釈の可能性にもっと注意を払うことを示唆している。

The deterministic nature of EQM seems to be inconsistent to the probability talk in EQM, and this is called the "incoherence problem". Sanders and Wallace try to invoke the Lewisian account of personal identity to solve the incoherence problem. In my paper, I clarify the objections to their solution and illustrate the only two interpretations of their solution. I argue that, if there is only one 3-dimensional entity of each type which supervenes on one single physical state, their solution would fail to solve the incoherence problem. Consequently, there should be more than one 3-dimensional entity of at least one type which supervenes on one single physical state. I further argue that this remaining interpretation is inconsistent with physicalism. This suggests us to pay more attention to issues of personal identity and possible non-physicalism interpretations of EQM.
翻訳日:2023-01-27 18:20:23 公開日:2022-09-06
# 非平衡ハンベリー・ブラウン・ツイツ実験:理論と二元星への応用

Nonequilibrium Hanbury-Brown-Twiss experiment: Theory and application to binary stars ( http://arxiv.org/abs/2209.02571v1 )

ライセンス: Link先を確認
Adrian E. Rubio Lopez, Ashwin K. Boddeti, Fanglin Bao, Hyunsoo Choi and Zubin Jacob(参考訳) ハンベリー・ブラウンとツイツのシリウスの半径を決定するための精巧な実験に基づく強度干渉法は、光の量子論の発展の基礎を形成した。 これまで、この実験の原理は、量子光学、イメージング、天文学の様々な分野の様々な形態で用いられてきた。 この技術は強力だが、異なる温度の物体に対して一般化されていない。 本稿では,量子熱光のp関数表現を用いて,生成関数形式を用いてこの問題に対処する。 具体的には、この理論的な枠組みを用いて、異なる温度で拡張された2つの物体の系の光子一致を調べる。 2階量子コヒーレンス関数の2つの特異な側面 - 干渉振動と、両方の物体の観測周波数、温度、大きさに依存する長いベースライン漸近値 - を示す。 このアプローチを連星の場合に適用し、実験でこれらの2つの特徴を測定する利点について論じる。 また、各恒星の半径とそれらの距離の推定に加えて、温度の推定にも本手法が適していることを示す。 この目的のために、二元星Luhman 16 と Spica $\alpha$ Vir の実例に適用する。 現在利用可能な望遠鏡では、実験的な実験が近い将来可能であることが判明した。 我々の研究は、量子熱光の強度干渉の基本的な理解に寄与し、二元星から拡張天体まで、2体熱放射物質を研究するツールとして使用できる。

Intensity-interferometry based on Hanbury-Brown and Twiss's seminal experiment for determining the radius of the star Sirius formed the basis for developing the quantum theory of light. To date, the principle of this experiment is used in various forms across different fields of quantum optics, imaging and astronomy. Though, the technique is powerful, it has not been generalized for objects at different temperatures. Here, we address this problem using a generating functional formalism by employing the P-function representation of quantum-thermal light. Specifically, we investigate the photon coincidences of a system of two extended objects at different temperature using this theoretical framework. We show two unique aspects in the second-order quantum coherence function - interference oscillations and a long-baseline asymptotic value that depends on the observation frequency, temperatures and size of both objects. We apply our approach to the case of binary stars and discuss the advantages of measuring these two features in an experiment. In addition to the estimation of the radii of each star and the distance between them, we also show that the present approach is suitable for the estimation of temperatures as well. To this end, we apply it to the practical case of binary stars Luhman 16 and Spica $\alpha$ Vir. We find that for currently available telescopes, an experimental demonstration is feasible in the near term. Our work contributes to the fundamental understanding of intensity interferometry of quantum-thermal light and can be used as a tool for studying two-body thermal emitters - from binary stars to extended objects.
翻訳日:2023-01-27 18:19:40 公開日:2022-09-06
# 3モードghz型エンタングルコヒーレント状態を含む光子の非古典性と非ガウス性

A class of non-classicality and non-Gaussianity of photon added three-mode GHZ-type entangled coherent states ( http://arxiv.org/abs/2209.02561v1 )

ライセンス: Link先を確認
Larbi Jebli and Rachid Hou\c{c}a and Mohammed Daoud(参考訳) 本稿では,光子付加作用素をGHZ結合コヒーレント状態上で繰り返し操作することにより,光子付加型グリーンベルガー・ホーネ・ザイリンガー(GHZ)結合状態について検討する。 2つのラゲール多項式の積は正規化定数に連結であることが示されている。 GHZ結合コヒーレント状態の非古典的および非ガウス的挙動に対する操作の影響について検討した。 マンデルのパラメータやウィグナー函数の負性のような半ポアソン統計は、非古典的性質がGHZ絡み合ったコヒーレント状態を強化することを示している。 最後に, この三成分励起状態における反束現象の発生を二階相関関数を用いて研究する。

In this paper, We investigate three-mode photon-added Greenberger-Horne-Zeilinger (GHZ) entangled coherent states by repeatedly operating the photon-added operator on the GHZ entangled coherent states. The product of two Laguerre polynomials is demonstrated to be connected to the normalizing constant. The influence of the operation on the non-classical and non-Gaussian behavior of the GHZ entangled coherent states is investigated. Sub-Poissonian statistics, such as Mandel's parameter and the negativity of the Wigner function, show that non-classical properties can enhance GHZ entangled coherent states. Finally, the occurrence of the anti-bunching phenomena in this class of tripartite excited states is studied using the second-order correlation function.
翻訳日:2023-01-27 18:19:18 公開日:2022-09-06
# 捕捉イオンの振幅減衰抑制:非一元的確率的ノイズフィルタの離散的弱測定

Suppressing Amplitude Damping in Trapped Ions: Discrete Weak Measurements for a Non-unitary Probabilistic Noise Filter ( http://arxiv.org/abs/2209.02753v1 )

ライセンス: Link先を確認
Andrea Rodriguez-Blanco, K. Birgitta Whaley, and Alejandro Bermudez(参考訳) リソースとして最大絡み合った状態を利用するというアイデアは、セキュアな量子通信、量子計算、量子センシングなど、量子情報処理のいくつかのモダリティの中核にある。 しかし、この状態を作るのに使われた密閉ゲートの前後の不備により、絡み合いの量が減少し、資源としての質が低下する。 我々は,多くの量子技術に関連する特定のノイズを部分的にフィルタリングすることにより,この劣化を解消するローオーバヘッドプロトコルを導入する。 振幅減衰ノイズに対する非ユニタリ確率フィルタの実装のための2つのトラップイオンスキームを提案し,2量子ビットトラップイオン絡みゲートの前後の自発的光子散乱から任意の最大絡み合い対を保護する。 このフィルタは、局所的な操作のみを使用して、弱い測定で理解できる逆演算を実現するため、単一コピー準蒸留のプロトコルとして理解することができる。

The idea of exploiting maximally-entangled states as a resource lies at the core of several modalities of quantum information processing, including secure quantum communication, quantum computation, and quantum sensing. However, due to imperfections during or after the entangling gates used to prepare such states, the amount of entanglement decreases and their quality as a resource gets degraded. We introduce a low-overhead protocol to reverse this degradation by partially filtering out a specific type of noise relevant to many quantum technologies. We present two trapped-ion schemes for the implementation of a non-unitary probabilistic filter against amplitude damping noise, which can protect any maximally-entangled pair from spontaneous photon scattering during or after the two-qubit trapped-ion entangling gates. This filter can be understood as a protocol for single-copy quasi-distillation, as it uses only local operations to realise a reversal operation that can be understood in terms of weak measurements.
翻訳日:2023-01-27 18:12:34 公開日:2022-09-06
# 平均対称性-観測された位相相

Average Symmetry-Protected Topological Phases ( http://arxiv.org/abs/2209.02723v1 )

ライセンス: Link先を確認
Ruochen Ma and Chong Wang(参考訳) 対称性保護トポロジカル(SPT)相は、関連する対称性が破壊されない限り、トポロジカルに非自明な多体量子状態である。 本研究では、SPT相は平均対称性にもよく定義されており、焼成障害は局所的に対称性を損なうが、平均化によって対称性を回復する。 例えば、不完全な格子を持つ結晶SPT相である。 具体的には、量子状態の混乱したアンサンブルに対する平均SPTの概念を定義する。 次に、平均対称性の領域壁(およびより一般的な欠陥)を低次元位相状態で装飾する、装飾されたドメインウォールアプローチを用いて、平均SPT位相の大規模な分類と特徴付けを行う。 すると、装飾された領域の壁が$(0+1)d$よりも次元が高い場合、そのような平均的なSPTの境界状態はほぼ確実に長距離絡み合っており、システムサイズが無限大に近づくと1ドルに近づく。 これは t'Hooft 異常の概念を平均対称性に一般化し、「平均異常」をダブする。 平均異常はリーブ・シュルツ・マティス(英語版)(LSM)の定理に類似した格子系の制約として表すこともできるが、平均格子対称性のみを持つ。 我々はまた、この問題を、短距離の絡み合いを自身で許容できる「量子障害」に一般化し、密度行列と量子チャネルに基づいて純粋にそのような一般化平均SPTの理論を開発する。 この結果から, 平均対称性に付随する位相量子現象は, 通常の正確な対称性と同程度に富むことが示唆された。

Symmetry-protected topological (SPT) phases are many-body quantum states that are topologically nontrivial as long as the relevant symmetries are unbroken. In this work we show that SPT phases are also well defined for average symmetries, where quenched disorders locally break the symmetries, but restore the symmetries upon disorder averaging. An example would be crystalline SPT phases with imperfect lattices. Specifically, we define the notion of average SPT for disordered ensembles of quantum states. We then classify and characterize a large class of average SPT phases using a decorated domain wall approach, in which domain walls (and more general defects) of the average symmetries are decorated with lower dimensional topological states. We then show that if the decorated domain walls have dimension higher than $(0+1)d$, then the boundary states of such average SPT will almost certainly be long-range entangled, with probability approaching $1$ as the system size approaches infinity. This generalizes the notion of t'Hooft anomaly to average symmetries, which we dub "average anomaly". The average anomaly can also manifest as constraints on lattice systems similar to the Lieb-Schultz-Mattis (LSM) theorems, but with only average lattice symmetries. We also generalize our problem to "quantum disorders" that can admit short-range entanglement on their own, and develop a theory of such generalized average SPTs purely based on density matrices and quantum channels. Our results indicate that topological quantum phenomena associated with average symmetries can be at least as rich as those with ordinary exact symmetries.
翻訳日:2023-01-27 18:12:17 公開日:2022-09-06
# 超伝導量子ビット用シリサイド系ジョセフソン電界効果トランジスタ

Silicide-based Josephson field effect transistors for superconducting qubits ( http://arxiv.org/abs/2209.02721v1 )

ライセンス: Link先を確認
Tom Doekle Vethaak(参考訳) 量子コンピュータの製造と運用のスケーラビリティは、NISQ時代を超えて進む上で鍵となる。 これまでのところ、アルミニウムジョセフソントンネル接合に基づく超伝導トランスモン量子ビットが最も先進的な結果を示しているが、この技術は大規模施設では実装が困難である。 新たな"ゲートモン"量子ビットが最近登場しており、ゲートチューニングジョセフソン接合としてハイブリッド超電導/半導体(s/sm)デバイスを使用している。 しかし、現在の実装ではナノワイヤが使われており、大規模な製造はまだ成熟していない。 拡張性のあるゲートモン設計はCMOS Josephson Field-Effect Transistorを調整可能な弱いリンクとし、理想のデバイスは、高速なインターフェースを介して短いチャネルに接触する大きな超伝導ギャップを導いてくれる。 高透明性(または低接触抵抗)は、シリサイドを含むマイクロエレクトロニクス業界で達成され、超伝導であることが判明した。 この論文における実験研究の第1部は、それぞれ高い$T_\text{c}$と成熟した積分で興味深い$\text{V}_3\text{Si}$とPtSiの2つの材料に関する材料研究を扱っている。 第2部は、S/Sm界面の透明度をゲート電圧で変調する50nmゲート長PtSiトランジスタの実験結果をカバーする。 低電圧では、輸送は低エネルギーではコンダクタンスを示しず、超伝導ギャップではよく定義された特徴を示す。 ゲート電圧を増加させてs/sm界面のバリア高さを低減し、ドレイン電圧の周囲にゼロバイアスピークが現れ、アンドレーブ電流の出現が明らかとなる。 シリコン系トランジスタにおけるandreev電流のゲート変調の成功は、完全なcmos集積超伝導量子コンピュータへの一歩である。

Scalability in the fabrication and operation of quantum computers is key to move beyond the NISQ era. So far, superconducting transmon qubits based on aluminum Josephson tunnel junctions have demonstrated the most advanced results, though this technology is difficult to implement with large-scale facilities. An alternative "gatemon" qubit has recently appeared, which uses hybrid superconducting/semiconducting (S/Sm) devices as gate-tuned Josephson junctions. Current implementations of these use nanowires however, of which the large-scale fabrication has not yet matured either. A scalable gatemon design could be made with CMOS Josephson Field-Effect Transistors as tunable weak link, where an ideal device has leads with a large superconducting gap that contact a short channel through high-transparency interfaces. High transparency, or low contact resistance, is achieved in the microelectronics industry with silicides, of which some turn out to be superconducting. The first part of the experimental work in this thesis covers material studies on two such materials: $\text{V}_3\text{Si}$ and PtSi, which are interesting for their high $T_\text{c}$, and mature integration, respectively. The second part covers experimental results on 50 nm gate length PtSi transistors, where the transparency of the S/Sm interfaces is modulated by the gate voltage. At low voltages, the transport shows no conductance at low energy, and well-defined features at the superconducting gap. The barrier height at the S/Sm interface is reduced by increasing the gate voltage, until a zero-bias peak appears around zero drain voltage, which reveals the appearance of an Andreev current. The successful gate modulation of Andreev current in a silicon-based transistor represents a step towards fully CMOS-integrated superconducting quantum computers.
翻訳日:2023-01-27 18:11:48 公開日:2022-09-06
# 拒否データを用いたmdi-qkdの資源効率の高い実時間分極補償

Resource-Efficient Real-Time Polarization Compensation for MDI-QKD with Rejected Data ( http://arxiv.org/abs/2209.02707v1 )

ライセンス: Link先を確認
Olinka Bedroya, Chenyang Li, Wenyuan Wang, Jianyong Hu, Hoi-Kwong Lo, Li Qian(参考訳) 測定デバイス非依存量子鍵分布(mdi-qkd)は、検出システム内のすべてのセキュリティホールを閉じ、秘密鍵共有の有望なソリューションである。 偏光符号化が最も一般的なQKD符号化方式であり、準備と測定が容易である。 しかしながら、mdi qkdで分極エンコーディングを実装するには、偏極アライメントを相互に偏りのないベース上で維持し、両方のパス(アリス・チャーリーとボブ・チャーリー)で維持する必要があるため、追加の課題が課される。 偏光アライメントは通常、QKDプロセスの中断(全体の鍵生成率の低減)や、偏光アライメントのために量子チャネルが多重化された古典的なレーザー源を使用することによって行われる。 キーレートとコストの低いことがQKDシステムの普及を妨げている2つの最も強い課題であるため、追加のリソースの使用やキーレートの削減は、QKDを商業的に実行可能にすることとは対照的である。 そこで本稿では,MDI-QKDシステムにおいて,廃棄検出イベントのリサイクル部分による上記の欠点を回避する新たな分極補償方式を提案し,実装する。 提案手法は,デコイ強度に対応する単一測定値に基づいて,リアルタイムに偏光ドリフトを評価する。 完全に自動化された実験では、平均偏光ドリフトが40km以上のスプールファイバー(絶縁ジャケットなし)で0.13rad以下で4時間以上持続している。 平均量子ビットエラーレートは3.8$\%$であり、平均鍵レートはパルス当たり7.45\times 10^{-6}$bitである。

Measurement-device-independent quantum key distribution (MDI-QKD) closes all the security loopholes in the detection system and is a promising solution for secret key sharing. Polarization encoding is the most common QKD encoding scheme, as it is straightforward to prepare and measure. However, implementing polarization encoding in MDI QKD imposes extra challenges, as polarization alignment must be maintained over both mutually unbiased bases and be maintained for both paths (Alice-Charlie and Bob-Charlie). Polarization alignment is usually done by interrupting the QKD process (reducing overall key generation rates) or using additional classical laser sources multiplexed with quantum channels for polarization alignment. Since low key rates and cost are the two most pressing challenges preventing wide adoption of QKD systems, using additional resources or reducing key rates runs contrary to making QKD commercially viable. Therefore, we propose and implement a novel polarization compensation scheme in the MDI-QKD system that avoids the aforementioned drawbacks by recycling part of discarded detection events. Our scheme evaluates the polarization drift in real-time based on single measurements corresponding to decoy intensities. Our fully automated experimental demonstration maintains the average polarization drift below 0.13 rad over 40 km of spooled fibre (without an insulating jacket) for at least four hours. The average quantum bit error rate is 3.8$\%$, and we achieved an average key rate of $7.45\times 10^{-6}$ bits per pulse.
翻訳日:2023-01-27 18:10:49 公開日:2022-09-06
# トポス多ノード理論の一般化

General Formulation of Topos Many-Node Theory ( http://arxiv.org/abs/2209.02701v1 )

ライセンス: Link先を確認
Hamidreza Simchi(参考訳) 我々は宇宙創造の最初の瞬間に創造された実体(事象)を考える。 すべての事象(ノード)の間に因果エネルギー関係が存在し、すべてのノードが世界線上に配置され、各ノードが時空でローカと呼ばれる領域(点の代わりに)を数学的に占有していると仮定される。 ロケールノードの集合はトポス多ノードシステムを形成する。 いくつかの基本的な仮定を用いて、2種類のハミルトニアンを導入する。 一般構造ハミルトニアンを系に帰属させることにより、システムはラマンスペクトルと赤外スペクトルとの最適化された臨界次元を持つことが示される。 また、可換な自己随伴作用素の集合とスピンや電荷など、各$n^{th}$-最適化グラフに対する可換自由度による相互作用項を含む一般的な非構造的ハミルトニアンを考える。 多ノードシステムの状態空間、真理値、量値オブジェクトを見つけるために、一般的な手順を導入する。 これらの値の集合は、kinematicを形成する$n^{th}$-optimized graphの古典的なスナップショットである。 系の力学は、$n^{th}$state-spaceが$n^{th}$-graphと$({n+1)}^{th}$-state-spaceが$({n+1)}^{th}$-graphの合計写像を定義することによって説明できることを示す。 最後に、多ノード理論の一般的な定式化の解釈を提供し、宇宙背景放射と宇宙線のデータを用いて一般構造と非構造の両方のハミルトニアンの詳細なモデルを見つける方法について論じ、説明する。 ここでの時間は、$n^{th}$と$({n+1)}^{th}$-graphの比較において真理値の変化以上のものではない。

We consider the created entities (events) in the first moments of universe creation. It is assumed that there exists a causal energetic relationship between all events (nodes) such that all nodes are placed on a world line and each node occupies a region (instead of a point) in space-time, called locale, in mathematical terms. The set of locale nodes form a topos many-node system. Using some basic assumptions, we introduce two kinds of Hamiltonians. By attributing a general structural Hamiltonian to the system, it is shown that the system has an optimized critical dimension with a probable Raman and infrared spectrums. Also, we consider a general nonstructural Hamiltonian which includes a set of commutative self-adjoint operators and an interaction terms due to the spin, charge, or other kinds of probable degrees of freedoms for each $n^{th}$-optimized graph. For finding the state-space, truth values and quantity valued objects of the many-node system, a general procedure is introduced. The set of these values is a classical snapshot of the $n^{th}$-optimized graph which forms its kinematic. We show that the dynamic of the system can be explained by defining a combined map between the $n^{th}$- state-space belongs to the $n^{th}$-graph and the $({n+1)}^{th}$-state-space belong to $({n+1)}^{th}$-graph. Finally, by providing an interpretation of the general formulation of many-node theory, we discuss and explain how one can use the data of the cosmic background radiations and cosmic rays for finding a detailed model of both general structural and nonstructural introduced Hamiltonian. Here, time is no more than the change in truth value during comparison between $n^{th}$ and $({n+1)}^{th}$-graph.
翻訳日:2023-01-27 18:10:21 公開日:2022-09-06
# ファクトリゼーションマシンを用いたパーソナライズされたゲーム障害予測

Personalized Game Difficulty Prediction Using Factorization Machines ( http://arxiv.org/abs/2209.13495v1 )

ライセンス: Link先を確認
Jeppe Theiss Kristensen, Christian Guckelsberger, Paolo Burelli, Perttu H\"am\"al\"ainen(参考訳) タスクの難しさの正確かつパーソナライズされた推定は、ユーザエクスペリエンスを最適化する多くの機会を提供する。 しかし、ユーザの多様性は、ユーザサンプルからの実証的な測定が必ずしも他のサンプルに一般化するとは限らないため、そのような予測を難しくする。 本稿では,ゲームレベルをパーソナライズした難易度推定手法として,コンテンツレコメンデーションからの借用法を提案する。 商用パズルゲームからの大規模データセット上での因子化マシン(fm)を利用することで、プレイヤーが将来のゲームレベルをパスするために必要となる試行回数と、他のプレイヤーがプレイするレベルから観察した試行回数に基づいて、難易度を予測できる。 FMは、性能とスケーラビリティに加えて、学習した潜在変数モデルを使用して、難易度に寄与するプレイヤーとゲームレベルの両方の特性を研究する利点を提供する。 このアプローチを,単純な非人格ベースラインとランダムフォレストを用いたパーソナライズ予測と比較した。 この結果から,FMはゲームデザイナーがプレイヤー体験を最適化し,プレイヤーとゲームについてより深く学習できる有望なツールであることが示唆された。

The accurate and personalized estimation of task difficulty provides many opportunities for optimizing user experience. However, user diversity makes such difficulty estimation hard, in that empirical measurements from some user sample do not necessarily generalize to others. In this paper, we contribute a new approach for personalized difficulty estimation of game levels, borrowing methods from content recommendation. Using factorization machines (FM) on a large dataset from a commercial puzzle game, we are able to predict difficulty as the number of attempts a player requires to pass future game levels, based on observed attempt counts from earlier levels and levels played by others. In addition to performance and scalability, FMs offer the benefit that the learned latent variable model can be used to study the characteristics of both players and game levels that contribute to difficulty. We compare the approach to a simple non-personalized baseline and a personalized prediction using Random Forests. Our results suggest that FMs are a promising tool enabling game designers to both optimize player experience and learn more about their players and the game.
翻訳日:2022-10-02 23:59:16 公開日:2022-09-06
# フリー・ツー・プレイゲームにおける顧客ライフタイムの予測

Predicting Customer Lifetime Value in Free-to-Play Games ( http://arxiv.org/abs/2209.12619v1 )

ライセンス: Link先を確認
Paolo Burelli(参考訳) ゲーム会社がサービス指向のビジネスモデルをますます取り入れていくにつれ、プレイヤーの予測モデルの必要性はますます強まりつつある。 ユーザ獲得、ライブゲーム操作、ゲームデザインといった複数のアクティビティは、プレイヤーが選択した情報と、将来的に選択できる選択肢でサポートする必要がある。 これは特にフリー・トゥ・プレイゲーム(英語版)の文脈において当てはまり、賃金の壁の欠如とプレイヤーのプレイや消費行動の不安定な性質は、予算と資源の分配と収入に関する予測を極めて困難にする。 本章では,様々な分野にわたる顧客生涯価値モデリングの概要を述べるとともに,さまざまなプラットフォームやジャンルのフリー・トゥ・プレイゲーム特有の課題を紹介し,実例や既存実装への言及とともに,最先端のソリューションについて論じる。

As game companies increasingly embrace a service-oriented business model, the need for predictive models of players becomes more pressing. Multiple activities, such as user acquisition, live game operations or game design need to be supported with information about the choices made by the players and the choices they could make in the future. This is especially true in the context of free-to-play games, where the absence of a pay wall and the erratic nature of the players' playing and spending behavior make predictions about the revenue and allocation of budget and resources extremely challenging. In this chapter we will present an overview of customer lifetime value modeling across different fields, we will introduce the challenges specific to free-to-play games across different platforms and genres and we will discuss the state-of-the-art solutions with practical examples and references to existing implementations.
翻訳日:2022-10-02 23:48:30 公開日:2022-09-06
# 新規ユーザとアイテムのためのスケーラブルなレコメンデーションエンジン

A Scalable Recommendation Engine for New Users and Items ( http://arxiv.org/abs/2209.06128v1 )

ライセンス: Link先を確認
Boya Xu, Yiting Deng, and Carl Mela(参考訳) オンラインニュースやe-tailingといった多くのデジタルコンテキストにおいて、レコメンデーションシステムはいくつかの課題に直面している。 一 ほとんど又は全く応答履歴がないユーザー(すなわち、コールドスタート問題)に初期レコメンデーションを施す方法 二 項目(試験及び学習)におけるユーザの嗜好の学習方法、及び 三 多様な人口統計や属性を持つ多くのユーザやアイテムをスケールする方法。 多くのレコメンデーションシステムはこれらの課題の側面に適合するが、全てに対処できるものはほとんどない。 本稿では,A(A)レコメンデーションシステム(CFB-A)を用いた協調フィルタリング(CF)マルチアームバンド(B)を提案する。 MovieLensデータに対するオフラインテスト、合成データシミュレーション、オンライン食料品実験などの実証的応用は、CFB-Aが、最も強力なベースライン手法と比較して累積平均報酬(例えば、合計金額や時間、クリック数、購入量、平均評価など)を大幅に改善することを示している。

In many digital contexts such as online news and e-tailing with many new users and items, recommendation systems face several challenges: i) how to make initial recommendations to users with little or no response history (i.e., cold-start problem), ii) how to learn user preferences on items (test and learn), and iii) how to scale across many users and items with myriad demographics and attributes. While many recommendation systems accommodate aspects of these challenges, few if any address all. This paper introduces a Collaborative Filtering (CF) Multi-armed Bandit (B) with Attributes (A) recommendation system (CFB-A) to jointly accommodate all of these considerations. Empirical applications including an offline test on MovieLens data, synthetic data simulations, and an online grocery experiment indicate the CFB-A leads to substantial improvement on cumulative average rewards (e.g., total money or time spent, clicks, purchased quantities, average ratings, etc.) relative to the most powerful extant baseline methods.
翻訳日:2022-09-25 17:50:45 公開日:2022-09-06
# バンディットフィードバックによる階層的会話嗜好誘発

Hierarchical Conversational Preference Elicitation with Bandit Feedback ( http://arxiv.org/abs/2209.06129v1 )

ライセンス: Link先を確認
Jinhang Zuo, Songwen Hu, Tong Yu, Shuai Li, Handong Zhao, Carlee Joe-Wong(参考訳) 近年の会話レコメンデーションの進歩は、対話的インタラクションを通じてユーザの好みを効率的に導き出す有望な方法を提供している。 これを実現するため、推薦者は利用者と会話を行い、異なる項目や項目カテゴリの好みを尋ねる。 コールドスタートユーザのための既存の会話レコメンデーションシステムは、マルチアームのバンディットフレームワークを使用して、ユーザの好みをオンラインで学習する。 しかし、個々の項目ではなく項目カテゴリを問うために事前に定義された会話頻度に依存しており、これはユーザー体験を損なう過度な会話相互作用を引き起こす可能性がある。 キータームに関するより柔軟な質問を可能にするために、提案システムは、各ラウンドで推奨するキータームまたはアイテムを選択し、これらのアクションの報酬を明示的にモデル化する。 これは、キーターム要求とアイテムレコメンデーションの間の新たな調査-探索(EE)トレードオフを扱う動機となり、キータームとアイテムの報酬の関係を正確にモデル化する必要があります。 実世界のデータセットを調査・分析し、先行研究と異なり、キーターム報酬は主に代表品の報酬に影響されていることを確認する。 そこで我々は,この観測された関係とキーワードと項目間の階層構造を利用して,推奨項目を効率的に学習する2つのバンドイットアルゴリズム,hier-ucbとhier-linucbを提案する。 理論上,本アルゴリズムは,先行研究の項目数に対する後悔境界の依存性を低減できることを実証する。 提案するアルゴリズムと,合成データと実世界データの両方に拘束された後悔を検証する。

The recent advances of conversational recommendations provide a promising way to efficiently elicit users' preferences via conversational interactions. To achieve this, the recommender system conducts conversations with users, asking their preferences for different items or item categories. Most existing conversational recommender systems for cold-start users utilize a multi-armed bandit framework to learn users' preference in an online manner. However, they rely on a pre-defined conversation frequency for asking about item categories instead of individual items, which may incur excessive conversational interactions that hurt user experience. To enable more flexible questioning about key-terms, we formulate a new conversational bandit problem that allows the recommender system to choose either a key-term or an item to recommend at each round and explicitly models the rewards of these actions. This motivates us to handle a new exploration-exploitation (EE) trade-off between key-term asking and item recommendation, which requires us to accurately model the relationship between key-term and item rewards. We conduct a survey and analyze a real-world dataset to find that, unlike assumptions made in prior works, key-term rewards are mainly affected by rewards of representative items. We propose two bandit algorithms, Hier-UCB and Hier-LinUCB, that leverage this observed relationship and the hierarchical structure between key-terms and items to efficiently learn which items to recommend. We theoretically prove that our algorithm can reduce the regret bound's dependency on the total number of items from previous work. We validate our proposed algorithms and regret bound on both synthetic and real-world data.
翻訳日:2022-09-25 17:50:25 公開日:2022-09-06
# MINDデータセットに基づくユーザ推薦システム

User recommendation system based on MIND dataset ( http://arxiv.org/abs/2209.06131v1 )

ライセンス: Link先を確認
Niran A. Abdulhussein and Ahmed J Obaid(参考訳) 今日では、研究者や他の個人が彼らの要求を満たすための短い解決策を提供するため、彼らの利益を達成するための非常に重要な方法である。 インターネットにはたくさんの情報があるので、ニュースレコメンデーションシステムは、コンテンツをフィルタリングして、ユーザの欲求や関心に比例してそれをユーザに届けることができます。 RSにはコンテンツベースのフィルタリング、協調フィルタリング、ハイブリッドフィルタリングの3つの技術がある。 2019年に収集したシステムでマインドデータセットを使用する予定ですが、このデータセットには曖昧さと複雑なテキスト処理がたくさんあるため、大きな課題があります。 本稿では,提案する推薦システムについて述べる。 私たちのシステムの中核は、単語の埋め込みと表現にグローブアルゴリズムを使用しました。 さらに、Multi-head Attention Layerは単語の注目度を算出し、推奨ニュースのリストを生成する。 最後に, AUC 71.211, MRR 35.72, nDCG@5 38.05, nDCG@10 44.45 の他の関連研究よりも優れた結果を得た。

Nowadays, it's a very significant way for researchers and other individuals to achieve their interests because it provides short solutions to satisfy their demands. Because there are so many pieces of information on the internet, news recommendation systems allow us to filter content and deliver it to the user in proportion to his desires and interests. RSs have three techniques: content-based filtering, collaborative filtering, and hybrid filtering. We will use the MIND dataset with our system, which was collected in 2019, the big challenge in this dataset because there is a lot of ambiguity and complex text processing. In this paper, will present our proposed recommendation system. The core of our system we have used the GloVe algorithm for word embeddings and representation. Besides, the Multi-head Attention Layer calculates the attention of words, to generate a list of recommended news. Finally, we achieve good results more than some other related works in AUC 71.211, MRR 35.72, nDCG@5 38.05, and nDCG@10 44.45.
翻訳日:2022-09-25 17:49:56 公開日:2022-09-06
# アダマール法を用いた低エネルギー畳み込みニューラルネットワーク(CNN)

Low-Energy Convolutional Neural Networks (CNNs) using Hadamard Method ( http://arxiv.org/abs/2209.09106v1 )

ライセンス: Link先を確認
Varun Mannam(参考訳) モノのインターネット(IoT)の需要が高まっているため、低消費電力デバイスでオブジェクト認識などのコンピュータビジョンタスクを実装する必要がある。 畳み込みニューラルネットワーク(CNN)は、オブジェクト認識と検出の潜在的アプローチである。 しかし、cnnの畳み込み層は、完全連結層と比較してかなりのエネルギーを消費する。 この問題を軽減するために,MNISTとCIFAR10という2つの基本データセットを用いて,畳み込み操作の代替として,アダマール変換に基づく新しいアプローチを示す。 アダマール法の数学的表現は、ビッグデータアプリケーションに役立つ畳み込み層に比べてエネルギー消費を節約できる明確な可能性を示している。 さらに、MNISTデータセットのテスト精度のため、アダマール法は畳み込み法と同様に動作する。 対照的に、CIFAR10データセットでは、畳み込み法と比較してテストデータの精度が低下する(複雑なデータと複数のチャネルのため)。 最後に,カーネルサイズが入力画像サイズよりも小さい場合のコンピュータビジョンタスクにおいて,本手法が有効であることを示す。

The growing demand for the internet of things (IoT) makes it necessary to implement computer vision tasks such as object recognition in low-power devices. Convolutional neural networks (CNNs) are a potential approach for object recognition and detection. However, the convolutional layer in CNN consumes significant energy compared to the fully connected layers. To mitigate this problem, a new approach based on the Hadamard transformation as an alternative to the convolution operation is demonstrated using two fundamental datasets, MNIST and CIFAR10. The mathematical expression of the Hadamard method shows the clear potential to save energy consumption compared to convolutional layers, which are helpful with BigData applications. In addition, to the test accuracy of the MNIST dataset, the Hadamard method performs similarly to the convolution method. In contrast, with the CIFAR10 dataset, test data accuracy is dropped (due to complex data and multiple channels) compared to the convolution method. Finally, the demonstrated method is helpful for other computer vision tasks when the kernel size is smaller than the input image size.
翻訳日:2022-09-25 17:40:37 公開日:2022-09-06
# ブルー・アマゾン・ブレイン(BLAB) : ブラジルの海洋領土に関するモジュラー・アーキテクチャー・オブ・サービス

The BLue Amazon Brain (BLAB): A Modular Architecture of Services about the Brazilian Maritime Territory ( http://arxiv.org/abs/2209.07928v1 )

ライセンス: Link先を確認
Paulo Pirozelli, Ais B. R. Castro, Ana Luiza C. de Oliveira, Andr\'e S. Oliveira, Fl\'avio N. Ca\c{c}\~ao, Igor C. Silveira, Jo\~ao G. M. Campos, Laura C. Motheo, Leticia F. Figueiredo, Lucas F. A. O. Pellicer, Marcelo A. Jos\'e, Marcos M. Jos\'e, Pedro de M. Ligabue, Ricardo S. Grava, Rodrigo M. Tavares, Vin\'icius B. Matos, Yan V. Sym, Anna H. R. Costa, Anarosa A. F. Brand\~ao, Denis D. Mau\'a, Fabio G. Cozman, Sarajane M. Peres(参考訳) ブラジルの海洋領土、ブルー・アマゾンとして知られる南大西洋の広大な地域に焦点を当てた人工エージェントの開発における第一歩について述べる。 BLAB (BLue Amazon Brain) は、この地域とその重要性に関する情報を広めるための多くのサービスを統合し、環境意識のツールとして機能する。 BLABが提供する主なサービスは、BLAB-Chatと呼ばれるBlue Amazonに関する複雑な質問を扱う会話機能であり、その中心となるコンポーネントはタスク指向の自然言語処理モジュール(例えば、質問応答と要約システム)を管理するコントローラである。 これらのモジュールは、内部データレイクだけでなく、サードパーティデータベースにもアクセスできる。 ニュースレポーター(BLAB-Reporter)と目的的に開発されたwiki(BLAB-Wiki)もBLABサービスアーキテクチャの一部である。 本稿では、BLABのアーキテクチャ(インタフェース、バックエンド、Webサービス、NLPモジュール、リソース)の現在のバージョンを説明し、トレーニングデータの欠如やドメイン情報の分散状態など、これまで直面してきた課題について述べる。 これらの問題を解決することは、技術分野における人工知能の開発において大きな課題となる。

We describe the first steps in the development of an artificial agent focused on the Brazilian maritime territory, a large region within the South Atlantic also known as the Blue Amazon. The "BLue Amazon Brain" (BLAB) integrates a number of services aimed at disseminating information about this region and its importance, functioning as a tool for environmental awareness. The main service provided by BLAB is a conversational facility that deals with complex questions about the Blue Amazon, called BLAB-Chat; its central component is a controller that manages several task-oriented natural language processing modules (e.g., question answering and summarizer systems). These modules have access to an internal data lake as well as to third-party databases. A news reporter (BLAB-Reporter) and a purposely-developed wiki (BLAB-Wiki) are also part of the BLAB service architecture. In this paper, we describe our current version of BLAB's architecture (interface, backend, web services, NLP modules, and resources) and comment on the challenges we have faced so far, such as the lack of training data and the scattered state of domain information. Solving these issues presents a considerable challenge in the development of artificial intelligence for technical domains.
翻訳日:2022-09-25 17:39:43 公開日:2022-09-06
# 都市水深マッピングのためのクラウドソース型深層畳み込みネットワーク

Crowdsourced-based Deep Convolutional Networks for Urban Flood Depth Mapping ( http://arxiv.org/abs/2209.09200v1 )

ライセンス: Link先を確認
Bahareh Alizadeh, Amir H. Behzadan(参考訳) 洪水の回復と避難には、信頼できる洪水深度情報へのアクセスが必要である。 既存の洪水マッピングツールの多くは、住宅地周辺で浸水した道路のリアルタイムの洪水マップを提供していない。 本稿では,深部畳み込みネットワークを用いて,沈み込み交通標識のクラウドソース画像を分析し,高空間分解能で洪水深度を決定する。 米国とカナダの最近の洪水の写真でモデルをテストすると、平均的な絶対誤差は6.978 inである。 これは以前の研究と同等であり、このアプローチが低コストで正確でリアルタイムな洪水リスクマッピングに適用可能であることを示している。

Successful flood recovery and evacuation require access to reliable flood depth information. Most existing flood mapping tools do not provide real-time flood maps of inundated streets in and around residential areas. In this paper, a deep convolutional network is used to determine flood depth with high spatial resolution by analyzing crowdsourced images of submerged traffic signs. Testing the model on photos from a recent flood in the U.S. and Canada yields a mean absolute error of 6.978 in., which is on par with previous studies, thus demonstrating the applicability of this approach to low-cost, accurate, and real-time flood risk mapping.
翻訳日:2022-09-25 17:39:24 公開日:2022-09-06
# テキスト回転予測のためのマスク付きバウンディングボックス選択型ResNet予測器

A Masked Bounding-Box Selection Based ResNet Predictor for Text Rotation Prediction ( http://arxiv.org/abs/2209.09198v1 )

ライセンス: Link先を確認
Michael Yang, Yuan Lin, and ChiuMan Ho(参考訳) 既存の光学文字認識(OCR)システムは、水平テキストで画像を認識することができる。 しかし、テキストの回転が増加すると、これらのテキストを認識するのが難しくなる。 OCRシステムの性能は低下する。 したがって、テキストの回転を予測し、画像を補正することが重要である。 これまでの研究は主に、ハフ変換のような伝統的なコンピュータビジョン法と畳み込みニューラルネットワークのようなディープラーニング法を使っている。 しかし,これらの手法はすべて,テキスト付き画像に一般的に存在する背景雑音に起因している。 この問題に対処するため,本研究では,バウンディングボックス情報をシステムに組み込んだ新しいマスクドバウンディングボックス選択手法を提案する。 ResNet予測器をトレーニングして、関心領域(ROI)としてのバウンディングボックスに集中することにより、予測器はバックグラウンドノイズを見渡すことができる。 テキスト回転予測タスクの評価は,本手法が大きなマージンで性能を向上させることを示す。

The existing Optical Character Recognition (OCR) systems are capable of recognizing images with horizontal texts. However, when the rotation of the texts increases, it becomes harder to recognizing these texts. The performance of the OCR systems decreases. Thus predicting the rotations of the texts and correcting the images are important. Previous work mainly uses traditional Computer Vision methods like Hough Transform and Deep Learning methods like Convolutional Neural Network. However, all of these methods are prone to background noises commonly existing in general images with texts. To tackle this problem, in this work, we introduce a new masked bounding-box selection method, that incorporating the bounding box information into the system. By training a ResNet predictor to focus on the bounding box as the region of interest (ROI), the predictor learns to overlook the background noises. Evaluations on the text rotation prediction tasks show that our method improves the performance by a large margin.
翻訳日:2022-09-25 17:38:54 公開日:2022-09-06
# コンディショナル・ジェネレーション・ディバイザ・ネットワークによるセンサによる動物行動分類性能の向上

Improved Sensor-Based Animal Behavior Classification Performance through Conditional Generative Adversarial Network ( http://arxiv.org/abs/2209.03758v1 )

ライセンス: Link先を確認
Zhuqing Zhao, Dong Ha, Abhishek Damle, Barbara Roqueto Dos, Robin White and Sook Ha(参考訳) 多くのアクティビティ分類は、特徴抽出と分類のためにデータを固定ウィンドウサイズに分割する。 しかし、動物の行動は、所定のウィンドウサイズと一致しない様々な持続時間を持つ。 高密度ラベリングと高密度予測法は、各点のラベルを予測することでこの制限に対処する。 したがって、開始点と終了点を追跡することで、発生したすべてのアクティビティの時間的位置と持続時間を知ることができる。 しかし、この密集した予測は不一致の問題で騒がしいかもしれない。 フラグメンテーションやその他の悪用を減らすためのトレーニング戦略として、カスタマイズされた損失関数を備えたU-Net and Conditional Generative Adversarial Network (cGAN) を修正した。 cGANでは、差別者と発電機は敵の競争のように互いに訓練された。 発電機は密集した予測を生成する。 判別器は高レベルの整合性チェックとして機能し、この場合、ジェネレータを合理的な持続時間で活動を予測する。 cGANでトレーニングされたモデルは、牛、豚、UCI HAPTデータセットにおいて、より良い、または同等のパフォーマンスを示す。 cganが訓練した修正u-netは、uci haptデータセットでは92.17%から94.66%に、pigデータでは90.85%から93.18%に改善した。

Many activity classifications segments data into fixed window size for feature extraction and classification. However, animal behaviors have various durations that do not match the predetermined window size. The dense labeling and dense prediction methods address this limitation by predicting labels for every point. Thus, by tracing the starting and ending points, we could know the time location and duration of all occurring activities. Still, the dense prediction could be noisy with misalignments problems. We modified the U-Net and Conditional Generative Adversarial Network (cGAN) with customized loss functions as a training strategy to reduce fragmentation and other misalignments. In cGAN, the discriminator and generator trained against each other like an adversarial competition. The generator produces dense predictions. The discriminator works as a high-level consistency check, in our case, pushing the generator to predict activities with reasonable duration. The model trained with cGAN shows better or comparable performance in the cow, pig, and UCI HAPT dataset. The cGAN-trained modified U-Net improved from 92.17% to 94.66% for the UCI HAPT dataset and from 90.85% to 93.18% for pig data compared to previous dense prediction work.
翻訳日:2022-09-09 13:17:32 公開日:2022-09-06
# MRF-PINN:偏微分方程式を解くための多受容場畳み込み物理インフォームドニューラルネットワーク

MRF-PINN: A Multi-Receptive-Field convolutional physics-informed neural network for solving partial differential equations ( http://arxiv.org/abs/2209.03151v1 )

ライセンス: Link先を確認
Shihong Zhang and Chi Zhang and Bosen Wang(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理場の再構成や逆問題の解法といったシナリオにおいて、従来の偏微分方程式(PDE)の解法よりも開発と解決のコストを低くすることができる。 パラメータ共有、空間的特徴抽出、低推論コストの利点により、畳み込みニューラルネットワーク(CNN)はPINNでますます利用されている。 畳み込みピンを異なる方程式に適応させるために、研究者は臨界ハイパーパラメータのチューニングに多くの時間を費やしなければならない。 さらに,畳み込みピンの予測結果に対する差分精度,モデルの複雑さ,メッシュ分解能の影響は明らかでない。 以上の研究ギャップを埋めるために,(1)手動チューニングなしで異なる方程式型とメッシュ解像度を適応させるために,MRF-PINN(Multi-Receptive-Field PINN)モデルを構築した。 2) MRF-PINNの一般性と利点は3つの典型的な線形PDE(楕円型, 放物型, 双曲型)と非線形PDE(Navier-Stokes方程式)で検証される。 3) 最終mrf-pinn結果に対する各受容野の寄与を分析し, 有限差分精度, モデル複雑性(チャネル数), メッシュ分解能がmrf-pinn結果に及ぼす影響について検討した。 本稿では,MRF-PINNがハイパーパラメータチューニングなしで全く異なる方程式型やメッシュ解像度に適応可能であることを示す。 さらに,高次有限差分,大チャネル数,高メッシュ分解能で解法誤差が著しく減少し,一般の畳み込みPINN方式が期待できる。

Physics-informed neural networks (PINN) can achieve lower development and solving cost than traditional partial differential equation (PDE) solvers in scenarios such as reconstructing the physics field and solving the inverse problem. Due to the advantages of parameter sharing, spatial feature extraction and low inference cost, convolutional neural networks (CNN) are increasingly used in PINN. To adapt convolutional PINN to different equations, researchers have to spend much time tuning critical hyperparameters. Furthermore, the effects of finite difference accuracy, model complexity, and mesh resolution on the prediction result of convolutional PINN are unclear. To fill the above research gaps, in this paper, (1) A Multi-Receptive-Field PINN (MRF-PINN) model is constructed to adapt different equation types and mesh resolutions without manual tuning.(2) The generality and advantages of the MRF-PINN are verified in three typical linear PDEs (elliptic, parabolic, hyperbolic) and nonlinear PDEs (Navier-Stokes equations). (3) The contribution of each receptive field to the final MRF-PINN result is analyzed, and the influence of finite difference accuracy, model complexity (channel number) and mesh resolution on the MRF-PINN result is tested. This paper shows that MRF-PINN can adapt to completely different equation types and mesh resolutions without any hyperparameter tuning. Further, the solving error is significantly decreased under high-order finite difference, large channel number, and high mesh resolution, which is expected to become a general convolutional PINN scheme.
翻訳日:2022-09-08 13:18:42 公開日:2022-09-06
# HoloLens in Medicine : 体系的レビューと分類学

The HoloLens in Medicine: A systematic Review and Taxonomy ( http://arxiv.org/abs/2209.03245v1 )

ライセンス: Link先を確認
Christina Gsaxner, Jianning Li, Antonio Pepe, Yuan Jin, Jens Kleesiek, Dieter Schmalstieg and Jan Egger(参考訳) hololens(microsoft corp., redmond, wa)は、ヘッドウォードで光学的にシースルーな拡張現実ディスプレイで、最近の医療用拡張現実研究の加速の主役だ。 医療環境では、hololensによって医師は患者の情報を直接把握し、臨床シナリオの視点を直接覆し、医学生は複雑な解剖学や手順をよりよく理解し、患者はより没入的な指導によって治療のタスクを実行することができる。 この体系的なレビューでは、2016年3月の発売から2021年の発売まで、医療分野における初代hololensの使用に関する包括的な概観を提供しており、その後継機であるhololens 2.0へと注目が移っている。 PubMed および Scopus データベースを体系的に検索し,関連文献 171 を同定した。 これらの出版物について,登録・追跡のための技術手法,データソース,可視化,検証・評価等について分析した。 HoloLensが様々な医療シナリオで利用可能であることは示されているが,臨床実践においてARを確立するためには,精度,信頼性,ユーザビリティ,ワークフロー,知覚といった分野への取り組みが不可欠である。

The HoloLens (Microsoft Corp., Redmond, WA), a head-worn, optically see-through augmented reality display, is the main player in the recent boost in medical augmented reality research. In medical settings, the HoloLens enables the physician to obtain immediate insight into patient information, directly overlaid with their view of the clinical scenario, the medical student to gain a better understanding of complex anatomies or procedures, and even the patient to execute therapeutic tasks with improved, immersive guidance. In this systematic review, we provide a comprehensive overview of the usage of the first-generation HoloLens within the medical domain, from its release in March 2016, until the year of 2021, were attention is shifting towards it's successor, the HoloLens 2. We identified 171 relevant publications through a systematic search of the PubMed and Scopus databases. We analyze these publications in regard to their intended use case, technical methodology for registration and tracking, data sources, visualization as well as validation and evaluation. We find that, although the feasibility of using the HoloLens in various medical scenarios has been shown, increased efforts in the areas of precision, reliability, usability, workflow and perception are necessary to establish AR in clinical practice.
翻訳日:2022-09-08 13:11:29 公開日:2022-09-06
# 未知共分散・不均質雑音をもつ重項劣化回帰に対するスペクトル最小二乗型法

A spectral least-squares-type method for heavy-tailed corrupted regression with unknown covariance \& heterogeneous noise ( http://arxiv.org/abs/2209.02856v1 )

ライセンス: Link先を確認
Roberto I. Oliveira and Zoraida F. Rico and Philip Thompson(参考訳) 重み付き最小二乗線形回帰は、少なくとも$\epsilon n$ arbitrary outliersの$n$のラベル特徴サンプルが破損したと仮定して再検討する。 p$-次元パラメータ $b^*$ をラベル-函数対 $(y,x)$ のそのようなサンプルとして、重み付き $(x,\xi)$ で $y=\langle x,b^*\rangle+\xi$ を満たすと見積もる。 x$ が $l^4-l^2$ であり、定数 $l>0$ であり、分散行列 $\sigma$ と最小固有値 $1/\mu^2>0$ と有界条件番号 $\kappa>0$ と仮定する。 ノイズ $\xi$ は任意に $x$ に依存し、$\xi x$ が有限共分散行列 $\xi$ を持つ限り非対称である。 本稿では,$(\Sigma,\Xi)$に関する知識や,$\Xi$の演算ノルムを仮定して,電力法に基づくほぼ最適に計算可能な推定器を提案する。 少なくとも 1-\delta$ の確率で、提案する推定値は、統計量 $\mu^2\vert\xi\vert^{1/2}(\frac{p}{n}+\frac{\log(1/\delta)}{n}+\epsilon)^{1/2}$ および分解点 $\epsilon\lesssim\frac{1}{l^4\kappa^2}$ となり、どちらも$\ell_2$-norm において最適であり、最小の最小サンプルサイズ $l^4\kappa^2(p\log p + \log(1/\delta))\lesssim n$ となる。 我々の知る限りでは、このアルゴリズムは上記の全ての特性を同時に満たす最初の計算可能なアルゴリズムである。 我々の推定値は2段階の乗法重み更新アルゴリズムに基づいている。 第一段階は、(未知の)プレ条件内積 $\langle\Sigma(\cdot),\cdot\rangle$ に対する降下方向 $\hat v$ を推定する。 第2段階は、(既知の)内部積 $\langle\cdot,\cdot\rangle$ に対する降下方向 $\Sigma\hat v$ を、$\Sigma$ を知らずに推定する。

We revisit heavy-tailed corrupted least-squares linear regression assuming to have a corrupted $n$-sized label-feature sample of at most $\epsilon n$ arbitrary outliers. We wish to estimate a $p$-dimensional parameter $b^*$ given such sample of a label-feature pair $(y,x)$ satisfying $y=\langle x,b^*\rangle+\xi$ with heavy-tailed $(x,\xi)$. We only assume $x$ is $L^4-L^2$ hypercontractive with constant $L>0$ and has covariance matrix $\Sigma$ with minimum eigenvalue $1/\mu^2>0$ and bounded condition number $\kappa>0$. The noise $\xi$ can be arbitrarily dependent on $x$ and nonsymmetric as long as $\xi x$ has finite covariance matrix $\Xi$. We propose a near-optimal computationally tractable estimator, based on the power method, assuming no knowledge on $(\Sigma,\Xi)$ nor the operator norm of $\Xi$. With probability at least $1-\delta$, our proposed estimator attains the statistical rate $\mu^2\Vert\Xi\Vert^{1/2}(\frac{p}{n}+\frac{\log(1/\delta)}{n}+\epsilon)^{1/2}$ and breakdown-point $\epsilon\lesssim\frac{1}{L^4\kappa^2}$, both optimal in the $\ell_2$-norm, assuming the near-optimal minimum sample size $L^4\kappa^2(p\log p + \log(1/\delta))\lesssim n$, up to a log factor. To the best of our knowledge, this is the first computationally tractable algorithm satisfying simultaneously all the mentioned properties. Our estimator is based on a two-stage Multiplicative Weight Update algorithm. The first stage estimates a descent direction $\hat v$ with respect to the (unknown) pre-conditioned inner product $\langle\Sigma(\cdot),\cdot\rangle$. The second stage estimate the descent direction $\Sigma\hat v$ with respect to the (known) inner product $\langle\cdot,\cdot\rangle$, without knowing nor estimating $\Sigma$.
翻訳日:2022-09-08 13:07:59 公開日:2022-09-06
# 自動車保険政策のリスク評価へのデータサイエンスアプローチ

A Data Science Approach to Risk Assessment for Automobile Insurance Policies ( http://arxiv.org/abs/2209.02762v1 )

ライセンス: Link先を確認
Patrick Hosein(参考訳) 適切な自動車保険保険保険料を決定するためには、政策上の運転者・車両に関連するリスク、政策の管理に係る運用コスト、及び望ましい利益率の3つの要因を考慮する必要がある。 プレミアムは、これら3つの値の関数であるべきです。 データサイエンスアプローチによるリスクアセスメントに重点を置いている。 従来の頻度と重大度メトリクスを使う代わりに、現在のポリシーと過去のポリシーの履歴データを使用して、新しい顧客が行う総請求を予測します。 ポリシーの複数の特徴(ドライバーの年齢と性別、自動車の価値、以前の事故など)を考慮すれば、これらの特徴に特化してパーソナライズされた保険ポリシーの提供を試みることができる。 私たちは過去と現在のすべてのポリシーの年間平均クレームを同じ特徴で計算し、これらのクレームレートを平均で計算できます。 残念ながら、堅牢な平均を得るために十分なサンプルは存在しないかもしれない。 その代わり、堅牢な平均に対して十分なサンプルを得るために、"類似"のポリシーを含めることができます。 そのため、パーソナライズと堅牢性(十分なサンプルを取得するのに十分なドメインを拡大する)のトレードオフに直面しています。 これはバイアス・ヴァリタンス・トレードオフとして知られている。 我々は、この問題をモデル化し、この2つ(すなわち、最も高い予測精度を提供するバランス)間の最適なトレードオフを決定し、クレームレート予測問題に適用する。 実データによるアプローチを実証する。

In order to determine a suitable automobile insurance policy premium one needs to take into account three factors, the risk associated with the drivers and cars on the policy, the operational costs associated with management of the policy and the desired profit margin. The premium should then be some function of these three values. We focus on risk assessment using a Data Science approach. Instead of using the traditional frequency and severity metrics we instead predict the total claims that will be made by a new customer using historical data of current and past policies. Given multiple features of the policy (age and gender of drivers, value of car, previous accidents, etc.) one can potentially try to provide personalized insurance policies based specifically on these features as follows. We can compute the average claims made per year of all past and current policies with identical features and then take an average over these claim rates. Unfortunately there may not be sufficient samples to obtain a robust average. We can instead try to include policies that are "similar" to obtain sufficient samples for a robust average. We therefore face a trade-off between personalization (only using closely similar policies) and robustness (extending the domain far enough to capture sufficient samples). This is known as the Bias-Variance Trade-off. We model this problem and determine the optimal trade-off between the two (i.e. the balance that provides the highest prediction accuracy) and apply it to the claim rate prediction problem. We demonstrate our approach using real data.
翻訳日:2022-09-08 13:07:02 公開日:2022-09-06
# オブジェクト再配置のためのマルチスキルモバイルマニピュレーション

Multi-skill Mobile Manipulation for Object Rearrangement ( http://arxiv.org/abs/2209.02778v1 )

ライセンス: Link先を確認
Jiayuan Gu, Devendra Singh Chaplot, Hao Su, Jitendra Malik(参考訳) 本研究では,オブジェクト再構成のための長距離移動操作タスクに対するモジュラーアプローチについて検討し,全タスクをサブタスク列に分解する。 タスク全体に取り組むために、先行作業チェーンは、サブタスクで個別に学習されるポイントゴールナビゲーションスキルで複数の静止操作スキルをチェーンする。 このフレームワークは、モノリシックなエンドツーエンドのrlポリシよりも効果的だが、例えば、定常的な操作スキルが目標に到達できないような悪い場所にナビゲートするなど、スキルチェーンのエラーを複雑化することに悩まされている。 そこで本研究では,複数の位置から対象物体との対話を柔軟に行うために,操作スキルをモビリティに含めるべきであり,同時にナビゲーションスキルが複数の端点を有して操作を成功させることが可能であることを示す。 我々は,固定的ではなくモバイル操作スキルを実装し,ポイントゴールではなく,地域目標で訓練されたナビゲーションスキルをトレーニングすることにより,これらのアイデアを運用する。 我々は,ホームアシスタントベンチマーク(HAB)における3つの長軸移動操作課題に対して,マルチスキル移動操作手法M3を評価し,ベースラインと比較して優れた性能を示す。

We study a modular approach to tackle long-horizon mobile manipulation tasks for object rearrangement, which decomposes a full task into a sequence of subtasks. To tackle the entire task, prior work chains multiple stationary manipulation skills with a point-goal navigation skill, which are learned individually on subtasks. Although more effective than monolithic end-to-end RL policies, this framework suffers from compounding errors in skill chaining, e.g., navigating to a bad location where a stationary manipulation skill can not reach its target to manipulate. To this end, we propose that the manipulation skills should include mobility to have flexibility in interacting with the target object from multiple locations and at the same time the navigation skill could have multiple end points which lead to successful manipulation. We operationalize these ideas by implementing mobile manipulation skills rather than stationary ones and training a navigation skill trained with region goal instead of point goal. We evaluate our multi-skill mobile manipulation method M3 on 3 challenging long-horizon mobile manipulation tasks in the Home Assistant Benchmark (HAB), and show superior performance as compared to the baselines.
翻訳日:2022-09-08 13:06:38 公開日:2022-09-06
# 深層学習による3次元co$_2$プルーム検出のための時間経過表面重力データのインバージョン

Inversion of Time-Lapse Surface Gravity Data for Detection of 3D CO$_2$ Plumes via Deep Learning ( http://arxiv.org/abs/2209.02850v1 )

ライセンス: Link先を確認
Adrian Celaya, Bertrand Denel, Yen Sun, Mauricio Araya-Polo, Antony Price(参考訳) シミュレーション重力データを3次元地下岩流特性に逆転する3つのアルゴリズムを導入する。 第1のアルゴリズムはデータ駆動のディープラーニングベースのアプローチで、第2のアルゴリズムは物理モデリングとディープラーニングのアプローチを1つのワークフローに混合し、第3のアルゴリズムは表面重力モニタリングの時間依存性を考慮する。 提案アルゴリズムの目的は,CO$_2$沈降配置を監視するための補完ツールとして,表面下CO$_2$ plumesの予測である。 提案アルゴリズムは従来の逆転法より優れ, ほぼリアルタイムに高分解能な3次元地下再構成を行う。 提案手法は,予測プルーム幾何に対して最大0.8のDiceスコアを達成し,$\mu$Galsでほぼ完全なデータミスフィットを実現する。 これらの結果から, 4次元表面重力モニタリングと深層学習技術を組み合わせることで, 低コストで迅速で非侵襲的なCO$2$ストレージのモニタリング方法が示唆された。

We introduce three algorithms that invert simulated gravity data to 3D subsurface rock/flow properties. The first algorithm is a data-driven, deep learning-based approach, the second mixes a deep learning approach with physical modeling into a single workflow, and the third considers the time dependence of surface gravity monitoring. The target application of these proposed algorithms is the prediction of subsurface CO$_2$ plumes as a complementary tool for monitoring CO$_2$ sequestration deployments. Each proposed algorithm outperforms traditional inversion methods and produces high-resolution, 3D subsurface reconstructions in near real-time. Our proposed methods achieve Dice scores of up to 0.8 for predicted plume geometry and near perfect data misfit in terms of $\mu$Gals. These results indicate that combining 4D surface gravity monitoring with deep learning techniques represents a low-cost, rapid, and non-intrusive method for monitoring CO$_2$ storage sites.
翻訳日:2022-09-08 13:06:18 公開日:2022-09-06
# 共有境界を有する両室解剖の統計的形状モデル

Statistical Shape Modeling of Biventricular Anatomy with Shared Boundaries ( http://arxiv.org/abs/2209.02706v1 )

ライセンス: Link先を確認
Krithika Iyer, Alan Morris, Brian Zenger, Karthik Karnath, Benjamin A Orkild, Oleksandre Korshak, Shireen Elhabian(参考訳) 統計的形状モデリング(ssm: statistical shape modeling)は、複雑な解剖学の詳細な表現を生成する上で有用で強力なツールである。 ssmは、数学、統計学、計算を応用して形を定量的表現(対応点やランドマークなど)に解析し、人口の解剖学的変異に関する様々な質問に答える。 複雑な解剖学的構造は様々な相互作用や複雑な構造を持つ多様な部分を持つ。 例えば、心臓は四面体の解剖学であり、複数のチャンバーの境界が共有されている。 心室の協調的かつ効率的な収縮は、全身の臓器を適切に灌流するために必要である。 心臓の共有境界におけるサブトル形状の変化は、非協調的収縮と低臓器灌流を引き起こす潜在的な病理学的変化を示す可能性がある。 早期検出と堅牢な定量化は、理想的な治療技術と介入タイミングに関する洞察を与える可能性がある。 しかし、既存のSSMアプローチでは共有境界の統計を明示的にモデル化することができない。 本稿では,個別の解剖とそれらの共有境界面の形態的およびアライメント変化を捉えた共有境界を持つマルチオルガン解剖学の統計的形状モデルを構築するための,汎用的で柔軟なデータ駆動アプローチを提案する。 本研究は,両室間構造と心室中隔(共有境界面)を一貫してパラメータ化する形状モデルを構築し,両室間心筋データセットを用いた方法の有効性を実証する。

Statistical shape modeling (SSM) is a valuable and powerful tool to generate a detailed representation of complex anatomy that enables quantitative analysis and the comparison of shapes and their variations. SSM applies mathematics, statistics, and computing to parse the shape into a quantitative representation (such as correspondence points or landmarks) that will help answer various questions about the anatomical variations across the population. Complex anatomical structures have many diverse parts with varying interactions or intricate architecture. For example, the heart is four-chambered anatomy with several shared boundaries between chambers. Coordinated and efficient contraction of the chambers of the heart is necessary to adequately perfuse end organs throughout the body. Subtle shape changes within these shared boundaries of the heart can indicate potential pathological changes that lead to uncoordinated contraction and poor end-organ perfusion. Early detection and robust quantification could provide insight into ideal treatment techniques and intervention timing. However, existing SSM approaches fall short of explicitly modeling the statistics of shared boundaries. This paper presents a general and flexible data-driven approach for building statistical shape models of multi-organ anatomies with shared boundaries that capture morphological and alignment changes of individual anatomies and their shared boundary surfaces throughout the population. We demonstrate the effectiveness of the proposed methods using a biventricular heart dataset by developing shape models that consistently parameterize the cardiac biventricular structure and the interventricular septum (shared boundary surface) across the population data.
翻訳日:2022-09-08 12:54:29 公開日:2022-09-06
# パターン認識のための手作り特徴選択技術:調査

Handcrafted Feature Selection Techniques for Pattern Recognition: A Survey ( http://arxiv.org/abs/2209.02746v1 )

ライセンス: Link先を確認
Alysson Ribeiro da Silva, Camila Guedes Silveira(参考訳) パターン認識を行うときの分類器の精度は、入力特徴ベクトルの品質と代表性に大きく関係している。 特徴選択は、情報を適切に表現し、分類器の精度を高めることができるプロセスである。 このプロセスは最高の機能を見つける責任があり、それによってパターンがどのクラスに属しているかを特定できます。 特徴の選択方法はフィルタ、ラッパー、埋め込みに分類できる。 本稿では,手作り特徴選択のためのフィルタとラッパー法について検討する。 いくつかの議論、データ構造、処理時間、特徴ベクトルを適切に表現する能力についても、いくつかのメソッドが機能選択を行うのにどの程度適しているかを明確に示すために提供されている。 したがって, 提案した特徴選択法は, 正と負を考慮して適用すれば正確かつ効率的であり, 問題の領域に最も適合するものが最難題である可能性がある。

The accuracy of a classifier, when performing Pattern recognition, is mostly tied to the quality and representativeness of the input feature vector. Feature Selection is a process that allows for representing information properly and may increase the accuracy of a classifier. This process is responsible for finding the best possible features, thus allowing us to identify to which class a pattern belongs. Feature selection methods can be categorized as Filters, Wrappers, and Embed. This paper presents a survey on some Filters and Wrapper methods for handcrafted feature selection. Some discussions, with regard to the data structure, processing time, and ability to well represent a feature vector, are also provided in order to explicitly show how appropriate some methods are in order to perform feature selection. Therefore, the presented feature selection methods can be accurate and efficient if applied considering their positives and negatives, finding which one fits best the problem's domain may be the hardest task.
翻訳日:2022-09-08 12:54:07 公開日:2022-09-06
# The Es geht um Respekt, nicht um Technologie: Erkenntnisse aus einem Interessensgruppen-\'ubergreifenden Workshop zu genderfairer Sprache und Sprachtechnologie

"Es geht um Respekt, nicht um Technologie": Erkenntnisse aus einem Interessensgruppen-\"ubergreifenden Workshop zu genderfairer Sprache und Sprachtechnologie ( http://arxiv.org/abs/2209.02793v1 )

ライセンス: Link先を確認
Sabrina Burtscher and Katta Spiel and Lukas Daniel Klausner and Manuel Lardelli and Dagmar Gromann(参考訳) 西洋社会における非バイナリの人々の注目が高まる中、ジェンダー・フェア言語の戦略は、二進法(女性/男性のみ)のジェンダー概念から脱却し始めた。 それにもかかわらず、これらのアイデンティティを機械翻訳モデルに組み込むアプローチはほとんど存在しない。 このような技術の社会的・技術的意味の理解の欠如は、抑圧と誤解の言語メカニズムを更に再現するリスクを負う。 In this paper, we describe the methods and results of a workshop on gender-fair language and language technologies, which was led and organised by ten researchers from TU Wien, St. P\"olten UAS, FH Campus Wien and the University of Vienna and took place in Vienna in autumn 2021. A wide range of interest groups and their representatives were invited to ensure that the topic could be dealt with holistically. Accordingly, we aimed to include translators, machine translation experts and non-binary individuals (as "community experts") on an equal footing. 分析の結果, 機械翻訳におけるジェンダーは, 高い文脈感受性を必要とし, 技術開発者は社会的交渉の過程において慎重な姿勢をとる必要があり, 柔軟なアプローチが現在最も適しているように思われる。 次に、技術開発が社会的進歩と適切に整合できるように、ジェンダーフェア言語技術の分野における我々の研究結果から続くステップについて説明する。 -[arXiv管理者が手作業で追加するドイツの抽象語]

With the increasing attention non-binary people receive in Western societies, strategies of gender-fair language have started to move away from binary (only female/male) concepts of gender. Nevertheless, hardly any approaches to take these identities into account into machine translation models exist so far. A lack of understanding of the socio-technical implications of such technologies risks further reproducing linguistic mechanisms of oppression and mislabelling. In this paper, we describe the methods and results of a workshop on gender-fair language and language technologies, which was led and organised by ten researchers from TU Wien, St. P\"olten UAS, FH Campus Wien and the University of Vienna and took place in Vienna in autumn 2021. A wide range of interest groups and their representatives were invited to ensure that the topic could be dealt with holistically. Accordingly, we aimed to include translators, machine translation experts and non-binary individuals (as "community experts") on an equal footing. Our analysis shows that gender in machine translation requires a high degree of context sensitivity, that developers of such technologies need to position themselves cautiously in a process still under social negotiation, and that flexible approaches seem most adequate at present. We then illustrate steps that follow from our results for the field of gender-fair language technologies so that technological developments can adequately line up with social advancements. -- [German abstract to be added manually by arXiv admins]
翻訳日:2022-09-08 12:41:27 公開日:2022-09-06
# クロスシーンハイパースペクトル画像分類のための言語対応ドメイン一般化ネットワーク

Language-aware Domain Generalization Network for Cross-Scene Hyperspectral Image Classification ( http://arxiv.org/abs/2209.02700v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Mengmeng Zhang, Wei Li, Shuai Wang and Ran Tao(参考訳) 土地被覆クラスに関する広範な事前知識を含むテキスト情報は、ハイパースペクトル画像分類(HSI)タスクでは無視されている。 hsi分類支援における言語モードの有効性を検討する必要がある。 さらに、大規模な事前学習画像テキスト基盤モデルは、ゼロショット転送を含む様々なダウンストリームアプリケーションで優れた性能を示している。 しかし、ほとんどのドメイン一般化法は、モデルの一般化性能を改善するために、マイニング言語的モーダル知識を扱ったことがない。 上記の不整合を補うために,言語対応ドメイン一般化ネットワーク(LDGnet)を提案し,ドメイン間共有事前知識からドメイン間不変表現を学習する。 提案手法は、ソースドメイン(SD)のみをトレーニングし、ターゲットドメイン(TD)にモデルを転送する。 画像エンコーダとテキストエンコーダを含むデュアルストリームアーキテクチャを用いて視覚的および言語的特徴を抽出し、粗くきめ細かなテキスト表現を2段階の言語的特徴を抽出するように設計する。 さらに、言語的特徴をクロスドメイン共有意味空間として使用し、視覚言語的アライメントは、意味空間における教師付きコントラスト学習によって完了する。 3つのデータセットに対する大規模な実験は、最先端技術と比較して提案手法の優位性を示している。

Text information including extensive prior knowledge about land cover classes has been ignored in hyperspectral image classification (HSI) tasks. It is necessary to explore the effectiveness of linguistic mode in assisting HSI classification. In addition, the large-scale pre-training image-text foundation models have demonstrated great performance in a variety of downstream applications, including zero-shot transfer. However, most domain generalization methods have never addressed mining linguistic modal knowledge to improve the generalization performance of model. To compensate for the inadequacies listed above, a Language-aware Domain Generalization Network (LDGnet) is proposed to learn cross-domain invariant representation from cross-domain shared prior knowledge. The proposed method only trains on the source domain (SD) and then transfers the model to the target domain (TD). The dual-stream architecture including image encoder and text encoder is used to extract visual and linguistic features, in which coarse-grained and fine-grained text representations are designed to extract two levels of linguistic features. Furthermore, linguistic features are used as cross-domain shared semantic space, and visual-linguistic alignment is completed by supervised contrastive learning in semantic space. Extensive experiments on three datasets demonstrate the superiority of the proposed method when compared with state-of-the-art techniques.
翻訳日:2022-09-08 12:31:36 公開日:2022-09-06
# 教師なしシーンスケッチと光合成

Unsupervised Scene Sketch to Photo Synthesis ( http://arxiv.org/abs/2209.02834v1 )

ライセンス: Link先を確認
Jiayun Wang, Sangryul Jeon, Stella X. Yu, Xi Zhang, Himanshu Arora, Yu Lou(参考訳) スケッチは、フリーハンドで高速に実行されるため、直感的で強力な視覚的表現となる。 シーンスケッチからリアルな写真を合成する手法を提案する。 スケッチや写真ペアの不要なフレームワークでは,手軽に利用可能な大規模写真データセットから,教師なしの方法で直接学習する。 この目的のために,写真やスケッチを標準化された領域,すなわちエッジマップに変換することによって,トレーニング中に擬似スケッチフォトペアを提供する標準化モジュールを導入する。 また、スケッチと写真の間の領域ギャップを小さくすることで、全体像構造と、色やテクスチャといった低レベルの視覚スタイルの2つのコンポーネントに分割することができます。 この利点を活かし、スケッチの構造と参照写真の視覚的スタイルを組み合わせることで、写実的イメージを合成する。 知覚類似度指標と人間の知覚研究に関する広範囲な実験結果から,提案手法はシーンスケッチや最先端写真合成ベースラインよりも高い忠実度を持つ写実的写真を生成することができることがわかった。 また,我々のフレームワークは,対応するスケッチのストロークを編集することで,画像合成の制御可能な操作を容易にし,領域レベルの編集に依存する従来のアプローチよりも細部の詳細を提供する。

Sketches make an intuitive and powerful visual expression as they are fast executed freehand drawings. We present a method for synthesizing realistic photos from scene sketches. Without the need for sketch and photo pairs, our framework directly learns from readily available large-scale photo datasets in an unsupervised manner. To this end, we introduce a standardization module that provides pseudo sketch-photo pairs during training by converting photos and sketches to a standardized domain, i.e. the edge map. The reduced domain gap between sketch and photo also allows us to disentangle them into two components: holistic scene structures and low-level visual styles such as color and texture. Taking this advantage, we synthesize a photo-realistic image by combining the structure of a sketch and the visual style of a reference photo. Extensive experimental results on perceptual similarity metrics and human perceptual studies show the proposed method could generate realistic photos with high fidelity from scene sketches and outperform state-of-the-art photo synthesis baselines. We also demonstrate that our framework facilitates a controllable manipulation of photo synthesis by editing strokes of corresponding sketches, delivering more fine-grained details than previous approaches that rely on region-level editing.
翻訳日:2022-09-08 12:31:14 公開日:2022-09-06
# ソーシャルメディア上での有害薬物イベント抽出ロバスト性の増加--否定と投機に関する事例研究

Increasing Adverse Drug Events extraction robustness on social media: case study on negation and speculation ( http://arxiv.org/abs/2209.02812v1 )

ライセンス: Link先を確認
Simone Scaboro, Beatrice Portelli, Emmanuele Chersoni, Enrico Santus, Giuseppe Serra(参考訳) 過去10年間で、ソーシャルメディアプラットフォーム、ブログ、ヘルスフォーラムでAdverse Drug Events(ADE)を報告するユーザーが増えている。 大量の報告を踏まえると、薬物移動は自然言語処理(NLP)技術を用いてこれらの大量のテキストを迅速に分析する方法に焦点を合わせ、薬物関連の副作用の言及を検出し、医学的な調査を誘発している。 しかしながら、この課題への関心やNLPの進歩にもかかわらず、否定や憶測といった言語現象に直面するこれらのモデルの堅牢性は、オープンな研究課題である。 否定と推測は自然言語に広く浸透する現象であり、テキスト中の事実と非事実の文を区別する自動化システムの能力を著しく阻害することができる。 本稿では,ソーシャルメディア上のADE検出のための4つの最先端システムについて考察する。 SNAXは,否定および推測されたADEを含むサンプルに対してそれらの性能をテストするベンチマークであり,これらの現象に対する脆弱性を示す。 次に,これらのモデルのロバスト性を高めるための2つの戦略を導入し,両者が性能の大幅な向上をもたらし,モデルによって予測されるスプリアスエンティティの数を60%削減し,推測値の80%を低下させることを示した。

In the last decade, an increasing number of users have started reporting Adverse Drug Events (ADE) on social media platforms, blogs, and health forums. Given the large volume of reports, pharmacovigilance has focused on ways to use Natural Language Processing (NLP) techniques to rapidly examine these large collections of text, detecting mentions of drug-related adverse reactions to trigger medical investigations. However, despite the growing interest in the task and the advances in NLP, the robustness of these models in face of linguistic phenomena such as negations and speculations is an open research question. Negations and speculations are pervasive phenomena in natural language, and can severely hamper the ability of an automated system to discriminate between factual and nonfactual statements in text. In this paper we take into consideration four state-of-the-art systems for ADE detection on social media texts. We introduce SNAX, a benchmark to test their performance against samples containing negated and speculated ADEs, showing their fragility against these phenomena. We then introduce two possible strategies to increase the robustness of these models, showing that both of them bring significant increases in performance, lowering the number of spurious entities predicted by the models by 60% for negation and 80% for speculations.
翻訳日:2022-09-08 12:26:54 公開日:2022-09-06
# 多言語ファインタニングとバックトランスレーションによる多言語双方向教師なし翻訳

Multilingual Bidirectional Unsupervised Translation Through Multilingual Finetuning and Back-Translation ( http://arxiv.org/abs/2209.02821v1 )

ライセンス: Link先を確認
Bryan Li, Ajay Patel, Chris Callison-Burch, Mohammad Sadegh Rasooli(参考訳) そこで本研究では,未熟な言語を英語と英語の両方に翻訳する単一のnmtモデルを開発するための2段階学習手法を提案する。 最初の段階では、事前訓練されたXLM-RおよびRoBERTa重みに対してエンコーダデコーダモデルを初期化し、25言語で並列データに対して多言語微調整を行う。 このモデルは、未熟な言語のゼロショット翻訳に一般化できる。 第2段階では、この一般化機能を活用して、モノリンガルデータセットから合成並列データを生成し、その後、一連のバックトランスレーションでトレーニングします。 最終的なモデルは、多対多の演奏を維持しながら、英語から英語への方向まで伸びている。 EcXTra(英語中心のクロスリンガル(X)トランスファー)と呼ぶ。 本手法は補助並列データと単言語データを順次活用し,概念的には単純であり,両段階において標準クロスエントロピー目的のみを用いる。 最終的なEcXTraモデルは、8つの低リソース言語上の教師なしNMTで評価され、英語とカザフ語(22.3 > 10.4 BLEU)の新たな最先端を実現し、他の15の翻訳方向の競合性能が評価される。

We propose a two-stage training approach for developing a single NMT model to translate unseen languages both to and from English. For the first stage, we initialize an encoder-decoder model to pretrained XLM-R and RoBERTa weights, then perform multilingual fine-tuning on parallel data in 25 languages to English. We find this model can generalize to zero-shot translations on unseen languages. For the second stage, we leverage this generalization ability to generate synthetic parallel data from monolingual datasets, then train with successive rounds of back-translation. The final model extends to the English-to-Many direction, while retaining Many-to-English performance. We term our approach EcXTra (English-centric Crosslingual (X) Transfer). Our approach sequentially leverages auxiliary parallel data and monolingual data, and is conceptually simple, only using a standard cross-entropy objective in both stages. The final EcXTra model is evaluated on unsupervised NMT on 8 low-resource languages achieving a new state-of-the-art for English-to-Kazakh (22.3 > 10.4 BLEU), and competitive performance for the other 15 translation directions.
翻訳日:2022-09-08 12:26:31 公開日:2022-09-06
# ASR2K: 音声のない約2000言語のための音声認識

ASR2K: Speech Recognition for Around 2000 Languages without Audio ( http://arxiv.org/abs/2209.02842v1 )

ライセンス: Link先を確認
Xinjian Li, Florian Metze, David R Mortensen, Alan W Black, Shinji Watanabe(参考訳) 最近の音声認識モデルは、多くの低リソース言語では利用できない大規模な教師付きデータセットに依存している。 本稿では,対象言語に対して音声を必要としない音声認識パイプラインを提案する。 唯一の前提は、生のテキストデータセットやn-gram統計データにアクセスできることである。 私たちの音声パイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。 標準的なパイプラインとは異なり、音響モデルと発音モデルは、監督なしで多言語モデルを使用する。 言語モデルはn-gram統計や生のテキストデータセットを使って構築される。 我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築する。 さらに、私たちはCommon VoiceとCMU Wildernessデータセットの2つのデータセットで129の言語でアプローチをテストしています。 我々は,clbadanの統計のみを用いて,荒野データセット上で50%のcerと74%のwerを達成し,10,000の生テキスト発話を用いて45%のcerと69%のwerに改善した。

Most recent speech recognition models rely on large supervised datasets, which are unavailable for many low-resource languages. In this work, we present a speech recognition pipeline that does not require any audio for the target language. The only assumption is that we have access to raw text datasets or a set of n-gram statistics. Our speech pipeline consists of three components: acoustic, pronunciation, and language models. Unlike the standard pipeline, our acoustic and pronunciation models use multilingual models without any supervision. The language model is built using n-gram statistics or the raw text dataset. We build speech recognition for 1909 languages by combining it with Crubadan: a large endangered languages n-gram database. Furthermore, we test our approach on 129 languages across two datasets: Common Voice and CMU Wilderness dataset. We achieve 50% CER and 74% WER on the Wilderness dataset with Crubadan statistics only and improve them to 45% CER and 69% WER when using 10000 raw text utterances.
翻訳日:2022-09-08 12:26:06 公開日:2022-09-06
# ベイズ逆問題に対する半教師付き可逆DeepONets

Semi-supervised Invertible DeepONets for Bayesian Inverse Problem ( http://arxiv.org/abs/2209.02772v1 )

ライセンス: Link先を確認
Sebastian Kaltenbach, Paris Perdikaris, Phaedon-Stelios Koutsourelakis(参考訳) Deep Operator Networks (DeepONets)は、学習演算子、すなわち無限次元関数空間間の写像によってパラメトリックPDEを解決する強力なデータ駆動ツールを提供する。 本研究では,高次元ベイズ逆問題の文脈において,物理に変形したdeeponetsを用いる。 従来の解法戦略は、パラメトリック微分の計算だけでなく、巨大な、しばしば実現不可能な多くの前方モデル解を必要とする。 効率的な解を実現するために、パラメトリック入力と分岐ネット出力の間の可逆かつ微分可能な写像を出力する実NVPアーキテクチャを用いてDeepONetsを拡張する。 これにより、観測数や観測ノイズの大きさに関係なく容易に適応できる全後方の正確な近似を構築することができる。 結果として、追加のフォワードソリューションは不要であり、またコストのかかるサンプリング手順も不要である。 本研究では, 反導出, 反応拡散, ダーシーフロー方程式に基づく逆問題の文脈において, 提案手法の有効性と精度を示す。

Deep Operator Networks (DeepONets) offer a powerful, data-driven tool for solving parametric PDEs by learning operators, i.e. maps between infinite-dimensional function spaces. In this work, we employ physics-informed DeepONets in the context of high-dimensional, Bayesian inverse problems. Traditional solution strategies necessitate an enormous, and frequently infeasible, number of forward model solves, as well as the computation of parametric derivatives. In order to enable efficient solutions, we extend DeepONets by employing a realNVP architecture which yields an invertible and differentiable map between the parametric input and the branch net output. This allows us to construct accurate approximations of the full posterior which can be readily adapted irrespective of the number of observations and the magnitude of the observation noise. As a result, no additional forward solves are required, nor is there any need for costly sampling procedures. We demonstrate the efficacy and accuracy of the proposed methodology in the context of inverse problems based on a anti-derivative, a reaction-diffusion and a Darcy-flow equation.
翻訳日:2022-09-08 12:20:35 公開日:2022-09-06
# リスク回避型オンライン凸ゲームのゼロ次モーメント法

A Zeroth-Order Momentum Method for Risk-Averse Online Convex Games ( http://arxiv.org/abs/2209.02838v1 )

ライセンス: Link先を確認
Zifan Wang, Yi Shen, Zachary I. Bell, Scott Nivison, Michael M. Zavlanos, Karl H. Johansson(参考訳) エージェントの目的が,高いコストを発生させる個人のリスクを最小限に抑えることにある,未知のゲームを繰り返す場合のリスク回避学習を考える。 具体的には、リスク指標として条件付アット・リスク(CVaR)を使用し、各エピソードにおける選択されたアクションのコスト値の形式で、ビジットフィードバックに依存して、CVaR値を見積もり、アクションを更新する。 CVaRを推定するために帯域フィードバックを使用する際の大きな課題は、エージェントが自身のコスト値にしかアクセスできないことである。 この課題に対処するために,コスト値の履歴情報をフル活用したモーメント付きリスク逆学習アルゴリズムを提案する。 本稿では,このアルゴリズムが文中で最もよく知られたアルゴリズムと一致していることを示す。 我々はCournotゲームに対する数値実験を行い,提案手法が既存手法より優れていることを示す。

We consider risk-averse learning in repeated unknown games where the goal of the agents is to minimize their individual risk of incurring significantly high cost. Specifically, the agents use the conditional value at risk (CVaR) as a risk measure and rely on bandit feedback in the form of the cost values of the selected actions at every episode to estimate their CVaR values and update their actions. A major challenge in using bandit feedback to estimate CVaR is that the agents can only access their own cost values, which, however, depend on the actions of all agents. To address this challenge, we propose a new risk-averse learning algorithm with momentum that utilizes the full historical information on the cost values. We show that this algorithm achieves sub-linear regret and matches the best known algorithms in the literature. We provide numerical experiments for a Cournot game that show that our method outperforms existing methods.
翻訳日:2022-09-08 12:20:18 公開日:2022-09-06
# 時空間的心臓統計形状モデリング:データ駆動アプローチ

Spatiotemporal Cardiac Statistical Shape Modeling: A Data-Driven Approach ( http://arxiv.org/abs/2209.02736v1 )

ライセンス: Link先を確認
Jadie Adams and Nawazish Khan and Alan Morris and Shireen Elhabian(参考訳) 解剖学の構造変化に関する臨床的研究は、人口レベルの形状の定量化や時空間統計学的形状モデリング(ssm)の恩恵を受ける可能性がある。 このようなツールは、患者の臓器周期や疾患の進行を関心のあるコホートに関連して特徴付けることができる。 形状モデルの構築には、定量的な形状表現(例えば対応するランドマーク)を確立する必要がある。 粒子ベース形状モデリング(psm)は、ランドマーク配置を最適化することで人口レベルの形状変化をキャプチャするデータ駆動ssmアプローチである。 しかし、断面的な研究設計を前提としており、時間とともに形が変化することを示す統計的パワーは限られている。 時空間または縦方向の形状変化をモデル化する既存の方法は、通常断面的に構築される事前定義された形状アトラスと事前構築された形状モデルを必要とする。 本稿では,psm法に触発されたデータ駆動アプローチを提案し,形状データから直接人口レベルの時空間形状変化を学習する。 本稿では,個体群間(inter-subject)と時系列間(intra-subject)の両方に対応するランドマークを生成する新しいssm最適化手法を提案する。 心房細動患者からの4D心筋データに本法を適用し,左心房の動的変化を示す効果を実証した。 さらに,本手法は,生成時系列モデルである線形力学系(LDS)に対して,時空間SSMのイメージベースアプローチよりも優れていることを示す。 提案手法により最適化された時空間形状モデルを用いてLDSの適合性が向上し,基礎となる時間依存性を正確に把握できることを示す。

Clinical investigations of anatomy's structural changes over time could greatly benefit from population-level quantification of shape, or spatiotemporal statistic shape modeling (SSM). Such a tool enables characterizing patient organ cycles or disease progression in relation to a cohort of interest. Constructing shape models requires establishing a quantitative shape representation (e.g., corresponding landmarks). Particle-based shape modeling (PSM) is a data-driven SSM approach that captures population-level shape variations by optimizing landmark placement. However, it assumes cross-sectional study designs and hence has limited statistical power in representing shape changes over time. Existing methods for modeling spatiotemporal or longitudinal shape changes require predefined shape atlases and pre-built shape models that are typically constructed cross-sectionally. This paper proposes a data-driven approach inspired by the PSM method to learn population-level spatiotemporal shape changes directly from shape data. We introduce a novel SSM optimization scheme that produces landmarks that are in correspondence both across the population (inter-subject) and across time-series (intra-subject). We apply the proposed method to 4D cardiac data from atrial-fibrillation patients and demonstrate its efficacy in representing the dynamic change of the left atrium. Furthermore, we show that our method outperforms an image-based approach for spatiotemporal SSM with respect to a generative time-series model, the Linear Dynamical System (LDS). LDS fit using a spatiotemporal shape model optimized via our approach provides better generalization and specificity, indicating it accurately captures the underlying time-dependency.
翻訳日:2022-09-08 12:19:23 公開日:2022-09-06
# cp-agcn:pytorch-based attention informed graph convolutional networkによる脳性麻痺リスク児の同定

CP-AGCN: Pytorch-based Attention Informed Graph Convolutional Network for Identifying Infants at Risk of Cerebral Palsy ( http://arxiv.org/abs/2209.02824v1 )

ライセンス: Link先を確認
Haozheng Zhang, Edmond S. L. Ho and Hubert P. H. Shum(参考訳) 早期の予測は脳性麻痺(CP)治療の不可欠な部分の一つと考えられている。 本稿では,一般運動評価(GMA)に基づくCP予測を支援するために,低コストで解釈可能な分類システムを提案する。 RGBビデオから抽出した骨格データから幼児のCPリスクを早期に識別するために,Pytorchに基づく注意インフォームドグラフ畳み込みネットワークを設計した。 また,雑音をフィルタリングしながら周波数領域のcp動きを学習する周波数バイニングモジュールを設計した。 本システムでは,解釈可能なCP分類結果を提供することで,対話型CP予測をサポートするために,コンシューマグレードのRGBビデオのみを必要とする。

Early prediction is clinically considered one of the essential parts of cerebral palsy (CP) treatment. We propose to implement a low-cost and interpretable classification system for supporting CP prediction based on General Movement Assessment (GMA). We design a Pytorch-based attention-informed graph convolutional network to early identify infants at risk of CP from skeletal data extracted from RGB videos. We also design a frequency-binning module for learning the CP movements in the frequency domain while filtering noise. Our system only requires consumer-grade RGB videos for training to support interactive-time CP prediction by providing an interpretable CP classification result.
翻訳日:2022-09-08 12:18:55 公開日:2022-09-06
# プラグイン・アンド・プレイによるビデオ再生

Video Restoration with a Deep Plug-and-Play Prior ( http://arxiv.org/abs/2209.02854v1 )

ライセンス: Link先を確認
Antoine Monod, Julie Delon, Matias Tassano, Andr\'es Almansa(参考訳) 本稿では,Deep Plug-and-Play(PnP)アプローチによるデジタルビデオの復元手法を提案する。 ベイズ形式主義の下では、この方法は、交代最適化スキームにおいて、前者の近位作用素の代わりに深い畳み込み分母ネットワークを使用する。 我々は、その手法を直接適用して、劣化したビデオ観察からデジタル映像を復元することで、以前のPnP作業と区別する。 これにより、一度訓練されたネットワークを他のビデオ復元タスクに再利用することができる。 ビデオデブラリング,超解像,および不規則欠落画素の補間実験では,同一のpnp方式を用いた同一画像ネットワークに比べて復元性能が向上し,時間安定性が向上するため,映像デブロリング専用ネットワークを用いることで明らかなメリットが得られた。 さらに,本手法は,各フレーム毎に異なる最先端pnp方式を適用する場合と比較して好適である。 これは、ビデオ復元の分野で新しい視点を開く。

This paper presents a novel method for restoring digital videos via a Deep Plug-and-Play (PnP) approach. Under a Bayesian formalism, the method consists in using a deep convolutional denoising network in place of the proximal operator of the prior in an alternating optimization scheme. We distinguish ourselves from prior PnP work by directly applying that method to restore a digital video from a degraded video observation. This way, a network trained once for denoising can be repurposed for other video restoration tasks. Our experiments in video deblurring, super-resolution, and interpolation of random missing pixels all show a clear benefit to using a network specifically designed for video denoising, as it yields better restoration performance and better temporal stability than a single image network with similar denoising performance using the same PnP formulation. Moreover, our method compares favorably to applying a different state-of-the-art PnP scheme separately on each frame of the sequence. This opens new perspectives in the field of video restoration.
翻訳日:2022-09-08 12:18:42 公開日:2022-09-06
# 1D$ to $nD$: 一変量最適化による多変量グローバル最適化のためのメタアルゴリズム

$1D$ to $nD$: A Meta Algorithm for Multivariate Global Optimization via Univariate Optimizers ( http://arxiv.org/abs/2209.03246v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本研究では,一変量大域最適化を用いた多変量大域最適化問題を解くメタアルゴリズムを提案する。 単変量大域最適化は、学界や産業において強調される多変量体の場合に比べてあまり注目されないが、それでも関連性があり、多変量体最適化の問題を解決するために直接利用できることを示す。 また、ロバストな後悔保証のある非負のノイズに対してロバストである場合、対応する後悔境界をtime horizon $t$とunivariateオプティマイザの平均的な後悔という観点で提供します。

In this work, we propose a meta algorithm that can solve a multivariate global optimization problem using univariate global optimizers. Although the univariate global optimization does not receive much attention compared to the multivariate case, which is more emphasized in academia and industry; we show that it is still relevant and can be directly used to solve problems of multivariate optimization. We also provide the corresponding regret bounds in terms of the time horizon $T$ and the average regret of the univariate optimizer, when it is robust against nonnegative noises with robust regret guarantees.
翻訳日:2022-09-08 12:17:37 公開日:2022-09-06
# read it to me: 感情的に認識された音声ナレーションアプリケーション

Read it to me: An emotionally aware Speech Narration Application ( http://arxiv.org/abs/2209.02785v1 )

ライセンス: Link先を確認
Rishibha Bansal(参考訳) 本研究は,音声の感情的スタイル伝達を試みている。 特に、MelGAN-VCアーキテクチャは様々な感情対転送のために検討されている。 生成された音声は、LSTMベースの音声の感情分類器を用いて分類される。 悲しみの表現が類似していることから,「悲しい」音声は「幸せ」や「怒り」と同等に生成されることがわかった。

In this work we try to perform emotional style transfer on audios. In particular, MelGAN-VC architecture is explored for various emotion-pair transfers. The generated audio is then classified using an LSTM-based emotion classifier for audio. We find that "sad" audio is generated well as compared to "happy" or "anger" as people have similar expressions of sadness.
翻訳日:2022-09-08 12:13:39 公開日:2022-09-06
# 確率近似を用いた進行学習のためのアニーリング最適化

Annealing Optimization for Progressive Learning with Stochastic Approximation ( http://arxiv.org/abs/2209.02826v1 )

ライセンス: Link先を確認
Christos Mavridis and John Baras(参考訳) 本研究では,計算資源が制限され,堅牢性と解釈性が優先されるアプリケーションのニーズを満たすための学習モデルを提案する。 学習問題は制約付き確率的最適化問題として定式化することができ、主に複雑性と性能のトレードオフを定義するモデル仮定に由来する。 このトレードオフは、過度な適合性、一般化能力、およびノイズや敵攻撃に対する堅牢性に密接に関係しており、モデルの構造と複雑さ、および使用される最適化方法の特性に依存する。 オンライン勾配フリー確率近似アルゴリズムとして定式化したアニーリング最適化に基づくオンラインプロトタイプベースの学習アルゴリズムを開発した。 学習モデルは、教師付き、教師なし、強化学習に使用される、解釈可能で徐々に成長する競争学習ニューラルネットワークモデルと見なすことができる。 アルゴリズムのアニール性は、最小限のハイパーパラメータチューニング要求、低局所最小化防止、初期条件に対する堅牢性に寄与する。 同時に、直感的な分岐現象を通じて、学習モデルの複雑さを必要に応じて増やすことで、パフォーマンスと複雑さのトレードオフをオンラインに制御する。 最後に、確率近似を用いることで、力学系や制御からの数学的ツールによる学習アルゴリズムの収束の研究が可能となり、強化学習アルゴリズムとの統合が可能となり、適応状態-動作集約スキームを構築することができる。

In this work, we introduce a learning model designed to meet the needs of applications in which computational resources are limited, and robustness and interpretability are prioritized. Learning problems can be formulated as constrained stochastic optimization problems, with the constraints originating mainly from model assumptions that define a trade-off between complexity and performance. This trade-off is closely related to over-fitting, generalization capacity, and robustness to noise and adversarial attacks, and depends on both the structure and complexity of the model, as well as the properties of the optimization methods used. We develop an online prototype-based learning algorithm based on annealing optimization that is formulated as an online gradient-free stochastic approximation algorithm. The learning model can be viewed as an interpretable and progressively growing competitive-learning neural network model to be used for supervised, unsupervised, and reinforcement learning. The annealing nature of the algorithm contributes to minimal hyper-parameter tuning requirements, poor local minima prevention, and robustness with respect to the initial conditions. At the same time, it provides online control over the performance-complexity trade-off by progressively increasing the complexity of the learning model as needed, through an intuitive bifurcation phenomenon. Finally, the use of stochastic approximation enables the study of the convergence of the learning algorithm through mathematical tools from dynamical systems and control, and allows for its integration with reinforcement learning algorithms, constructing an adaptive state-action aggregation scheme.
翻訳日:2022-09-08 12:12:50 公開日:2022-09-06
# Avast-CTU Public CAPE データセット

Avast-CTU Public CAPE Dataset ( http://arxiv.org/abs/2209.03188v1 )

ライセンス: Link先を確認
Branislav Bosansky, Dominik Kouba, Ondrej Manhal, Thorsten Sick, Viliam Lisy, Jakub Kroustek, Petr Somol(参考訳) マルウェア分析技術の研究を支援するために利用可能なデータは限られている。 特に、cuckoo/capeのようなリッチサンドボックスから生成される公開データセットは事実上存在しない。 動的サンドボックスを使用する利点は、ターゲットマシンでのファイル実行を現実的にシミュレーションし、そのような実行ログを取得することである。 マシンはマルウェアに感染する可能性があるため、実行ログに悪意のある動作をキャプチャする可能性が高いため、研究者はそのような動作を詳細に調査することができる。 その後のログ情報の分析は、産業用サイバーセキュリティバックエンドで広くカバーされていますが、私たちの知る限り、最先端の技術を使ってログ分析機能を進歩させるためのアカデミアへの投資は限られています。 このサンプルデータセットは,マルウェア検出のための新たな機械学習手法の設計,特に汎用的な悪意のある行動の自動検出をサポートする。 データセットはAvast Softwareとチェコ工科大学AIセンター(AIC)の協力の下で収集された。

There is a limited amount of publicly available data to support research in malware analysis technology. Particularly, there are virtually no publicly available datasets generated from rich sandboxes such as Cuckoo/CAPE. The benefit of using dynamic sandboxes is the realistic simulation of file execution in the target machine and obtaining a log of such execution. The machine can be infected by malware hence there is a good chance of capturing the malicious behavior in the execution logs, thus allowing researchers to study such behavior in detail. Although the subsequent analysis of log information is extensively covered in industrial cybersecurity backends, to our knowledge there has been only limited effort invested in academia to advance such log analysis capabilities using cutting edge techniques. We make this sample dataset available to support designing new machine learning methods for malware detection, especially for automatic detection of generic malicious behavior. The dataset has been collected in cooperation between Avast Software and Czech Technical University - AI Center (AIC).
翻訳日:2022-09-08 12:11:51 公開日:2022-09-06
# 人類学における機械学習の利用と誤用

Use and Misuse of Machine Learning in Anthropology ( http://arxiv.org/abs/2209.02811v1 )

ライセンス: Link先を確認
Jeff Calder, Reed Coil, Annie Melton, Peter J. Olver, Gilbert Tostevin, Katrina Yezzi-Woodley(参考訳) 機械学習(ml)は現在、研究コミュニティに広くアクセス可能になっているが、これらの創発的な数学テクニックの、幅広い分野にわたる新しく印象的な応用が広まりつつある。 本稿では,生物的・文化的証拠に基づいて人類の進化を理解することを目的とした古人類学の分野である,特定のケーススタディに焦点を当てる。 私たちが示すように、mlアルゴリズムの可用性と、人類学研究コミュニティにおける適切な使用に関する専門知識の欠如は、文学全体に現れた基礎的な誤適用につながった。 その結果、人類学研究にMLを合法的に取り入れる努力を損なうだけでなく、人類の進化と行動の過去に関する潜在的に欠陥のある理解を生み出す。 本研究の目的は,MLが古人類学に応用されている方法のいくつかを簡潔に紹介することである。 人類学文献の集積部において,ML手法の正しいプロトコルの一連の誤り,誤り,違反について論じる。 これらの誤りには、時代遅れのアルゴリズムとプラクティスの使用、不適切なトレーニング/テスト分割、サンプル構成、テキスト説明、データ/コード共有の欠如による透明性の欠如、それに続く独立レプリケーションへの制限などが含まれる。 我々は、サンプルの拡大、データとコードの共有、ピアレビューへのアプローチの再評価、そして最も重要なことは、MLの専門家を含む学際チームの開発が、人類学にMLを取り入れた今後の研究の進展に必要である、と断言する。

Machine learning (ML), being now widely accessible to the research community at large, has fostered a proliferation of new and striking applications of these emergent mathematical techniques across a wide range of disciplines. In this paper, we will focus on a particular case study: the field of paleoanthropology, which seeks to understand the evolution of the human species based on biological and cultural evidence. As we will show, the easy availability of ML algorithms and lack of expertise on their proper use among the anthropological research community has led to foundational misapplications that have appeared throughout the literature. The resulting unreliable results not only undermine efforts to legitimately incorporate ML into anthropological research, but produce potentially faulty understandings about our human evolutionary and behavioral past. The aim of this paper is to provide a brief introduction to some of the ways in which ML has been applied within paleoanthropology; we also include a survey of some basic ML algorithms for those who are not fully conversant with the field, which remains under active development. We discuss a series of missteps, errors, and violations of correct protocols of ML methods that appear disconcertingly often within the accumulating body of anthropological literature. These mistakes include use of outdated algorithms and practices; inappropriate train/test splits, sample composition, and textual explanations; as well as an absence of transparency due to the lack of data/code sharing, and the subsequent limitations imposed on independent replication. We assert that expanding samples, sharing data and code, re-evaluating approaches to peer review, and, most importantly, developing interdisciplinary teams that include experts in ML are all necessary for progress in future research incorporating ML within anthropology.
翻訳日:2022-09-08 12:07:39 公開日:2022-09-06
# レースレンズによるGANのバイアスの研究

Studying Bias in GANs through the Lens of Race ( http://arxiv.org/abs/2209.02836v1 )

ライセンス: Link先を確認
Vongani H. Maluleke, Neerja Thakkar, Tim Brooks, Ethan Weber, Trevor Darrell, Alexei A. Efros, Angjoo Kanazawa, Devin Guillory(参考訳) 本研究では,生成画像モデルの性能と評価が,トレーニングデータセットの人種構成に与える影響について検討する。 各種訓練データセットの人種分布を調査,制御することにより,異なる訓練分布が生成画像の品質および生成画像の人種分布に与える影響を観察することができる。 その結果, 生成した画像の人種構成は, トレーニングデータの保存に成功していることがわかった。 しかし、推論中に高品質な画像を生成する手法であるトランケーションは、データの人種的不均衡を悪化させる。 最後に、画像品質と人種の関係を調べたところ、人種の視覚的品質が最も高い画像は、その人種がよく表現されている分布から来ており、アノテータは黒人よりも白人のイメージを常に好んでいることがわかった。

In this work, we study how the performance and evaluation of generative image models are impacted by the racial composition of their training datasets. By examining and controlling the racial distributions in various training datasets, we are able to observe the impacts of different training distributions on generated image quality and the racial distributions of the generated images. Our results show that the racial compositions of generated images successfully preserve that of the training data. However, we observe that truncation, a technique used to generate higher quality images during inference, exacerbates racial imbalances in the data. Lastly, when examining the relationship between image quality and race, we find that the highest perceived visual quality images of a given race come from a distribution where that race is well-represented, and that annotators consistently prefer generated images of white people over those of Black people.
翻訳日:2022-09-08 12:07:10 公開日:2022-09-06
# DC-Art-GAN:デジタルアートのためのDC-GANを用いた安定な手続き型コンテンツ生成

DC-Art-GAN: Stable Procedural Content Generation using DC-GANs for Digital Art ( http://arxiv.org/abs/2209.02847v1 )

ライセンス: Link先を確認
Rohit Gandikota and Nik Bear Brown(参考訳) 芸術は、創造的または創造的なプロセスの一部としてデジタル技術を使用する芸術的方法である。 デジタル通貨とnft(non-fungible token)の出現により、デジタルアートに対する需要は激増している。 本書では,安定かつ変種アート生成のための敵対的訓練を伴う深層生成ネットワークを用いた概念を提唱する。 この研究は主に、DC-GAN(Deep Convolutional Generative Adversarial Network)の使用に焦点を当て、GANトレーニングにおける共通の落とし穴に対処する技術を探っている。 我々は、DC-GANの様々なアーキテクチャと設計を比較し、安定的で現実的な世代に推奨される設計選択に到達する。 この研究の主な焦点は、現実には存在しないが、提案したモデルによってランダムノイズから合成される現実的な画像を生成することである。 生成した動物の顔画像(種の組み合わせを示す証拠の一部)の視覚的な結果と、トレーニング、アーキテクチャ、デザイン選択の推奨を提供する。 また、ganトレーニングにおいて、トレーニング画像前処理がいかに大きな役割を果たすかを示す。

Art is an artistic method of using digital technologies as a part of the generative or creative process. With the advent of digital currency and NFTs (Non-Fungible Token), the demand for digital art is growing aggressively. In this manuscript, we advocate the concept of using deep generative networks with adversarial training for a stable and variant art generation. The work mainly focuses on using the Deep Convolutional Generative Adversarial Network (DC-GAN) and explores the techniques to address the common pitfalls in GAN training. We compare various architectures and designs of DC-GANs to arrive at a recommendable design choice for a stable and realistic generation. The main focus of the work is to generate realistic images that do not exist in reality but are synthesised from random noise by the proposed model. We provide visual results of generated animal face images (some pieces of evidence showing a blend of species) along with recommendations for training, architecture and design choices. We also show how training image preprocessing plays a massive role in GAN training.
翻訳日:2022-09-08 12:06:54 公開日:2022-09-06
# 衛星画像と気象データと変圧器ネットワークの融合による軽度疾患検出

Fusion of Satellite Images and Weather Data with Transformer Networks for Downy Mildew Disease Detection ( http://arxiv.org/abs/2209.02797v1 )

ライセンス: Link先を確認
William Maillet, Maryam Ouhami, Adel Hafiane(参考訳) 作物病は農業生産量と品質に大きな影響を及ぼす。 精密農業の目標は農薬の使用を最小限にしたり避けたりすることであり、天候や深層学習によるリモートセンシングデータは作物病の検出に重要な役割を果たし、作物の局所的な処理を可能にする。 しかし、気象や画像などの異種データを組み合わせることはホットな話題であり、課題である。 トランスアーキテクチャの最近の進歩は、例えばテキストイメージなど、異なるドメインからのデータの融合の可能性を示している。 現在のトレンドは、マルチモーダル融合モデルを作成するために1つのトランスフォーマーだけをカスタマイズすることです。 逆に,3つのトランスを用いてデータ融合を実現する手法を提案する。 本稿では,convlstmモデルを用いて衛星画像の欠落問題を補間することにより,まず解き明かした。 次に,視覚情報と気象情報を同時に処理するマルチモーダル融合アーキテクチャを提案する。 アーキテクチャは、視覚トランスフォーマーと2つのトランスフォーマーエンコーダという3つの主要コンポーネントで構成されており、イメージと気象モードの両方を融合することができる。 提案手法の結果, 全体の精度は97\% に達することが期待できる。

Crop diseases significantly affect the quantity and quality of agricultural production. In a context where the goal of precision agriculture is to minimize or even avoid the use of pesticides, weather and remote sensing data with deep learning can play a pivotal role in detecting crop diseases, allowing localized treatment of crops. However, combining heterogeneous data such as weather and images remains a hot topic and challenging task. Recent developments in transformer architectures have shown the possibility of fusion of data from different domains, for instance text-image. The current trend is to custom only one transformer to create a multimodal fusion model. Conversely, we propose a new approach to realize data fusion using three transformers. In this paper, we first solved the missing satellite images problem, by interpolating them with a ConvLSTM model. Then, proposed a multimodal fusion architecture that jointly learns to process visual and weather information. The architecture is built from three main components, a Vision Transformer and two transformer-encoders, allowing to fuse both image and weather modalities. The results of the proposed method are promising achieving 97\% overall accuracy.
翻訳日:2022-09-08 12:03:07 公開日:2022-09-06
# カジュアルフリーミアムゲームにおけるチャーン予測のための逐次データと集計データの組み合わせ

Combining Sequential and Aggregated Data for Churn Prediction in Casual Freemium Games ( http://arxiv.org/abs/2209.03184v1 )

ライセンス: Link先を確認
Jeppe Theiss Kristensen and Paolo Burelli(参考訳) フリーミアムゲームでは、プレイヤーからの収入はアプリ内購入とそのプレイヤーが露出する広告から得られる。 プレーヤーがゲームをする時間が長ければ長いほど、ゲーム内で収益を生み出す可能性が高くなります。 このシナリオ内では、プレイヤーがゲーム内にプレイヤーを留まらせ、ゲーム寿命を延ばそうとするため、プレイヤーがプレイをやめようとしているときにすぐに検出できることが極めて重要である。 本稿では,様々なニューラルネットワークアーキテクチャを用いた逐次データと集約データを組み合わせることにより,チャーン予測における現状を改善する方法について検討する。 比較分析の結果,2つのデータ型の組み合わせにより,純粋に逐次的あるいは純粋に集約されたデータに基づいて予測精度が向上することが示された。

In freemium games, the revenue from a player comes from the in-app purchases made and the advertisement to which that player is exposed. The longer a player is playing the game, the higher will be the chances that he or she will generate a revenue within the game. Within this scenario, it is extremely important to be able to detect promptly when a player is about to quit playing (churn) in order to react and attempt to retain the player within the game, thus prolonging his or her game lifetime. In this article we investigate how to improve the current state-of-the-art in churn prediction by combining sequential and aggregate data using different neural network architectures. The results of the comparative analysis show that the combination of the two data types grants an improvement in the prediction accuracy over predictors based on either purely sequential or purely aggregated data.
翻訳日:2022-09-08 12:00:33 公開日:2022-09-06
# 進化するデータストリームにおける局所的説明可能性の変化検出

Change Detection for Local Explainability in Evolving Data Streams ( http://arxiv.org/abs/2209.02764v1 )

ライセンス: Link先を確認
Johannes Haug, Alexander Braun, Stefan Z\"urn, Gjergji Kasneci(参考訳) 複雑な機械学習モデルは、銀行、トレーディング、クレジットスコアリングといったセンシティブなアプリケーションでますます使われているため、信頼できる説明メカニズムに対する需要が高まっている。 局所特徴帰属法はポストホックやモデルに依存しない説明法として人気がある。 しかしながら、帰属法は通常、予測モデルが訓練され、安定している定常環境を仮定する。 その結果、ストリーミングやオンラインアプリケーションのような、現実的な、絶えず進化する設定でローカルな属性がどのように振る舞うかは、しばしば不明である。 本稿では,時間変化が局所的特徴属性に与える影響について論じる。 特に,予測モデルが更新されたり,概念ドリフトがデータ生成分布を変化させるたびに,局所帰属は時代遅れになり得ることを示す。 その結果、データストリームにおける局所的特徴属性は、時間とともに局所的な変化を検出し、応答するメカニズムと組み合わせることで、高い説明力を提供します。 そこで本研究では,局所変化と概念ドリフトを検出するフレキシブルでモデルに依存しないCDLEEDSを提案する。 CDLEEDSは属性に基づく説明手法の直感的な拡張として機能し、古いローカル属性を特定し、よりターゲットを絞った再計算を可能にする。 実験では,提案手法が地域概念とグローバル概念の両方のドリフトを確実に検出できることを示す。 したがって、我々の研究は、オンライン機械学習におけるより有意義で堅牢な説明可能性に貢献します。

As complex machine learning models are increasingly used in sensitive applications like banking, trading or credit scoring, there is a growing demand for reliable explanation mechanisms. Local feature attribution methods have become a popular technique for post-hoc and model-agnostic explanations. However, attribution methods typically assume a stationary environment in which the predictive model has been trained and remains stable. As a result, it is often unclear how local attributions behave in realistic, constantly evolving settings such as streaming and online applications. In this paper, we discuss the impact of temporal change on local feature attributions. In particular, we show that local attributions can become obsolete each time the predictive model is updated or concept drift alters the data generating distribution. Consequently, local feature attributions in data streams provide high explanatory power only when combined with a mechanism that allows us to detect and respond to local changes over time. To this end, we present CDLEEDS, a flexible and model-agnostic framework for detecting local change and concept drift. CDLEEDS serves as an intuitive extension of attribution-based explanation techniques to identify outdated local attributions and enable more targeted recalculations. In experiments, we also show that the proposed framework can reliably detect both local and global concept drift. Accordingly, our work contributes to a more meaningful and robust explainability in online machine learning.
翻訳日:2022-09-08 12:00:00 公開日:2022-09-06
# ソーシャルメディアテキストをモデルとした抑うつ症状 : アクティブラーニングアプローチ

Depression Symptoms Modelling from Social Media Text: An Active Learning Approach ( http://arxiv.org/abs/2209.02765v1 )

ライセンス: Link先を確認
Nawshad Farruque, Randy Goebel, Sudhakar Sivapalan, Osmar Zaiane(参考訳) ソーシャルメディア言語に基づく臨床うつ病モデリングの基本的な構成要素はうつ病症状検出(DSD)である。 残念ながら、自己開示されたうつ病集団のサンプルから臨床所見とうつ病症状の分布の両方を反映したDSDデータセットは存在しない。 本研究では,初期教師付き学習モデルを用いたアクティブラーニング(AL)フレームワークについて述べる。 1)臨床医の注釈付きdsdデータセット上でさらに微調整された,最先端の大規模メンタルヘルスフォーラムテキスト事前学習言語モデル 2) DSDのゼロショット学習モデルを用いて, うつ症状関連サンプルを分離し, 自己計算型抑うつツイートリポジトリ(DTR)から抽出した。 我々の臨床注記データセットはその種類の中で最も大きい。 さらに、DTRは、Twitterからのユーザーレベルのうつ病検出のための最大のベンチマークデータセットを含む、2つのデータセットから、自己開示されたうつ病ユーザーのつぶやきのサンプルから生成される。 これはまた、自己開示されたtwitterユーザーのツイートのうつ症状の分布を維持するのに役立つ。 その後、抽出したデータを用いて初期DSDモデルを反復的に再訓練する。 本稿では,alプロセスにおける停止条件と限界について考察し,alプロセス全体において重要な役割を果たす基礎構造について詳述する。 我々は,その種類の中で最大である最終データセットを作成できることを示す。 さらに、DSDとDPD(Depression Post Detection)モデルをトレーニングすることで、初期バージョンよりも大幅に精度が向上する。

A fundamental component of user-level social media language based clinical depression modelling is depression symptoms detection (DSD). Unfortunately, there does not exist any DSD dataset that reflects both the clinical insights and the distribution of depression symptoms from the samples of self-disclosed depressed population. In our work, we describe an Active Learning (AL) framework which uses an initial supervised learning model that leverages 1) a state-of-the-art large mental health forum text pre-trained language model further fine-tuned on a clinician annotated DSD dataset, 2) a Zero-Shot learning model for DSD, and couples them together to harvest depression symptoms related samples from our large self-curated Depression Tweets Repository (DTR). Our clinician annotated dataset is the largest of its kind. Furthermore, DTR is created from the samples of tweets in self-disclosed depressed users Twitter timeline from two datasets, including one of the largest benchmark datasets for user-level depression detection from Twitter. This further helps preserve the depression symptoms distribution of self-disclosed Twitter users tweets. Subsequently, we iteratively retrain our initial DSD model with the harvested data. We discuss the stopping criteria and limitations of this AL process, and elaborate the underlying constructs which play a vital role in the overall AL process. We show that we can produce a final dataset which is the largest of its kind. Furthermore, a DSD and a Depression Post Detection (DPD) model trained on it achieves significantly better accuracy than their initial version.
翻訳日:2022-09-08 11:55:30 公開日:2022-09-06
# シンボリック理論を用いたシーングラフ生成モデルのスケーラブルな正規化

Scalable Regularization of Scene Graph Generation Models using Symbolic Theories ( http://arxiv.org/abs/2209.02749v1 )

ライセンス: Link先を確認
Davide Buffelli, Efthymia Tsamoura(参考訳) 近年,背景知識を取り入れた深層グラフ生成(SGG)の深層学習モデルの性能向上を目的としている。 最先端技術は、背景知識がサブシンボリックな方法でモデルに組み込まれているものと、背景知識がシンボリックな形で維持されているものとの2つのファミリーに分けられる。 有望な結果にもかかわらず、両方のテクニックのファミリーはいくつかの欠点に直面している。ひとつはアドホックで複雑なニューラルアーキテクチャが必要で、トレーニングや推論のコストが増大する。 本研究は,先行技術の限界を克服する神経sggモデルに記号的背景知識を注入する正規化手法を提案する。 我々の手法はモデルに依存しず、推論時にコストがかからず、以前は管理不能であった背景知識にスケールする。 本研究では,最先端SGGモデルの精度を最大33%向上できることを示す。

Several techniques have recently aimed to improve the performance of deep learning models for Scene Graph Generation (SGG) by incorporating background knowledge. State-of-the-art techniques can be divided into two families: one where the background knowledge is incorporated into the model in a subsymbolic fashion, and another in which the background knowledge is maintained in symbolic form. Despite promising results, both families of techniques face several shortcomings: the first one requires ad-hoc, more complex neural architectures increasing the training or inference cost; the second one suffers from limited scalability w.r.t. the size of the background knowledge. Our work introduces a regularization technique for injecting symbolic background knowledge into neural SGG models that overcomes the limitations of prior art. Our technique is model-agnostic, does not incur any cost at inference time, and scales to previously unmanageable background knowledge sizes. We demonstrate that our technique can improve the accuracy of state-of-the-art SGG models, by up to 33%.
翻訳日:2022-09-08 11:54:54 公開日:2022-09-06
# Efron-Stein不等式による多項式ランダム行列の濃度

Concentration of polynomial random matrices via Efron-Stein inequalities ( http://arxiv.org/abs/2209.02655v1 )

ライセンス: Link先を確認
Goutham Rajendran, Madhur Tulsiani(参考訳) 大きなランダム行列の濃度を分析することは、様々な分野において一般的な課題である。 独立な確率変数が与えられた場合、多くのツールは、行列-ベルンシュタイン不等式のような変数の成分が線型であるランダム行列を解析することができる。 しかし、多くの応用において、変数の成分が多項式であるランダム行列を解析する必要がある。 これらは、例えばホプキンス等、スペクトルアルゴリズムの解析において自然に発生する。 [STOC 2016], Moitra-Wein [STOC 2019], そして半定値プログラムの下位境界では、例えば Barak などである。 FOCS 2016], Jones et al. 【focs 2021】 本研究では、Paulin-Mackey-Tropp が開発した行列 Efron-Stein の不等式(Annals of Probability 2016)に基づいて、そのような境界を得るための一般的な枠組みを提案する。 Efron-Steinの不等式は、他のより単純な(しかしまだランダムな)行列のノルムによってランダム行列のノルムを束縛する。 再帰的に微分することで、我々のフレームワークは、はるかに単純な行列を解析する主なタスクを減らします。 ラデマッハ変数の場合、これらの単純な行列は実際決定論的であり、したがって解析はずっと容易である。 一般の非ラデマッハ変数の場合、タスクはスカラー濃度に還元されるが、これははるかに容易である。 さらに,多項式行列の設定において,ポーリン・マッキートロップの研究を一般化した。 基本フレームワークを用いて、単純な「テンソルネットワーク」と「密度グラフ行列」の文献における既知の境界を復元する。 一般的なフレームワークを使って、jones氏らによって最近取得された"疎グラフ行列"の境界を導出します。 [FOCS 2021] トレースパワー方式の非自明な応用を用い, 作業のコアコンポーネントとなった。 我々は,非線形ランダム行列に対する集中現象を含む他の応用に有効なフレームワークを期待する。

Analyzing concentration of large random matrices is a common task in a wide variety of fields. Given independent random variables, many tools are available to analyze random matrices whose entries are linear in the variables, e.g. the matrix-Bernstein inequality. However, in many applications, we need to analyze random matrices whose entries are polynomials in the variables. These arise naturally in the analysis of spectral algorithms, e.g., Hopkins et al. [STOC 2016], Moitra-Wein [STOC 2019]; and in lower bounds for semidefinite programs based on the Sum of Squares hierarchy, e.g. Barak et al. [FOCS 2016], Jones et al. [FOCS 2021]. In this work, we present a general framework to obtain such bounds, based on the matrix Efron-Stein inequalities developed by Paulin-Mackey-Tropp [Annals of Probability 2016]. The Efron-Stein inequality bounds the norm of a random matrix by the norm of another simpler (but still random) matrix, which we view as arising by "differentiating" the starting matrix. By recursively differentiating, our framework reduces the main task to analyzing far simpler matrices. For Rademacher variables, these simpler matrices are in fact deterministic and hence, analyzing them is far easier. For general non-Rademacher variables, the task reduces to scalar concentration, which is much easier. Moreover, in the setting of polynomial matrices, our results generalize the work of Paulin-Mackey-Tropp. Using our basic framework, we recover known bounds in the literature for simple "tensor networks" and "dense graph matrices". Using our general framework, we derive bounds for "sparse graph matrices", which were obtained only recently by Jones et al. [FOCS 2021] using a nontrivial application of the trace power method, and was a core component in their work. We expect our framework to be helpful for other applications involving concentration phenomena for nonlinear random matrices.
翻訳日:2022-09-07 15:46:41 公開日:2022-09-06
# 自己情報報酬付きマルチアームバンディット

Multi-Armed Bandits with Self-Information Rewards ( http://arxiv.org/abs/2209.02211v1 )

ライセンス: Link先を確認
Nir Weinberger and Michal Yemini(参考訳) 本稿では,各ラウンドにおいて,プレイヤーがアームを選択し,シンボルを観察し,シンボルの自己情報として観察されていない報酬を受け取る情報多腕バンディット(imab)モデルを紹介する。 したがって、腕の期待される報酬は、そのシンボルを生成する源の確率質量関数のシャノンエントロピーである。 プレイヤーは、プレーする腕のエントロピー値に関連する期待される総報酬を最大化する。 アルファベットサイズが知られているという仮定の下で、プラグインエントロピー推定器のバイアスを考慮した2つのUPBベースのアルゴリズムが提案されている。 第1のアルゴリズムはエントロピー推定におけるバイアス項を楽観的に補正する。 第2のアルゴリズムは、エントロピー値の小さいソースに対応するデータ依存の信頼区間に依存する。 性能保証は、各アルゴリズムの期待された後悔を上限にすることで提供される。 さらにベルヌーイの場合、これらのアルゴリズムの漸近的挙動は偽の後悔に対してlai-robbinsの下限と比較される。 さらに, <textit{exact} のアルファベットサイズが不明であるという仮定の下では, プレイヤーはゆるやかな上界しか知らないが, UCB ベースのアルゴリズムが提案され, プレイヤーは未知のアルファベットサイズによる後悔を有限時間体制で減らそうとしている。 論文で提示されたアルゴリズムの期待された後悔を示す数値結果を提供する。

This paper introduces the informational multi-armed bandit (IMAB) model in which at each round, a player chooses an arm, observes a symbol, and receives an unobserved reward in the form of the symbol's self-information. Thus, the expected reward of an arm is the Shannon entropy of the probability mass function of the source that generates its symbols. The player aims to maximize the expected total reward associated with the entropy values of the arms played. Under the assumption that the alphabet size is known, two UCB-based algorithms are proposed for the IMAB model which consider the biases of the plug-in entropy estimator. The first algorithm optimistically corrects the bias term in the entropy estimation. The second algorithm relies on data-dependent confidence intervals that adapt to sources with small entropy values. Performance guarantees are provided by upper bounding the expected regret of each of the algorithms. Furthermore, in the Bernoulli case, the asymptotic behavior of these algorithms is compared to the Lai-Robbins lower bound for the pseudo regret. Additionally, under the assumption that the \textit{exact} alphabet size is unknown, and instead the player only knows a loose upper bound on it, a UCB-based algorithm is proposed, in which the player aims to reduce the regret caused by the unknown alphabet size in a finite time regime. Numerical results illustrating the expected regret of the algorithms presented in the paper are provided.
翻訳日:2022-09-07 15:44:16 公開日:2022-09-06
# クロストレインシップ学習フレームワーク:特性とソリューションアプローチ

Cross apprenticeship learning framework: Properties and solution approaches ( http://arxiv.org/abs/2209.02424v1 )

ライセンス: Link先を確認
Ashwin Aravind and Debasish Chatterjee and Ashish Cherukuri(参考訳) 適応学習(英語: Apprenticeship learning)とは、エージェントが専門家によって提供される例軌跡を用いて、特定のタスクを実行するためのポリシーを学習するフレームワークである。 現実の世界では、学習タスクが同じである間、システムのダイナミクスが異なる異なる環境で専門家の軌跡にアクセスすることができるかもしれません。 このようなシナリオでは、2種類の学習目標が定義できる。 学習されたポリシーは、ある特定の環境において、そして別の環境において、すべての環境において、うまく機能する。 これら2つの目標を原則的にバランスさせるため、本研究はcross apprenticeship learning (cal)フレームワークを提案する。 これは、各環境に最適なポリシーを求めると同時に、すべてのポリシーが互いに近いままであることを保証する最適化問題からなる。 この近さは最適化問題において1つのチューニングパラメータによって促進される。 チューニングパラメータが変化するので,問題のオプティマイザの特性を導出する。 問題は非凸なので、凸外近似が得られる。 最後に,風の強いグリッドワールド環境におけるナビゲーションタスクのコンテキストにおけるフレームワークの属性を示す。

Apprenticeship learning is a framework in which an agent learns a policy to perform a given task in an environment using example trajectories provided by an expert. In the real world, one might have access to expert trajectories in different environments where the system dynamics is different while the learning task is the same. For such scenarios, two types of learning objectives can be defined. One where the learned policy performs very well in one specific environment and another when it performs well across all environments. To balance these two objectives in a principled way, our work presents the cross apprenticeship learning (CAL) framework. This consists of an optimization problem where an optimal policy for each environment is sought while ensuring that all policies remain close to each other. This nearness is facilitated by one tuning parameter in the optimization problem. We derive properties of the optimizers of the problem as the tuning parameter varies. Since the problem is nonconvex, we provide a convex outer approximation. Finally, we demonstrate the attributes of our framework in the context of a navigation task in a windy gridworld environment.
翻訳日:2022-09-07 15:43:32 公開日:2022-09-06
# マルチモードハイブリッド車両の充電維持制御のためのマルチエージェント深部強化学習

Multi-agent Deep Reinforcement Learning for Charge-sustaining Control of Multi-mode Hybrid Vehicles ( http://arxiv.org/abs/2209.02633v1 )

ライセンス: Link先を確認
Min Hua, Quan Zhou, Cetengfei Zhang, Hongming Xu, Wei Liu(参考訳) 輸送電化には車両の電気部品(電気モーターや電力貯蔵システムなど)の増加が必要であり、電力系統の制御は通常複数の入力と複数の出力(mimo)を必要とする。 本稿では,MIMO制御最適化に対処することを目的としたマルチエージェント強化学習(MARL)アルゴリズムに基づくマルチモードハイブリッド電気自動車のエネルギー管理戦略のオンライン最適化に焦点をあてる。 DDPG(Deep Deterministic Policy gradient)に基づくMARLアルゴリズムにより最適化された多モードハイブリッド電気自動車(HEV)のエネルギー効率の進化を解析し,マルチエージェントによる新しいサイバー物理学習を提案する。 そして、新たなランダム手法により学習駆動サイクルを設定し、トレーニングプロセスを高速化する。 最終的に、ネットワーク設計、学習率、ポリシーノイズが感度解析に組み込まれ、DDPGに基づくアルゴリズムパラメータが決定され、マルチエージェントの異なる関係の学習性能が研究され、Ratio 0.2と完全に独立した関係が最適でないことを示す。 シングルエージェントとマルチエージェントによる思いやり研究は、マルチエージェントがシングルエージェントスキームよりも総エネルギーを約4%改善できることを示唆している。 したがって、MARLによる多目的制御は、優れた最適化効果と応用効率を達成することができる。

Transportation electrification requires an increasing number of electric components (e.g., electric motors and electric energy storage systems) on vehicles, and control of the electric powertrains usually involves multiple inputs and multiple outputs (MIMO). This paper focused on the online optimization of energy management strategy for a multi-mode hybrid electric vehicle based on multi-agent reinforcement learning (MARL) algorithms that aim to address MIMO control optimization while most existing methods only deal with single output control. A new collaborative cyber-physical learning with multi-agents is proposed based on the analysis of the evolution of energy efficiency of the multi-mode hybrid electric vehicle (HEV) optimized by a deep deterministic policy gradient (DDPG)-based MARL algorithm. Then a learning driving cycle is set by a novel random method to speed up the training process. Eventually, network design, learning rate, and policy noise are incorporated in the sensibility analysis and the DDPG-based algorithm parameters are determined, and the learning performance with the different relationships of multi-agents is studied and demonstrates that the not completely independent relationship with Ratio 0.2 is the best. The compassion study with the single-agent and multi-agent suggests that the multi-agent can achieve approximately 4% improvement of total energy over the single-agent scheme. Therefore, the multi-objective control by MARL can achieve good optimization effects and application efficiency.
翻訳日:2022-09-07 15:42:51 公開日:2022-09-06
# 測度保存力学系のデータ駆動計算のためのmpEDMDアルゴリズム

The mpEDMD Algorithm for Data-Driven Computations of Measure-Preserving Dynamical Systems ( http://arxiv.org/abs/2209.02244v1 )

ライセンス: Link先を確認
Matthew J. Colbrook(参考訳) クープマン作用素は非線形力学系を大域的に線形化し、そのスペクトル情報は非線形力学系の解析と分解のための強力なツールである。 しかし、クープマン作用素は無限次元であり、スペクトル情報を計算することはかなりの困難である。 一般測度保存力学系において、固有分解がクープマン作用素のスペクトル量に収束する最初のトランケーション法である測度保存拡張動的モード分解(\texttt{mpEDMD}$)を導入する。 $\texttt{mpedmd}$ は直交procrustes問題に基づくデータ駆動アルゴリズムで、観測可能性の一般的な辞書を用いてクープマン作用素の測度保存切断を強制する。 既存のdmd型メソッドでも,さまざまなタイプのデータでも,柔軟性と使い勝手がよい。 我々は、投影値およびスカラー値スペクトル測度、スペクトルおよびクープマンモード分解に対する$\texttt{mpedmd}$の収束を証明する。 遅延埋め込み(クリロフ部分空間)の場合、我々の結果は辞書のサイズが大きくなるにつれてスペクトル測度が近似される最初の収束率を含む。 我々は,他のDMD方式と比較して,様々な難題に対して$\texttt{mpEDMD}$,その強靭性の向上,およびレイノルズ数$>6\times 10^4$および状態空間次元$>10^5$による乱流境界層流れのエネルギー保存とカスケードを捉える能力を示す。

Koopman operators globally linearize nonlinear dynamical systems and their spectral information is a powerful tool for the analysis and decomposition of nonlinear dynamical systems. However, Koopman operators are infinite-dimensional, and computing their spectral information is a considerable challenge. We introduce measure-preserving extended dynamic mode decomposition ($\texttt{mpEDMD}$), the first truncation method whose eigendecomposition converges to the spectral quantities of Koopman operators for general measure-preserving dynamical systems. $\texttt{mpEDMD}$ is a data-driven algorithm based on an orthogonal Procrustes problem that enforces measure-preserving truncations of Koopman operators using a general dictionary of observables. It is flexible and easy to use with any pre-existing DMD-type method, and with different types of data. We prove convergence of $\texttt{mpEDMD}$ for projection-valued and scalar-valued spectral measures, spectra, and Koopman mode decompositions. For the case of delay embedding (Krylov subspaces), our results include the first convergence rates of the approximation of spectral measures as the size of the dictionary increases. We demonstrate $\texttt{mpEDMD}$ on a range of challenging examples, its increased robustness to noise compared with other DMD-type methods, and its ability to capture the energy conservation and cascade of experimental measurements of a turbulent boundary layer flow with Reynolds number $> 6\times 10^4$ and state-space dimension $>10^5$.
翻訳日:2022-09-07 15:42:12 公開日:2022-09-06
# energonai:10~100億のパラメータトランスフォーマーモデルの推論システム

EnergonAI: An Inference System for 10-100 Billion Parameter Transformer Models ( http://arxiv.org/abs/2209.02341v1 )

ライセンス: Link先を確認
Jiangsu Du and Ziming Liu and Jiarui Fang and Shenggui Li and Yongbin Li and Yutong Lu and Yang You(参考訳) 大規模なトランスモデルは、幅広い自然言語処理(NLP)タスクで有望なパフォーマンスを示す。 aiコミュニティはモデルスケールを1兆のパラメータレベルにまで拡張したが、レイテンシ、スループット、メモリ制約のため、10~1000億のパラメータモデルの実用的なデプロイはまだ不確かである。 本稿では、単一またはマルチgpuシステムにおける10~100億のパラメータトランスフォーマモデルの効率的な展開の課題を解決するために、energonaiを提案する。 EnergonAIは階層制御システムアーキテクチャを採用し、複数のデバイスをコーディネートし、異なる並列パターンを効率的にサポートする。 サブモデルの実行をシングルコントローラスタイルで複数のワーカーに委譲し、マルチコントローラスタイルでワーカー間でテンソル並列性とパイプライン並列性を適用する。 新たなアーキテクチャでは,ノンブロッキングパイプライン並列性,分散冗長計算除去,ピアメモリプールという3つの手法を提案する。 EnergonAIを使えば、ユーザはシリアルコードと同じ複雑な並列コードをプログラムできる。 FasterTransformerと比較すると、EnergonAIはレイテンシとスループットにおいて優れたパフォーマンスがあることが証明されています。 私たちの実験では、energonaiはテンソル並列性における37%のレイテンシ削減、パイプライン並列性における10%のスケーラビリティ向上を実現でき、性能低下を犠牲にすることなく、より大きなヘテロジニアスメモリ空間を使用することで、単一のgpu上で推定されるモデルスケールを改善しました。

Large transformer models display promising performance on a wide range of natural language processing (NLP) tasks. Although the AI community has expanded the model scale to the trillion parameter level, the practical deployment of 10-100 billion parameter models is still uncertain due to the latency, throughput, and memory constraints. In this paper, we proposed EnergonAI to solve the challenges of the efficient deployment of 10-100 billion parameter transformer models on single- or multi-GPU systems. EnergonAI adopts a hierarchy-controller system architecture to coordinate multiple devices and efficiently support different parallel patterns. It delegates the execution of sub-models to multiple workers in the single-controller style and applies tensor parallelism and pipeline parallelism among the workers in a multi-controller style. Upon the novel architecture, we propose three techniques, i.e. non-blocking pipeline parallelism, distributed redundant computation elimination, and peer memory pooling. EnergonAI enables the users to program complex parallel code the same as a serial one. Compared with the FasterTransformer, we have proven that EnergonAI has superior performance on latency and throughput. In our experiments, EnergonAI can achieve 37% latency reduction in tensor parallelism, 10% scalability improvement in pipeline parallelism, and it improves the model scale inferred on a single GPU by using a larger heterogeneous memory space at cost of limited performance reduction.
翻訳日:2022-09-07 15:33:12 公開日:2022-09-06
# Graph-PHPA:LSTM-GNNによるマイクロサービスのためのグラフベースのアクティブ水平ポッド自動スケーリング

Graph-PHPA: Graph-based Proactive Horizontal Pod Autoscaling for Microservices using LSTM-GNN ( http://arxiv.org/abs/2209.02551v1 )

ライセンス: Link先を確認
Hoa X. Nguyen, Shaoshu Zhu, Mingming Liu(参考訳) マイクロサービスベースのアーキテクチャは、クラウドネイティブなアプリケーションで普及しています。 クラウドプラットフォームに毎日デプロイされるアプリケーションが増えているため、大規模なクラウドリソースを効果的に管理するために、さまざまな戦略をどのように適用できるかを理解するために、より多くの研究が必要となる。 大規模な研究機関が、リアクティブおよび積極的なオートスケーリングポリシを使用した自動リソース割り当てアルゴリズムを導入している。 しかしながら、アーキテクチャやデプロイメント環境からマイクロサービスの重要な特徴をキャプチャする上で、現在のアルゴリズムの効率性にはまだギャップがある。 この課題に対処するため,グラフベースのプロアクティブな水平ポッド自動スケーリング戦略であるGraph-PHPAを提案し,長期記憶(LSTM)とグラフニューラルネットワーク(GNN)に基づく予測手法を利用したマイクロサービスにクラウドリソースを割り当てる。 我々は,現実的なデータセットに基づいてリアルタイムなワークロードを生成する専用テスト環境にデプロイされたBookinfoマイクロサービスを用いて,Graph-PHPAの性能を評価する。 本稿では、Kubernetesのルールベースのリソース割り当てスキームをベースラインとして、Graph-PHPAの有効性を示す。 提案手法は,様々なテストシナリオにおいて,リアクティブルールに基づくベースラインアルゴリズムよりも,リソースの節約に優れていることを示す。

Microservice-based architecture has become prevalent for cloud-native applications. With an increasing number of applications being deployed on cloud platforms every day leveraging this architecture, more research efforts are required to understand how different strategies can be applied to effectively manage various cloud resources at scale. A large body of research has deployed automatic resource allocation algorithms using reactive and proactive autoscaling policies. However, there is still a gap in the efficiency of current algorithms in capturing the important features of microservices from their architecture and deployment environment, for example, lack of consideration of graphical dependency. To address this challenge, we propose Graph-PHPA, a graph-based proactive horizontal pod autoscaling strategy for allocating cloud resources to microservices leveraging long short-term memory (LSTM) and graph neural network (GNN) based prediction methods. We evaluate the performance of Graph-PHPA using the Bookinfo microservices deployed in a dedicated testing environment with real-time workloads generated based on realistic datasets. We demonstrate the efficacy of Graph-PHPA by comparing it with the rule-based resource allocation scheme in Kubernetes as our baseline. Extensive experiments have been implemented and our results illustrate the superiority of our proposed approach in resource savings over the reactive rule-based baseline algorithm in different testing scenarios.
翻訳日:2022-09-07 15:32:49 公開日:2022-09-06
# ダイナミックビジョンセンサを用いた高速回転推定

High Speed Rotation Estimation with Dynamic Vision Sensors ( http://arxiv.org/abs/2209.02205v1 )

ライセンス: Link先を確認
Guangrong Zhao, Yiran Shen, Ning Chen, Pengfei Hu, Lei Liu, Hongkai Wen(参考訳) 回転速度は、製造中の電動機の校正、修理中の監視エンジン、電化製品の故障検出などにおいて測定すべき重要な指標の1つである。 しかし、既存の計測技術は禁止ハードウェア(例えば、高速カメラ)を必要とするか、現実のアプリケーションシナリオでは不便である。 本稿では,モバイルデバイス上でのダイナミック・ビジョン・センシングによるイベントベースのタコメーターEV-Tachを提案する。 EV-Tachは、様々な現実のシナリオ下での高速回転を正確に捉えるために、新しいセンシングモードとして動的視覚センサを導入することで、高忠実で便利なタコメーターとして設計されている。 デバイス上での動的視覚センシングのための一連の信号処理アルゴリズムを設計することにより、EV-Tachは、回転目標に対する動的視覚センシングによって生成されたイベントストリームから正確な回転速度を抽出することができる。 我々の広範な評価によると、EV-Tachの相対平均絶対誤差(RMAE)は0.03%以下であり、固定測定モードにおける最先端のレーザータコメーターに匹敵する。 さらに、ev−tachは手の微妙な動きに頑健であるため、レーザータコメータが合理的な結果を出すことができないハンドヘルドデバイスとして使用できる。

Rotational speed is one of the important metrics to be measured for calibrating the electric motors in manufacturing, monitoring engine during car repairing, faults detection on electrical appliance and etc. However, existing measurement techniques either require prohibitive hardware (e.g., high-speed camera) or are inconvenient to use in real-world application scenarios. In this paper, we propose, EV-Tach, an event-based tachometer via efficient dynamic vision sensing on mobile devices. EV-Tach is designed as a high-fidelity and convenient tachometer by introducing dynamic vision sensor as a new sensing modality to capture the high-speed rotation precisely under various real-world scenarios. By designing a series of signal processing algorithms bespoke for dynamic vision sensing on mobile devices, EV-Tach is able to extract the rotational speed accurately from the event stream produced by dynamic vision sensing on rotary targets. According to our extensive evaluations, the Relative Mean Absolute Error (RMAE) of EV-Tach is as low as 0.03% which is comparable to the state-of-the-art laser tachometer under fixed measurement mode. Moreover, EV-Tach is robust to subtle movement of user's hand, therefore, can be used as a handheld device, where the laser tachometer fails to produce reasonable results.
翻訳日:2022-09-07 15:31:23 公開日:2022-09-06
# 特徴ドマイにおけるマルチスケールパッチマッチングによる分散画像圧縮の学習

Learned Distributed Image Compression with Multi-Scale Patch Matching in Feature Domai ( http://arxiv.org/abs/2209.02514v1 )

ライセンス: Link先を確認
Yujun Huang, Bin Chen, Shiyu Qin, Jiawei Li, Yaowei Wang, Tao Dai, Shu-Tao Xia(参考訳) 古典的な画像圧縮コーデックよりも高い圧縮効率を達成する以外に、深部画像圧縮は、例えば同じシーンの異なる視点からの別の画像のような追加のサイド情報で改善されることが期待されている。 分散圧縮シナリオ下での副作用をよりよく活用するために、既存の方法(AyzikとAvidan 2020)は、画像領域におけるパッチマッチングのみを実装して、視聴点の違いによるパララックス問題を解決する。 しかし、画像領域におけるパッチマッチングは、異なる視角によるスケール、形状、照明のばらつきに対して堅牢ではなく、側情報画像の豊かなテクスチャ情報を完全に活用することはできない。 この問題を解決するために,分散画像圧縮モデルのデコーダの側情報を完全に活用するマルチスケール特徴領域マッチング(MSFDPM)を提案する。 具体的には、MSFDPMは、サイド情報特徴抽出器、マルチスケール機能ドメインパッチマッチングモジュール、マルチスケール機能融合ネットワークから構成される。 さらに,浅層からのパッチ間相関を再利用し,深層のパッチマッチングを高速化する。 最後に,マルチスケールの機能領域におけるパッチマッチングは,画像領域におけるパッチマッチング手法と比較して圧縮率を約20%向上させる(Ayzik,Avidan 2020)。

Beyond achieving higher compression efficiency over classical image compression codecs, deep image compression is expected to be improved with additional side information, e.g., another image from a different perspective of the same scene. To better utilize the side information under the distributed compression scenario, the existing method (Ayzik and Avidan 2020) only implements patch matching at the image domain to solve the parallax problem caused by the difference in viewing points. However, the patch matching at the image domain is not robust to the variance of scale, shape, and illumination caused by the different viewing angles, and can not make full use of the rich texture information of the side information image. To resolve this issue, we propose Multi-Scale Feature Domain Patch Matching (MSFDPM) to fully utilizes side information at the decoder of the distributed image compression model. Specifically, MSFDPM consists of a side information feature extractor, a multi-scale feature domain patch matching module, and a multi-scale feature fusion network. Furthermore, we reuse inter-patch correlation from the shallow layer to accelerate the patch matching of the deep layer. Finally, we nd that our patch matching in a multi-scale feature domain further improves compression rate by about 20% compared with the patch matching method at image domain (Ayzik and Avidan 2020).
翻訳日:2022-09-07 15:31:01 公開日:2022-09-06
# クロスモーダル圧縮:人間理解可能な意味圧縮に向けて

Cross Modal Compression: Towards Human-comprehensible Semantic Compression ( http://arxiv.org/abs/2209.02574v1 )

ライセンス: Link先を確認
Jiguo Li, Chuanmin Jia, Xinfeng Zhang, Siwei Ma, Wen Gao(参考訳) 従来の画像/ビデオ圧縮は、伝送/保存コストを可能な限り高めることを目的としている。 しかし,近年,機械解析やセマンティックモニタリングの需要が高まり,信号の忠実さよりも意味の忠実さが画像・映像圧縮の新たな関心事になりつつある。 本稿では、近年のクロスモーダル翻訳と生成の進歩により、視覚データのための意味圧縮フレームワークであるクロスモーダル圧縮~(CMC)を提案し、その意味を保ちながら、高冗長な視覚データ~(画像、ビデオなど)をコンパクトで理解しやすい領域~(テキスト、スケッチ、セマンティックマップ、属性マップなど)に変換する。 具体的には、まずCMC問題をレート歪み最適化問題として定式化する。 次に,従来の画像圧縮と最近の特徴圧縮フレームワークとの関係について検討し,CMCとそれ以前のフレームワークの違いを示す。 次に,CMCの有効性を示す新しいパラダイムを提案する。 定性的かつ定量的な結果から,提案したCMCは,超高圧縮率で再現可能であり,JPEGベースラインよりも圧縮性能がよいことを示す。

Traditional image/video compression aims to reduce the transmission/storage cost with signal fidelity as high as possible. However, with the increasing demand for machine analysis and semantic monitoring in recent years, semantic fidelity rather than signal fidelity is becoming another emerging concern in image/video compression. With the recent advances in cross modal translation and generation, in this paper, we propose the cross modal compression~(CMC), a semantic compression framework for visual data, to transform the high redundant visual data~(such as image, video, etc.) into a compact, human-comprehensible domain~(such as text, sketch, semantic map, attributions, etc.), while preserving the semantic. Specifically, we first formulate the CMC problem as a rate-distortion optimization problem. Secondly, we investigate the relationship with the traditional image/video compression and the recent feature compression frameworks, showing the difference between our CMC and these prior frameworks. Then we propose a novel paradigm for CMC to demonstrate its effectiveness. The qualitative and quantitative results show that our proposed CMC can achieve encouraging reconstructed results with an ultrahigh compression ratio, showing better compression performance than the widely used JPEG baseline.
翻訳日:2022-09-07 15:30:38 公開日:2022-09-06
# アンチテティカル感情状態の分類のための機械学習

Machine Learning For Classification Of Antithetical Emotional States ( http://arxiv.org/abs/2209.02249v1 )

ライセンス: Link先を確認
Jeevanshi Sharma, Rajat Maheshwari, Yusuf Uzzaman Khan(参考訳) 脳波信号による感情分類は多くの進歩を遂げた。 しかし、データの欠如や重要な特徴やパターンの学習といった問題は、常に計算量と予測精度の両方を改善するための範囲にある。 これにより、deapデータセットにおけるベースライン機械学習分類器のパフォーマンスと、ニューラルネットワークをデプロイすることなく、ディープラーニングアーキテクチャによるパフォーマンス向上を活用した最先端の比較結果を提供する、表型学習アプローチが分析される。

Emotion Classification through EEG signals has achieved many advancements. However, the problems like lack of data and learning the important features and patterns have always been areas with scope for improvement both computationally and in prediction accuracy. This works analyses the baseline machine learning classifiers' performance on DEAP Dataset along with a tabular learning approach that provided state-of-the-art comparable results leveraging the performance boost due to its deep learning architecture without deploying heavy neural networks.
翻訳日:2022-09-07 15:24:12 公開日:2022-09-06
# ウェーブレットに基づく高周波界面ダイナミクスの損失

Wavelet-based Loss for High-frequency Interface Dynamics ( http://arxiv.org/abs/2209.02316v1 )

ライセンス: Link先を確認
Lukas Prantl, Jan Bender, Tassilo Kugelstadt, Nils Thuerey(参考訳) 高精細で複雑なデータを生成することは、機械学習分野における長年にわたり、しばしば考慮されてきた問題である。 しかし、細部対応ジェネレータの開発は依然として困難かつオープンな問題である。 生成的敵ネットワークは多くの最先端手法の基礎となっている。 しかし、損失関数として訓練される第2のネットワークを導入することで、学習関数の解釈がより困難になる。 代替案として,最適化の観点で透明なウェーブレット損失定式化に基づく新しい手法を提案する。 ウェーブレットに基づく損失関数は、高周波詳細データを生成する場合のl1距離やl2距離といった従来の距離メトリクスの制限を克服するために用いられる。 本手法は, 再現型合成テストケースにおいて, 高周波細部を良好に再構成できることを示す。 さらに,より複雑な表面に適用した場合の性能を物理シミュレーションに基づいて評価する。 概略シミュレーションを入力として,それらの進化を考慮しつつ,対応する空間的詳細を推定する。 我々は,この問題を空間的および時間的周波数の観点から検討し,ウェーブレット損失をトレーニングした生成ネットワークを活用して,表面力学における所望の時空間信号の学習を行う。 本手法は, 合成波動関数テストと, 弾塑性材料の複雑な2次元および3次元ダイナミクスを用いて評価する。

Generating highly detailed, complex data is a long-standing and frequently considered problem in the machine learning field. However, developing detail-aware generators remains an challenging and open problem. Generative adversarial networks are the basis of many state-of-the-art methods. However, they introduce a second network to be trained as a loss function, making the interpretation of the learned functions much more difficult. As an alternative, we present a new method based on a wavelet loss formulation, which remains transparent in terms of what is optimized. The wavelet-based loss function is used to overcome the limitations of conventional distance metrics, such as L1 or L2 distances, when it comes to generate data with high-frequency details. We show that our method can successfully reconstruct high-frequency details in an illustrative synthetic test case. Additionally, we evaluate the performance when applied to more complex surfaces based on physical simulations. Taking a roughly approximated simulation as input, our method infers corresponding spatial details while taking into account how they evolve. We consider this problem in terms of spatial and temporal frequencies, and leverage generative networks trained with our wavelet loss to learn the desired spatio-temporal signal for the surface dynamics. We test the capabilities of our method with a set of synthetic wave function tests and complex 2D and 3D dynamics of elasto-plastic materials.
翻訳日:2022-09-07 15:24:07 公開日:2022-09-06
# 弱コロケーション回帰法:高次元集計データから隠れた確率力学を高速に解明する

Weak Collocation Regression method: fast reveal hidden stochastic dynamics from high-dimensional aggregate data ( http://arxiv.org/abs/2209.02628v1 )

ライセンス: Link先を確認
Liwei Lu, Zhijun Zeng, Yan Jiang, Yi Zhu, and Pipi Hu(参考訳) 確率データから隠れたダイナミクスを明らかにすることは、ランダム性がデータの進化に関与するため、難しい問題である。 確率データの軌跡が多くのシナリオで存在しない場合、問題は極めて複雑になる。 本稿では、ブラウン過程における密度関数の進化を規定するFokker-Planck(FP)方程式の弱い形式に基づいて、軌跡のない確率データの力学を効果的にモデル化するアプローチを提案する。 ガウス函数のコロケーションをFP方程式の弱形式のテスト関数として捉え、導関数をガウス函数に転移し、データの期待和で弱形式を近似する。 未知項の辞書表現により、線形系が構築され、回帰によって解決され、データの未知のダイナミクスが明らかにされる。 したがって,弱コロケーション回帰法(weak collocation regression, wck)を用いて,弱形式,ガウス核のコロケーション,回帰の3つの主要成分を同定した。 数値実験により, 本手法は柔軟で高速であることを示し, 多次元問題における数秒以内のダイナミクスを明らかにし, 20次元などの高次元データに容易に拡張できることを示した。 WCRはまた、変数依存拡散と結合ドリフトを伴う複雑なタスクの隠れたダイナミクスを正しく識別することができ、ノイズが付加された場合に高い精度を達成する。

Revealing hidden dynamics from the stochastic data is a challenging problem as randomness takes part in the evolution of the data. The problem becomes exceedingly complex when the trajectories of the stochastic data are absent in many scenarios. Here we present an approach to effectively modeling the dynamics of the stochastic data without trajectories based on the weak form of the Fokker-Planck (FP) equation, which governs the evolution of the density function in the Brownian process. Taking the collocations of Gaussian functions as the test functions in the weak form of the FP equation, we transfer the derivatives to the Gaussian functions and thus approximate the weak form by the expectational sum of the data. With a dictionary representation of the unknown terms, a linear system is built and then solved by the regression, revealing the unknown dynamics of the data. Hence, we name the method with the Weak Collocation Regression (WCK) method for its three key components: weak form, collocation of Gaussian kernels, and regression. The numerical experiments show that our method is flexible and fast, which reveals the dynamics within seconds in multi-dimensional problems and can be easily extended to high-dimensional data such as 20 dimensions. WCR can also correctly identify the hidden dynamics of the complex tasks with variable-dependent diffusion and coupled drift, and the performance is robust, achieving high accuracy in the case with noise added.
翻訳日:2022-09-07 15:15:37 公開日:2022-09-06
# HyperPCTL*を用いたマルチエージェントシステムのベイズ統計モデル検査

Bayesian Statistical Model Checking for Multi-agent Systems using HyperPCTL* ( http://arxiv.org/abs/2209.02672v1 )

ライセンス: Link先を確認
Spandan Das and Pavithra Prabhakar(参考訳) 本稿では,離散時間マルコフ連鎖(DTMC)上のHyperPCTL*論理で定義された確率的ハイパープロパティの統計モデル検査(SMC)について述べる。 逐次確率比検定(SPRT)を用いたHyperPCTL*のSMCはこれまで検討されてきたが,ベイズ仮説を用いた代替SMCアルゴリズムを開発した。 PCTL*と比較して、DTMCの複数の経路を同時に解釈するため、HyperPCTL*式を検証することは複雑である。 さらに、非確率的な設定のボトムアップモデルチェックアルゴリズムを拡張することは、smcがsubformulaeの充足可能性問題に対して正確な答えを返さないため、その代わりに、高い信頼度で正しい答えを返すだけである。 本稿では,再帰的満足度の結果の不確かさを考慮に入れたベイズ試験に基づくHyperPCTL*のSMC再帰的アルゴリズムを提案する。 我々はPythonのツールボックスHyProVerにアルゴリズムを実装し、SPRTベースのSMCと比較した。 実験により, ベイジアンSMCアルゴリズムは, 与えられたHyperPCTL*の公式の満足度を推定するために必要なサンプル数と検証時間の両方において, 良好な性能を示すことが示された。

In this paper, we present a Bayesian method for statistical model checking (SMC) of probabilistic hyperproperties specified in the logic HyperPCTL* on discrete-time Markov chains (DTMCs). While SMC of HyperPCTL* using sequential probability ratio test (SPRT) has been explored before, we develop an alternative SMC algorithm based on Bayesian hypothesis testing. In comparison to PCTL*, verifying HyperPCTL* formulae is complex owing to their simultaneous interpretation on multiple paths of the DTMC. In addition, extending the bottom-up model-checking algorithm of the non-probabilistic setting is not straight forward due to the fact that SMC does not return exact answers to the satisfiability problems of subformulae, instead, it only returns correct answers with high-confidence. We propose a recursive algorithm for SMC of HyperPCTL* based on a modified Bayes' test that factors in the uncertainty in the recursive satisfiability results. We have implemented our algorithm in a Python toolbox, HyProVer, and compared our approach with the SPRT based SMC. Our experimental evaluation demonstrates that our Bayesian SMC algorithm performs better both in terms of the verification time and the number of samples required to deduce satisfiability of a given HyperPCTL* formula.
翻訳日:2022-09-07 15:15:09 公開日:2022-09-06
# コラボレーション型サイバーセキュリティのオーケストレーション: 分散プライバシ保護のためのセキュアなフレームワーク

Orchestrating Collaborative Cybersecurity: A Secure Framework for Distributed Privacy-Preserving Threat Intelligence Sharing ( http://arxiv.org/abs/2209.02676v1 )

ライセンス: Link先を確認
Juan R. Trocoso-Pastoriza, Alain Mermoud, Romain Bouy\'e, Francesco Marino, Jean-Philippe Bossuat, Vincent Lenders, Jean-Pierre Hubaux(参考訳) サイバー脅威インテリジェンス(CTI)の共有は、攻撃者と防御者の間の情報非対称性を減らす重要な活動である。 しかし、この活動は、データ共有と機密性の間の緊張が原因で、情報保持がしばしばフリーライダー問題に繋がる問題をもたらしている。 したがって、共有される情報は氷山の先端のみを表す。 現在の文献では、全ての情報を含む集中型データベースへのアクセスを前提としているが、前述の緊張関係のため、必ずしも可能とは限らない。 その結果、不均衡なデータセットや不完全なデータセットが発生し、それらを拡張するためにテクニックを使用する必要がある。 本稿では,マルウェア情報共有プラットフォーム (misp) と連動して,インシデントや脆弱性,妥協の指標に関する分散データからctiを抽出するための新しいフレームワークを提案する。 CTI共有の政策的意味を提示し議論する。 提案システムは,プライバシ強化技術とフェデレーション処理の効率的な組み合わせに依存している。 これにより、組織はctiをコントロールし続け、露出や漏洩のリスクを最小限に抑え、共有のメリット、より正確で代表的な結果、より効果的な予測と予防の防御が可能になる。

Cyber Threat Intelligence (CTI) sharing is an important activity to reduce information asymmetries between attackers and defenders. However, this activity presents challenges due to the tension between data sharing and confidentiality, that result in information retention often leading to a free-rider problem. Therefore, the information that is shared represents only the tip of the iceberg. Current literature assumes access to centralized databases containing all the information, but this is not always feasible, due to the aforementioned tension. This results in unbalanced or incomplete datasets, requiring the use of techniques to expand them; we show how these techniques lead to biased results and misleading performance expectations. We propose a novel framework for extracting CTI from distributed data on incidents, vulnerabilities and indicators of compromise, and demonstrate its use in several practical scenarios, in conjunction with the Malware Information Sharing Platforms (MISP). Policy implications for CTI sharing are presented and discussed. The proposed system relies on an efficient combination of privacy enhancing technologies and federated processing. This lets organizations stay in control of their CTI and minimize the risks of exposure or leakage, while enabling the benefits of sharing, more accurate and representative results, and more effective predictive and preventive defenses.
翻訳日:2022-09-07 15:14:46 公開日:2022-09-06
# 存在規則の有限次元集合:決定可能で表現力に富んだ問合せの一般基準に向けて

Finite-Cliquewidth Sets of Existential Rules: Toward a General Criterion for Decidable yet Highly Expressive Querying ( http://arxiv.org/abs/2209.02464v1 )

ライセンス: Link先を確認
Thomas Feller and Tim S. Lyon and Piotr Ostropolski-Nalewaja and Sebastian Rudolph(参考訳) 決定可能なオントロジーに基づく問合せの汎用的基準を追求するために,グラフ理論のクライクワイト測度に着想を得たモデル理論的に定義されたルール集合のクラスである存在規則の「有限-クライクワイト集合」(fcs)を導入する。 汎用的な議論により、FCSは、結合型クエリ(CQ)を仮定する巨大なクエリのクラス("DaMSOQs"と呼ばれる)に対して、決定可能性を保証する。 FCSクラスは有限拡大集合(FES)のクラスを適切に一般化し、アリティのシグネチャに対して、高々2つの有界木幅集合(BTS)のクラスである。 高次アリティでは、BTS は改質によって FCS によってのみ間接的に仮定される。 FCS の一般化にも拘わらず、決定可能な CQ の包含(一階補修可能性による)を持つ規則が FCS の外に落ち、したがって FCS と有限統一集合のクラス(FUS)の非互換性を示す。 それにもかかわらず、もし我々が少なくとも2つのアリティのシグネチャよりも、単頭ルールに制限するならば、FCSはFUSを仮定する。

In our pursuit of generic criteria for decidable ontology-based querying, we introduce 'finite-cliquewidth sets' (FCS) of existential rules, a model-theoretically defined class of rule sets, inspired by the cliquewidth measure from graph theory. By a generic argument, we show that FCS ensures decidability of entailment for a sizable class of queries (dubbed 'DaMSOQs') subsuming conjunctive queries (CQs). The FCS class properly generalizes the class of finite-expansion sets (FES), and for signatures of arity at most 2, the class of bounded-treewidth sets (BTS). For higher arities, BTS is only indirectly subsumed by FCS by means of reification. Despite the generality of FCS, we provide a rule set with decidable CQ entailment (by virtue of first-order-rewritability) that falls outside FCS, thus demonstrating the incomparability of FCS and the class of finite-unification sets (FUS). In spite of this, we show that if we restrict ourselves to single-headed rule sets over signatures of arity at most 2, then FCS subsumes FUS.
翻訳日:2022-09-07 15:13:04 公開日:2022-09-06
# 周波数差に基づく高ダイナミックレンジ画像品質評価

High Dynamic Range Image Quality Assessment Based on Frequency Disparity ( http://arxiv.org/abs/2209.02285v1 )

ライセンス: Link先を確認
Yue Liu, Zhangkai Ni, Shiqi Wang, Hanli Wang, Sam Kwong(参考訳) 本稿では,高ダイナミックレンジ(HDR)画像に対する周波数不均一性に基づく高速画像品質評価(IQA)アルゴリズムを提案し,その手法をLGFM(Local-global frequency feature-based model)と呼ぶ。 人間の視覚系が視覚シーンを知覚する際の構造情報と部分周波数の抽出に高度に適応していると仮定して、HDR画像の輝度にガバーフィルタとバターワースフィルタを適用し、局所周波数特徴とグローバル周波数特徴を抽出する。 周波数特徴に対して類似度測定および特徴プーリングを順次行い、予測された品質スコアを得る。 4つのベンチマークで評価された実験により,lgfmは最先端のhdr iqa法と比較して,主観的知覚と高い一貫性を提供できることが示された。 私たちのコードは、 \url{https://github.com/eezkni/lgfm} で利用可能です。

In this paper, a novel and effective image quality assessment (IQA) algorithm based on frequency disparity for high dynamic range (HDR) images is proposed, termed as local-global frequency feature-based model (LGFM). Motivated by the assumption that the human visual system is highly adapted for extracting structural information and partial frequencies when perceiving the visual scene, the Gabor and the Butterworth filters are applied to the luminance of the HDR image to extract local and global frequency features, respectively. The similarity measurement and feature pooling are sequentially performed on the frequency features to obtain the predicted quality score. The experiments evaluated on four widely used benchmarks demonstrate that the proposed LGFM can provide a higher consistency with the subjective perception compared with the state-of-the-art HDR IQA methods. Our code is available at: \url{https://github.com/eezkni/LGFM}.
翻訳日:2022-09-07 15:09:44 公開日:2022-09-06
# SIND:中国の信号通信におけるドローンのデータセット

SIND: A Drone Dataset at Signalized Intersection in China ( http://arxiv.org/abs/2209.02297v1 )

ライセンス: Link先を確認
Yanchao Xu, Wenbo Shao, Jun Li, Kai Yang, Weida Wang, Hua Huang, Chen Lv, Hong Wang(参考訳) 交差点は、自動運転タスクにとって最も難しいシナリオの1つです。 複雑性と確率性のため、交差点における重要な応用(行動モデリング、動き予測、安全性検証など)はデータ駆動技術に大きく依存する。 したがって、交差点における交通参加者(TP)の軌跡データセットの需要は極めて高い。 現在、都市部のほとんどの交差点には信号機が設置されている。 しかし、信号化された交差点のための大規模で高品質な軌道データセットはまだ存在しない。 そこで,本稿では,中国天津市に典型的な2相信号交差点を選定する。 さらに、パイプラインはsind(signalized intersection dataset)を構築するように設計されており、これには7種類の13,000 tps以上の記録が含まれている。 そして、SINDにおける信号違反の挙動を記録する。 さらに、SINDは他の類似の作品と比較される。 罪の特徴は次のように要約することができる。 1)SINDは、交通信号の状態、動きパラメータ、高定義(HD)マップなど、より包括的な情報を提供する。 2)TPのカテゴリーは多様で特徴的であり,脆弱道路利用者(VRU)の割合は62.6%である。 3)非動力車両の複数の信号違反を示す。 SINDは既存のデータセットの効果的なサプリメントであり、自動運転に関する関連する研究を促進することができると考えている。

Intersection is one of the most challenging scenarios for autonomous driving tasks. Due to the complexity and stochasticity, essential applications (e.g., behavior modeling, motion prediction, safety validation, etc.) at intersections rely heavily on data-driven techniques. Thus, there is an intense demand for trajectory datasets of traffic participants (TPs) in intersections. Currently, most intersections in urban areas are equipped with traffic lights. However, there is not yet a large-scale, high-quality, publicly available trajectory dataset for signalized intersections. Therefore, in this paper, a typical two-phase signalized intersection is selected in Tianjin, China. Besides, a pipeline is designed to construct a Signalized INtersection Dataset (SIND), which contains 7 hours of recording including over 13,000 TPs with 7 types. Then, the behaviors of traffic light violations in SIND are recorded. Furthermore, the SIND is also compared with other similar works. The features of the SIND can be summarized as follows: 1) SIND provides more comprehensive information, including traffic light states, motion parameters, High Definition (HD) map, etc. 2) The category of TPs is diverse and characteristic, where the proportion of vulnerable road users (VRUs) is up to 62.6% 3) Multiple traffic light violations of non-motor vehicles are shown. We believe that SIND would be an effective supplement to existing datasets and can promote related research on autonomous driving.The dataset is available online via: https://github.com/SOTIF-AVLab/SinD
翻訳日:2022-09-07 15:09:31 公開日:2022-09-06
# MACAB:実世界における自然トリガーによる物体検出のためのモデル非依存クリーンアノテーション

MACAB: Model-Agnostic Clean-Annotation Backdoor to Object Detection with Natural Trigger in Real-World ( http://arxiv.org/abs/2209.02339v1 )

ライセンス: Link先を確認
Hua Ma, Yinshan Li, Yansong Gao, Zhi Zhang, Alsharif Abuadbba, Anmin Fu, Said F. Al-Sarawi, Nepal Surya, Derek Abbott(参考訳) オブジェクト検出は、セグメンテーション、オブジェクト追跡、イベント検出など、様々な重要なコンピュータビジョンタスクの基礎である。 オブジェクト検出器を十分な精度で訓練するには、大量のデータが必要である。 しかし、大規模なデータセットを注釈付けする作業が集中しているため、このようなデータキュレーションタスクは第三者にアウトソースしたり、ボランティアに頼ったりすることがよくある。 この作業は、このようなデータキュレーションパイプラインの重大な脆弱性を明らかにします。 我々は,データキュレーターが手動で画像の検査を行う場合でも,クリーンアノテートされた画像を作成して,トレーニング対象検出器に密かにバックドアを埋め込むMACABを提案する。 誤分類とクローキングの両方のバックドア効果は、バックドアが不明瞭な自然トリガーで活性化されたとき、野生において頑健に達成されていることを観察する。 クリーンラベルによるバックドア化非分類オブジェクト検出は、被害者や非勝利オブジェクトを含む各フレーム内に複数のオブジェクトを持つことが複雑であるため、既存のイメージ分類タスクをクリーンラベルでバックドアするよりも難しい。 MACABの有効性は、ディープラーニングフレームワークで使用される画像スケーリング機能を構築的に悪用すること、提案手法を取り入れること、および、制約された攻撃予算が与えられた毒データ選択基準を組み合わせることにより確保される。 大規模な実験では、MACABは現実世界の様々な場面で90%以上の攻撃成功率を示す。 これには、小さな攻撃予算で制限された、クローキングと誤分類バックドア効果の両方が含まれる。 有毒試料は最先端検出技術では同定できないが, 総合的なビデオデモはhttps://youtu.be/MA7L_LpXkp4であり, YOLOv4クローキングバックドアとFaster R-CNN誤分類バックドアの毒性率0.14%に基づいている。

Object detection is the foundation of various critical computer-vision tasks such as segmentation, object tracking, and event detection. To train an object detector with satisfactory accuracy, a large amount of data is required. However, due to the intensive workforce involved with annotating large datasets, such a data curation task is often outsourced to a third party or relied on volunteers. This work reveals severe vulnerabilities of such data curation pipeline. We propose MACAB that crafts clean-annotated images to stealthily implant the backdoor into the object detectors trained on them even when the data curator can manually audit the images. We observe that the backdoor effect of both misclassification and the cloaking are robustly achieved in the wild when the backdoor is activated with inconspicuously natural physical triggers. Backdooring non-classification object detection with clean-annotation is challenging compared to backdooring existing image classification tasks with clean-label, owing to the complexity of having multiple objects within each frame, including victim and non-victim objects. The efficacy of the MACAB is ensured by constructively i abusing the image-scaling function used by the deep learning framework, ii incorporating the proposed adversarial clean image replica technique, and iii combining poison data selection criteria given constrained attacking budget. Extensive experiments demonstrate that MACAB exhibits more than 90% attack success rate under various real-world scenes. This includes both cloaking and misclassification backdoor effect even restricted with a small attack budget. The poisoned samples cannot be effectively identified by state-of-the-art detection techniques.The comprehensive video demo is at https://youtu.be/MA7L_LpXkp4, which is based on a poison rate of 0.14% for YOLOv4 cloaking backdoor and Faster R-CNN misclassification backdoor.
翻訳日:2022-09-07 15:09:06 公開日:2022-09-06
# 市民科学データにおけるクレーターカウントエラーの理解と削減と標準化の必要性

Understanding and Reducing Crater Counting Errors in Citizen Science Data and the Need for Standardisation ( http://arxiv.org/abs/2209.02375v1 )

ライセンス: Link先を確認
P.D. Tar, N.A. Thacker(参考訳) 市民科学は、現代の高解像度画像におけるLunar衝突クレーターの識別やカウントなど、予備的なデータ処理タスクの一般的なツールとなっている。 しかし、そのようなデータを使用するには、市民科学製品は理解可能で信頼性が高い必要がある。 汚染やデータ不足はデータセットの有用性を低下させる可能性があるため、そのような効果が定量化されることが重要である。 本稿では,MoonZoo市民科学クレーターデータ中の汚染レベルを推定するための定量的パターン認識システム(Linear Poisson Models)を新たに開発した。 証拠は汚染の影響を除去できることを示し、地上の真理について合意されたいくつかのことを参照し、高い再現性を持つクレーターの数を推定する。 しかし、現在、欠落したデータの修正がより困難であることも示される。 このテクニックはアポロ17号のサイトにあるmoonzoo市民科学クレーターアノテーションでテストされ、同じ地域の学部生と専門家による結果が得られた。

Citizen science has become a popular tool for preliminary data processing tasks, such as identifying and counting Lunar impact craters in modern high-resolution imagery. However, use of such data requires that citizen science products are understandable and reliable. Contamination and missing data can reduce the usefulness of datasets so it is important that such effects are quantified. This paper presents a method, based upon a newly developed quantitative pattern recognition system (Linear Poisson Models) for estimating levels of contamination within MoonZoo citizen science crater data. Evidence will show that it is possible to remove the effects of contamination, with reference to some agreed upon ground truth, resulting in estimated crater counts which are highly repeatable. However, it will also be shown that correcting for missing data is currently more difficult to achieve. The techniques are tested on MoonZoo citizen science crater annotations from the Apollo 17 site and also undergraduate and expert results from the same region.
翻訳日:2022-09-07 15:08:30 公開日:2022-09-06
# MMV_Im2Im:画像から画像への変換のためのオープンソースの顕微鏡マシンビジョンツールボックス

MMV_Im2Im: An Open Source Microscopy Machine Vision Toolbox for Image-to-Image Transformation ( http://arxiv.org/abs/2209.02498v1 )

ライセンス: Link先を確認
Justin Sonneck, Jianxu Chen(参考訳) コンピュータビジョンにおけるディープラーニングの研究は過去10年で急速に成長しており、その多くが生物医学的な問題に対する新しい画像分析法に翻訳されている。 広義には、多くの深層学習に基づく生体画像解析手法が一般的な画像から画像への変換フレームワークとして考えられる。 本研究では,バイオイメージングアプリケーションにおける画像-画像変換のための新しいオープンソースpythonパッケージMMV_Im2Imを紹介する。 全体的なパッケージは、セマンティックセグメンテーション、インスタンスセグメンテーション、イメージ復元、画像生成などに直接使用できる、汎用的なイメージからイメージへの変換フレームワークで設計されている。 この実装は最先端の機械学習エンジニアリング技術を活用し、ユーザーはエンジニアリングの詳細を気にせずに研究に集中することができる。 MMV_Im2Imの10種以上の生体医学的問題に対する有効性を示した。 バイオメディカル機械学習研究者にとって、この新しいパッケージは、新しいバイオメディカル画像分析や機械学習手法を刺激する特定の問題の出発点となることを願っている。 実験的なバイオメディカル研究者にとって、この研究は様々な例でイメージ・ツー・イメージ・トランスフォーメーションの概念の全体像を提供し、深層学習に基づくイメージ・ツー・イメージ・トランスフォーメーションをアッセイ開発プロセスに統合し、従来の実験手法でしか実現できない新しいバイオメディカル研究を可能にすることを願っている。 ソースコードはhttps://github.com/MMV-Lab/mmv_im2imにある。

The deep learning research in computer vision has been growing extremely fast in the past decade, many of which have been translated into novel image analysis methods for biomedical problems. Broadly speaking, many deep learning based biomedical image analysis methods can be considered as a general image-to-image transformation framework. In this work, we introduce a new open source python package MMV_Im2Im for image-to-image transformation in bioimaging applications. The overall package is designed with a generic image-to-image transformation framework, which could be directly used for semantic segmentation, instance segmentation, image restoration, image generation, etc.. The implementation takes advantage of the state-of-the-art machine learning engineering techniques for users to focus on the research without worrying about the engineering details. We demonstrate the effectiveness of MMV_Im2Im in more than ten different biomedical problems. For biomedical machine learning researchers, we hope this new package could serve as the starting point for their specific problems to stimulate new biomedical image analysis or machine learning methods. For experimental biomedical researchers, we hope this work can provide a holistic view of the image-to-image transformation concept with diverse examples, so that deep learning based image-to-image transformation could be further integrated into the assay development process and permit new biomedical studies that can hardly be done only with traditional experimental methods. Source code can be found at https://github.com/MMV-Lab/mmv_im2im.
翻訳日:2022-09-07 15:08:13 公開日:2022-09-06
# 深部フィルターバンク回帰法による異方性mr脳画像の超解像

Deep filter bank regression for super-resolution of anisotropic MR brain images ( http://arxiv.org/abs/2209.02611v1 )

ライセンス: Link先を確認
Samuel W. Remedios, Shuo Han, Yuan Xue, Aaron Carass, Trac D. Tran, Dzung L. Pham, Jerry L. Prince(参考訳) 2次元マルチスライス磁気共鳴(MR)取得では、スループレーン信号は通常、インプレーン信号よりも低解像度である。 現代のスーパーレゾリューション(sr)法は、基礎となる高解像度ボリュームを回復することを目的としているが、推定された高周波情報は、明示的に記述され、求めるのではなく、エンドツーエンドのデータ駆動トレーニングによって暗黙化される。 これを解決するために、完全再構成フィルタバンクの観点からSR問題文を再構成し、不足した情報を識別し、直接推定する。 本研究では,特定のスキャンの異方性取得に対応する完全再構成フィルタバンクの完成を近似する2段階アプローチを提案する。 ステージ1では勾配降下法を用いて欠落フィルタを推定し,ステージ2では深いネットワークを用いて粗い係数から詳細な係数への写像を学習する。 さらに,提案する定式化は外部のトレーニングデータに頼らず,ドメインシフト補正の必要性を回避する。 提案手法では,特に「スライスギャップ」シナリオにおいてSR性能が向上している。

In 2D multi-slice magnetic resonance (MR) acquisition, the through-plane signals are typically of lower resolution than the in-plane signals. While contemporary super-resolution (SR) methods aim to recover the underlying high-resolution volume, the estimated high-frequency information is implicit via end-to-end data-driven training rather than being explicitly stated and sought. To address this, we reframe the SR problem statement in terms of perfect reconstruction filter banks, enabling us to identify and directly estimate the missing information. In this work, we propose a two-stage approach to approximate the completion of a perfect reconstruction filter bank corresponding to the anisotropic acquisition of a particular scan. In stage 1, we estimate the missing filters using gradient descent and in stage 2, we use deep networks to learn the mapping from coarse coefficients to detail coefficients. In addition, the proposed formulation does not rely on external training data, circumventing the need for domain shift correction. Under our approach, SR performance is improved particularly in "slice gap" scenarios, likely due to the constrained solution space imposed by the framework.
翻訳日:2022-09-07 15:07:47 公開日:2022-09-06
# LRT:暗視野画像のための高効率低光回復変換器

LRT: An Efficient Low-Light Restoration Transformer for Dark Light Field Images ( http://arxiv.org/abs/2209.02197v1 )

ライセンス: Link先を確認
Shansi Zhang and Nan Meng and Edmund Y. Lam(参考訳) マルチビュー特性を持つ光場(LF)画像には多くの応用があり、低光画像の影響を強く受けうる。 近年の低照度化学習手法には,ノイズ抑制,複雑な訓練プロセス,低照度条件下での性能低下など,独自の欠点がある。 本稿では,マルチビュー情報を完全に活用しつつ,これらの欠点を解決することを目的とした,lf画像の高効率な低照度復元トランスフォーマ(lrt)を提案する。 本研究では,グローバル角関係を効率的にモデル化するビュートケンスキームと,マルチスケールの局所空間情報およびグローバル空間情報を符号化するマルチスケールウィンドウベースのトランスフォーマブロックをデザインする。 学習データ不足の問題を解決するため,LFカメラの雑音パラメータを推定して主雑音をシミュレートし,合成パイプラインを定式化する。 実験により,高効率で低照度かつノイズの多いLF画像の復元に優れた性能が得られた。

Light field (LF) images with the multi-view property have many applications, which can be severely affected by the low-light imaging. Recent learning-based methods for low-light enhancement have their own disadvantages, such as no noise suppression, complex training process and poor performance in extremely low-light conditions. Targeted on solving these deficiencies while fully utilizing the multi-view information, we propose an efficient Low-light Restoration Transformer (LRT) for LF images, with multiple heads to perform specific intermediate tasks, including denoising, luminance adjustment, refinement and detail enhancement, within a single network, achieving progressive restoration from small scale to full scale. We design an angular transformer block with a view-token scheme to model the global angular relationship efficiently, and a multi-scale window-based transformer block to encode the multi-scale local and global spatial information. To solve the problem of insufficient training data, we formulate a synthesis pipeline by simulating the major noise with the estimated noise parameters of LF camera. Experimental results demonstrate that our method can achieve superior performance on the restoration of extremely low-light and noisy LF images with high efficiency.
翻訳日:2022-09-07 15:00:52 公開日:2022-09-06
# 安全・共安全言語の一階述語論理

A first-order logic characterization of safety and co-safety languages ( http://arxiv.org/abs/2209.02307v1 )

ライセンス: Link先を確認
Alessandro Cimatti and Luca Geatti and Nicola Gigante and Angelo Montanari and Stefano Tonetta(参考訳) LTL(Linear Temporal Logic)は、コンピュータ科学の様々な分野において、最も一般的な時間論理の1つである。 LTL は反自由オメガオートマタ、星のないオメガ正規表現、そして(カンプの定理により)1つの後継者の1階理論(S1S[FO])と等価である。 安全性(safety)とコセーフティ(co-safety)言語は、単語がそれぞれ言語に属さないか属さないかを確立するために有限プレフィックスが十分であり、モデル検査やltlのリアクティブ合成のような問題の複雑さを低下させる上で重要な役割を果たす。 SafetyLTL (resp., coSafetyLTL) はLTLの断片であり、安全(resp., co-safety)言語のみを認識する普遍的(resp., existential)時間的モダリティのみを許容する。 この論文の主な貢献は、safetyfoと呼ばれるs1s[fo]の断片と、ltl-definable safetyとco-safety languageに関して表現的に完結したcosafetyfoの2つの断片の導入である。 我々は,これらがそれぞれSafetyLTLとcoSafetyLTLを正確に特徴付けることを証明し,その結果がカンプの定理に一致することを証明し,一階言語の観点からLTLの特徴付け(フラグメント)をより明確にする。 さらに、ltlで定義可能な安全言語がsafetyltlでも定義可能であることを直接的でコンパクトで自己完結した証明を与える。 副産物として,有限語および無限語で解釈された,明日の弱作用素SafetyLTLの表現力に関する興味深い結果が得られる。 さらに、有限語を解釈すると、明日の(弱明日)演算子を欠いたsafetyltl (resp. cosafetyltl) が有限語上のltlの安全(resp., co-safety)フラグメントをキャプチャする。

Linear Temporal Logic (LTL) is one of the most popular temporal logics, that comes into play in a variety of branches of computer science. Among the various reasons of its widespread use there are its strong foundational properties: LTL is equivalent to counter-free omega-automata, to star-free omega-regular expressions, and (by Kamp's theorem) to the first-order theory of one successor (S1S[FO]). Safety and co-safety languages, where a finite prefix suffices to establish whether a word does not belong or belongs to the language, respectively, play a crucial role in lowering the complexity of problems like model checking and reactive synthesis for LTL. SafetyLTL (resp., coSafetyLTL) is a fragment of LTL where only universal (resp., existential) temporal modalities are allowed, that recognises safety (resp., co-safety) languages only. The main contribution of this paper is the introduction of a fragment of S1S[FO], called SafetyFO, and of its dual coSafetyFO, which are expressively complete with respect to the LTL-definable safety and co-safety languages. We prove that they exactly characterize SafetyLTL and coSafetyLTL, respectively, a result that joins Kamp's theorem, and provides a clearer view of the characterization of (fragments of) LTL in terms of first-order languages. In addition, it gives a direct, compact, and self-contained proof that any safety language definable in LTL is definable in SafetyLTL as well. As a by-product, we obtain some interesting results on the expressive power of the weak tomorrow operator of SafetyLTL, interpreted over finite and infinite words. Moreover, we prove that, when interpreted over finite words, SafetyLTL (resp. coSafetyLTL) devoid of the tomorrow (resp., weak tomorrow) operator captures the safety (resp., co-safety) fragment of LTL over finite words.
翻訳日:2022-09-07 14:51:09 公開日:2022-09-06
# 事例攻撃:マルウェア検出のためのDNNに対する説明に基づく脆弱性分析フレームワーク

Instance Attack:An Explanation-based Vulnerability Analysis Framework Against DNNs for Malware Detection ( http://arxiv.org/abs/2209.02453v1 )

ライセンス: Link先を確認
Sun RuiJin, Guo ShiZe, Guo JinHong, Xing ChangYou, Yang LuMing, Guo Xi, Pan ZhiSong(参考訳) ディープニューラルネットワーク(DNN)はマルウェア検出にますます適用され、その堅牢性は広く議論されている。 伝統的に、逆例生成スキームは、詳細なモデル情報(漸進的な手法)または多くのサンプルを使って代理モデルを訓練するが、どちらもほとんどのシナリオでは利用できない。 インスタンスベースの攻撃の概念を提案する。 我々の方式は解釈可能であり、ブラックボックス環境でも機能する。 特定のバイナリ例とマルウェア分類器が与えられた場合、我々はデータ拡張戦略を使用して、単純な解釈可能なモデルをトレーニングできる十分なデータを生成する。 特定バイナリの異なる部分の重みを表示することで,検出モデルを説明する。 解析の結果,Windows PEのマルウェア検出において,データサブセクションが重要な役割を果たすことがわかった。 我々はデータサブセクションに適用可能な新しい関数保存変換アルゴリズムを提案する。 提案した二分法を用いて、最も重み付けされた部分の影響を排除し、逆例を生成する。 我々のアルゴリズムは、成功率100\%に近い特定のケースでDNNを騙すことができる。 我々の手法は最先端の手法より優れている。 最も重要な側面は、このメソッドがブラックボックス設定で動作し、その結果がドメイン知識で検証できることです。 本分析モデルは,マルウェア検出装置のロバスト性向上を支援する。

Deep neural networks (DNNs) are increasingly being applied in malware detection and their robustness has been widely debated. Traditionally an adversarial example generation scheme relies on either detailed model information (gradient-based methods) or lots of samples to train a surrogate model, neither of which are available in most scenarios. We propose the notion of the instance-based attack. Our scheme is interpretable and can work in a black-box environment. Given a specific binary example and a malware classifier, we use the data augmentation strategies to produce enough data from which we can train a simple interpretable model. We explain the detection model by displaying the weight of different parts of the specific binary. By analyzing the explanations, we found that the data subsections play an important role in Windows PE malware detection. We proposed a new function preserving transformation algorithm that can be applied to data subsections. By employing the binary-diversification techniques that we proposed, we eliminated the influence of the most weighted part to generate adversarial examples. Our algorithm can fool the DNNs in certain cases with a success rate of nearly 100\%. Our method outperforms the state-of-the-art method . The most important aspect is that our method operates in black-box settings and the results can be validated with domain knowledge. Our analysis model can assist people in improving the robustness of malware detectors.
翻訳日:2022-09-07 14:50:26 公開日:2022-09-06
# Dynamics GNNにおけるメモリ安定性問題の再考

Rethinking The Memory Staleness Problem In Dynamics GNN ( http://arxiv.org/abs/2209.02462v1 )

ライセンス: Link先を確認
Mor Ventura, Hadas Ben Atya, Dekel Brav(参考訳) 不安定性問題は、イベントの欠如により、動的データを扱う際によく知られた問題である。 ノードのメモリは、そのノードがイベントに関与している場合にのみ更新されるため、そのメモリは停滞する。 通常、社会的な説明の一時的な不活性化のような出来事の欠如を指す。 ノードメモリに加えて、隣接ノードメモリからの情報を集約するメモリ停滞問題を克服する。 そこで我々は,隣接ノードに加えて,最も類似したノードを挿入する新しい埋め込みモジュールを設計した。 提案法はTGNと類似した結果を得たが,若干改善した。 これはハイパーパラメータ、特に時間しきい値を微調整し、学習可能な類似度メトリクスを使用することで、潜在的な改善を示す可能性があります。

The staleness problem is a well-known problem when working with dynamic data, due to the absence of events for a long time. Since the memory of the node is updated only when the node is involved in an event, its memory becomes stale. Usually, it refers to a lack of events such as a temporal deactivation of a social account. To overcome the memory staleness problem aggregate information from the nodes neighbors memory in addition to the nodes memory. Inspired by that, we design an updated embedding module that inserts the most similar node in addition to the nodes neighbors. Our method achieved similar results to the TGN, with a slight improvement. This could indicate a potential improvement after fine-tuning our hyper-parameters, especially the time threshold, and using a learnable similarity metric.
翻訳日:2022-09-07 14:50:06 公開日:2022-09-06
# 正の例のみによる解釈可能な時間特性の学習

Learning Interpretable Temporal Properties from Positive Examples Only ( http://arxiv.org/abs/2209.02650v1 )

ライセンス: Link先を確認
Rajarshi Roy, Jean-Rapha\"el Gaglione, Nasim Baharisangari, Daniel Neider, Zhe Xu, Ufuk Topcu(参考訳) 人間の解釈可能なモデルを用いてブラックボックスシステムの時間的挙動を説明する問題を考える。 この目的のために、最近の研究動向に基づき、決定論的有限オートマトン(dfas)と線形時相論理(ltl)の基本的かつ解釈可能なモデルに依存する。 DFAやTL式を学習するための既存のほとんどの研究とは対照的に、正の例にのみ依存する。 当社のモチベーションは、否定的な例が一般的に、特にブラックボックスシステムから観察するのが難しいことです。 ポジティブな例のみから有意義なモデルを学ぶために、モデルの簡潔さと言語の最小性に依存するアルゴリズムを正規化子として設計する。 この目的のために、我々のアルゴリズムは2つのアプローチを採用する:シンボリックと反例誘導型である。 シンボリックアプローチは、制約満足度問題として言語極小の効率的な符号化を利用するが、反例誘導は、探索を誘発する適切な負の例を生成することに依存する。 どちらのアプローチも、学習したモデルに理論的保証のある効果的なアルゴリズムを提供する。 アルゴリズムの有効性を評価するために,これらすべてを合成データで評価する。

We consider the problem of explaining the temporal behavior of black-box systems using human-interpretable models. To this end, based on recent research trends, we rely on the fundamental yet interpretable models of deterministic finite automata (DFAs) and linear temporal logic (LTL) formulas. In contrast to most existing works for learning DFAs and LTL formulas, we rely on only positive examples. Our motivation is that negative examples are generally difficult to observe, in particular, from black-box systems. To learn meaningful models from positive examples only, we design algorithms that rely on conciseness and language minimality of models as regularizers. To this end, our algorithms adopt two approaches: a symbolic and a counterexample-guided one. While the symbolic approach exploits an efficient encoding of language minimality as a constraint satisfaction problem, the counterexample-guided one relies on generating suitable negative examples to prune the search. Both the approaches provide us with effective algorithms with theoretical guarantees on the learned models. To assess the effectiveness of our algorithms, we evaluate all of them on synthetic data.
翻訳日:2022-09-07 14:49:54 公開日:2022-09-06
# 信頼に依存した制約付きPMDP計画

Risk Aware Belief-dependent Constrained POMDP Planning ( http://arxiv.org/abs/2209.02679v1 )

ライセンス: Link先を確認
Andrey Zhitnikov, Vadim Indelman(参考訳) リスク認識は、オンライン操作エージェントの基本である。 しかし、部分的可観測性の下での挑戦的な連続領域では、あまり注目されなかった。 既存の制約付きPOMDPアルゴリズムは一般に離散状態と観測空間のために設計されている。 さらに、制約付き定式化の現在の解法は一般的な信念に依存した制約をサポートしない。 POMDP設定において、制約の文脈におけるリスク認識は限定的な方法で対処された。 本稿では,リスク回避信念依存制約型pomdpの新しい定式化法を提案する。 我々の確率的制約は、報酬関数と同様に一般かつ信念に依存している。 提案された普遍的枠組みは、粒子またはパラメトリック信念によって表される非パラメトリック信念を持つ連続領域に適用される。 我々の定式化は,従来の手法よりもリスクをよく説明できることを示す。

Risk awareness is fundamental to an online operating agent. However, it received less attention in the challenging continuous domain under partial observability. Existing constrained POMDP algorithms are typically designed for discrete state and observation spaces. In addition, current solvers for constrained formulations do not support general belief-dependent constraints. Crucially, in the POMDP setting, risk awareness in the context of a constraint was addressed in a limited way. This paper presents a novel formulation for risk-averse belief-dependent constrained POMDP. Our probabilistic constraint is general and belief-dependent, as is the reward function. The proposed universal framework applies to a continuous domain with nonparametric beliefs represented by particles or parametric beliefs. We show that our formulation better accounts for the risk than previous approaches.
翻訳日:2022-09-07 14:49:34 公開日:2022-09-06
# ベイズ階層ジョイントモデルを用いたテレビ視聴行動の時間・カウントデータへの適用

Profiling Television Watching Behaviour Using Bayesian Hierarchical Joint Models for Time-to-Event and Count Data ( http://arxiv.org/abs/2209.02626v1 )

ライセンス: Link先を確認
Rafael A. Moral, Zhi Chen, Shuai Zhang, Sally McClean, Gabriel R. Palma, Brahim Allan, Ian Kegel(参考訳) 顧客チャーン予測は多くの業界で貴重なタスクである。 通信において、データの高次元化と、将来のチャーン行動において重要な要因となるフラストレーションシグネチャの特定がいかに難しいかを考えると、これは大きな課題となる。 そこで本研究では,テレビ視聴の異なる旅の中でのイベント数とイベント間の時間とに基づいて,顧客プロファイルを特徴付ける新しいベイズ階層ジョイントモデルを提案する。 このモデルは、顧客毎の何千もの観測結果から、11の顧客レベルのパラメータ推定とランダムな影響まで、データの次元を大幅に削減します。 我々は,2019年10月から12月までにテレビ視聴行動を記録した40 BTユーザ(アクティブ20名,最終的にサブスクリプションをキャンセルした20名)のデータを用いて,方法論を検証した。 パラメータ推定とベイズ階層モデルによるランダム効果を特徴として用いた異なる機械学習手法を用いることで、チャーン予測の精度は最大 92\% となり、検証セット上での真正率 100\% と偽正率 14\% に関連づけられた。 提案手法は,高記述性と予測能力を維持しながら,データの次元性を低減する効率的な方法である。 ベイズモデルをhttps://github.com/rafamoral/profiling_tv_watching_behaviourで実装するためのコードを提供します。

Customer churn prediction is a valuable task in many industries. In telecommunications it presents great challenges, given the high dimensionality of the data, and how difficult it is to identify underlying frustration signatures, which may represent an important driver regarding future churn behaviour. Here, we propose a novel Bayesian hierarchical joint model that is able to characterise customer profiles based on how many events take place within different television watching journeys, and how long it takes between events. The model drastically reduces the dimensionality of the data from thousands of observations per customer to 11 customer-level parameter estimates and random effects. We test our methodology using data from 40 BT customers (20 active and 20 who eventually cancelled their subscription) whose TV watching behaviours were recorded from October to December 2019, totalling approximately half a million observations. Employing different machine learning techniques using the parameter estimates and random effects from the Bayesian hierarchical model as features yielded up to 92\% accuracy predicting churn, associated with 100\% true positive rates and false positive rates as low as 14\% on a validation set. Our proposed methodology represents an efficient way of reducing the dimensionality of the data, while at the same time maintaining high descriptive and predictive capabilities. We provide code to implement the Bayesian model at https://github.com/rafamoral/profiling_tv_watching_behaviour.
翻訳日:2022-09-07 14:49:07 公開日:2022-09-06
# 回帰と分類における活性化関数の重要性 調査, 性能比較, 今後の方向性

How important are activation functions in regression and classification? A survey, performance comparison, and future directions ( http://arxiv.org/abs/2209.02681v1 )

ライセンス: Link先を確認
Ameya D. Jagtap and George Em Karniadakis(参考訳) 生体ニューロンにインスパイアされた活性化機能は、現実世界の多くの問題でよく使われる人工ニューラルネットワークの学習過程において重要な役割を果たす。 様々な活性化関数が分類や回帰タスクの文献で提案されている。 本研究では,これまで採用されてきたアクティベーション機能と現在の技術状況について調査する。 特に,長年にわたる活性化関数の様々な発展と,これらの活性化関数の欠点や限界について述べる。 また、整流器ユニットを含む古典的(固定)アクティベーション関数と適応的アクティベーション関数についても論じる。 キャラクタリゼーションに基づく活性化関数の分類を示すことに加え、応用に基づく活性化関数の分類も提示する。 この目的のために、MNIST、CIFAR-10、CIFAR-100などの分類データセットに対して、様々な固定および適応活性化関数の体系的比較を行う。 近年,科学計算に関わる問題を解くために,物理インフォームド機械学習フレームワークが登場している。 そこで本研究では,物理インフォームド機械学習フレームワークで使用されているアクティベーション関数の要件についても論じる。 さらに、TensorFlow、Pytorch、JAXといったさまざまな機械学習ライブラリを使用して、さまざまな固定および適応アクティベーション関数間で、さまざまな比較を行う。

Inspired by biological neurons, the activation functions play an essential part in the learning process of any artificial neural network commonly used in many real-world problems. Various activation functions have been proposed in the literature for classification as well as regression tasks. In this work, we survey the activation functions that have been employed in the past as well as the current state-of-the-art. In particular, we present various developments in activation functions over the years and the advantages as well as disadvantages or limitations of these activation functions. We also discuss classical (fixed) activation functions, including rectifier units, and adaptive activation functions. In addition to presenting the taxonomy of activation functions based on characterization, a taxonomy of activation functions based on applications is also presented. To this end, the systematic comparison of various fixed and adaptive activation functions is performed for classification data sets such as the MNIST, CIFAR-10, and CIFAR-100. In recent years, a physics-informed machine learning framework has emerged for solving problems related to scientific computations. To this purpose, we also discuss various requirements for activation functions that have been used in the physics-informed machine learning framework. Furthermore, various comparisons are made among different fixed and adaptive activation functions using various machine learning libraries such as TensorFlow, Pytorch, and JAX.
翻訳日:2022-09-07 14:44:27 公開日:2022-09-06
# ブラックボックスをより明るくする: 掘削事故予測のための機械学習アルゴリズムの解釈

Making the black-box brighter: interpreting machine learning algorithm for forecasting drilling accidents ( http://arxiv.org/abs/2209.02256v1 )

ライセンス: Link先を確認
Ekaterina Gurina, Nikita Klyuchnikov, Ksenia Antipova, Dmitry Koroteev(参考訳) 本稿では,油井・ガス井掘削時の事故・異常予測のためのブラックボックス警報システムの解釈手法を提案する。 解釈手法は,事故予測モデルの局所的挙動を掘削技術者に説明することを目的としている。 説明モデルは,掘削事故予報段階で使用されるテレメトリログのBag-of-features表現を通じて得られた特徴のShapley付加的説明解析を用いている。 検証により、説明モデルは70%のリコールで15%の精度を持ち、ランダムベースラインおよびマルチヘッドアテンションニューラルネットワークのメトリック値を克服していることが示された。 これらの結果は,最先端の手法よりも,掘削技術者の説明と整合性が高いことを示す。 説明的モデルとバグオブファクトモデルの合同性能により、掘削技術者は特定の時点におけるシステム決定の背後にあるロジックを理解し、強調されたテレメトリ領域に注意を払って、事故予知アラームの信頼レベルを高めることができる。

We present an approach for interpreting a black-box alarming system for forecasting accidents and anomalies during the drilling of oil and gas wells. The interpretation methodology aims to explain the local behavior of the accident predictive model to drilling engineers. The explanatory model uses Shapley additive explanations analysis of features, obtained through Bag-of-features representation of telemetry logs used during the drilling accident forecasting phase. Validation shows that the explanatory model has 15% precision at 70% recall, and overcomes the metric values of a random baseline and multi-head attention neural network. These results justify that the developed explanatory model is better aligned with explanations of drilling engineers, than the state-of-the-art method. The joint performance of explanatory and Bag-of-features models allows drilling engineers to understand the logic behind the system decisions at the particular moment, pay attention to highlighted telemetry regions, and correspondingly, increase the trust level in the accident forecasting alarms.
翻訳日:2022-09-07 14:37:56 公開日:2022-09-06
# 超複素値ニューラルネットワークの広範クラスに対する普遍近似定理の拡張

Extending the Universal Approximation Theorem for a Broad Class of Hypercomplex-Valued Neural Networks ( http://arxiv.org/abs/2209.02456v1 )

ライセンス: Link先を確認
Wington L. Vital, Guilherme Vieira, and Marcos Eduardo Valle(参考訳) 普遍近似定理は、単一の隠れ層ニューラルネットワークがコンパクト集合上の任意の所望の精度で連続関数を近似すると主張する。 実存的な結果として、普遍近似定理は回帰や分類タスクを含む様々なアプリケーションにおけるニューラルネットワークの利用を支持する。 普遍近似定理は、実数値ニューラルネットワークに限らず、複素、四元数、テッサリン、クリフォード値ニューラルネットワークに対しても成り立つ。 本稿では,超複素値ニューラルネットワークの広範クラスに対する普遍近似定理を拡張する。 正確には、まず非退化超複素代数の概念を導入する。 複素数、四元数、テッサリンは非退化超複素代数の例である。 そして、非退化代数上で定義される超複素数値ニューラルネットワークに対する普遍近似定理を述べる。

The universal approximation theorem asserts that a single hidden layer neural network approximates continuous functions with any desired precision on compact sets. As an existential result, the universal approximation theorem supports the use of neural networks for various applications, including regression and classification tasks. The universal approximation theorem is not limited to real-valued neural networks but also holds for complex, quaternion, tessarines, and Clifford-valued neural networks. This paper extends the universal approximation theorem for a broad class of hypercomplex-valued neural networks. Precisely, we first introduce the concept of non-degenerate hypercomplex algebra. Complex numbers, quaternions, and tessarines are examples of non-degenerate hypercomplex algebras. Then, we state the universal approximation theorem for hypercomplex-valued neural networks defined on a non-degenerate algebra.
翻訳日:2022-09-07 14:37:40 公開日:2022-09-06
# 自己監督型不均衡学習のロバスト化と効率性

Robust and Efficient Imbalanced Positive-Unlabeled Learning with Self-supervision ( http://arxiv.org/abs/2209.02459v1 )

ライセンス: Link先を確認
Emilio Dorigatti, Jonas Schweisthal, Bernd Bischl, Mina Rezaei(参考訳) 正とラベルなし(PU)データからの学習は、学習者が正とラベルなしのサンプルのみにアクセスでき、負のサンプルに関する情報を持たない設定である。 このようなPU設定は、医療診断、ソーシャルネットワーク分析、金融市場分析、知識ベース補完といった様々なタスクにおいて非常に重要であり、これは本質的に不均衡である傾向がある。 しかし、PU学習における既存のほとんどのアプローチは、人工的なバランスの取れたデータセットのみを考慮しており、不均衡なデータ分布と長い尾のデータ分布の現実的なシナリオにおいて、どのように機能するかは不明である。 本稿では,この課題に対してロバストかつ効率的な自己教師付き事前学習によって取り組むことを提案する。 しかし、高度に不均衡なPU分布を適用する場合の従来の自己教師型学習手法の訓練は、改善が必要である。 本稿では, \underline{Im} balanced \underline{P}ositive \underline{U}nlabeled \underline{L}earning のための統一表現学習フレームワークである \textit{ImPULSeS} を, \underline{Se}lf-\underline{S}upervised debiase pre-training を利用して提案する。 ImPULSeSは、大規模教師なし学習とデバイアス付きコントラスト損失と追加のPU損失を組み合わせた汎用的な組み合わせを使用している。 我々は、ImPULSeSが過去の最先端技術のエラー率を半減できることを示すために、複数のデータセットで異なる実験を行った。 さらに,本手法は,非関係データセット上で事前トレーニングを行った場合においても,事前の誤特定に対するロバスト性や優れた性能を示した。 このような堅牢性と効率性は,実践者が他のPUデータセットで優れた結果を得ることができることを期待する。 ソースコードは \url{https://github.com/JSchweisthal/ImPULSeS} で入手できる。

Learning from positive and unlabeled (PU) data is a setting where the learner only has access to positive and unlabeled samples while having no information on negative examples. Such PU setting is of great importance in various tasks such as medical diagnosis, social network analysis, financial markets analysis, and knowledge base completion, which also tend to be intrinsically imbalanced, i.e., where most examples are actually negatives. Most existing approaches for PU learning, however, only consider artificially balanced datasets and it is unclear how well they perform in the realistic scenario of imbalanced and long-tail data distribution. This paper proposes to tackle this challenge via robust and efficient self-supervised pretraining. However, training conventional self-supervised learning methods when applied with highly imbalanced PU distribution needs better reformulation. In this paper, we present \textit{ImPULSeS}, a unified representation learning framework for \underline{Im}balanced \underline{P}ositive \underline{U}nlabeled \underline{L}earning leveraging \underline{Se}lf-\underline{S}upervised debiase pre-training. ImPULSeS uses a generic combination of large-scale unsupervised learning with debiased contrastive loss and additional reweighted PU loss. We performed different experiments across multiple datasets to show that ImPULSeS is able to halve the error rate of the previous state-of-the-art, even compared with previous methods that are given the true prior. Moreover, our method showed increased robustness to prior misspecification and superior performance even when pretraining was performed on an unrelated dataset. We anticipate such robustness and efficiency will make it much easier for practitioners to obtain excellent results on other PU datasets of interest. The source code is available at \url{https://github.com/JSchweisthal/ImPULSeS}
翻訳日:2022-09-07 14:37:28 公開日:2022-09-06
# 動的グラフ構造学習による半教師付きクラスタリング

Semi-Supervised Clustering via Dynamic Graph Structure Learning ( http://arxiv.org/abs/2209.02513v1 )

ライセンス: Link先を確認
Huaming Ling, Chenglong Bao, Xin Liang, and Zuoqiang Shi(参考訳) 既存の半教師付きグラフベースのクラスタリング手法は、アフィニティ行列の精細化や、データポイントの低次元表現の直接的制約によって、監督情報を利用する。 アフィニティ行列はグラフ構造を表し、半教師付きグラフベースのクラスタリングの性能に不可欠である。 しかし、既存の手法では静的親和性行列を採用し、データポイントの低次元表現を学習し、学習過程で親和性行列を最適化しない。 本稿では,半教師付きクラスタリングのための動的グラフ構造学習手法を提案する。 本手法では,与えられたペアワイズ制約を利用してアフィニティ行列とデータポイントの低次元表現を同時に最適化する。 さらに,提案した非凸モデルの解法として,収束性を示す交互最小化手法を提案する。 反復過程において,本手法はデータポイントの低次元表現を循環的に更新し,親和性行列を改良し,動的親和性行列(グラフ構造)を導出する。 具体的には、アフィニティ行列の更新のために、非常に異なる低次元表現を持つデータポイントを強制し、アフィニティ値が0。 さらに、データポイント間の局所距離と大域自己表現を統合することにより、初期親和性行列を構築する。 8つのベンチマークデータセットを異なる設定で実験した結果,提案手法の利点が示された。

Most existing semi-supervised graph-based clustering methods exploit the supervisory information by either refining the affinity matrix or directly constraining the low-dimensional representations of data points. The affinity matrix represents the graph structure and is vital to the performance of semi-supervised graph-based clustering. However, existing methods adopt a static affinity matrix to learn the low-dimensional representations of data points and do not optimize the affinity matrix during the learning process. In this paper, we propose a novel dynamic graph structure learning method for semi-supervised clustering. In this method, we simultaneously optimize the affinity matrix and the low-dimensional representations of data points by leveraging the given pairwise constraints. Moreover, we propose an alternating minimization approach with proven convergence to solve the proposed nonconvex model. During the iteration process, our method cyclically updates the low-dimensional representations of data points and refines the affinity matrix, leading to a dynamic affinity matrix (graph structure). Specifically, for the update of the affinity matrix, we enforce the data points with remarkably different low-dimensional representations to have an affinity value of 0. Furthermore, we construct the initial affinity matrix by integrating the local distance and global self-representation among data points. Experimental results on eight benchmark datasets under different settings show the advantages of the proposed approach.
翻訳日:2022-09-07 14:36:57 公開日:2022-09-06
# greedy-gqの有限時間誤差境界

Finite-Time Error Bounds for Greedy-GQ ( http://arxiv.org/abs/2209.02555v1 )

ライセンス: Link先を確認
Yue Wang, Yi Zhou, Shaofeng Zou(参考訳) 線形関数近似を用いたGreedy-GQは、もともと \cite{maei2010toward} で提案され、強化学習における最適制御のための値ベースのオフポリティアルゴリズムであり、非凸目的関数を持つ非線形2時間スケール構造を持つ。 本稿では,有限時間誤差境界を開発する。 greedy-gqアルゴリズムは、i.i.d.\設定下で$\mathcal{o}({1}/{\sqrt{t}})$、マルコフ設定下で$\mathcal{o}({\log t}/{\sqrt{t}})$で収束する。 さらに、ネストループ法を用いて、バニラグレディ-GQアルゴリズムの変種を設計し、サンプルの複雑さが$\mathcal{O}({\log(1/\epsilon)\epsilon^{-2}})$であることを示し、バニラグレディ-GQの変種と一致する。 我々の有限時間誤差境界は、一般の滑らかな非凸最適化問題に対する確率的勾配降下アルゴリズムの1つと一致する。 有限サンプル分析は, 収束を早めるためのステップサイズ選択に関する理論的指針を提供し, 収束率と得られた政策の品質のトレードオフを示唆する。 本稿では,非凸な2つの時間スケール値に基づく強化学習アルゴリズムの有限サンプル解析に対する一般的な手法を提案する。

Greedy-GQ with linear function approximation, originally proposed in \cite{maei2010toward}, is a value-based off-policy algorithm for optimal control in reinforcement learning, and it has a non-linear two timescale structure with a non-convex objective function. This paper develops its finite-time error bounds. We show that the Greedy-GQ algorithm converges as fast as $\mathcal{O}({1}/{\sqrt{T}})$ under the i.i.d.\ setting and $\mathcal{O}({\log T}/{\sqrt{T}})$ under the Markovian setting. We further design a variant of the vanilla Greedy-GQ algorithm using the nested-loop approach, and show that its sample complexity is $\mathcal{O}({\log(1/\epsilon)\epsilon^{-2}})$, which matches with the one of the vanilla Greedy-GQ. Our finite-time error bounds match with one of the stochastic gradient descent algorithms for general smooth non-convex optimization problems. Our finite-sample analysis provides theoretical guidance on choosing step-sizes for faster convergence in practice and suggests the trade-off between the convergence rate and the quality of the obtained policy. Our techniques in this paper provide a general approach for finite-sample analysis of non-convex two timescale value-based reinforcement learning algorithms.
翻訳日:2022-09-07 14:36:38 公開日:2022-09-06
# Merged-GHCIDR:画像データ削減のための幾何学的アプローチ

Merged-GHCIDR: Geometrical Approach to Reduce Image Data ( http://arxiv.org/abs/2209.02609v1 )

ライセンス: Link先を確認
Devvrat Joshi, Janvi Thakkar, Siddharth Soni, Shril Mody, Rohan Patil, Nipun Batra(参考訳) モデルのトレーニングに必要な計算資源は、ディープネットワークの開始以来増加してきた。 巨大なデータセット上でニューラルネットワークをトレーニングすることは、困難で時間のかかる作業になっている。 そのため、精度を損なうことなくデータセットを減らす必要がある。 本稿では,同種クラスタリングによるデータセットサイズ削減という,従来手法の新たなバリエーションを提案する。 提案手法は,データセットを均質なクラスタに分割し,精度に大きく寄与する画像を選択するという考え方に基づいている。 本研究では,画像データ削減のための幾何学的均質クラスタリング(ghcidr)と,ベースラインアルゴリズムによるマージghcidr(merge-ghcidr)の2つのバリエーションを提案する。 ghcidrの背景にある直観は、クラスタ重みによるデータポイントの選択とトレーニングセットの幾何学的分布である。 Merged-GHCIDRは、完全なリンククラスタリングを使用して、同じラベルを持つクラスタをマージする。 我々は,fcn,vgg1,vgg16の3つのディープラーニングモデルを用いた。 我々はMNIST, CIFAR10, Fashion-MNIST, Tiny-Imagenetという4つのデータセットで2つの変種を実験した。 RHCと同じパーセンテージのマージGHCIDRは、MNIST、Fashion-MNIST、CIFAR10、Tiny-Imagenetでそれぞれ2.8%、8.9%、7.6%、および3.5%の精度を示した。

The computational resources required to train a model have been increasing since the inception of deep networks. Training neural networks on massive datasets have become a challenging and time-consuming task. So, there arises a need to reduce the dataset without compromising the accuracy. In this paper, we present novel variations of an earlier approach called reduction through homogeneous clustering for reducing dataset size. The proposed methods are based on the idea of partitioning the dataset into homogeneous clusters and selecting images that contribute significantly to the accuracy. We propose two variations: Geometrical Homogeneous Clustering for Image Data Reduction (GHCIDR) and Merged-GHCIDR upon the baseline algorithm - Reduction through Homogeneous Clustering (RHC) to achieve better accuracy and training time. The intuition behind GHCIDR involves selecting data points by cluster weights and geometrical distribution of the training set. Merged-GHCIDR involves merging clusters having the same labels using complete linkage clustering. We used three deep learning models- Fully Connected Networks (FCN), VGG1, and VGG16. We experimented with the two variants on four datasets- MNIST, CIFAR10, Fashion-MNIST, and Tiny-Imagenet. Merged-GHCIDR with the same percentage reduction as RHC showed an increase of 2.8%, 8.9%, 7.6% and 3.5% accuracy on MNIST, Fashion-MNIST, CIFAR10, and Tiny-Imagenet, respectively.
翻訳日:2022-09-07 14:36:05 公開日:2022-09-06
# Jeopardy: 可逆関数型プログラミング言語

Jeopardy: An Invertible Functional Programming Language ( http://arxiv.org/abs/2209.02422v1 )

ライセンス: Link先を確認
Joachim Tilsted Kristensen, Robin Kaarsgaard, Michael Kirkedal Thomsen(参考訳) アルゴリズムは、問題をその解に変換する一連のステップを記述する。 さらに、逆列が well-defined であるとき、そのアルゴリズムは可逆であると言う。 可逆アルゴリズムは汎用言語で記述できるが、可逆性に関する保証は一般には行われないため、可逆性を保証するには追加の(しばしば非自明な)証明が必要である。 一方、可逆プログラミング言語は、可逆操作を局所的に可逆な操作に制限することでプログラムが可逆であることを保証しているが、可逆的なプログラムの記述は困難であり、実装されたアルゴリズムが実際に可逆である場合でも、従来の実装とは大きく異なる可能性がある。 本稿では,プログラムの可逆性を保証する関数型プログラミング言語であるJeopardyを紹介する。 特に、jeopardyは、静的に可逆であると判断できる方法で使用される限り、非可逆(および非決定論的)な操作を限定的に使用することを可能にする。 しかし、可逆性を保証することは明らかではない。 そこで我々はさらに,部分的な静的保証を与える3つのアプローチを概説する。

An algorithm describes a sequence of steps that transform a problem into its solution. Furthermore, when the inverted sequence is well-defined, we say that the algorithm is invertible. While invertible algorithms can be described in general-purpose languages, no guarantees are generally made by such languages as regards invertibility, so ensuring invertibility requires additional (and often non-trivial) proof. On the other hand, while reversible programming languages guarantee that their programs are invertible by restricting the permissible operations to those which are locally invertible, writing programs in the reversible style can be cumbersome, and may differ significantly from conventional implementations even when the implemented algorithm is, in fact, invertible. In this paper we introduce Jeopardy, a functional programming language that guarantees program invertibility without imposing local reversibility. In particular, Jeopardy allows the limited use of uninvertible -- and even nondeterministic! -- operations, provided that they are used in a way that can be statically determined to be invertible. However, guaranteeing invertibility is not obvious. Thus, we furthermore outline three approaches that can give a partial static guarantee.
翻訳日:2022-09-07 14:33:20 公開日:2022-09-06
# パラメトリック顔の単分子再構成のためのドメインエンジニアリング

Domain Engineering for Applied Monocular Reconstruction of Parametric Faces ( http://arxiv.org/abs/2209.02600v1 )

ライセンス: Link先を確認
Igor Borovikov, Karine Levonyan, Jon Rein, Pawel Wrotek, Nitish Victor(参考訳) 現代のオンライン3Dアプリケーションやビデオゲームの多くは、信じられないアバターを作るために人間の顔のパラメトリックモデルに依存している。 しかし、パラメトリックモデルで誰かの表情を手動で再現することは難しく、時間を要する。 そのタスクに対する機械学習ソリューションは非常に望ましいが、困難でもある。 本稿では,1つの画像からパラメトリック顔を再構成することを目的とした,いわゆるF2P問題に対する新しいアプローチを提案する。 提案手法は合成データ,ドメイン分解,ドメイン適応を利用してF2Pの解法における多面的課題に対処する。 オープンソースのコードベースは、重要な観察結果を示し、定量的評価の手段を提供します。 提案したアプローチは、産業アプリケーションにおいて実用的であり、精度を改善し、より効率的なモデルトレーニングを可能にする。 この技術は、他のタイプのパラメトリックモデルにも拡張できる可能性がある。

Many modern online 3D applications and video games rely on parametric models of human faces for creating believable avatars. However, manually reproducing someone's facial likeness with a parametric model is difficult and time-consuming. Machine Learning solution for that task is highly desirable but is also challenging. The paper proposes a novel approach to the so-called Face-to-Parameters problem (F2P for short), aiming to reconstruct a parametric face from a single image. The proposed method utilizes synthetic data, domain decomposition, and domain adaptation to address multifaceted challenges in solving the F2P. The open-sourced codebase illustrates our key observations and provides means for quantitative evaluation. The presented approach proves practical in an industrial application; it improves accuracy and allows for more efficient models training. The techniques have the potential to extend to other types of parametric models.
翻訳日:2022-09-07 14:27:19 公開日:2022-09-06
# uav画像におけるマウンドの自動計測:インスタンス分割とパッチレベル補正の併用

Automatic counting of mounds on UAV images: combining instance segmentation and patch-level correction ( http://arxiv.org/abs/2209.02608v1 )

ライセンス: Link先を確認
Majid Nikougoftar Nategh, Ahmed Zgaren, Wassim Bouachir, Nizar Bouguila(参考訳) マウンド処理による部位調製は、マウンドと呼ばれる植林微生物を機械的に生成することにより、木の成長条件を改善するために一般的に用いられるシルビカルチャー処理である。 現場の準備の後、次の重要なステップはマウンド数を数えることであり、森林管理者は所定のプランテーションブロックに必要な苗数を正確に見積もることができる。 マウンド数を数えるのは、森林労働者による手作業による調査が一般的であり、特に大規模な地域では、コストがかかりエラーが発生しやすい。 この問題に対処するために,無人航空機(UAV)イメージングとコンピュータビジョンの進歩を利用して,植林ブロックのマウンド数を正確に推定する新しい枠組みを提案する。 提案するフレームワークは2つの主要コンポーネントから構成される。 まず, 深層学習アルゴリズムに基づく画像認識手法を用いて, 画素ベースセグメンテーションによる複数物体検出を行う。 これにより、目に見えるマウンドや、しばしば見られる他のオブジェクト(木、破片、水の蓄積など)の予備的なカウントが、植木ブロックを特徴付けることができる。 第2に、視覚認識はいくつかの摂動要因(例えばマウンド侵食、閉塞)によって制限される可能性があるため、第1段階で抽出された局所的ブロック特性に基づいてマウンドの最終的な数を予測する機械学習推定関数を用いる。 異なる特徴を持つ多数の植林ブロックを表す新しいUAVデータセット上で,提案手法の評価を行った。 提案手法は, 比較的精度の高い手動計数法より優れており, 難易度において有利かつ効率的である可能性が示唆された。

Site preparation by mounding is a commonly used silvicultural treatment that improves tree growth conditions by mechanically creating planting microsites called mounds. Following site preparation, the next critical step is to count the number of mounds, which provides forest managers with a precise estimate of the number of seedlings required for a given plantation block. Counting the number of mounds is generally conducted through manual field surveys by forestry workers, which is costly and prone to errors, especially for large areas. To address this issue, we present a novel framework exploiting advances in Unmanned Aerial Vehicle (UAV) imaging and computer vision to accurately estimate the number of mounds on a planting block. The proposed framework comprises two main components. First, we exploit a visual recognition method based on a deep learning algorithm for multiple object detection by pixel-based segmentation. This enables a preliminary count of visible mounds, as well as other frequently seen objects (e.g. trees, debris, accumulation of water), to be used to characterize the planting block. Second, since visual recognition could limited by several perturbation factors (e.g. mound erosion, occlusion), we employ a machine learning estimation function that predicts the final number of mounds based on the local block properties extracted in the first stage. We evaluate the proposed framework on a new UAV dataset representing numerous planting blocks with varying features. The proposed method outperformed manual counting methods in terms of relative counting precision, indicating that it has the potential to be advantageous and efficient in difficult situations.
翻訳日:2022-09-07 14:27:08 公開日:2022-09-06
# FGSM対人訓練のためのトリックの袋

Bag of Tricks for FGSM Adversarial Training ( http://arxiv.org/abs/2209.02684v1 )

ライセンス: Link先を確認
Zichao Li, Li Liu, Zeyu Wang, Yuyin Zhou, Cihang Xie(参考訳) FGSM-AT(Fast Gradient Sign Method、FGSM-AT)は、FGSM(Fast Gradient Sign Method、FGSM-AT)によって生成された、頑健なネットワークを訓練する単純な手法である。 しかし、トレーニングの過程で、不安定な「破滅的オーバーフィッティング」モードがarXiv:2001.03994[cs.LG]で特定され、単一のトレーニングステップで頑健な精度が突然ゼロに低下する。 既存の手法では勾配正規化器やランダム初期化手法を使ってこの問題を弱めているが、計算コストが高いか、ロバストな精度を低下させる。 本研究では,fgsm-atの破壊的オーバーフィットを克服するために,データ初期化,ネットワーク構造,最適化という3つの視点からトリックの集合を徹底的に検討した。 意外なことに、簡単なトリック、つまり a)部分画素をマスキングする(ランダムでない場合でも) b) 大きな畳み込みと円滑な活性化機能を設定すること、又は c) 第一畳み込み層の重み付けを規則化し、効果的に過度に適合する問題に取り組むことができる。 ネットワークアーキテクチャの広範囲な結果から,提案手法の有効性を検証し,トリックの組み合わせについても検討した。 例えば、CIFAR-10上でPreActResNet-18でトレーニングされたこの手法は、PGD-50攻撃者に対して49.8%の精度、AutoAttackに対する46.4%の精度を実現し、純粋なFGSM-ATが堅牢な学習者を可能にすることを示した。 コードとモデルはhttps://github.com/UCSC-VLAA/Bag-of-Tricks-for-FGSM-ATで公開されている。

Adversarial training (AT) with samples generated by Fast Gradient Sign Method (FGSM), also known as FGSM-AT, is a computationally simple method to train robust networks. However, during its training procedure, an unstable mode of "catastrophic overfitting" has been identified in arXiv:2001.03994 [cs.LG], where the robust accuracy abruptly drops to zero within a single training step. Existing methods use gradient regularizers or random initialization tricks to attenuate this issue, whereas they either take high computational cost or lead to lower robust accuracy. In this work, we provide the first study, which thoroughly examines a collection of tricks from three perspectives: Data Initialization, Network Structure, and Optimization, to overcome the catastrophic overfitting in FGSM-AT. Surprisingly, we find that simple tricks, i.e., a) masking partial pixels (even without randomness), b) setting a large convolution stride and smooth activation functions, or c) regularizing the weights of the first convolutional layer, can effectively tackle the overfitting issue. Extensive results on a range of network architectures validate the effectiveness of each proposed trick, and the combinations of tricks are also investigated. For example, trained with PreActResNet-18 on CIFAR-10, our method attains 49.8% accuracy against PGD-50 attacker and 46.4% accuracy against AutoAttack, demonstrating that pure FGSM-AT is capable of enabling robust learners. The code and models are publicly available at https://github.com/UCSC-VLAA/Bag-of-Tricks-for-FGSM-AT.
翻訳日:2022-09-07 14:26:41 公開日:2022-09-06
# ベクトルシンボリックアーキテクチャによる未ペア画像変換

Unpaired Image Translation via Vector Symbolic Architectures ( http://arxiv.org/abs/2209.02686v1 )

ライセンス: Link先を確認
Justin Theiss, Jay Leverett, Daeil Kim, Aayush Prakash(参考訳) 画像から画像への変換は、コンピュータビジョンのための合成データを可能にする上で重要な役割を担っている。 しかし、ソースとターゲットドメインが大きなセマンティックミスマッチを持つ場合、既存の技術はソースコンテンツの破損、いわゆるセマンティックフリップに悩まされることが多い。 本稿では,高次元ベクトル(ハイパーベクトル)空間における代数的演算を定義する理論フレームワークであるベクトル記号アーキテクチャ(VSA)を用いた画像から画像への変換のパラダイムを提案する。 ソースコンテンツとの整合性を確保するために変換を逆転するハイパーベクターマッピングを学習することにより,VSAに基づくソース間翻訳の対角学習の制約を導入する。 本手法は他の最先端技術よりも質的かつ定量的に改善されていることを示す。

Image-to-image translation has played an important role in enabling synthetic data for computer vision. However, if the source and target domains have a large semantic mismatch, existing techniques often suffer from source content corruption aka semantic flipping. To address this problem, we propose a new paradigm for image-to-image translation using Vector Symbolic Architectures (VSA), a theoretical framework which defines algebraic operations in a high-dimensional vector (hypervector) space. We introduce VSA-based constraints on adversarial learning for source-to-target translations by learning a hypervector mapping that inverts the translation to ensure consistency with source content. We show both qualitatively and quantitatively that our method improves over other state-of-the-art techniques.
翻訳日:2022-09-07 14:26:08 公開日:2022-09-06
# 機械学習にまつわる統計的基礎とコンピュータビジョンへの影響

Statistical Foundation Behind Machine Learning and Its Impact on Computer Vision ( http://arxiv.org/abs/2209.02691v1 )

ライセンス: Link先を確認
Lei Zhang and Heung-Yeung Shum(参考訳) 本稿では、統計的学習における一様収束の原理を再検討し、機械学習の基盤としてどのように機能するかを説明し、現在のディープラーニングアルゴリズムが解決している本質的な問題の理解を深めようとする。 コンピュータビジョンを機械学習の例として用いた議論は、近年の大規模データを活用して、表現学習に事前学習を行うことによる研究の傾向が、現実的に抽出可能な経験的損失と最終的に望まれるが、予測される損失との差を減らしていることを示している。 さらに,本論文では,データの継続的な増加を予測し,構造と知識を取り入れた機械学習の堅牢性,解釈可能性,推論能力について,より基本的な研究が必要であることを論じる。

This paper revisits the principle of uniform convergence in statistical learning, discusses how it acts as the foundation behind machine learning, and attempts to gain a better understanding of the essential problem that current deep learning algorithms are solving. Using computer vision as an example domain in machine learning, the discussion shows that recent research trends in leveraging increasingly large-scale data to perform pre-training for representation learning are largely to reduce the discrepancy between a practically tractable empirical loss and its ultimately desired but intractable expected loss. Furthermore, this paper suggests a few future research directions, predicts the continued increase of data, and argues that more fundamental research is needed on robustness, interpretability, and reasoning capabilities of machine learning by incorporating structure and knowledge.
翻訳日:2022-09-07 14:25:55 公開日:2022-09-06
# 深層学習による2次元線描画からの3次元再構成の最適化

Deep Learning Assisted Optimization for 3D Reconstruction from Single 2D Line Drawings ( http://arxiv.org/abs/2209.02692v1 )

ライセンス: Link先を確認
Zheng Jia and Zhu Yifan and Wang Kehan and Zou Qiang and Zhou Zihan(参考訳) 本稿では,1本の線画から3次元物体の自動復元に関する長年の課題を再考する。 従来の最適化に基づく手法はコンパクトで正確な3Dモデルを生成することができるが、その成功率はその能力に大きく依存する。 (i)真の幾何学的制約の十分な集合を特定すること、及び (ii)数値最適化に適した初期値を選択すること。 これらの課題を踏まえて,深層ニューラルネットワークを訓練し,3次元対象における幾何学的実体(エッジ)間の対関係を検出し,頂点の初期深さ値を予測する。 cadモデルの大規模データセットを用いた実験では,幾何学的制約解決パイプラインでディープラーニングを活用することで,最適化に基づく3次元再構成の成功率を大幅に向上させることができる。

In this paper, we revisit the long-standing problem of automatic reconstruction of 3D objects from single line drawings. Previous optimization-based methods can generate compact and accurate 3D models, but their success rates depend heavily on the ability to (i) identifying a sufficient set of true geometric constraints, and (ii) choosing a good initial value for the numerical optimization. In view of these challenges, we propose to train deep neural networks to detect pairwise relationships among geometric entities (i.e., edges) in the 3D object, and to predict initial depth value of the vertices. Our experiments on a large dataset of CAD models show that, by leveraging deep learning in a geometric constraint solving pipeline, the success rate of optimization-based 3D reconstruction can be significantly improved.
翻訳日:2022-09-07 14:25:40 公開日:2022-09-06
# ViTKD: ViT の機能的知識蒸留の実践的ガイドライン

ViTKD: Practical Guidelines for ViT feature knowledge distillation ( http://arxiv.org/abs/2209.02432v1 )

ライセンス: Link先を確認
Zhendong Yang, Zhe Li, Ailing Zeng, Zexian Li, Chun Yuan, Yu Li(参考訳) 畳み込みニューラルネットワーク(CNN)の知識蒸留(KD)は,小型モデルの性能向上の手段として広く研究されている。 近年、ビジョントランスフォーマー(ViT)は多くのコンピュータビジョンタスクで大きな成功を収めており、VT用のKDも望まれている。 しかし、出力ロジットベースのKD以外に、CNNの他の機能ベースのKDメソッドは、大きな構造的ギャップのためにViTに直接適用できない。 本稿では, 特徴量に基づくViT蒸留法について検討する。 vitにおける機能マップの性質に基づいて一連の制御実験をデザインし,vitの特徴蒸留のための3つの実践的ガイドラインを導出する。 CNN時代の実践とは逆の発見もいくつかあります。 3つのガイドラインに基づいて,学生に一貫性と大幅な改善をもたらす機能ベースのViTKDを提案する。 ImageNet-1kでは、DeiT-Tinyを74.42%から76.06%、DeiT-Smallを80.55%から81.95%、DeiT-Baseを81.76%から83.46%に引き上げます。 さらに、ViTKDとロジットベースのKD法は相補的であり、直接的に適用することができる。 この組み合わせは、学生のパフォーマンスをさらに向上させることができる。 具体的には、生徒のDeiT-Tiny、Small、Baseはそれぞれ77.78%、83.59%、85.41%である。 コードはhttps://github.com/yzd-v/cls_kdで入手できる。

Knowledge Distillation (KD) for Convolutional Neural Network (CNN) is extensively studied as a way to boost the performance of a small model. Recently, Vision Transformer (ViT) has achieved great success on many computer vision tasks and KD for ViT is also desired. However, besides the output logit-based KD, other feature-based KD methods for CNNs cannot be directly applied to ViT due to the huge structure gap. In this paper, we explore the way of feature-based distillation for ViT. Based on the nature of feature maps in ViT, we design a series of controlled experiments and derive three practical guidelines for ViT's feature distillation. Some of our findings are even opposite to the practices in the CNN era. Based on the three guidelines, we propose our feature-based method ViTKD which brings consistent and considerable improvement to the student. On ImageNet-1k, we boost DeiT-Tiny from 74.42% to 76.06%, DeiT-Small from 80.55% to 81.95%, and DeiT-Base from 81.76% to 83.46%. Moreover, ViTKD and the logit-based KD method are complementary and can be applied together directly. This combination can further improve the performance of the student. Specifically, the student DeiT-Tiny, Small, and Base achieve 77.78%, 83.59%, and 85.41%, respectively. The code is available at https://github.com/yzd-v/cls_KD.
翻訳日:2022-09-07 14:21:12 公開日:2022-09-06
# コンピュータビジョンを用いた自動運転車の脅威検出

Threat Detection In Self-Driving Vehicles Using Computer Vision ( http://arxiv.org/abs/2209.02438v1 )

ライセンス: Link先を確認
Umang Goenka, Aaryan Jagetia, Param Patil, Akshay Singh, Taresh Sharma, Poonam Saini(参考訳) 道路上の障害物検出は、インテリジェントな交通インフラシステムの範囲内にある重要な研究分野である。 視覚に基づくアプローチは、そのようなシステムに対して正確で費用対効果の高い解決策をもたらす。 本研究では,ダッシュカムビデオを用いた自動運転車の脅威検出機構を提案する。 この情報は、安全に走行するための車両のプログラムを支援することができる。 オブジェクトを識別するためのYOLO、高度な車線検出アルゴリズム、カメラからの距離を測定するマルチレグレッションモデル、安全性を測定するための2秒ルール、速度を制限するための4つの主要なコンポーネントがある。 さらに,カークラッシュデータセット(CCD)を用いてモデルの精度を計算した。 YOLOアルゴリズムの精度は約93%である。 提案する脅威検出モデル(tdm)の最終精度は82.65%である。

On-road obstacle detection is an important field of research that falls in the scope of intelligent transportation infrastructure systems. The use of vision-based approaches results in an accurate and cost-effective solution to such systems. In this research paper, we propose a threat detection mechanism for autonomous self-driving cars using dashcam videos to ensure the presence of any unwanted obstacle on the road that falls within its visual range. This information can assist the vehicle's program to en route safely. There are four major components, namely, YOLO to identify the objects, advanced lane detection algorithm, multi regression model to measure the distance of the object from the camera, the two-second rule for measuring the safety, and limiting speed. In addition, we have used the Car Crash Dataset(CCD) for calculating the accuracy of the model. The YOLO algorithm gives an accuracy of around 93%. The final accuracy of our proposed Threat Detection Model (TDM) is 82.65%.
翻訳日:2022-09-07 14:20:49 公開日:2022-09-06
# ロゴ検索のためのセグメント拡張と差別化可能なランキング

Segment Augmentation and Differentiable Ranking for Logo Retrieval ( http://arxiv.org/abs/2209.02482v1 )

ライセンス: Link先を確認
Feyza Yavuz, Sinan Kalkan(参考訳) 類似度の定義は画像検索タスクよりも主観的であり、既知の類似度の集合は非常に少ないため、ロゴ検索は難しい問題である。 本稿では,この課題に取り組むために,ロゴ検索のためのディープネットワークを訓練するために,人工的に類似したロゴを導入するためのセグメントベース拡張戦略を提案する。 この新たな拡張戦略では、まずロゴ中のセグメントを見つけ、従来の画像レベルの拡張戦略とは異なり、回転、スケーリング、色変化などの変換をセグメントに適用する。 さらに,最近導入されたランキングベースの損失関数であるSmooth-APが,ロゴ検索の類似性を学習するためのより良いアプローチであるかどうかを評価する。 大規模METU商標データセットについて,そのことを示す。 (i)セグメンテーションに基づく増補戦略は、ベースラインモデルや画像レベルの増補戦略に比べて検索性能が向上する。 (ii)smooth-apは従来のロゴ検索の損失よりも優れている。

Logo retrieval is a challenging problem since the definition of similarity is more subjective compared to image retrieval tasks and the set of known similarities is very scarce. To tackle this challenge, in this paper, we propose a simple but effective segment-based augmentation strategy to introduce artificially similar logos for training deep networks for logo retrieval. In this novel augmentation strategy, we first find segments in a logo and apply transformations such as rotation, scaling, and color change, on the segments, unlike the conventional image-level augmentation strategies. Moreover, we evaluate whether the recently introduced ranking-based loss function, Smooth-AP, is a better approach for learning similarity for logo retrieval. On the large scale METU Trademark Dataset, we show that (i) our segment-based augmentation strategy improves retrieval performance compared to the baseline model or image-level augmentation strategies, and (ii) Smooth-AP indeed performs better than conventional losses for logo retrieval.
翻訳日:2022-09-07 14:20:35 公開日:2022-09-06
# Surya Namaskar: スマートヘルスケアのためのリアルタイム高度なヨガポーズの認識と修正

Surya Namaskar: real-time advanced yoga pose recognition and correction for smart healthcare ( http://arxiv.org/abs/2209.02492v1 )

ライセンス: Link先を確認
Abhishek Sharma, Pranjal Sharma, Darshan Pincha, Prateek Jain(参考訳) 現在、ヨガは現代生活におけるストレスのレベルが高まり、ヨガを学ぶための多くの方法や資源があるため、世界的に注目されている。 ヨガという言葉は、心と身体の深いつながりを意味する。 今日では、我々の脳の活動の根幹、化学、そして遺伝内容も、ヨガの異なるシステムを実践することによって変化できることを示す、医学的、科学的証拠がかなりある。 スリャナマスカル(suryanamaskar)または太陽への敬礼(salute to the sun)は、ヒンドゥー教の太陽神スリヤに捧げられた8つの異なる形態と12のアサナ(asana)を組み合わせたヨガである。 suryanamaskarは、筋肉の強化や血糖値のコントロールなど、多くの健康上のメリットを提供している。 ここでMediapipe Libraryは、Surya namaskarの状況を分析するために使われている。 カメラの前でsuya namaskarを実行すると、高度なソフトウェアを使ってリアルタイムにスタンディングが検出される。 pranamasana, hasta padasana, hasta uttanasana, ashwa - sanchalan asana, ashtanga namaskar, dandasana, or bhujangasana and svanasanaである。 深層学習に基づく手法(CNN)を用いて、モデル精度98.68パーセント、精度スコア0.75のモデルを開発し、正確なヨガ姿勢(Surya Namaskar )を検出する。 この方法では、ユーザは所望のポーズを実践でき、自分がやっているポーズが正しいかどうかを確認することができる。 surya namaskarのさまざまなポーズを正しく実行し、ヨガ実践者の効率を高めるのに役立つでしょう。 本稿では,モデルに実装すべきフレームワーク全体について述べる。

Nowadays, yoga has gained worldwide attention because of increasing levels of stress in the modern way of life, and there are many ways or resources to learn yoga. The word yoga means a deep connection between the mind and body. Today there is substantial Medical and scientific evidence to show that the very fundamentals of the activity of our brain, our chemistry even our genetic content can be changed by practicing different systems of yoga. Suryanamaskar, also known as salute to the sun, is a yoga practice that combines eight different forms and 12 asanas(4 asana get repeated) devoted to the Hindu Sun God, Surya. Suryanamaskar offers a number of health benefits such as strengthening muscles and helping to control blood sugar levels. Here the Mediapipe Library is used to analyze Surya namaskar situations. Standing is detected in real time with advanced software, as one performs Surya namaskar in front of the camera. The class divider identifies the form as one of the following: Pranamasana, Hasta Padasana, Hasta Uttanasana, Ashwa - Sanchalan asana, Ashtanga Namaskar, Dandasana, or Bhujangasana and Svanasana. Deep learning-based techniques(CNN) are used to develop this model with model accuracy of 98.68 percent and an accuracy score of 0.75 to detect correct yoga (Surya Namaskar ) posture. With this method, the users can practice the desired pose and can check if the pose that the person is doing is correct or not. It will help in doing all the different poses of surya namaskar correctly and increase the efficiency of the yoga practitioner. This paper describes the whole framework which is to be implemented in the model.
翻訳日:2022-09-07 14:20:21 公開日:2022-09-06
# 連続的クロスアテンションに基づくマルチタスク学習

Sequential Cross Attention Based Multi-task Learning ( http://arxiv.org/abs/2209.02518v1 )

ライセンス: Link先を確認
Sunkyung Kim, Hyesong Choi, Dongbo Min(参考訳) 視覚的シーン理解のためのマルチタスク学習(MTL)では、最小限の干渉で複数のタスク間で有用な情報を伝達することが重要である。 本稿では,タスクのマルチスケール機能に注意機構を応用し,情報的特徴を効果的に伝達する新しいアーキテクチャを提案する。 アテンションモジュールをすべての可能な機能に直接スケールとタスクの観点で適用するには、高い複雑さが必要となるため、タスクとスケールにアテンションモジュールを順次適用することを提案する。 クロスタスクアテンションモジュール(CTAM)が最初に適用され、同一スケールの複数のタスク特徴間の関連情報の交換を容易にする。 クロススケールアテンションモジュール(csam)は、同じタスクの異なる解像度で、機能マップから有用な情報を集約する。 また,機能抽出ネットワークの自己アテンションモジュールを通じて,長い範囲の依存関係をキャプチャしようとする。 本手法は,NYUD-v2およびPASCAL-Contextデータセット上での最先端性能を実現する。

In multi-task learning (MTL) for visual scene understanding, it is crucial to transfer useful information between multiple tasks with minimal interferences. In this paper, we propose a novel architecture that effectively transfers informative features by applying the attention mechanism to the multi-scale features of the tasks. Since applying the attention module directly to all possible features in terms of scale and task requires a high complexity, we propose to apply the attention module sequentially for the task and scale. The cross-task attention module (CTAM) is first applied to facilitate the exchange of relevant information between the multiple task features of the same scale. The cross-scale attention module (CSAM) then aggregates useful information from feature maps at different resolutions in the same task. Also, we attempt to capture long range dependencies through the self-attention module in the feature extraction network. Extensive experiments demonstrate that our method achieves state-of-the-art performance on the NYUD-v2 and PASCAL-Context dataset.
翻訳日:2022-09-07 14:19:45 公開日:2022-09-06
# UPAR:統一歩行者属性認識と個人検索

UPAR: Unified Pedestrian Attribute Recognition and Person Retrieval ( http://arxiv.org/abs/2209.02522v1 )

ライセンス: Link先を確認
Andreas Specker, Mickael Cormier, J\"urgen Beyerer(参考訳) ソフトバイオメトリックな歩行者属性の認識はビデオサーベイランスやファッション検索に不可欠である。 最近の研究は単一のデータセットで有望な結果を示している。 しかしながら、これらの手法の様々な属性分布、視点、様々な照明、低解像度での一般化能力は、現在のデータセットの強いバイアスと様々な属性のためにほとんど理解されていない。 このギャップを埋め、体系的な調査を支援するために、統一人属性認識データセットUPARを提案する。 PA100K、PETA、RAPv2、Market1501の4つの有名な属性認識データセットに基づいている。 データセット全体で12の属性カテゴリに対して、40の重要なバイナリ属性を調和させるために、3,3Mの追加アノテーションを提供することで、これらのデータセットを統一します。 これにより、一般化可能な歩行者属性認識と属性に基づく人物検索を初めて行うことができる。 画像分布、歩行者のポーズ、スケール、閉塞の広大なばらつきにより、既存のアプローチは精度と効率の両面で大きな課題を抱えている。 さらに,正規化手法の徹底的な解析に基づいて,parと属性に基づく人物検索のための強力なベースラインを開発した。 本モデルはPA100k, PETA, RAPv2, Market1501-Attributes, UPARのクロスドメインおよび特殊化設定における最先端性能を実現する。 私たちは、UPARと強力なベースラインが人工知能コミュニティに貢献し、大規模で一般化可能な属性認識システムの研究を促進すると信じています。

Recognizing soft-biometric pedestrian attributes is essential in video surveillance and fashion retrieval. Recent works show promising results on single datasets. Nevertheless, the generalization ability of these methods under different attribute distributions, viewpoints, varying illumination, and low resolutions remains rarely understood due to strong biases and varying attributes in current datasets. To close this gap and support a systematic investigation, we present UPAR, the Unified Person Attribute Recognition Dataset. It is based on four well-known person attribute recognition datasets: PA100K, PETA, RAPv2, and Market1501. We unify those datasets by providing 3,3M additional annotations to harmonize 40 important binary attributes over 12 attribute categories across the datasets. We thus enable research on generalizable pedestrian attribute recognition as well as attribute-based person retrieval for the first time. Due to the vast variance of the image distribution, pedestrian pose, scale, and occlusion, existing approaches are greatly challenged both in terms of accuracy and efficiency. Furthermore, we develop a strong baseline for PAR and attribute-based person retrieval based on a thorough analysis of regularization methods. Our models achieve state-of-the-art performance in cross-domain and specialization settings on PA100k, PETA, RAPv2, Market1501-Attributes, and UPAR. We believe UPAR and our strong baseline will contribute to the artificial intelligence community and promote research on large-scale, generalizable attribute recognition systems.
翻訳日:2022-09-07 14:19:30 公開日:2022-09-06
# CAMO-MOT:カメラ-LiDAR融合による3次元多物体追跡のための外観運動最適化

CAMO-MOT: Combined Appearance-Motion Optimization for 3D Multi-Object Tracking with Camera-LiDAR Fusion ( http://arxiv.org/abs/2209.02540v1 )

ライセンス: Link先を確認
Li Wang, Xinyu Zhang, Wenyuan Qin, Xiaoyu Li, Lei Yang, Zhiwei Li, Lei Zhu, Hong Wang, Jun Li and Huaping Liu(参考訳) 3d multi-object tracking (mot) は、連続的な動的検出における一貫性を保証する。 しかし、カメラベースの手法は閉塞性に悩まされており、LiDAR方式では物体の不規則な動きを正確に追跡することは困難である。 いくつかの融合法はうまく機能するが、排他的外見上の不確実な問題を考慮していない。 同時に、誤検出問題は追跡にも大きな影響を与えている。 そこで本稿では,カメラとライダーのデータを併用し,オクルージョンや誤検出によるトラッキング障害を著しく軽減する,外観・モーション最適化(camo-mot)を組み合わせた新しいカメラ・ライダー融合3d motフレームワークを提案する。 本報告では, 閉塞問題に対して, 最適物体の外観特徴を複数回効果的に選択するオクルージョンヘッドを初めて提案し, 閉塞の影響を低減した。 トラッキングにおける偽検出の影響を低減するため,3次元空間における位置推定と物体予測精度を向上させる信頼度スコアに基づく移動コスト行列を設計する。 既存のマルチオブジェクト追跡手法は単一のカテゴリのみを考慮しているため、マルチカテゴリのシーンでマルチオブジェクト追跡を実装するために、マルチカテゴリの損失を構築することも提案する。 KITTIとnuScenesの追跡ベンチマークで一連の検証実験が行われた。 提案手法は,KITTIテストデータセット上のすべてのマルチモーダルMOT手法の中で,最先端性能と最小IDS値(自動車では23,歩行者では137)を実現する。 提案手法は,75.3%のAMOTAを持つnuScenesテストデータセット上の全アルゴリズムの最先端性能を実現する。

3D Multi-object tracking (MOT) ensures consistency during continuous dynamic detection, conducive to subsequent motion planning and navigation tasks in autonomous driving. However, camera-based methods suffer in the case of occlusions and it can be challenging to accurately track the irregular motion of objects for LiDAR-based methods. Some fusion methods work well but do not consider the untrustworthy issue of appearance features under occlusion. At the same time, the false detection problem also significantly affects tracking. As such, we propose a novel camera-LiDAR fusion 3D MOT framework based on the Combined Appearance-Motion Optimization (CAMO-MOT), which uses both camera and LiDAR data and significantly reduces tracking failures caused by occlusion and false detection. For occlusion problems, we are the first to propose an occlusion head to select the best object appearance features multiple times effectively, reducing the influence of occlusions. To decrease the impact of false detection in tracking, we design a motion cost matrix based on confidence scores which improve the positioning and object prediction accuracy in 3D space. As existing multi-object tracking methods only consider a single category, we also propose to build a multi-category loss to implement multi-object tracking in multi-category scenes. A series of validation experiments are conducted on the KITTI and nuScenes tracking benchmarks. Our proposed method achieves state-of-the-art performance and the lowest identity switches (IDS) value (23 for Car and 137 for Pedestrian) among all multi-modal MOT methods on the KITTI test dataset. And our proposed method achieves state-of-the-art performance among all algorithms on the nuScenes test dataset with 75.3% AMOTA.
翻訳日:2022-09-07 14:19:06 公開日:2022-09-06
# 2022年地すべり4senseコンペティションの結果:マルチソース衛星画像からの高度地すべり検出

The Outcome of the 2022 Landslide4Sense Competition: Advanced Landslide Detection from Multi-Source Satellite Imagery ( http://arxiv.org/abs/2209.02556v1 )

ライセンス: Link先を確認
Omid Ghorbanzadeh, Yonghao Xu, Hengwei Zhao, Junjue Wang, Yanfei Zhong, Dong Zhao, Qi Zang, Shuang Wang, Fahong Zhang, Yilei Shi, Xiao Xiang Zhu, Lin Bai, Weile Li, Weihang Peng, and Pedram Ghamisi(参考訳) 2022年、IARAI(Institute of Advanced Research in Artificial Intelligence)が主催するL4S(Landslide4Sense)コンペティションの科学的成果を紹介する。 競争の目的は、地球規模で収集された衛星画像の大規模複数ソースに基づいて自動的に地すべりを検知することである。 2022 L4Sは、衛星画像を用いたセマンティックセグメンテーションタスクのためのディープラーニング(DL)モデルの最近の発展に関する学際的な研究を促進することを目的としている。 過去数年間、畳み込みニューラルネットワーク(CNN)の開発により、画像解釈に対する期待に応えたDLベースのモデルのパフォーマンスが達成されている。 本稿の主な目的は、このコンペティションで特徴付けられる詳細と最高のパフォーマンスのアルゴリズムを示すことである。 勝利したソリューションは、Swin Transformer、SegFormer、U-Netといった最先端のモデルで詳しく説明されています。 高度な機械学習技術やハードサンプルマイニング、セルフトレーニング、ミックスアップデータ拡張といった戦略も検討されている。 さらに,l4sベンチマークデータセットについて述べることにより,さらなる比較を行い,オンライン上での精度評価の結果を報告する。 データは、将来の評価のために \textit{Future Development Leaderboard} 上でアクセス可能であり、さらに予測結果を提出し、メソッドの精度を評価し、他のユーザのものと比較し、理想的には、この記事で報告された地すべり検出結果を改善することが推奨されている。

The scientific outcomes of the 2022 Landslide4Sense (L4S) competition organized by the Institute of Advanced Research in Artificial Intelligence (IARAI) are presented here. The objective of the competition is to automatically detect landslides based on large-scale multiple sources of satellite imagery collected globally. The 2022 L4S aims to foster interdisciplinary research on recent developments in deep learning (DL) models for the semantic segmentation task using satellite imagery. In the past few years, DL-based models have achieved performance that meets expectations on image interpretation, due to the development of convolutional neural networks (CNNs). The main objective of this article is to present the details and the best-performing algorithms featured in this competition. The winning solutions are elaborated with state-of-the-art models like the Swin Transformer, SegFormer, and U-Net. Advanced machine learning techniques and strategies such as hard example mining, self-training, and mix-up data augmentation are also considered. Moreover, we describe the L4S benchmark data set in order to facilitate further comparisons, and report the results of the accuracy assessment online. The data is accessible on \textit{Future Development Leaderboard} for future evaluation at \url{https://www.iarai.ac.at/landslide4sense/challenge/}, and researchers are invited to submit more prediction results, evaluate the accuracy of their methods, compare them with those of other users, and, ideally, improve the landslide detection results reported in this article.
翻訳日:2022-09-07 14:18:36 公開日:2022-09-06
# 橋梁要素解析のためのマルチタスク深層学習モデルと橋梁検査画像におけるセグメント欠陥

A Multitask Deep Learning Model for Parsing Bridge Elements and Segmenting Defect in Bridge Inspection Images ( http://arxiv.org/abs/2209.02190v1 )

ライセンス: Link先を確認
Chenyu Zhang, Muhammad Monjurul Karim, Ruwen Qin(参考訳) アメリカ合衆国における広大な橋のネットワークは、その維持とリハビリへの高い要求を高めている。 橋の状況を評価するための手作業による視覚検査の膨大なコストは、ある程度の負担となっている。 高度なロボットは検査データ収集を自動化するために活用されている。 多種元素のセグメンテーションの自動化、および多数の検査画像データにおける要素の表面欠陥の自動化は、橋梁条件の効率的かつ効果的な評価を容易にする。 要素解析と欠陥セグメンテーションのための個別の単一タスクネットワークのトレーニングは、これらの2つのタスク間の密接な接続を、認識可能な構造要素と表面欠陥の両方が存在する検査画像に組み込むことができない。 本稿では,橋梁要素と欠陥間の相互依存を十分に活用し,モデルの性能と一般化を促進するマルチタスク深層ニューラルネットワークの開発を動機とする。 さらに,特徴分解,クロストーク共有,多目的損失関数などのタスク性能向上のためのネットワーク設計の有効性について検討した。 橋梁要素と腐食の画素レベルラベル付きデータセットを開発し, モデルの訓練と評価を行った。 開発したマルチタスクディープニューラルネットワークの評価による定量的および定性的な結果から、推奨されたネットワークは独立したシングルタスクネットワークよりも性能が高い(橋梁解析では2.59%、腐食セグメンテーションでは1.65%)。

The vast network of bridges in the United States raises a high requirement for its maintenance and rehabilitation. The massive cost of manual visual inspection to assess the conditions of the bridges turns out to be a burden to some extent. Advanced robots have been leveraged to automate inspection data collection. Automating the segmentations of multiclass elements, as well as surface defects on the elements, in the large volume of inspection image data would facilitate an efficient and effective assessment of the bridge condition. Training separate single-task networks for element parsing (i.e., semantic segmentation of multiclass elements) and defect segmentation fails to incorporate the close connection between these two tasks in the inspection images where both recognizable structural elements and apparent surface defects are present. This paper is motivated to develop a multitask deep neural network that fully utilizes such interdependence between bridge elements and defects to boost the performance and generalization of the model. Furthermore, the effectiveness of the proposed network designs in improving the task performance was investigated, including feature decomposition, cross-talk sharing, and multi-objective loss function. A dataset with pixel-level labels of bridge elements and corrosion was developed for training and assessment of the models. Quantitative and qualitative results from evaluating the developed multitask deep neural network demonstrate that the recommended network outperforms the independent single-task networks not only in performance (2.59% higher mIoU on bridge parsing and 1.65% on corrosion segmentation) but also in computational time and implementation capability.
翻訳日:2022-09-07 14:15:59 公開日:2022-09-06
# 航空機画像における任意方向物体検出のためのタスクワイズサンプリング畳み込み

Task-wise Sampling Convolutions for Arbitrary-Oriented Object Detection in Aerial Images ( http://arxiv.org/abs/2209.02200v1 )

ライセンス: Link先を確認
Zhanchao Huang, Wei Li, Xiang-Gen Xia, Hao Wang, and Ran Tao(参考訳) 任意指向物体検出(aood)は、リモートセンシング画像における多様な向きを持つ物体の同定と分類に広く用いられている。 しかし、AOODモデルにおける局所化と分類タスクの不整合性は、検出性能を制約する曖昧さと低品質なオブジェクト予測につながる可能性がある。 本稿では,タスクワイズサンプリング畳み込み(TS-Conv)と呼ばれるAOOD手法を提案する。 TS-Convは、各センシティブな領域からタスクワイズな特徴を適応的にサンプリングし、これらの特徴をアライメントしてマッピングすることで、より優れた予測のための動的ラベル割り当てをガイドする。 具体的には、TS-Convにおける局所化畳み込みのサンプリング位置は、空間座標に付随する配向境界ボックス(OBB)予測によって制御される。 分類畳み込みのサンプリング位置と畳み込み核は、特徴の配向ロバスト性を改善するために異なる向きに応じて適応的に調整されるように設計されている。 さらに、TS-Convから得られたランク付タスク対応スコアに応じて最適な候補位置を選択し、ラベルを動的に割り当てる動的タスク対応ラベル割り当て(DTLA)戦略を開発する。 複数のシーン、マルチモーダル画像、複数カテゴリのオブジェクトを含む複数の公開データセットに対する大規模な実験は、提案したTS-Convの有効性、スケーラビリティ、優れた性能を示している。

Arbitrary-oriented object detection (AOOD) has been widely applied to locate and classify objects with diverse orientations in remote sensing images. However, the inconsistent features for the localization and classification tasks in AOOD models may lead to ambiguity and low-quality object predictions, which constrains the detection performance. In this paper, an AOOD method called task-wise sampling convolutions (TS-Conv) is proposed. TS-Conv adaptively samples task-wise features from respective sensitive regions and maps these features together in alignment to guide a dynamic label assignment for better predictions. Specifically, sampling positions of the localization convolution in TS-Conv is supervised by the oriented bounding box (OBB) prediction associated with spatial coordinates. While sampling positions and convolutional kernel of the classification convolution are designed to be adaptively adjusted according to different orientations for improving the orientation robustness of features. Furthermore, a dynamic task-aware label assignment (DTLA) strategy is developed to select optimal candidate positions and assign labels dynamicly according to ranked task-aware scores obtained from TS-Conv. Extensive experiments on several public datasets covering multiple scenes, multimodal images, and multiple categories of objects demonstrate the effectiveness, scalability and superior performance of the proposed TS-Conv.
翻訳日:2022-09-07 14:15:33 公開日:2022-09-06
# USLN:双統計ホワイトバランスと多色空間ストレッチによる水中画像強調のための統計的ガイド付き軽量ネットワーク

USLN: A statistically guided lightweight network for underwater image enhancement via dual-statistic white balance and multi-color space stretch ( http://arxiv.org/abs/2209.02221v1 )

ライセンス: Link先を確認
Ziyuan Xiao, Yina Han, Susanto Rahardja, and Yuanliang Ma(参考訳) 水中画像は必然的に色歪とコントラストの低下によって影響を受ける。 ホワイトバランスやヒストグラムストレッチといった従来の統計に基づく手法は、色チャネルの不均衡と、事前強度の狭い分布を限られた性能で調整しようとした。 近年,深層学習に基づく手法が奨励的な成果を上げている。 しかし、複雑なアーキテクチャと高い計算コストは、実際の制約のあるプラットフォームへのデプロイを妨げる可能性がある。 以上の研究から着想を得て,統計的に誘導された軽量水中画像強調ネットワーク (USLN) を提案する。 具体的には,まず,各画素の色歪みを補正するために,画像の平均値と最大値の両方を学習できる2値統計ホワイトバランスモジュールを開発する。 次に、RGB、HSI、ラボの色空間のヒストグラム分布を適応的に調整する多色空間ストレッチモジュールが続く。 大規模な実験では、統計学のガイダンスにより、USLNは必要なネットワーク容量(98%以上)を著しく削減し、最先端の性能を達成する。 コードと関連するリソースはhttps://github.com/deepxzy/uslnで入手できる。

Underwater images are inevitably affected by color distortion and reduced contrast. Traditional statistic-based methods such as white balance and histogram stretching attempted to adjust the imbalance of color channels and narrow distribution of intensities a priori thus with limited performance. Recently, deep-learning-based methods have achieved encouraging results. However, the involved complicate architecture and high computational costs may hinder their deployment in practical constrained platforms. Inspired by above works, we propose a statistically guided lightweight underwater image enhancement network (USLN). Concretely, we first develop a dual-statistic white balance module which can learn to use both average and maximum of images to compensate the color distortion for each specific pixel. Then this is followed by a multi-color space stretch module to adjust the histogram distribution in RGB, HSI, and Lab color spaces adaptively. Extensive experiments show that, with the guidance of statistics, USLN significantly reduces the required network capacity (over98%) and achieves state-of-the-art performance. The code and relevant resources are available at https://github.com/deepxzy/USLN.
翻訳日:2022-09-07 14:15:11 公開日:2022-09-06
# 大運動時の時空間行動検出

Spatio-Temporal Action Detection Under Large Motion ( http://arxiv.org/abs/2209.02250v1 )

ライセンス: Link先を確認
Gurkirt Singh, Vasileios Choutas, Suman Saha, Fisher Yu, Luc Van Gool(参考訳) 現在の時空間行動管検出法は、鍵フレームのバウンディングボックスの提案を近くのフレームから3次元の時空間立方体とプールの特徴に拡張することが多い。 しかし、大きなカメラの動き、大きなアクター形状の変形、速いアクター動作などにより、アクターの位置や形状がフレームを通して大きく2次元の動きや変動を示す場合、このようなプールは有意義な時空間的特徴を蓄積することができない。 本研究では,大規模動作時の行動検出におけるcuboid-aware feature aggregationの性能について検討する。 さらに,アクターをトラッキングし,各トラックに沿って時間的特徴集計を行うことにより,大きな動作下でのアクター特徴表現を強化することを提案する。 アクションチューブ/トラック間の交点オーバー結合(iou)を伴うアクタ動作を,様々な一定時間スケールで定義する。 大きな動きを持つ作用は時間の経過とともにIoUを低下させ、遅い作用はIoUを上昇させる。 トラック認識機能アグリゲーションは,特に立方体認識ベースラインに比べて大きな動作下での動作に対して,動作検出性能を大幅に向上することがわかった。 その結果,大規模MultiSportsデータセットについて現状を報告する。

Current methods for spatiotemporal action tube detection often extend a bounding box proposal at a given keyframe into a 3D temporal cuboid and pool features from nearby frames. However, such pooling fails to accumulate meaningful spatiotemporal features if the position or shape of the actor shows large 2D motion and variability through the frames, due to large camera motion, large actor shape deformation, fast actor action and so on. In this work, we aim to study the performance of cuboid-aware feature aggregation in action detection under large action. Further, we propose to enhance actor feature representation under large motion by tracking actors and performing temporal feature aggregation along the respective tracks. We define the actor motion with intersection-over-union (IoU) between the boxes of action tubes/tracks at various fixed time scales. The action having a large motion would result in lower IoU over time, and slower actions would maintain higher IoU. We find that track-aware feature aggregation consistently achieves a large improvement in action detection performance, especially for actions under large motion compared to the cuboid-aware baseline. As a result, we also report state-of-the-art on the large-scale MultiSports dataset.
翻訳日:2022-09-07 14:14:51 公開日:2022-09-06
# ニューラルネットワークを用いた鋳物欠陥の自動検出

Automated Defect Recognition of Castings defects using Neural Networks ( http://arxiv.org/abs/2209.02279v1 )

ライセンス: Link先を確認
Alberto Garc\'ia-P\'erez, Mar\'ia Jos\'e G\'omez-Silva, Arturo de la Escalera(参考訳) 産業用X線分析は、いくつかの部品の構造的整合性を保証する必要がある航空宇宙、自動車、原子力産業で一般的である。 しかし、X線画像の解釈は時に困難であり、2人の専門家が欠陥分類に異を唱える可能性がある。 ここで提示される自動欠陥認識(ADR)システムは、解析時間を短縮し、人間の検査者の信頼性を高めつつ、欠陥の主観的解釈を減らすのに役立つ。 我々の畳み込みニューラルネットワーク(CNN)モデルは、自動車用アルミニウム鋳造データセット(GDXray)に適用した場合、期待される人間のパフォーマンスに類似していると考えられる94.2\%の精度(mAP@IoU=50\%)を達成する。 工業環境では、その推定時間はdicom画像あたり400ms以下なので、納入時間に影響を及ぼさずに生産施設に設置することができる。 また,75\% mAPから94.2\% mAPまでのモデル精度を最適化するための主パラメータのアブレーション実験も行った。

Industrial X-ray analysis is common in aerospace, automotive or nuclear industries where structural integrity of some parts needs to be guaranteed. However, the interpretation of radiographic images is sometimes difficult and may lead to two experts disagree on defect classification. The Automated Defect Recognition (ADR) system presented herein will reduce the analysis time and will also help reducing the subjective interpretation of the defects while increasing the reliability of the human inspector. Our Convolutional Neural Network (CNN) model achieves 94.2\% accuracy (mAP@IoU=50\%), which is considered as similar to expected human performance, when applied to an automotive aluminium castings dataset (GDXray), exceeding current state of the art for this dataset. On an industrial environment, its inference time is less than 400 ms per DICOM image, so it can be installed on production facilities with no impact on delivery time. In addition, an ablation study of the main hyper-parameters to optimise model accuracy from the initial baseline result of 75\% mAP up to 94.2\% mAP, was also conducted.
翻訳日:2022-09-07 14:14:31 公開日:2022-09-06
# プログレッシブガラスセグメンテーション

Progressive Glass Segmentation ( http://arxiv.org/abs/2209.02280v1 )

ライセンス: Link先を確認
Letian Yu, Haiyang Mei, Wen Dong, Ziqi Wei, Li Zhu, Yuxin Wang, Xin Yang(参考訳) ガラスは実世界では非常に一般的です。 ガラス領域とガラスの背後にある様々な複雑なシーンの不確実性の影響により、ガラスの存在は多くのコンピュータビジョンタスクに深刻な課題をもたらし、ガラスセグメンテーションは重要なコンピュータビジョンタスクとなる。 ガラスには独自の視覚的な外観はなく、周囲の外観を伝達・反射するだけであり、他の一般的な物体と根本的に異なる。 このような課題に対処するために、既存のメソッドは通常、ディープネットワークのさまざまなレベルの機能から有用なキューを探索し、組み合わせます。 層間特徴の間には特徴的ギャップがあり、すなわち、深層特徴がより高レベルなセマンティクスを埋め込み、対象物の位置を特定するのに優れている一方で、浅い層特徴はより大きく、より詳細な低レベル情報を保持し、これらの特徴が自然に融合することで、準最適解をもたらす。 本稿では,2段階の精度の高いガラスセグメンテーションに向けて,有効機能融合にアプローチする。 まず,識別性向上(de)モジュールの開発により,異なる特徴量間の特性ギャップを橋渡しし,レベル特異的な特徴をより識別的表現にし,融合の非互換性を緩和する。 第2に,Focus-and-Exploration Based Fusion (FEBF) モジュールを設計し,共通点を強調し,レベル差の特徴の違いを探索することにより,融合プロセスで有用な情報を豊富に探索する。

Glass is very common in the real world. Influenced by the uncertainty about the glass region and the varying complex scenes behind the glass, the existence of glass poses severe challenges to many computer vision tasks, making glass segmentation as an important computer vision task. Glass does not have its own visual appearances but only transmit/reflect the appearances of its surroundings, making it fundamentally different from other common objects. To address such a challenging task, existing methods typically explore and combine useful cues from different levels of features in the deep network. As there exists a characteristic gap between level-different features, i.e., deep layer features embed more high-level semantics and are better at locating the target objects while shallow layer features have larger spatial sizes and keep richer and more detailed low-level information, fusing these features naively thus would lead to a sub-optimal solution. In this paper, we approach the effective features fusion towards accurate glass segmentation in two steps. First, we attempt to bridge the characteristic gap between different levels of features by developing a Discriminability Enhancement (DE) module which enables level-specific features to be a more discriminative representation, alleviating the features incompatibility for fusion. Second, we design a Focus-and-Exploration Based Fusion (FEBF) module to richly excavate useful information in the fusion process by highlighting the common and exploring the difference between level-different features.
翻訳日:2022-09-07 14:14:12 公開日:2022-09-06
# チャネル空間的注意に基づくフィンガーマルチモーダル特徴の融合と認識

Finger Multimodal Feature Fusion and Recognition Based on Channel Spatial Attention ( http://arxiv.org/abs/2209.02368v1 )

ライセンス: Link先を確認
Jian Guo, Jiaxiang Tu, Hengyi Ren, Chong Han, Lijuan Sun(参考訳) ユニモーダルバイオメトリックシステムの不安定性と限界のために、マルチモーダルシステムは研究者の注目を集めている。 しかし、異なるモダリティ間で独立かつ補完的な情報をどう活用するかは、依然として重要かつ困難な問題である。 本稿では,指紋と指静脈(フィンガープリントフィンガー静脈-チャネル空間注意融合モジュール,fpv-csafm)に基づくマルチモーダル生体認証アルゴリズムを提案する。 具体的には、指紋と指の静脈の画像のそれぞれに対して、まず特徴を抽出するためのシンプルで効果的な畳み込みニューラルネットワーク(CNN)を提案する。 次に,指紋と指の静脈の相補的情報を完全に融合させるマルチモーダル機能融合モジュール(CSAFM,Channel Spatial Attention Fusion Module)を構築した。 既存の核融合戦略と異なり, チャネル次元と空間次元の異なるモードの重要性に応じて, 融合重量を動的に調整し, 異なるモード間の情報をよりうまく組み合わせ, 全体的な認識性能を向上させる。 提案手法の性能を評価するため,複数の公開データセットに対して一連の実験を行った。 実験の結果,FPV-CSAFMは指紋と指の静脈に基づく3つのマルチモーダルデータセットの認識性能に優れていた。

Due to the instability and limitations of unimodal biometric systems, multimodal systems have attracted more and more attention from researchers. However, how to exploit the independent and complementary information between different modalities remains a key and challenging problem. In this paper, we propose a multimodal biometric fusion recognition algorithm based on fingerprints and finger veins (Fingerprint Finger Veins-Channel Spatial Attention Fusion Module, FPV-CSAFM). Specifically, for each pair of fingerprint and finger vein images, we first propose a simple and effective Convolutional Neural Network (CNN) to extract features. Then, we build a multimodal feature fusion module (Channel Spatial Attention Fusion Module, CSAFM) to fully fuse the complementary information between fingerprints and finger veins. Different from existing fusion strategies, our fusion method can dynamically adjust the fusion weights according to the importance of different modalities in channel and spatial dimensions, so as to better combine the information between different modalities and improve the overall recognition performance. To evaluate the performance of our method, we conduct a series of experiments on multiple public datasets. Experimental results show that the proposed FPV-CSAFM achieves excellent recognition performance on three multimodal datasets based on fingerprints and finger veins.
翻訳日:2022-09-07 14:13:44 公開日:2022-09-06
# 周波数ベース拡張による分散データのロバスト性向上

Improving Robustness to Out-of-Distribution Data by Frequency-based Augmentation ( http://arxiv.org/abs/2209.02369v1 )

ライセンス: Link先を確認
Koki Mukai, Soichiro Kumano, Toshihiko Yamasaki(参考訳) 畳み込みニューラルネットワーク(cnns)は画像認識において高い精度を持つが、逆例や分散データには脆弱であり、人間認識との違いが指摘されている。 分散データに対するロバスト性を向上させるため、周波数成分を同一クラスの他の画像に置き換える周波数ベースのデータ拡張技術を提案する。 トレーニングデータがCIFAR10であり、配布外データがSVHNである場合、提案手法でトレーニングしたモデルのエリアアンダーレシーバ動作特性(AUROC)曲線は89.22\%から98.15\%に増加し、さらに他のデータ拡張法と組み合わせると98.59\%に増加する。 さらに, 分布外データに対するロバストモデルでは, 画像の高周波成分が多いことが実験的に実証された。

Although Convolutional Neural Networks (CNNs) have high accuracy in image recognition, they are vulnerable to adversarial examples and out-of-distribution data, and the difference from human recognition has been pointed out. In order to improve the robustness against out-of-distribution data, we present a frequency-based data augmentation technique that replaces the frequency components with other images of the same class. When the training data are CIFAR10 and the out-of-distribution data are SVHN, the Area Under Receiver Operating Characteristic (AUROC) curve of the model trained with the proposed method increases from 89.22\% to 98.15\%, and further increased to 98.59\% when combined with another data augmentation method. Furthermore, we experimentally demonstrate that the robust model for out-of-distribution data uses a lot of high-frequency components of the image.
翻訳日:2022-09-07 14:13:21 公開日:2022-09-06
# 分解実世界データから学習したシーンテキスト合成エンジン

A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed Real-World Data ( http://arxiv.org/abs/2209.02397v1 )

ライセンス: Link先を確認
Zhengmi Tang, Tomo Miyazaki, and Shinichiro Omachi(参考訳) 背景画像上のテキストインスタンスを自然に作成することを目的としたシーンテキスト画像合成技術は、正確な包括的なアノテーション情報を提供することができるため、ディープニューラルネットワークのトレーニングに非常に適している。 これまでの研究では,実世界の観測から得られたルールに基づいて,二次元および三次元表面の合成テキスト画像の生成を検討した。 これらの研究のいくつかは学習からシーンテキスト画像を生成することを提案したが、適切なトレーニングデータセットがないため、教師なしのフレームワークが既存の現実世界のデータから学習するために研究され、堅牢なパフォーマンスは得られないかもしれない。 このジレンマを緩和し、学習に基づくシーンテキスト合成の研究を容易にするために、四角形のbbox、ストロークレベルのテキストマスク、テキスト消去画像の3種類のアノテーションを備えた、公開ベンチマークを用いて準備された実世界のデータセットであるdecompstを提案する。 本稿では、decompstデータセットを用いて、テキスト位置提案ネットワーク(tlpnet)とテキスト出現適応ネットワーク(taanet)を含む画像合成エンジンを提案する。 TLPNetはまずテキスト埋め込みに適した領域を予測する。 次にtaanetは、背景のコンテキストに応じてテキストインスタンスの幾何と色を適応的に変更する。 本研究では,シーンテキスト検出のための事前学習データを生成する手法の有効性を総合的に検証した。

Scene-text image synthesis techniques aimed at naturally composing text instances on background scene images are very appealing for training deep neural networks because they can provide accurate and comprehensive annotation information. Prior studies have explored generating synthetic text images on two-dimensional and three-dimensional surfaces based on rules derived from real-world observations. Some of these studies have proposed generating scene-text images from learning; however, owing to the absence of a suitable training dataset, unsupervised frameworks have been explored to learn from existing real-world data, which may not result in a robust performance. To ease this dilemma and facilitate research on learning-based scene text synthesis, we propose DecompST, a real-world dataset prepared using public benchmarks, with three types of annotations: quadrilateral-level BBoxes, stroke-level text masks, and text-erased images. Using the DecompST dataset, we propose an image synthesis engine that includes a text location proposal network (TLPNet) and a text appearance adaptation network (TAANet). TLPNet first predicts the suitable regions for text embedding. TAANet then adaptively changes the geometry and color of the text instance according to the context of the background. Our comprehensive experiments verified the effectiveness of the proposed method for generating pretraining data for scene text detectors.
翻訳日:2022-09-07 14:13:04 公開日:2022-09-06
# CNSNet:シャドー除去のためのクリーンネス対応シャドウネットワーク

CNSNet: A Cleanness-Navigated-Shadow Network for Shadow Removal ( http://arxiv.org/abs/2209.02174v1 )

ライセンス: Link先を確認
Qianhao Yu, Naishan Zheng, Jie Huang, Feng Zhao(参考訳) シャドウ除去の鍵は、シャドウ領域以外の領域のガイダンスによりシャドウ領域の内容を復元することである。 不適切な長距離モデリングのため、cnnベースのアプローチでは、シャドー領域からの情報を徹底的に調査することはできない。 そこで本研究では,新しいクリーンネスナビゲートシャドウネットワーク (CNSNet) と,シャドウマスクに基づくシャドウ指向適応正規化 (SOAN) モジュール,およびトランスフォーマー (SAAT) モジュールを用いたシャドウ認識アグリゲーションを提案する。 シャドウマスクの指導のもと、soanモジュールは非シャドウ領域からの統計を定式化し、それをシャドウ領域に適応的に適用して領域的に復元する。 SAATモジュールは、シャドウフリー領域から高関連性の高い画素を考慮し、シャドウマスクを用いて各シャドウ画素の復元を正確にガイドする。 3つのベンチマークデータセット(ISTD, ISTD+, SRD)の大規模な実験により, 提案手法がより優れた解凍性能を実現することを示す。

The key to shadow removal is recovering the contents of the shadow regions with the guidance of the non-shadow regions. Due to the inadequate long-range modeling, the CNN-based approaches cannot thoroughly investigate the information from the non-shadow regions. To solve this problem, we propose a novel cleanness-navigated-shadow network (CNSNet), with a shadow-oriented adaptive normalization (SOAN) module and a shadow-aware aggregation with transformer (SAAT) module based on the shadow mask. Under the guidance of the shadow mask, the SOAN module formulates the statistics from the non-shadow region and adaptively applies them to the shadow region for region-wise restoration. The SAAT module utilizes the shadow mask to precisely guide the restoration of each shadowed pixel by considering the highly relevant pixels from the shadow-free regions for global pixel-wise restoration. Extensive experiments on three benchmark datasets (ISTD, ISTD+, and SRD) show that our method achieves superior de-shadowing performance.
翻訳日:2022-09-07 14:07:14 公開日:2022-09-06
# Transformer-CNNコホート:両学生のベストによる半教師付きセマンティックセマンティックセグメンテーション

Transformer-CNN Cohort: Semi-supervised Semantic Segmentation by the Best of Both Students ( http://arxiv.org/abs/2209.02178v1 )

ライセンス: Link先を確認
Xu Zheng, Yunhao Luo, Hao Wang, Chong Fu and Lin Wang(参考訳) 半教師付き意味セグメンテーションの一般的な方法は、畳み込みニューラルネットワーク(cnns)を用いたユニタリネットワークモデルを採用し、入力やモデルに適用される小さな摂動に対してモデル予測の一貫性を強制する。 しかし このような学習パラダイムは a) CNNに基づくモデルの限られた学習能力 b) ラベルのないデータの識別的特徴を学習する能力の制限 c) 画像全体からグローバル情報及びローカル情報の両方を限定的に学習すること。 本稿では,トランスフォーマーCNNコホート(TCC)と呼ばれる,視覚変換器(ViT)とCNN(CNN)をベースとした2人の学生からなる,新しい半教師付き学習手法を提案する。 提案手法は,ラベルなしデータの擬似ラベル付けにより,予測値と異種特徴空間の多レベル整合正則化を補足的に行う。 まず、vit学生の入力は画像パッチであるため、抽出された特徴マップは重要なクラス毎の統計情報をエンコードする。 そこで我々は,まず学生の出力を擬似ラベルとして活用し,クラス認識特徴量(CFCD)マップを生成する,クラス認識特徴量蒸留(CFCD)を提案する。 その後、cfマップを通じて知識を学生間で転送する。 第2に,vit学生はすべての層に対してより均一な表現を持つため,コホートからピクセル単位の予測の間で知識を伝達するための一貫性を意識したクロス蒸留法を提案する。 我々はCityscapesとPascal VOC 2012データセットのTCCフレームワークを検証する。

The popular methods for semi-supervised semantic segmentation mostly adopt a unitary network model using convolutional neural networks (CNNs) and enforce consistency of the model predictions over small perturbations applied to the inputs or model. However, such a learning paradigm suffers from a) limited learning capability of the CNN-based model; b) limited capacity of learning the discriminative features for the unlabeled data; c) limited learning for both global and local information from the whole image. In this paper, we propose a novel Semi-supervised Learning approach, called Transformer-CNN Cohort (TCC), that consists of two students with one based on the vision transformer (ViT) and the other based on the CNN. Our method subtly incorporates the multi-level consistency regularization on the predictions and the heterogeneous feature spaces via pseudo labeling for the unlabeled data. First, as the inputs of the ViT student are image patches, the feature maps extracted encode crucial class-wise statistics. To this end, we propose class-aware feature consistency distillation (CFCD) that first leverages the outputs of each student as the pseudo labels and generates class-aware feature (CF) maps. It then transfers knowledge via the CF maps between the students. Second, as the ViT student has more uniform representations for all layers, we propose consistency-aware cross distillation to transfer knowledge between the pixel-wise predictions from the cohort. We validate the TCC framework on Cityscapes and Pascal VOC 2012 datasets, which significantly outperforms existing semi-supervised methods by a large margin.
翻訳日:2022-09-07 14:06:53 公開日:2022-09-06
# プロジェクト提案:モジュラー強化学習に基づく自動定理証明器

Project proposal: A modular reinforcement learning based automated theorem prover ( http://arxiv.org/abs/2209.02562v1 )

ライセンス: Link先を確認
Boris Shminke(参考訳) 提案手法は,推論システム(環境),証明状態表現(エージェントが環境をどのように見ているか),エージェントトレーニングアルゴリズムといった,独立したコンポーネントの強化学習証明器を構築することを目的とする。 その目的のために、飽和プロデューサのためのOpenAI Gym環境パッケージの$\texttt{gym-saturation}$に、Vampireベースの環境を追加提供します。 一般的な強化学習フレームワーク(Ray $\texttt{RLlib}$)と一緒に$\texttt{gym-saturation}$を使用するプロトタイプを実演する。 最後に,本研究の完成に向けての計画について,競合する自動定理証明者に向けて議論する。

We propose to build a reinforcement learning prover of independent components: a deductive system (an environment), the proof state representation (how an agent sees the environment), and an agent training algorithm. To that purpose, we contribute an additional Vampire-based environment to $\texttt{gym-saturation}$ package of OpenAI Gym environments for saturation provers. We demonstrate a prototype of using $\texttt{gym-saturation}$ together with a popular reinforcement learning framework (Ray $\texttt{RLlib}$). Finally, we discuss our plans for completing this work in progress to a competitive automated theorem prover.
翻訳日:2022-09-07 13:50:55 公開日:2022-09-06
# 生成拡散モデルに関する調査研究

A Survey on Generative Diffusion Model ( http://arxiv.org/abs/2209.02646v1 )

ライセンス: Link先を確認
Hanqun Cao, Cheng Tan, Zhangyang Gao, Guangyong Chen, Pheng-Ann Heng, and Stan Z. Li(参考訳) ディープラーニングは、深い潜伏表現のおかげで、生成タスクに大きな可能性を示す。 生成モデルは、ある暗黙のパラメータに関してランダムに観測を生成できるモデルのクラスである。 近年, 拡散モデルは, 発電能力の高まりにより, 生成モデルの育成クラスとなっている。 今日では大きな成果が達成されている。 この分野では、コンピュータビジョン、音声生成、バイオインフォマティクス、自然言語処理以外の多くの応用が検討される。 しかし、拡散モデルは生成過程が遅いという自然な欠点があり、多くの改良された作品に繋がる。 本調査では拡散モデルの分野について概説する。 まず、2つの目印となるDDPMとDSMで主要な問題を述べる。 次に,拡散モデルを高速化するための様々な高度な手法 - トレーニングスケジュール,トレーニングフリーサンプリング,混合モデリング,スコアと拡散の統一など - を提案する。 既存のモデルに関しては、特定のNFEに応じて、FIDスコア、IS、NLLのベンチマークも提供します。 さらに、コンピュータビジョン、シーケンスモデリング、オーディオ、ai for scienceなどの拡散モデルアプリケーションも紹介されている。 最後に、制限とさらなる方向とともに、この分野の要約がある。

Deep learning shows great potential in generation tasks thanks to deep latent representation. Generative models are classes of models that can generate observations randomly with respect to certain implied parameters. Recently, the diffusion Model becomes a raising class of generative models by virtue of its power-generating ability. Nowadays, great achievements have been reached. More applications except for computer vision, speech generation, bioinformatics, and natural language processing are to be explored in this field. However, the diffusion model has its natural drawback of a slow generation process, leading to many enhanced works. This survey makes a summary of the field of the diffusion model. We firstly state the main problem with two landmark works - DDPM and DSM. Then, we present a diverse range of advanced techniques to speed up the diffusion models - training schedule, training-free sampling, mixed-modeling, and score & diffusion unification. Regarding existing models, we also provide a benchmark of FID score, IS, and NLL according to specific NFE. Moreover, applications with diffusion models are introduced including computer vision, sequence modeling, audio, and AI for science. Finally, there is a summarization of this field together with limitations & further directions.
翻訳日:2022-09-07 13:50:43 公開日:2022-09-06
# タスク指向対話システムにおける重み付き負サンプリングによる外部知識選択

External Knowledge Selection with Weighted Negative Sampling in Knowledge-grounded Task-oriented Dialogue Systems ( http://arxiv.org/abs/2209.02251v1 )

ライセンス: Link先を確認
Janghoon Han, Joongbo Shin, Hosung Song, Hyunjik Jo, Gyeonghun Kim, Yireun Kim, Stanley Jungkyu Choi(参考訳) 音声対話におけるロバストな対話システムの構築は、文章による対話よりも難しい。 DSTC10-Track2-Task2は,音声会話に非構造化外部知識を組み込んだタスク指向対話(TOD)システムの構築を目標とし,DSTC9-Track1を拡張した。 本稿では,データ構築,重み付き負サンプリング,ポストトレーニング,スタイル転送の4つの手法を紹介する。 まず、DSTC10-Track2が公式トレーニングセットを公開していないため、大規模なトレーニングデータを自動的に構築する。 知識選択タスクでは,モデルをよりきめ細かい方法で学習するために重み付き負サンプリングを提案する。 また、応答生成タスクに後トレーニングとスタイル転送を採用し、ターゲット応答に類似したスタイルで適切な応答を生成する。 実験では,重み付き負サンプリング,ポストトレーニング,スタイル転送の効果について検討した。 客観的評価では16チーム中7チーム,人的評価では6チームであった。

Constructing a robust dialogue system on spoken conversations bring more challenge than written conversation. In this respect, DSTC10-Track2-Task2 is proposed, which aims to build a task-oriented dialogue (TOD) system incorporating unstructured external knowledge on a spoken conversation, extending DSTC9-Track1. This paper introduces our system containing four advanced methods: data construction, weighted negative sampling, post-training, and style transfer. We first automatically construct a large training data because DSTC10-Track2 does not release the official training set. For the knowledge selection task, we propose weighted negative sampling to train the model more fine-grained manner. We also employ post-training and style transfer for the response generation task to generate an appropriate response with a similar style to the target response. In the experiment, we investigate the effect of weighted negative sampling, post-training, and style transfer. Our model ranked 7 out of 16 teams in the objective evaluation and 6 in human evaluation.
翻訳日:2022-09-07 13:45:58 公開日:2022-09-06
# レイヤまたは表現空間:BERTベースの評価メトリクスはなぜロバストなのか?

Layer or Representation Space:What makes BERT-based Evaluation Metrics Robust? ( http://arxiv.org/abs/2209.02317v1 )

ライセンス: Link先を確認
Doan Nam Long Vu, Nafise Sadat Moosavi, Steffen Eger(参考訳) 最近のテキスト生成のための埋め込みベース評価指標の評価は、主に標準ベンチマークによる人間評価との相関の測定に基づいている。 しかし、これらのベンチマークは、主に単語埋め込みの事前学習に使われるものと同様のドメインに由来する。 このことは、埋め込みベースのメトリクスを事前学習データとは異なる語彙を含む新しい、ノイズの多い領域に一般化することへの懸念を引き起こす。 本稿では,テキスト生成のための埋め込みベースメトリクスとして最も普及しているbertscoreのロバスト性について検討する。 私たちはそれを示します (a)標準ベンチマークで人間の評価と最も高い相関関係を持つ埋め込み基準は、入力ノイズや未知のトークンの量が増加すると最も低い相関を持つことができる。 (b)事前学習されたモデルの第一層からの埋め込みは、すべてのメトリクスのロバスト性を改善する。 (c) 事前学習モデルの第一層から,トークンベースの埋め込みではなく,文字レベルの埋め込みを使用する場合に,高いロバスト性が達成される。

The evaluation of recent embedding-based evaluation metrics for text generation is primarily based on measuring their correlation with human evaluations on standard benchmarks. However, these benchmarks are mostly from similar domains to those used for pretraining word embeddings. This raises concerns about the (lack of) generalization of embedding-based metrics to new and noisy domains that contain a different vocabulary than the pretraining data. In this paper, we examine the robustness of BERTScore, one of the most popular embedding-based metrics for text generation. We show that (a) an embedding-based metric that has the highest correlation with human evaluations on a standard benchmark can have the lowest correlation if the amount of input noise or unknown tokens increases, (b) taking embeddings from the first layer of pretrained models improves the robustness of all metrics, and (c) the highest robustness is achieved when using character-level embeddings, instead of token-based embeddings, from the first layer of the pretrained model.
翻訳日:2022-09-07 13:45:42 公開日:2022-09-06
# 単語感覚の単言語的アライメントと語彙的資源の定義

Monolingual alignment of word senses and definitions in lexicographical resources ( http://arxiv.org/abs/2209.02465v1 )

ライセンス: Link先を確認
Sina Ahmadi(参考訳) この論文の焦点は、語彙データ、特に辞書のアライメントに広く焦点をあてている。 この分野での課題のいくつかに取り組むために、単語感覚アライメントと翻訳推論の2つの主要なタスクに対処する。 最初の課題は、2つの異なる単言語辞書における見出しの感覚定義から最適なアライメントを見つけることである。 これは、特に2つのリソースにおける感覚の粒度、カバレッジ、記述の違いのため、難しいタスクです。 語彙的セマンティックリソースの特徴を説明した後、専門家によって言語単位の単語感覚と定義を手動で注釈付けする15言語17のデータセットを含むベンチマークを導入する。 ベンチマークの作成において、レキシコグラフィーの知識は、意味的関係、すなわち、より正確で、より狭く、より広く、関連するもの、あるいは全くないものを選び出すアノテーションを通して取り入れられる。 このベンチマークは、ワードセンスアライメントシステムの評価目的に使用できる。 テキストと非テキストのセマンティック類似度検出と意味関係誘導に基づくアライメント手法の性能をベンチマークを用いて評価した。 最後に、この研究を、グラフ解析に基づく様々なアプローチを用いて、バイリンガル辞書を生成するために翻訳ペアを誘導する翻訳推論に拡張する。 このタスクは、リソース不足や表現不足の少ない言語のための語彙的リソースの作成や、既存のリソースのカバレッジ向上の支援に特に関心がある。 実践的な観点からは、この論文で開発された技術や手法は、アライメントタスクを容易にするツール内に実装されている。

The focus of this thesis is broadly on the alignment of lexicographical data, particularly dictionaries. In order to tackle some of the challenges in this field, two main tasks of word sense alignment and translation inference are addressed. The first task aims to find an optimal alignment given the sense definitions of a headword in two different monolingual dictionaries. This is a challenging task, especially due to differences in sense granularity, coverage and description in two resources. After describing the characteristics of various lexical semantic resources, we introduce a benchmark containing 17 datasets of 15 languages where monolingual word senses and definitions are manually annotated across different resources by experts. In the creation of the benchmark, lexicographers' knowledge is incorporated through the annotations where a semantic relation, namely exact, narrower, broader, related or none, is selected for each sense pair. This benchmark can be used for evaluation purposes of word-sense alignment systems. The performance of a few alignment techniques based on textual and non-textual semantic similarity detection and semantic relation induction is evaluated using the benchmark. Finally, we extend this work to translation inference where translation pairs are induced to generate bilingual lexicons in an unsupervised way using various approaches based on graph analysis. This task is of particular interest for the creation of lexicographical resources for less-resourced and under-represented languages and also, assists in increasing coverage of the existing resources. From a practical point of view, the techniques and methods that are developed in this thesis are implemented within a tool that can facilitate the alignment task.
翻訳日:2022-09-07 13:45:27 公開日:2022-09-06
# 議論的談話単位識別のための語彙意味族の伝達学習

Transfer Learning of Lexical Semantic Families for Argumentative Discourse Units Identification ( http://arxiv.org/abs/2209.02495v1 )

ライセンス: Link先を確認
Jo\~ao Rodrigues, Ruben Branco and Ant\'onio Branco(参考訳) 議論マイニングタスクは、低から高複雑性の言語現象と常識知識のインフォームド範囲を必要とする。 従来の研究により、事前学習された言語モデルは、伝達学習技術を適用し、異なる事前学習目標に基づいて構築される際に、構文的および意味的言語現象を符号化するのに非常に効果的であることが示されている。 既存のトレーニング済み言語モデルが、引数マイニングタスクの複雑さをどの程度含んでいるかは、依然として問題である。 我々は,異なる語彙意味族から得られた言語モデルが,議論的談話単位タスクの識別性能をどのように活用するかを明らかにする実験に依拠する。 実験結果から, 伝達学習技術はタスクに有益であり, 様々な語彙のセマンティックファミリーからのコモンセンス知識を活用できない可能性が示唆された。

Argument mining tasks require an informed range of low to high complexity linguistic phenomena and commonsense knowledge. Previous work has shown that pre-trained language models are highly effective at encoding syntactic and semantic linguistic phenomena when applied with transfer learning techniques and built on different pre-training objectives. It remains an issue of how much the existing pre-trained language models encompass the complexity of argument mining tasks. We rely on experimentation to shed light on how language models obtained from different lexical semantic families leverage the performance of the identification of argumentative discourse units task. Experimental results show that transfer learning techniques are beneficial to the task and that current methods may be insufficient to leverage commonsense knowledge from different lexical semantic families.
翻訳日:2022-09-07 13:45:01 公開日:2022-09-06
# 「ママはいつも説明の仕方で理解できた」:説明の作り方を学ぶための対話コーパス

"Mama Always Had a Way of Explaining Things So I Could Understand'': A Dialogue Corpus for Learning to Construct Explanations ( http://arxiv.org/abs/2209.02508v1 )

ライセンス: Link先を確認
Henning Wachsmuth, Milad Alshomary(参考訳) AIは日々の生活に広く浸透しているため、人間はその行動や決定を理解する必要性が高まっている。 説明可能なAIに関するほとんどの研究は、発見すべき理想的な説明が1つあるという前提に基づいている。 しかし、実際は、説明人(説明人)と説明されている特定の人(説明人)の対話において、日常的な説明が共同構築されている。 本稿では,人間の説明の仕方と,AIがこのプロセスの模倣を学べる方法についてのNLP研究を可能にするための,対話的説明の最初のコーパスを紹介する。 このコーパスは、有線ビデオシリーズ『\emph{5 levels}』の65の英語対話から成り、13の話題を5人の異なる解説者に説明している。 1550回すべての対話は、5人の独立した専門家によって手動でラベル付けされ、対話行為と説明動作が議論された。 説明者と説明者の言語パターンを分析し,熟練度レベルの差異について検討する。 bertベースベースラインの結果から,シーケンス情報はトピック,行動,移動の予測に有効であることが示唆される

As AI is more and more pervasive in everyday life, humans have an increasing demand to understand its behavior and decisions. Most research on explainable AI builds on the premise that there is one ideal explanation to be found. In fact, however, everyday explanations are co-constructed in a dialogue between the person explaining (the explainer) and the specific person being explained to (the explainee). In this paper, we introduce a first corpus of dialogical explanations to enable NLP research on how humans explain as well as on how AI can learn to imitate this process. The corpus consists of 65 transcribed English dialogues from the Wired video series \emph{5 Levels}, explaining 13 topics to five explainees of different proficiency. All 1550 dialogue turns have been manually labeled by five independent professionals for the topic discussed as well as for the dialogue act and the explanation move performed. We analyze linguistic patterns of explainers and explainees, and we explore differences across proficiency levels. BERT-based baseline results indicate that sequence information helps predicting topics, acts, and moves effectively
翻訳日:2022-09-07 13:44:45 公開日:2022-09-06
# OneEE: 高速オーバーラップとネストイベント抽出のためのワンステージフレームワーク

OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction ( http://arxiv.org/abs/2209.02693v1 )

ライセンス: Link先を確認
Hu Cao, Jingye Li, Fangfang Su, Fei Li, Hao Fei, Shengqiong Wu, Bobo Li, Liang Zhao, Donghong Ji(参考訳) イベント抽出 (ee) は、構造化されていないテキストから構造化されたイベント情報を抽出することを目的とした情報抽出の重要なタスクである。 以前のほとんどの作業では、重複やネストを無視しながらフラットなイベントの抽出に重点を置いている。 オーバーラップとネストされたeeのいくつかのモデルには、エラー伝搬に苦しむイベントトリガと引数を抽出するための一連のステージが含まれている。 そこで我々は,OneEEと呼ばれる単語関係認識としてEEを定式化するための,シンプルで効果的なタグ付け方式とモデルを構築した。 トリガーワードと引数ワードの関係は、並列グリッドタグ付きで同時に認識され、非常に高速なイベント抽出速度が得られる。 このモデルは、イベント認識表現を生成する適応型イベント融合モジュールと、単語関係認識のための相対距離情報を統合する距離認識予測器を備えており、効果的なメカニズムであることが実証されている。 重なり合った3つのEEベンチマーク、すなわちFewFC、Genia11、Genia13の実験は、OneEEが最先端(SOTA)の結果を達成することを示している。 さらに、OneEEの推論速度は、同じ条件下でのベースラインよりも高速であり、並列推論をサポートするため、さらに大幅に改善することができる。

Event extraction (EE) is an essential task of information extraction, which aims to extract structured event information from unstructured text. Most prior work focuses on extracting flat events while neglecting overlapped or nested ones. A few models for overlapped and nested EE includes several successive stages to extract event triggers and arguments,which suffer from error propagation. Therefore, we design a simple yet effective tagging scheme and model to formulate EE as word-word relation recognition, called OneEE. The relations between trigger or argument words are simultaneously recognized in one stage with parallel grid tagging, thus yielding a very fast event extraction speed. The model is equipped with an adaptive event fusion module to generate event-aware representations and a distance-aware predictor to integrate relative distance information for word-word relation recognition, which are empirically demonstrated to be effective mechanisms. Experiments on 3 overlapped and nested EE benchmarks, namely FewFC, Genia11, and Genia13, show that OneEE achieves the state-of-the-art (SOTA) results. Moreover, the inference speed of OneEE is faster than those of baselines in the same condition, and can be further substantially improved since it supports parallel inference.
翻訳日:2022-09-07 13:44:25 公開日:2022-09-06
# 自動化されるかどうか? グラフニューラルネットワークによる職業のリスク同定

Being Automated or Not? Risk Identification of Occupations with Graph Neural Networks ( http://arxiv.org/abs/2209.02182v1 )

ライセンス: Link先を確認
Dawei Xu, Haoran Yang, Marian-Andrei Rizoiu, and Guandong Xu(参考訳) 人工知能(AI)やロボット工学などの自動化技術の急速な進歩は、職業における自動化のリスクを増大させ、労働市場に大きな影響を与える可能性がある。 近年の社会経済研究では、職業の50%近くが今後10年間で自動化されるリスクが高いことが示唆されている。 しかし、粒度データや経験的インフォームドモデルがないため、これらの研究の正確性は制限され、どのジョブが自動化されるかを予測するのが難しくなっている。 本稿では,自動化作業と非自動化作業の分類作業を行い,作業の自動化リスクについて検討する。 利用可能な情報は、SOC(Standard Occupational Classification)によって分類された910人の職業者のタスクステートメント、スキル、インタラクションである。 この情報を十分に活用するために, 作業の自動化リスクを特定するために, グラフベースの半教師付き分類法である \textbf{a}utomated \textbf{o}ccupation \textbf{c}lassification (\textbf{g}raph \textbf{c}onvolutional \textbf{n}etworks (\textbf{aoc-gcn}) を提案する。 このモデルは、作業のローカルおよびグローバルコンテキストをキャプチャするヘテロジニアスグラフを統合する。 提案手法は,職業の内的特徴と外的相互作用の両方の情報を考慮し,ベースラインモデルよりも優れていることを示す。 この研究は、政策立案者が自動化された職業を特定し、雇用市場に入る前に個人の意思決定を支援するのに役立つだろう。

The rapid advances in automation technologies, such as artificial intelligence (AI) and robotics, pose an increasing risk of automation for occupations, with a likely significant impact on the labour market. Recent social-economic studies suggest that nearly 50\% of occupations are at high risk of being automated in the next decade. However, the lack of granular data and empirically informed models have limited the accuracy of these studies and made it challenging to predict which jobs will be automated. In this paper, we study the automation risk of occupations by performing a classification task between automated and non-automated occupations. The available information is 910 occupations' task statements, skills and interactions categorised by Standard Occupational Classification (SOC). To fully utilize this information, we propose a graph-based semi-supervised classification method named \textbf{A}utomated \textbf{O}ccupation \textbf{C}lassification based on \textbf{G}raph \textbf{C}onvolutional \textbf{N}etworks (\textbf{AOC-GCN}) to identify the automated risk for occupations. This model integrates a heterogeneous graph to capture occupations' local and global contexts. The results show that our proposed method outperforms the baseline models by considering the information of both internal features of occupations and their external interactions. This study could help policymakers identify potential automated occupations and support individuals' decision-making before entering the job market.
翻訳日:2022-09-07 13:43:38 公開日:2022-09-06
# 文書レベルのイベント引数抽出

Few-Shot Document-Level Event Argument Extraction ( http://arxiv.org/abs/2209.02203v1 )

ライセンス: Link先を確認
Xianjun Yang, Yujie Lu, Linda Petzold(参考訳) イベント引数抽出(EAE)は文レベルではよく研究されているが、文書レベルでは未探索である。 本稿では,文書中の文中に実際に分布するイベント引数をキャプチャする手法について検討する。 先行研究は主にリッチな文書監督への完全なアクセスを前提としており、議論の監督は文書に制限されているという事実を無視している。 このギャップを埋めるために,ドキュメントレベルの最大イベント抽出データセットdoceeに基づく,ドキュメントレベルのイベント引数抽出ベンチマークである fewdocae を提案する。 まず,新しい問題を定義し,従来のN-Way-K-Shot戦略の代わりに新しいN-Way-D-Docサンプリングによってコーパスを再構築する。 次に、高度な文書レベルのニューラルモデルを数ショット設定に調整し、ドメイン内およびクロスドメイン設定でベースライン結果を提供する。 引数の抽出は複数の文の文脈に依存しており、学習プロセスはごく少数の例に限られているため、そのタスクは仮定的に低いパフォーマンスで非常に困難であることがわかった。 FewDocAEは低リソース体制下での実践的利用と密接に関連しているので、このベンチマークがさらなる研究を促進することを願っている。 データとコードはオンラインで公開されます。

Event argument extraction (EAE) has been well studied at the sentence level but under-explored at the document level. In this paper, we study to capture event arguments that actually spread across sentences in documents. Prior works mainly assume full access to rich document supervision, ignoring the fact that the argument supervision is limited in documents. To fill this gap, we present FewDocAE, a Few-Shot Document-Level Event Argument Extraction benchmark, based on the largest document-level event extraction dataset DocEE. We first define the new problem and reconstruct the corpus by a novel N-Way-D-Doc sampling instead of the traditional N-Way-K-Shot strategy. Then we adjust the advanced document-level neural models into the few-shot setting to provide baseline results under in- and cross-domain settings. Since the argument extraction depends on the context from multiple sentences and the learning process is limited to very few examples, we find the task to be very challenging with substantively low performance. Considering FewDocAE is closely related to practical use under low-resource regimes, we hope this benchmark encourages more research in this direction. Our data and codes will be available online.
翻訳日:2022-09-07 13:37:29 公開日:2022-09-06
# データ可視化のためのマルチモーダル対話における参照分解能と文脈変化

Reference Resolution and Context Change in Multimodal Situated Dialogue for Exploring Data Visualizations ( http://arxiv.org/abs/2209.02215v1 )

ライセンス: Link先を確認
Abhinav Kumar, Barbara Di Eugenio, Abari Bhattacharya, Jillian Aurisano, Andrew Johnson(参考訳) 話者によって参照されるエンティティを特定することを目的とした参照解決は、現実世界の設定ではより複雑である。 我々の焦点は、マルチモーダル対話において、大きな画面ディスプレイ上の視覚化への参照を解決することであり、重要なことに、参照解決は、新しい視覚化を作成するプロセスに直接関係している。 言語や手の動きを通じて大きな画面に現れる視覚化や,ユーザ要求を実行して新たな視覚化を作成する新たなエンティティの確立など,ユーザリファレンスに対するアノテーションについて述べる。 また,対話コンテキストを維持するための情報状態アーキテクチャに依存する参照解決パイプラインについても述べる。 本報告では,参照の検出と解決,モデルの文脈情報の有効性,可視化作成のための不特定要求について報告する。 また,従来のCRFおよびディープラーニング/トランスフォーマーモデル(BiLSTM-CRFとBERT-CRF)を用いて,ユーザの発話テキストの参照をタグ付けする実験を行った。 以上の結果から,移動学習は深層学習法の性能を著しく向上させるが,CRFはそれよりも優れており,従来の手法が低資源データに対してより良く一般化できることが示唆された。

Reference resolution, which aims to identify entities being referred to by a speaker, is more complex in real world settings: new referents may be created by processes the agents engage in and/or be salient only because they belong to the shared physical setting. Our focus is on resolving references to visualizations on a large screen display in multimodal dialogue; crucially, reference resolution is directly involved in the process of creating new visualizations. We describe our annotations for user references to visualizations appearing on a large screen via language and hand gesture and also new entity establishment, which results from executing the user request to create a new visualization. We also describe our reference resolution pipeline which relies on an information-state architecture to maintain dialogue context. We report results on detecting and resolving references, effectiveness of contextual information on the model, and under-specified requests for creating visualizations. We also experiment with conventional CRF and deep learning / transformer models (BiLSTM-CRF and BERT-CRF) for tagging references in user utterance text. Our results show that transfer learning significantly boost performance of the deep learning methods, although CRF still out-performs them, suggesting that conventional methods may generalize better for low resource data.
翻訳日:2022-09-07 13:37:09 公開日:2022-09-06
# 衛星画像ベンチマークにおける小型物体の同定

Identification of Small Objects in Satellite Image Benchmarks ( http://arxiv.org/abs/2209.02564v1 )

ライセンス: Link先を確認
Debojyoti Biswas and Jelena Te\v{s}i\'c(参考訳) 近年の航空画像のアクセスとボリュームの増加、計算能力の向上、アプリケーションへの関心が、オブジェクト検出とドメイン適応研究のスケールアップの扉を開いた。 航空データセットは非常に大きく、データセットの各フレームには多数の密集した小さなオブジェクトが含まれている。 航空画像のディープラーニングアプリケーションは、トレーニングデータの欠如により遅れており、最近研究者たちは、ラベル付きデータセットからラベル付きデータセットへのドメイン適応(DA)に切り替え、問題を緩和した。 これらの要因は、データセット(オブジェクトサイズ、クラス分布、オブジェクト特徴の均一性、画像取得、距離、気象条件など)と、衛星画像内のオブジェクトのサイズと、それに続く衛星画像内の小さなオブジェクト、局所的な特徴、そして高密度に重なり合ったオブジェクトの領域の提案を捉えるための最先端の失敗と、2つの大きな課題を生み出します。 本稿では,領域間の局所的特徴空間の整合性を向上する領域判別器と,空間ピラミッドプーリングによるバックエンド改善を行うパイプラインと,熱マップに基づく領域提案による領域提案ネットワークと,画像の難易度に基づく全体焦点損失対策に適応した新しい画像難易度スコアによるオブジェクトの局所化と識別の2つの方法を提案する。 提案モデルは最先端手法を7.4%上回った。

Recent increases in aerial image access and volume, increases in computational power, and interest in applications have opened the door to scaling up object detection and domain adaptation research to production. Aerial data sets are very large in size, and each frame of the data set contains a huge number of dense and small objects. Deep learning applications for aerial imagery are behind due to a lack of training data, and researchers have recently turned to domain adaptation (DA) from a labeled data set to an unlabeled data set to alleviate the issue. These factors create two major challenges: the high variety between datasets (e.g. object sizes, class distributions, object feature uniformity, image acquisition, distance, weather conditions), and the size of objects in satellite imagery and subsequent failure of state-of-the-art to capture small objects, local features, and region proposals for densely overlapped objects in satellite image. In this paper, we propose two solutions to these problems: a domain discriminator to better align the local feature space between domains; and a novel pipeline that improves the back-end by spatial pyramid pooling, cross-stage partial network, region proposal network via heatmap-based region proposals, and object localization and identification through a novel image difficulty score that adapts the overall focal loss measure based on the image difficulty. Our proposed model outperformed the state-of-the-art method by 7.4%.
翻訳日:2022-09-07 13:28:50 公開日:2022-09-06
# Fun2Vec:バイナリの関数レベルの表現の対比学習フレームワーク

Fun2Vec:a Contrastive Learning Framework of Function-level Representation for Binary ( http://arxiv.org/abs/2209.02442v1 )

ライセンス: Link先を確認
Sun RuiJin, Guo ShiZe, Guo JinHong, Sun Meng, Pan ZhiSong(参考訳) サイバースペースセキュリティの分野では,関数レベルのバイナリコードの類似性検出が不可欠である。 これは、リリースソフトウェアにおけるバグの発見と特許侵害の検出に役立ち、サプライチェーン攻撃の防止に重要な役割を果たします。 実践的な埋め込み学習フレームワークは、アセンブリコードのベクトル表現システムの堅牢性と関数ペアのアノテーションの精度に依存している。 教師付き学習ベースの手法は伝統的に導入されている。 しかし、異なる関数ペアに正確なラベルを付けることは非常に難しい。 これらの教師付き学習法は、容易にオーバートレーニングされ、ベクトル堅牢性の問題に悩まされる。 これらの問題を緩和するため,我々は関数レベルのバイナリ表現の対比学習フレームワークfun2vecを提案する。 教師なしの学習アプローチを採用し,二項コード類似性検出をインスタンス識別として定式化する。 Fun2Vecは分解されたバイナリ関数で直接動作し、任意のエンコーダで実装できる。 類似または類似の情報を手動でラベル付けする必要はない。 コンパイラ最適化オプションとコード難読化技術を使用して拡張データを生成します。 実験の結果,本手法は最先端の精度を上回っており,短時間設定では大きなアドバンテージを持つことがわかった。

Function-level binary code similarity detection is essential in the field of cyberspace security. It helps us find bugs and detect patent infringements in released software and plays a key role in the prevention of supply chain attacks. A practical embedding learning framework relies on the robustness of vector representation system of assembly code and the accuracy of the annotation of function pairs. Supervised learning based methods are traditionally emploied. But annotating different function pairs with accurate labels is very difficult. These supervised learning methods are easily overtrained and suffer from vector robustness issues. To mitigate these problems, we propose Fun2Vec: a contrastive learning framework of function-level representation for binary. We take an unsupervised learning approach and formulate the binary code similarity detection as instance discrimination. Fun2Vec works directly on disassembled binary functions, and could be implemented with any encoder. It does not require manual labeled similar or dissimilar information. We use the compiler optimization options and code obfuscation techniques to generate augmented data. Our experimental results demonstrate that our method surpasses the state-of-the-art in accuracy and have great advantage in few-shot settings.
翻訳日:2022-09-07 13:27:16 公開日:2022-09-06
# プライバシーが部分的情報と出会うとき: 異なる個人的帯域の精査分析

When Privacy Meets Partial Information: A Refined Analysis of Differentially Private Bandits ( http://arxiv.org/abs/2209.02570v1 )

ライセンス: Link先を確認
Achraf Azize and Debabrota Basu(参考訳) 我々は,多腕バンディットの問題を$\epsilon$-global Differential Privacy (DP)を用いて検討した。 まず, バンディットの硬度を$\epsilon$-global dpで定量化する確率的および線形なバンディットに対して, 最小値と問題依存の後悔値下限を証明した。 これらの境界は、プライバシー予算$\epsilon$に依存する2つの硬度制度の存在を示唆している。 高プライバシー体制(小さな$\epsilon$)では、ハードネスは、プライバシと報酬分配に関する部分的情報の組み合わせによる影響に依存する。 低プライバシー体制(大きな$\epsilon$)では、$\epsilon$-global dpのバンディットはプライバシーのないバンディットよりも難しくない。 確率的バンディットに対しては、インデックスベースの楽観的バンディットアルゴリズムの最適に近い$\epsilon$ global dp拡張を設計するための汎用フレームワークも提案する。 フレームワークは、Laplaceメカニズム、アーム依存適応エピソード、および前回で収集された報酬のみを使用したプライベート統計計算の3つの要素で構成されている。 具体的には、UCBおよびKL-UCBアルゴリズム、すなわちAdaP-UCBとAdaP-KLUCBの$\epsilon$-global DP拡張をインスタンス化する。 AdaP-KLUCBは、ともに$\epsilon$-global DPを満たす最初のアルゴリズムであり、問題依存の下位境界を乗法定数に一致する後悔の上限を与える。

We study the problem of multi-armed bandits with $\epsilon$-global Differential Privacy (DP). First, we prove the minimax and problem-dependent regret lower bounds for stochastic and linear bandits that quantify the hardness of bandits with $\epsilon$-global DP. These bounds suggest the existence of two hardness regimes depending on the privacy budget $\epsilon$. In the high-privacy regime (small $\epsilon$), the hardness depends on a coupled effect of privacy and partial information about the reward distributions. In the low-privacy regime (large $\epsilon$), bandits with $\epsilon$-global DP are not harder than the bandits without privacy. For stochastic bandits, we further propose a generic framework to design a near-optimal $\epsilon$ global DP extension of an index-based optimistic bandit algorithm. The framework consists of three ingredients: the Laplace mechanism, arm-dependent adaptive episodes, and usage of only the rewards collected in the last episode for computing private statistics. Specifically, we instantiate $\epsilon$-global DP extensions of UCB and KL-UCB algorithms, namely AdaP-UCB and AdaP-KLUCB. AdaP-KLUCB is the first algorithm that both satisfies $\epsilon$-global DP and yields a regret upper bound that matches the problem-dependent lower bound up to multiplicative constants.
翻訳日:2022-09-07 13:26:24 公開日:2022-09-06
# 極小開示を用いた分類プロトコル

Classification Protocols with Minimal Disclosure ( http://arxiv.org/abs/2209.02690v1 )

ライセンス: Link先を確認
Jinshuo Dong, Jason Hartline, Aravindan Vijayaraghavan(参考訳) 裁判所手続におけるe-discoveryなどの応用によって動機付けられた分類のための多人数プロトコルを検討する。 我々は、要求側が全ての応答性文書を受信することを保証するプロトコルを特定し、送信側が応答性文書が受信されたことを証明するために必要な最小限の非応答性文書を開示する。 このプロトコルは、ポイントの自動ラベリングを可能にする機械学習フレームワークに組み込むことができ、結果として生じるマルチパーティプロトコルは、標準のワンパーティ分類問題と等価である(ワンパーティ分類問題は、自然な独立性(unrelevant-alternatives)特性を満たす)。 我々の正式な保証は、文書を正しく分割する線形分類器が存在する場合に焦点を当てます。

We consider multi-party protocols for classification that are motivated by applications such as e-discovery in court proceedings. We identify a protocol that guarantees that the requesting party receives all responsive documents and the sending party discloses the minimal amount of non-responsive documents necessary to prove that all responsive documents have been received. This protocol can be embedded in a machine learning framework that enables automated labeling of points and the resulting multi-party protocol is equivalent to the standard one-party classification problem (if the one-party classification problem satisfies a natural independence-of-irrelevant-alternatives property). Our formal guarantees focus on the case where there is a linear classifier that correctly partitions the documents.
翻訳日:2022-09-07 13:25:55 公開日:2022-09-06
# 高精度位置アノテーションを用いた屋内局所化データセットとデータ収集フレームワーク

An Indoor Localization Dataset and Data Collection Framework with High Precision Position Annotation ( http://arxiv.org/abs/2209.02270v1 )

ライセンス: Link先を確認
F. Serhan Dani\c{s}, A. Teoman Naskali, A. Taylan Cemgil, Cem Ersoy(参考訳) 本稿では,無線信号を用いた屋内位置推定アルゴリズムの精度向上を目的とした,新しい手法と高分解能データセットを提案する。 この技術は、無線信号パラメータデータサンプルを高精度な位置データでアノテートするために使用される拡張現実(AR)ベースの位置決めシステムを実装している。 我々は、ARマーカーで装飾された領域において、実用的で低コストで操作可能なカメラとBluetooth Low Energy(BLE)ビーコンの位置を追跡する。 冗長なマーカー数を用いてarベースローカライズの性能を最大化する。 カメラが捉えたビデオストリームは、一連のマーカー認識、サブセット選択、フィルタリング操作によって高精度なポーズ推定を行う。 以上の結果から,ar位置推定システムの位置誤差を0.05m以下まで低減できることがわかった。 そして、位置データは、環境に駐在するセンサによって同時に取得されたBLEデータをアノテートするために使用されるので、地上の真実とセットされた無線信号データを構築することにより、無線信号ベースのローカライゼーションシステムを正確に評価することができる。

We introduce a novel technique and an associated high resolution dataset that aims to precisely evaluate wireless signal based indoor positioning algorithms. The technique implements an augmented reality (AR) based positioning system that is used to annotate the wireless signal parameter data samples with high precision position data. We track the position of a practical and low cost navigable setup of cameras and a Bluetooth Low Energy (BLE) beacon in an area decorated with AR markers. We maximize the performance of the AR-based localization by using a redundant number of markers. Video streams captured by the cameras are subjected to a series of marker recognition, subset selection and filtering operations to yield highly precise pose estimations. Our results show that we can reduce the positional error of the AR localization system to a rate under 0.05 meters. The position data are then used to annotate the BLE data that are captured simultaneously by the sensors stationed in the environment, hence, constructing a wireless signal data set with the ground truth, which allows a wireless signal based localization system to be evaluated accurately.
翻訳日:2022-09-07 13:25:43 公開日:2022-09-06
# 2次類似性下での高速なフェデレーション最適化

Faster federated optimization under second-order similarity ( http://arxiv.org/abs/2209.02257v1 )

ライセンス: Link先を確認
Ahmed Khaled and Chi Jin(参考訳) フェデレーション・ラーニング(FL)は、複数のクライアントが通信制約の下でネットワーク上のモデルを協調的に学習しようとする機械学習のサブフィールドである。 二階関数類似性条件と強い凸性の下での有限サム連立最適化を考察し、svrpと触媒svrpという2つの新しいアルゴリズムを提案する。 この2階類似性条件は近年普及しており、分散統計学習や微分プライベートな経験的リスク最小化を含む多くの応用で満足されている。 最初のアルゴリズムであるSVRPは、近似確率的近点評価、クライアントサンプリング、分散低減を組み合わせたものである。 SVRPは通信効率が高く,関数の類似性が十分高い場合,既存の多くのアルゴリズムよりも優れた性能を示す。 第2のアルゴリズムである Catalyzed SVRP は触媒加速型 SVRP で,より優れた性能を実現し,第2次類似性と強い凸性の下でのフェデレーション最適化のための既存のアルゴリズムを均一に改善する。 これらのアルゴリズムを解析する過程で、独立性のある確率的近点法(SPPM)を新たに分析する。 我々のSPPMの解析は単純で、近似的近点評価が可能であり、滑らかさの仮定を必要としない。

Federated learning (FL) is a subfield of machine learning where multiple clients try to collaboratively learn a model over a network under communication constraints. We consider finite-sum federated optimization under a second-order function similarity condition and strong convexity, and propose two new algorithms: SVRP and Catalyzed SVRP. This second-order similarity condition has grown popular recently, and is satisfied in many applications including distributed statistical learning and differentially private empirical risk minimization. The first algorithm, SVRP, combines approximate stochastic proximal point evaluations, client sampling, and variance reduction. We show that SVRP is communication efficient and achieves superior performance to many existing algorithms when function similarity is high enough. Our second algorithm, Catalyzed SVRP, is a Catalyst-accelerated variant of SVRP that achieves even better performance and uniformly improves upon existing algorithms for federated optimization under second-order similarity and strong convexity. In the course of analyzing these algorithms, we provide a new analysis of the Stochastic Proximal Point Method (SPPM) that might be of independent interest. Our analysis of SPPM is simple, allows for approximate proximal point evaluations, does not require any smoothness assumptions, and shows a clear benefit in communication complexity over ordinary distributed stochastic gradient descent.
翻訳日:2022-09-07 13:22:17 公開日:2022-09-06
# グラフポリラプラシアンを用いた回帰収束速度

Rates of Convergence for Regression with the Graph Poly-Laplacian ( http://arxiv.org/abs/2209.02305v1 )

ライセンス: Link先を確認
Nicol\'as Garc\'ia Trillos, Ryan Murray, Matthew Thorpe(参考訳) 特別な)平滑化スプライン問題では、二次データ忠実性ペナルティとラプラシアン正則化を持つ変分問題を考える。 より高次規則性は、ラプラシア正規化器をポリラプラシア正規化器に置き換えることで得られる。 本手法はグラフに容易に適応でき, 完全に教師付き, 非パラメトリック, ノイズ崩壊, 回帰問題においてグラフポリラプラシアン正則化を考える。 特に、データセット $\{x_i\}_{i=1}^n$ とノイズラベルの集合 $\{y_i\}_{i=1}^n\subset\mathbb{R}$ を与えられると、$u_n:\{x_i\}_{i=1}^n\to\mathbb{R}$ は、データフィデリティ項と適切にスケールされたグラフポリラプラシアン項からなるエネルギーのミニミザーとなる。 iid ノイズ $\xi_i$ に対して $y_i = g(x_i)+\xi_i$ とすると、幾何ランダムグラフを用いて、大容量データ制限$n\to\infty$ において $u_n$ から $g$ への収束率を(高い確率で)同定する。 さらに、対数に対する我々の速度は、通常の滑らかなスプラインモデルにおける既知の収束率と一致する。

In the (special) smoothing spline problem one considers a variational problem with a quadratic data fidelity penalty and Laplacian regularisation. Higher order regularity can be obtained via replacing the Laplacian regulariser with a poly-Laplacian regulariser. The methodology is readily adapted to graphs and here we consider graph poly-Laplacian regularisation in a fully supervised, non-parametric, noise corrupted, regression problem. In particular, given a dataset $\{x_i\}_{i=1}^n$ and a set of noisy labels $\{y_i\}_{i=1}^n\subset\mathbb{R}$ we let $u_n:\{x_i\}_{i=1}^n\to\mathbb{R}$ be the minimiser of an energy which consists of a data fidelity term and an appropriately scaled graph poly-Laplacian term. When $y_i = g(x_i)+\xi_i$, for iid noise $\xi_i$, and using the geometric random graph, we identify (with high probability) the rate of convergence of $u_n$ to $g$ in the large data limit $n\to\infty$. Furthermore, our rate, up to logarithms, coincides with the known rate of convergence in the usual smoothing spline model.
翻訳日:2022-09-07 13:21:54 公開日:2022-09-06
# LSTM深層学習モデルを用いたCOVID-19による回復症例への影響解析

Impact analysis of recovery cases due to COVID19 using LSTM deep learning model ( http://arxiv.org/abs/2209.02173v1 )

ライセンス: Link先を確認
Md Ershadul Haque, Samiul Hoque(参考訳) 現在世界は新型コロナウイルス(covid-19)の影響を受けている。 新型コロナウイルスの感染者を特定するための医療キットの使用は非常に遅い。 次に何が起こるかは誰も知らない。 世界は不安定な問題に直面しており、近い将来何が起こるか分からない。 本稿では,LSTM(Long Short Term Memory)を用いて,新型コロナウイルスの回復例の予後について検討する。 この研究は、緯度と経度、および22-01-2020から27-02-2021までの403日間の死亡数、258の地域のデータを利用した。 具体的には、LSTMと呼ばれる高度な深層学習に基づくアルゴリズムは、時系列データ(TSD)解析において非常に重要な特徴を抽出する上で大きな効果を発揮する。 本研究の主な課題は, LSTM深層学習アーキテクチャを用いて, 世界的な回復症例におけるコロナウイルスの拡散を解析することである。

The present world is badly affected by novel coronavirus (COVID-19). Using medical kits to identify the coronavirus affected persons are very slow. What happens in the next, nobody knows. The world is facing erratic problem and do not know what will happen in near future. This paper is trying to make prognosis of the coronavirus recovery cases using LSTM (Long Short Term Memory). This work exploited data of 258 regions, their latitude and longitude and the number of death of 403 days ranging from 22-01-2020 to 27-02-2021. Specifically, advanced deep learning-based algorithms known as the LSTM, play a great effect on extracting highly essential features for time series data (TSD) analysis.There are lots of methods which already use to analyze propagation prediction. The main task of this paper culminates in analyzing the spreading of Coronavirus across worldwide recovery cases using LSTM deep learning-based architectures.
翻訳日:2022-09-07 13:19:22 公開日:2022-09-06
# 腎構造セグメンテーションにおけるU-Netの評価

An evaluation of U-Net in Renal Structure Segmentation ( http://arxiv.org/abs/2209.02247v1 )

ライセンス: Link先を確認
Haoyu Wang, Ziyan Huang, Jin Ye, Can Tu, Yuncheng Yang, Shiyi Du, Zhongying Deng, Chenglong Ma, Jingqi Niu, Junjun He(参考訳) CT血管造影から腎組織への分画は,多くのコンピュータ支援腎癌治療に必須である。 Kidney PArsing~(KiPA 2022) Challengeは、きめ細かいマルチ構造データセットを構築し、複数の腎構造のセグメンテーションを改善することを目的としている。 近年、U-Netは医療画像のセグメンテーションを支配している。 KiPA チャレンジでは,いくつかの U-Net 変種を評価し,最終提案に最適なモデルを選択した。

Renal structure segmentation from computed tomography angiography~(CTA) is essential for many computer-assisted renal cancer treatment applications. Kidney PArsing~(KiPA 2022) Challenge aims to build a fine-grained multi-structure dataset and improve the segmentation of multiple renal structures. Recently, U-Net has dominated the medical image segmentation. In the KiPA challenge, we evaluated several U-Net variants and selected the best models for the final submission.
翻訳日:2022-09-07 13:19:07 公開日:2022-09-06
# データプライバシのための人工匿名トレーニングによるマルチクラス分類器による故障予測

Multi-class Classifier based Failure Prediction with Artificial and Anonymous Training for Data Privacy ( http://arxiv.org/abs/2209.02275v1 )

ライセンス: Link先を確認
Dibakar Das, Vikram Seshasai, Vineet Sudhir Bhat, Pushkal Juneja, Jyotsna Bapat, Debabrata Das(参考訳) 本稿では,開発者からの利用可能な情報と(ログ全体をマイニングするのではなく)生ログからの最小限の情報を用いて,データ所有者と完全にプライベートなデータを保持する新しいシステム障害予測手法を提案する。 ニューラルネットワークを用いたマルチクラス分類器を開発し、人工的に生成された匿名データセットを用いて、アルゴリズム、遺伝的アルゴリズム(ステップ)、パターン反復などを組み合わせてネットワークを訓練し、テストする。 提案するメカニズムは、トレーニングに使用するデータセットを、プライベートに保持された実際のデータから完全に分離する。 さらに、ビジネス要件を満たす障害を優先順位付けするために、MCDM(Multi-criteria decision making)スキームが使用される。 その結果,異なるパラメータ構成下での故障予測精度が向上した。 より広い文脈では、入力特徴をバイナリ値(例えば、プライベートバイナリ分類器からの出力)に変換できる限り、実際のデータを見ることなく、人工的に生成されたデータセットで提案されたメカニズムを使って、障害予測以外の分類問題を実行し、分類・アズ・ア・サービスを提供できる。

This paper proposes a novel non-intrusive system failure prediction technique using available information from developers and minimal information from raw logs (rather than mining entire logs) but keeping the data entirely private with the data owners. A neural network based multi-class classifier is developed for failure prediction, using artificially generated anonymous data set, applying a combination of techniques, viz., genetic algorithm (steps), pattern repetition, etc., to train and test the network. The proposed mechanism completely decouples the data set used for training process from the actual data which is kept private. Moreover, multi-criteria decision making (MCDM) schemes are used to prioritize failures meeting business requirements. Results show high accuracy in failure prediction under different parameter configurations. On a broader context, any classification problem, beyond failure prediction, can be performed using the proposed mechanism with artificially generated data set without looking into the actual data as long as the input features can be translated to binary values (e.g. output from private binary classifiers) and can provide classification-as-a-service.
翻訳日:2022-09-07 13:15:31 公開日:2022-09-06
# リモートセンシングタスクのためのマルチモーダルコントラスト学習

Multimodal contrastive learning for remote sensing tasks ( http://arxiv.org/abs/2209.02329v1 )

ライセンス: Link先を確認
Umangi Jain, Alex Wilson, Varun Gulshan(参考訳) 自己監視手法は、リモートセンシングや医用画像の応用など、コンピュータビジョンの分野で大きな成功を収めている。 SimCLR、MoCo、MoCo-v2のような、最も一般的なコントラストベースのメソッドは、イメージに複雑な拡張を適用して正のペアを生成し、負の例と対比することで、同じイメージの複数のビューを使用する。 これらのテクニックはうまく機能するが、ほとんどのテクニックはImageNet(および同様のコンピュータビジョンデータセット)でチューニングされている。 ポジティブなサンプルでよりリッチな変形を捉えようとする試みがいくつかあったが、本研究では、コントラスト学習フレームワークにおいて、リモートセンシングデータのポジティブな例を生成するための有望な代替案について検討する。 同じ場所にある異なるセンサーと近くのタイムスタンプから撮影された画像は、同じシーンの強い強化された例と考えることができ、手作りの強力な拡張を探索し調整する必要がなくなる。 本稿では,Sentinel-1 と Sentinel-2 の画像ペアのラベルなしデータセット (~1M) で事前トレーニングされた,単純なデュアルエンコーダフレームワークを提案する。 本研究では,2つのリモートセンシング下流タスク(洪水セグメンテーションとランドカバーマッピング)における埋め込み実験を行い,この手法から学習した埋め込みが,積極的データ拡張による正のサンプル収集という従来の手法よりも優れていることを示す。

Self-supervised methods have shown tremendous success in the field of computer vision, including applications in remote sensing and medical imaging. Most popular contrastive-loss based methods like SimCLR, MoCo, MoCo-v2 use multiple views of the same image by applying contrived augmentations on the image to create positive pairs and contrast them with negative examples. Although these techniques work well, most of these techniques have been tuned on ImageNet (and similar computer vision datasets). While there have been some attempts to capture a richer set of deformations in the positive samples, in this work, we explore a promising alternative to generating positive examples for remote sensing data within the contrastive learning framework. Images captured from different sensors at the same location and nearby timestamps can be thought of as strongly augmented instances of the same scene, thus removing the need to explore and tune a set of hand crafted strong augmentations. In this paper, we propose a simple dual-encoder framework, which is pre-trained on a large unlabeled dataset (~1M) of Sentinel-1 and Sentinel-2 image pairs. We test the embeddings on two remote sensing downstream tasks: flood segmentation and land cover mapping, and empirically show that embeddings learnt from this technique outperform the conventional technique of collecting positive examples via aggressive data augmentations.
翻訳日:2022-09-07 13:03:10 公開日:2022-09-06
# 運動アーチファクト分類と心臓磁気共鳴画像分割のためのマルチタスクスイム変換器

Multi-task Swin Transformer for Motion Artifacts Classification and Cardiac Magnetic Resonance Image Segmentation ( http://arxiv.org/abs/2209.02470v1 )

ライセンス: Link先を確認
Michal K. Grzeszczyk, Szymon P{\l}otka, Arkadiusz Sitek(参考訳) 心臓磁気共鳴イメージングは、心臓解剖学と機能の評価に一般的に用いられる。 心臓疾患の診断には左室と右室の血流プールと左室心筋のデライン化が重要である。 残念なことに、CMR取得過程における患者の移動は、最終画像に現れる運動アーティファクトをもたらす可能性がある。 このようなアーティファクトはcmr画像の診断品質を低下させ、手術を強制的にリセットする。 本稿では,CMRxMotionの課題であるCMRセグメント化と動作アーティファクト分類の2つのタスクを同時に解くためのマルチタスクUNEt TRansformerネットワークを提案する。 セグメンテーションと分類の両方をマルチタスク学習のアプローチとして活用し,cmrの診断品質を判定し,同時にマスクを生成する。 CMR画像は3つの診断品質クラスに分類されるが、非重度モーションアーティファクトを持つ全てのサンプルはセグメンテーションされている。 5-Foldクロスバリデーションを用いてトレーニングした5つのネットワークのアンサンブルは、DICE係数0.871のセグメンテーション性能と0.595の分類精度を達成する。

Cardiac Magnetic Resonance Imaging is commonly used for the assessment of the cardiac anatomy and function. The delineations of left and right ventricle blood pools and left ventricular myocardium are important for the diagnosis of cardiac diseases. Unfortunately, the movement of a patient during the CMR acquisition procedure may result in motion artifacts appearing in the final image. Such artifacts decrease the diagnostic quality of CMR images and force redoing of the procedure. In this paper, we present a Multi-task Swin UNEt TRansformer network for simultaneous solving of two tasks in the CMRxMotion challenge: CMR segmentation and motion artifacts classification. We utilize both segmentation and classification as a multi-task learning approach which allows us to determine the diagnostic quality of CMR and generate masks at the same time. CMR images are classified into three diagnostic quality classes, whereas, all samples with non-severe motion artifacts are being segmented. Ensemble of five networks trained using 5-Fold Cross-validation achieves segmentation performance of DICE coefficient of 0.871 and classification accuracy of 0.595.
翻訳日:2022-09-07 13:01:35 公開日:2022-09-06
# 暗黙モデルによるベイズ型ニューラルネットワーク推定と後続予測分布

Bayesian Neural Network Inference via Implicit Models and the Posterior Predictive Distribution ( http://arxiv.org/abs/2209.02188v1 )

ライセンス: Link先を確認
Joel Janek Dabrowski, Daniel Edward Pagendam(参考訳) 本稿では,ベイズニューラルネットワークなどの複雑なモデルにおいて近似ベイズ推定を行うための新しい手法を提案する。 このアプローチは、マルコフ連鎖モンテカルロよりも大規模データに対してよりスケーラブルであり、変分推論よりも表現力のあるモデルを採用しており、逆のトレーニング(あるいは密度比の推定)に依存しない。 我々は,(1)回帰や分類を行うための一次モデル,(2)一次モデルのパラメータに近似した後続分布を定義する二次的表現的(暗黙的)モデルという,2つのモデルを構築するための最近のアプローチを採用する。 しかし、モンテカルロの予測分布の推定値(後部モデル以外の)に基づいて、勾配降下による後部モデルのパラメータを最適化する。 可能性のみを指定する必要があり、損失関数や合成可能性といった様々な形式を取ることができるため、可能性のないアプローチの形式を提供する。 さらに, 後方試料が一次モデルへの入力に依存しない, あるいは条件的に依存できるようなアプローチを定式化する。 後者のアプローチは、一次モデルの明らかな複雑さを増大させることができる。 これは代理モデルや物理モデルのような応用に有用であると考えています。 不確実性定量化やマルチモダリティ,さらには先日のディープ予測ニューラルネットワークアーキテクチャを用いたアプリケーションなど,ベイズパラダイムが不確実性定量化以上のものを提供する方法を示す。

We propose a novel approach to perform approximate Bayesian inference in complex models such as Bayesian neural networks. The approach is more scalable to large data than Markov Chain Monte Carlo, it embraces more expressive models than Variational Inference, and it does not rely on adversarial training (or density ratio estimation). We adopt the recent approach of constructing two models: (1) a primary model, tasked with performing regression or classification; and (2) a secondary, expressive (e.g. implicit) model that defines an approximate posterior distribution over the parameters of the primary model. However, we optimise the parameters of the posterior model via gradient descent according to a Monte Carlo estimate of the posterior predictive distribution -- which is our only approximation (other than the posterior model). Only a likelihood needs to be specified, which can take various forms such as loss functions and synthetic likelihoods, thus providing a form of a likelihood-free approach. Furthermore, we formulate the approach such that the posterior samples can either be independent of, or conditionally dependent upon the inputs to the primary model. The latter approach is shown to be capable of increasing the apparent complexity of the primary model. We see this being useful in applications such as surrogate and physics-based models. To promote how the Bayesian paradigm offers more than just uncertainty quantification, we demonstrate: uncertainty quantification, multi-modality, as well as an application with a recent deep forecasting neural network architecture.
翻訳日:2022-09-07 12:58:06 公開日:2022-09-06
# 決定論的分類器のためのPAC-Bayes境界

A PAC-Bayes bound for deterministic classifiers ( http://arxiv.org/abs/2209.02525v1 )

ライセンス: Link先を確認
Eugenio Clerico and George Deligiannidis and Benjamin Guedj and Arnaud Doucet(参考訳) 連続時間(非確率的)勾配降下によって訓練される分類器に対して,分解されたpac-ベイズ境界を確立する。 PAC-Bayesian設定の標準と対照的に、我々の結果は、決定論的であり、ランダム初期化に条件づけられたトレーニングアルゴリズムに適用され、$\textit{de-randomisation}$ step は不要である。 我々は,提案する境界の主な特徴について幅広い議論を行い,線形モデル上での解析的,実証的にその挙動を研究し,有望な結果を得た。

We establish a disintegrated PAC-Bayesian bound, for classifiers that are trained via continuous-time (non-stochastic) gradient descent. Contrarily to what is standard in the PAC-Bayesian setting, our result applies to a training algorithm that is deterministic, conditioned on a random initialisation, without requiring any $\textit{de-randomisation}$ step. We provide a broad discussion of the main features of the bound that we propose, and we study analytically and empirically its behaviour on linear models, finding promising results.
翻訳日:2022-09-07 12:57:42 公開日:2022-09-06
# 機械学習に関する調査

A Survey of Machine Unlearning ( http://arxiv.org/abs/2209.02299v1 )

ライセンス: Link先を確認
Thanh Tam Nguyen and Thanh Trung Huynh and Phi Le Nguyen and Alan Wee-Chung Liew and Hongzhi Yin and Quoc Viet Hung Nguyen(参考訳) コンピュータシステムは何十年にもわたって大量の個人データを保持している。 一方、そのようなデータ豊富さは人工知能(AI)、特に機械学習(ML)モデルのブレークスルーを可能にする。 一方で、ユーザーのプライバシーを脅かし、人間とaiの間の信頼を弱める可能性がある。 最近の規制では、ユーザに関する個人情報は一般にコンピュータシステムから、特に要求に応じてMLモデルから削除することが要求されている(例えば「忘れられる権利」)。 バックエンドデータベースからデータを削除するのは簡単だが、mlモデルが古いデータを“記憶する”場合が多いため、aiコンテキストでは不十分である。 既存の敵攻撃は、訓練されたモデルから個人メンバーシップやトレーニングデータの属性を学習できることを証明した。 この現象は、機械学習モデルに特定のデータについて忘れさせる新しいパラダイム、すなわち機械学習の学習を要求する。 機械学習に関する最近の研究は、共通のフレームワークやリソースが不足しているため、この問題を完全に解決できなかった。 本稿では,その定義,シナリオ,機構,応用において,機械学習を徹底的に検討することを目的とする。 具体的には、最先端の研究のカテゴリのコレクションとして、機械学習とその様々な定式化、設計要件、削除要求、アルゴリズム、およびさまざまなmlアプリケーションでの使用を求める人々に幅広い参照を提供したいと考えています。 さらに、このパラダイムの重要な発見とトレンドを概説するとともに、機械学習の応用をまだ見ていないが、それでも大きなメリットがある新しい研究領域を強調したいと思います。 この調査は、ML研究者だけでなく、プライバシー技術の革新を目指す人たちにも貴重な参考になることを期待しています。 私たちのリソースはhttps://github.com/tamlhp/awesome-machine-unlearningにあります。

Computer systems hold a large amount of personal data over decades. On the one hand, such data abundance allows breakthroughs in artificial intelligence (AI), especially machine learning (ML) models. On the other hand, it can threaten the privacy of users and weaken the trust between humans and AI. Recent regulations require that private information about a user can be removed from computer systems in general and from ML models in particular upon request (e.g. the "right to be forgotten"). While removing data from back-end databases should be straightforward, it is not sufficient in the AI context as ML models often "remember" the old data. Existing adversarial attacks proved that we can learn private membership or attributes of the training data from the trained models. This phenomenon calls for a new paradigm, namely machine unlearning, to make ML models forget about particular data. It turns out that recent works on machine unlearning have not been able to solve the problem completely due to the lack of common frameworks and resources. In this survey paper, we seek to provide a thorough investigation of machine unlearning in its definitions, scenarios, mechanisms, and applications. Specifically, as a categorical collection of state-of-the-art research, we hope to provide a broad reference for those seeking a primer on machine unlearning and its various formulations, design requirements, removal requests, algorithms, and uses in a variety of ML applications. Furthermore, we hope to outline key findings and trends in the paradigm as well as highlight new areas of research that have yet to see the application of machine unlearning, but could nonetheless benefit immensely. We hope this survey provides a valuable reference for ML researchers as well as those seeking to innovate privacy technologies. Our resources are at https://github.com/tamlhp/awesome-machine-unlearning.
翻訳日:2022-09-07 12:50:50 公開日:2022-09-06
# 対称行列分解を再考する: より一般的でより良いクラスタリングの視点

Rethinking Symmetric Matrix Factorization: A More General and Better Clustering Perspective ( http://arxiv.org/abs/2209.02528v1 )

ライセンス: Link先を確認
Mengyuan Zhang and Kai Liu(参考訳) 非負行列分解(NMF)は強い解釈性を持つクラスタリングに広く用いられている。 一般的なNMF問題の中で、対称NMFは、各要素がデータポイント間の類似度を測定するグラフクラスタリングにおいて重要な役割を果たす特別な問題である。 既存の対称nmfアルゴリズムの多くは、係数行列が非負であることを必要とし、元の行列とクラスタリングの近似とのギャップを最小化することだけに焦点を当てている。 本稿では,非負である必要のない対称行列を分解し,クラスタリング性能を高めるために正規化項を持つ効率的な因子化アルゴリズムを提案する。 さらに, 因子行列に対する制約が異なる対称行列分解問題を解くために, より一般化した枠組みが提案されている。

Nonnegative matrix factorization (NMF) is widely used for clustering with strong interpretability. Among general NMF problems, symmetric NMF is a special one which plays an important role for graph clustering where each element measures the similarity between data points. Most existing symmetric NMF algorithms require factor matrices to be nonnegative, and only focus on minimizing the gap between the original matrix and its approximation for clustering, without giving a consideration to other potential regularization terms which can yield better clustering. In this paper, we explore to factorize a symmetric matrix that does not have to be nonnegative, presenting an efficient factorization algorithm with a regularization term to boost the clustering performance. Moreover, a more generalized framework is proposed to solve symmetric matrix factorization problems with different constraints on the factor matrices.
翻訳日:2022-09-07 12:50:21 公開日:2022-09-06
# k平均を用いた能動推論ポリシー空間の効率的な探索

Efficient search of active inference policy spaces using k-means ( http://arxiv.org/abs/2209.02550v1 )

ライセンス: Link先を確認
Alex B. Kiefer, and Mahault Albarracin(参考訳) 我々は、各ポリシーをベクトル空間への埋め込みにマッピングすることで、大きなポリシー空間を効率的に探索できるアクティブ推論におけるポリシー選択手法を開発した。 空間内の代表点の期待自由エネルギーをサンプリングし、この初期サンプルにおいて最も期待できる点についてより徹底的なポリシー探索を行う。 ポリシ埋め込み空間の作成には様々なアプローチを検討し,k-meansクラスタリングを用いて代表点を選択することを提案する。 目的指向グラフトラバース問題に適用し, 極端に大きなグラフに対して, ナイーブなポリシー選択が難解であることを示す。

We develop an approach to policy selection in active inference that allows us to efficiently search large policy spaces by mapping each policy to its embedding in a vector space. We sample the expected free energy of representative points in the space, then perform a more thorough policy search around the most promising point in this initial sample. We consider various approaches to creating the policy embedding space, and propose using k-means clustering to select representative points. We apply our technique to a goal-oriented graph-traversal problem, for which naive policy selection is intractable for even moderately large graphs.
翻訳日:2022-09-07 12:50:08 公開日:2022-09-06
# 多様な相互相関を持つ単段広帯域マルチラベル学習(bmiml)とその医用画像分類への応用

Single-Stage Broad Multi-Instance Multi-Label Learning (BMIML) with Diverse Inter-Correlations and its application to medical image classification ( http://arxiv.org/abs/2209.02625v1 )

ライセンス: Link先を確認
Qi Lai, Jianhang Zhou, Yanfen Gan, Chi-Man Vong, Deshuang Huang(参考訳) 多くの実世界のアプリケーションでは、1つのオブジェクト(例えばイメージ)は複数のインスタンス(例えばイメージパッチ)によって表現され、同時に複数のラベルに関連付けられる。 このような応用はマルチインスタンスマルチラベル学習(miml)問題として定式化され、過去数年間にわたって広く研究されてきた。 既存のMIMLメソッドは多くのアプリケーションで有用であるが、そのほとんどはいくつかの問題により比較的低い精度と訓練効率に悩まされている。 一 ラベル間の相関関係(即ち、対象に対応する複数のラベル間の確率的相関関係)を無視すること。 二 インスタンス間相関は、欠落したインスタンスラベルによる他の種類の相関と直接(又は共同で)学習することはできない。 三 多様な相互相関(例えば、ラベル間相関、インスタンス間相関)は、複数の段階でしか学べない。 これらの問題を解決するために,広帯域マルチインスタンス・マルチラベル学習(BMIML)と呼ばれる新しいシングルステージフレームワークを提案する。 BMIMLには3つの革新的なモジュールがある。 一 広範学習システム(BLS)に基づく自己強調ラベル強化学習(AWLEL) 二 スケーラブルマルチインスタンス確率回帰(SMIPR)という、特定のMIMLニューラルネットワーク 三 最後に、対話型意思決定最適化(IDO)。 結果として、BMIMLは、画像、インスタンス、ラベルの相互関係を単一のステージで同時学習することで、より高い分類精度とより高速なトレーニング時間を実現できる。 実験の結果、BMIMLは既存の手法よりも精度が高く、大きな医療画像データセット(>90K画像)であってもほとんどのMIML法よりもはるかに高速であることがわかった。

In many real-world applications, one object (e.g., image) can be represented or described by multiple instances (e.g., image patches) and simultaneously associated with multiple labels. Such applications can be formulated as multi-instance multi-label learning (MIML) problems and have been extensively studied during the past few years. Existing MIML methods are useful in many applications but most of which suffer from relatively low accuracy and training efficiency due to several issues: i) the inter-label correlations (i.e., the probabilistic correlations between the multiple labels corresponding to an object) are neglected; ii) the inter-instance correlations cannot be learned directly (or jointly) with other types of correlations due to the missing instance labels; iii) diverse inter-correlations (e.g., inter-label correlations, inter-instance correlations) can only be learned in multiple stages. To resolve these issues, a new single-stage framework called broad multi-instance multi-label learning (BMIML) is proposed. In BMIML, there are three innovative modules: i) an auto-weighted label enhancement learning (AWLEL) based on broad learning system (BLS); ii) A specific MIML neural network called scalable multi-instance probabilistic regression (SMIPR); iii) Finally, an interactive decision optimization (IDO). As a result, BMIML can achieve simultaneous learning of diverse inter-correlations between whole images, instances, and labels in single stage for higher classification accuracy and much faster training time. Experiments show that BMIML is highly competitive to (or even better than) existing methods in accuracy and much faster than most MIML methods even for large medical image data sets (> 90K images).
翻訳日:2022-09-07 12:40:46 公開日:2022-09-06
# 埋め込み空間におけるトランスフォーマーの解析

Analyzing Transformers in Embedding Space ( http://arxiv.org/abs/2209.02535v1 )

ライセンス: Link先を確認
Guy Dar, Mor Geva, Ankit Gupta, Jonathan Berant(参考訳) Transformerベースのモデルを理解することは、機械学習における最近の技術進歩の中心にあるため、大きな注目を集めている。 ほとんどの解釈可能性法は入力上のモデルの実行に依存しているが、最近の研究は、パラメータが前方/後方のパスなしで直接解釈されるゼロパスアプローチがトランスフォーマーパラメータや2層アテンションネットワークで実現可能であることを示した。 本研究では,学習したトランスフォーマーのすべてのパラメータを,埋め込み空間,すなわち操作する語彙項目の空間に投影することで解釈する理論解析について述べる。 議論を支持するための単純な理論的枠組みを導き、その妥当性を示す十分な証拠を提供する。 第一に、事前学習と微調整の両方のモデルのパラメータが埋め込み空間で解釈できることを示す経験的解析である。 次に、フレームワークの2つの応用例を示す。 (a)語彙を共有する異なるモデルのパラメータを調整し、 b) " ``lating'' でトレーニングせずに分類器を、事前訓練された異なるモデルのパラメータに微調整分類器のパラメータを変換する。 全体としては、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。

Understanding Transformer-based models has attracted significant attention, as they lie at the heart of recent technological advances across machine learning. While most interpretability methods rely on running models over inputs, recent work has shown that a zero-pass approach, where parameters are interpreted directly without a forward/backward pass is feasible for some Transformer parameters, and for two-layer attention networks. In this work, we present a theoretical analysis where all parameters of a trained Transformer are interpreted by projecting them into the embedding space, that is, the space of vocabulary items they operate on. We derive a simple theoretical framework to support our arguments and provide ample evidence for its validity. First, an empirical analysis showing that parameters of both pretrained and fine-tuned models can be interpreted in embedding space. Second, we present two applications of our framework: (a) aligning the parameters of different models that share a vocabulary, and (b) constructing a classifier without training by ``translating'' the parameters of a fine-tuned classifier to parameters of a different model that was only pretrained. Overall, our findings open the door to interpretation methods that, at least in part, abstract away from model specifics and operate in the embedding space only.
翻訳日:2022-09-07 12:39:41 公開日:2022-09-06
# トリプルストリームネットワークによるリアルタイムキャトル相互作用認識

Real-Time Cattle Interaction Recognition via Triple-stream Network ( http://arxiv.org/abs/2209.02241v1 )

ライセンス: Link先を確認
Yang Yang, Mizuka Komatsu, Kenji Oyama, Takenao Ohkawa(参考訳) 牛の飼育において、コンピュータビジョンに基づくアプローチは牛の状態(例えば、身体、生理学、健康)を監視するために広く用いられている。 この目的のためには、牛の行動の正確かつ効果的な認識が必須である。 一般的に、既存のモデルは個々の行動に制限されており、ビデオベースの手法で各牛の行動を認識する空間的-時間的特徴を抽出する。 しかし、牛の間では社会性があり、その相互作用は通常、エストラスのような重要な条件を反映し、ビデオベースの手法はモデルのリアルタイム能力を無視している。 そこで,本稿では,牛同士の相互作用を一つのフレームでリアルタイムに認識する課題に挑戦する。 本手法のパイプラインには,キャトル局所化ネットワークとインタラクション認識ネットワークの2つの主要モジュールが含まれている。 牛のローカライゼーションネットワークは、検出されたすべての牛から高品質なインタラクション提案を出力し、それをトリプルストリームアーキテクチャによるインタラクション認識ネットワークに供給する。 このような3重ストリームネットワークは、インタラクションの認識に関連するさまざまな特徴を融合させることができます。 特に、3種類の特徴は、相互作用提案の外観表現を抽出する視覚的特徴、牛間の空間的関係を反映した幾何学的特徴、および個々の行動と牛の相互作用の関係に関する我々の事前知識を捉えた意味的特徴である。 また,ラベル付きデータの量不足の問題を解決するために,自己教師付き学習に基づいてモデルを事前学習する。 質的,定量的な評価は,牛の相互作用をリアルタイムで認識する有効な方法として,我々の枠組みの性能を示すものである。

In stockbreeding of beef cattle, computer vision-based approaches have been widely employed to monitor cattle conditions (e.g. the physical, physiology, and health). To this end, the accurate and effective recognition of cattle action is a prerequisite. Generally, most existing models are confined to individual behavior that uses video-based methods to extract spatial-temporal features for recognizing the individual actions of each cattle. However, there is sociality among cattle and their interaction usually reflects important conditions, e.g. estrus, and also video-based method neglects the real-time capability of the model. Based on this, we tackle the challenging task of real-time recognizing interactions between cattle in a single frame in this paper. The pipeline of our method includes two main modules: Cattle Localization Network and Interaction Recognition Network. At every moment, cattle localization network outputs high-quality interaction proposals from every detected cattle and feeds them into the interaction recognition network with a triple-stream architecture. Such a triple-stream network allows us to fuse different features relevant to recognizing interactions. Specifically, the three kinds of features are a visual feature that extracts the appearance representation of interaction proposals, a geometric feature that reflects the spatial relationship between cattle, and a semantic feature that captures our prior knowledge of the relationship between the individual action and interaction of cattle. In addition, to solve the problem of insufficient quantity of labeled data, we pre-train the model based on self-supervised learning. Qualitative and quantitative evaluation evidences the performance of our framework as an effective method to recognize cattle interaction in real time.
翻訳日:2022-09-07 12:32:37 公開日:2022-09-06
# PTSEFormer:映像オブジェクト検出に向けた時間空間拡張変換器

PTSEFormer: Progressive Temporal-Spatial Enhanced TransFormer Towards Video Object Detection ( http://arxiv.org/abs/2209.02242v1 )

ライセンス: Link先を確認
Han Wang, Jun Tang, Xiaodong Liu, Shanyan Guan, Rong Xie, Li Song(参考訳) 近年,映像オブジェクト検出としてのオブジェクト検出の性能向上にコンテキストフレームを適用する傾向が見られた。 既存のメソッドは通常、1ストロークで機能を集約して機能を強化する。 しかし、これらの手法は通常、隣接するフレームからの空間情報がなく、特徴集約が不十分である。 この問題に対処するため、我々は時間情報と空間情報の両方を導入し、統合された拡張を行う。 コンテキストフレームとターゲットフレーム(すなわち、検出されるフレーム)との間の注意機構を実行することにより、時間的特徴集約モデル(tfam)によって時間的情報を導入する。 一方、各コンテキストフレームと対象フレーム間の位置遷移情報を伝達するために、空間遷移認識モデル(STAM)を用いる。 我々のPTSEFormerは、変換器ベースの検出器DETRをベースとして、ImageNet VIDデータセットで88.1%のmAPを達成しつつ、重い後処理手順を避けるために、エンドツーエンドのスタイルも踏襲しています。 コードはhttps://github.com/Hon-Wong/PTSEFormerで入手できる。

Recent years have witnessed a trend of applying context frames to boost the performance of object detection as video object detection. Existing methods usually aggregate features at one stroke to enhance the feature. These methods, however, usually lack spatial information from neighboring frames and suffer from insufficient feature aggregation. To address the issues, we perform a progressive way to introduce both temporal information and spatial information for an integrated enhancement. The temporal information is introduced by the temporal feature aggregation model (TFAM), by conducting an attention mechanism between the context frames and the target frame (i.e., the frame to be detected). Meanwhile, we employ a Spatial Transition Awareness Model (STAM) to convey the location transition information between each context frame and target frame. Built upon a transformer-based detector DETR, our PTSEFormer also follows an end-to-end fashion to avoid heavy post-processing procedures while achieving 88.1% mAP on the ImageNet VID dataset. Codes are available at https://github.com/Hon-Wong/PTSEFormer.
翻訳日:2022-09-07 12:32:12 公開日:2022-09-06
# 意味結合vqモデルを用いた意味画像合成

Semantic Image Synthesis with Semantically Coupled VQ-Model ( http://arxiv.org/abs/2209.02536v1 )

ライセンス: Link先を確認
Stephan Alaniz, Thomas Hummel, Zeynep Akata(参考訳) セマンティック画像合成は、生成されているものに関するガイダンスを提供することで、無条件画像生成を制御することができる。 本稿では,ベクトル量子化モデル (VQ-model) から遅延空間を条件付きで合成する。 自己回帰トランスフォーマーを個別に学習した条件付潜時と画像用潜時を訓練する代わりに、条件付潜時と画像用潜時を共同で学習することで、トランスフォーマーモデルのモデリング能力を大幅に向上させることがわかった。 共同学習したvqモデルとsemanticとimage latentsの両方でvanilla vq-modelと同様の再構成性能が得られたが,オートエンコーディング段階での2つのモダリティの結合は,自己回帰的モデリング性能を向上させる上で重要な要素であることが証明された。 提案手法は,ade20k,cityscapes,coco-stuffを用いた自己回帰モデルを用いて意味画像合成を改善する。

Semantic image synthesis enables control over unconditional image generation by allowing guidance on what is being generated. We conditionally synthesize the latent space from a vector quantized model (VQ-model) pre-trained to autoencode images. Instead of training an autoregressive Transformer on separately learned conditioning latents and image latents, we find that jointly learning the conditioning and image latents significantly improves the modeling capabilities of the Transformer model. While our jointly trained VQ-model achieves a similar reconstruction performance to a vanilla VQ-model for both semantic and image latents, tying the two modalities at the autoencoding stage proves to be an important ingredient to improve autoregressive modeling performance. We show that our model improves semantic image synthesis using autoregressive models on popular semantic image datasets ADE20k, Cityscapes and COCO-Stuff.
翻訳日:2022-09-07 12:31:53 公開日:2022-09-06
# 継続的学習: 速くて遅い

Continual Learning: Fast and Slow ( http://arxiv.org/abs/2209.02370v1 )

ライセンス: Link先を確認
Quang Pham, Chenghao Liu, Steven C. H. Hoi(参考訳) 神経科学における補足学習システム(cls)理論~\cite{mcclelland1995there} によれば、人間は2つの補足的なシステムを通して効果的な \emph{continual learning} を行う。 この理論によって動機づけられた「emph{DualNets}」(デュアルネットワークのための)は、特定のタスクからパターン分離表現を指導する高速学習システムと、自己監視学習(SSL)を介してタスク非依存の汎用表現を学習する遅い学習システムからなる一般的な連続学習フレームワークである。 DualNetsは、両方の表現型を総合的なフレームワークにシームレスに組み込んで、ディープニューラルネットワークの継続的な学習を容易にする。 幅広い実験を通じて,オフライン環境からタスク対応環境,オンライン・タスクフリーシナリオまで幅広い学習プロトコルにおいて,デュアルネットの有望な結果を示す。 特に、CTrL~\cite{veniat2020efficient}ベンチマークでは、非常に異なる視覚イメージと無関係なタスクを持つため、DualNetsは既存の最先端の動的アーキテクチャ戦略~\cite{ostapenko2021continual}と競合する性能を達成できる。 さらに,デュアルネットの有効性,ロバスト性,拡張性を検証するため,包括的なアブレーション研究を行う。 コードは \url{https://github.com/phquang/DualNet} で公開されている。

According to the Complementary Learning Systems (CLS) theory~\cite{mcclelland1995there} in neuroscience, humans do effective \emph{continual learning} through two complementary systems: a fast learning system centered on the hippocampus for rapid learning of the specifics, individual experiences; and a slow learning system located in the neocortex for the gradual acquisition of structured knowledge about the environment. Motivated by this theory, we propose \emph{DualNets} (for Dual Networks), a general continual learning framework comprising a fast learning system for supervised learning of pattern-separated representation from specific tasks and a slow learning system for representation learning of task-agnostic general representation via Self-Supervised Learning (SSL). DualNets can seamlessly incorporate both representation types into a holistic framework to facilitate better continual learning in deep neural networks. Via extensive experiments, we demonstrate the promising results of DualNets on a wide range of continual learning protocols, ranging from the standard offline, task-aware setting to the challenging online, task-free scenario. Notably, on the CTrL~\cite{veniat2020efficient} benchmark that has unrelated tasks with vastly different visual images, DualNets can achieve competitive performance with existing state-of-the-art dynamic architecture strategies~\cite{ostapenko2021continual}. Furthermore, we conduct comprehensive ablation studies to validate DualNets efficacy, robustness, and scalability. Code is publicly available at \url{https://github.com/phquang/DualNet}.
翻訳日:2022-09-07 12:28:55 公開日:2022-09-06
# 初期化におけるprune と prune とは何か

What to Prune and What Not to Prune at Initialization ( http://arxiv.org/abs/2209.02201v1 )

ライセンス: Link先を確認
Maham Haroon(参考訳) トレーニング後のドロップアウトベースのアプローチは高いスパーシティを達成し、ニューラルネットワークアーキテクチャの計算コストとオーバーフィットに関する問題を解読する確立された手段である。 対照的に、初期化はまだまだ遅れている。 ネットワークの計算コストのスケーリングに関しては,初期化プルーニングの方が有効だ。 さらに、トレーニングのドロップアウトだけでなく、オーバーフィッティングも処理する。 以上の理由をふまえて,本論文は初期化におけるプルーンの2つのアプローチを提案する。 目標は、パフォーマンスを維持しながら高いスパーシティを達成することです。 1) k-スタートは、初期化時に k 個のランダムな p-スパース行列で始まる。 最初の2つのエポックで、ネットワークはこれらのp疎行列の「適度なテスト」を決定し、p疎ネットワークの「ラタリーチケット」を見つける。 このアプローチは、進化的アルゴリズムが最適な個人を見つける方法から採用されている。 ニューラルネットワークのアーキテクチャによっては、適合度基準はネットワークの重みの大きさ、エポックに対する勾配の蓄積度、あるいはその両方の組み合わせに基づくことができる。 2) 放散勾配のアプローチは, 初期値のごく一部に留まる重量を除去することを目的としている。 この方法で重みを除去することは、ネットワークの性能を最善に維持する。 反対に、このアプローチは高いスパース性を達成するために最もエポックを必要とする。 3) 散逸勾配とkstartの組み合わせは, 方法とランダムなドロップアウトを両立させる。 提案されたアプローチを使用する利点は次のとおりである。 1)分類タスクの特定の知識や、ドロップアウトしきい値や正規化パラメータの固定は不要である。 2) モデルの再学習は, p-sparse ネットワークの性能にも影響を与えない。

Post-training dropout based approaches achieve high sparsity and are well established means of deciphering problems relating to computational cost and overfitting in Neural Network architectures. Contrastingly, pruning at initialization is still far behind. Initialization pruning is more efficacious when it comes to scaling computation cost of the network. Furthermore, it handles overfitting just as well as post training dropout. In approbation of the above reasons, the paper presents two approaches to prune at initialization. The goal is to achieve higher sparsity while preserving performance. 1) K-starts, begins with k random p-sparse matrices at initialization. In the first couple of epochs the network then determines the "fittest" of these p-sparse matrices in an attempt to find the "lottery ticket" p-sparse network. The approach is adopted from how evolutionary algorithms find the best individual. Depending on the Neural Network architecture, fitness criteria can be based on magnitude of network weights, magnitude of gradient accumulation over an epoch or a combination of both. 2) Dissipating gradients approach, aims at eliminating weights that remain within a fraction of their initial value during the first couple of epochs. Removing weights in this manner despite their magnitude best preserves performance of the network. Contrarily, the approach also takes the most epochs to achieve higher sparsity. 3) Combination of dissipating gradients and kstarts outperforms either methods and random dropout consistently. The benefits of using the provided pertaining approaches are: 1) They do not require specific knowledge of the classification task, fixing of dropout threshold or regularization parameters 2) Retraining of the model is neither necessary nor affects the performance of the p-sparse network.
翻訳日:2022-09-07 12:27:58 公開日:2022-09-06
# アスペクト・ツー・ドキュメンテーション・センティメント構成の明示的利用によるゼロショットアスペクトレベルのセンティメント分類

Zero-shot Aspect-level Sentiment Classification via Explicit Utilization of Aspect-to-Document Sentiment Composition ( http://arxiv.org/abs/2209.02276v1 )

ライセンス: Link先を確認
Pengfei Deng, Jianhua Yuan, Yanyan Zhao, Bing Qin(参考訳) アスペクトレベルの感情ラベルは高価で、取得に労力がかかるため、アノテーション付きアスペクトレベルのデータを用いることなく、新しいドメインに適用可能な分類を学習するためにゼロショットのアスペクトレベルの感情分類を提案する。 対照的に、評価付き文書レベルの感情データはよりアクセスしやすい。 本研究では,文書レベルのレビューのみを用いて,ゼロショットのアスペクトレベルの感情分類を実現する。 我々の重要な直感は、文書の感情表現が、その文書のすべての側面の感情表現から成り立っていることである。 そこで我々は,このような感情構成をレビューで明示的にモデル化するAF-DSC法を提案する。 AF-DSCはまずすべての潜在的側面に対する感情表現を学び、次にアスペクトレベルの感情を文書レベルの感情分類に集約し、文書レベルの感情分類を行う。 このように、文書レベルの感情分類器の副産物としてアスペクトレベルの感情分類器を得る。 アスペクトレベルの感情分類ベンチマークの実験結果は、文書レベルの感情分類における感情構成の明示的な利用の有効性を示す。 30kのトレーニングデータしか持たない私たちのモデルは、数百万のデータを利用する以前の作業より優れています。

As aspect-level sentiment labels are expensive and labor-intensive to acquire, zero-shot aspect-level sentiment classification is proposed to learn classifiers applicable to new domains without using any annotated aspect-level data. In contrast, document-level sentiment data with ratings are more easily accessible. In this work, we achieve zero-shot aspect-level sentiment classification by only using document-level reviews. Our key intuition is that the sentiment representation of a document is composed of the sentiment representations of all the aspects of that document. Based on this, we propose the AF-DSC method to explicitly model such sentiment composition in reviews. AF-DSC first learns sentiment representations for all potential aspects and then aggregates aspect-level sentiments into a document-level one to perform document-level sentiment classification. In this way, we obtain the aspect-level sentiment classifier as the by-product of the document-level sentiment classifier. Experimental results on aspect-level sentiment classification benchmarks demonstrate the effectiveness of explicit utilization of sentiment composition in document-level sentiment classification. Our model with only 30k training data outperforms previous work utilizing millions of data.
翻訳日:2022-09-07 12:26:55 公開日:2022-09-06
# コールセンター対話の抽出要約法の比較

Comparing Methods for Extractive Summarization of Call Centre Dialogue ( http://arxiv.org/abs/2209.02472v1 )

ライセンス: Link先を確認
Alexandra N. Uma, Dmitry Sityaev(参考訳) 本稿では,コンタクトセンターソリューションのコールサマリー作成を目的としたテキスト要約手法の評価結果を提供する。 特に,ラベル付きデータを必要とせず,比較的迅速かつ容易に本番環境に実装できる抽出型要約手法に注目した。 本研究では,複数のアノテータの判断を(ROUGE-Lを用いて)客観的に,そして主観的に(複数のアノテータの判断を集約することによって)これらのサマリを合成する手法を実験的に比較した。 TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的,客観的評価ともに比較的低いスコアを得た。 その結果,pb-n canのような単純なヒューリスティックスに基づく手法であっても,コールセンター対話の有意義で有用な要約が得られることがわかった。

This paper provides results of evaluating some text summarisation techniques for the purpose of producing call summaries for contact centre solutions. We specifically focus on extractive summarisation methods, as they do not require any labelled data and are fairly quick and easy to implement for production use. We experimentally compare several such methods by using them to produce summaries of calls, and evaluating these summaries objectively (using ROUGE-L) and subjectively (by aggregating the judgements of several annotators). We found that TopicSum and Lead-N outperform the other summarisation methods, whilst BERTSum received comparatively lower scores in both subjective and objective evaluations. The results demonstrate that even such simple heuristics-based methods like Lead-N ca n produce meaningful and useful summaries of call centre dialogues.
翻訳日:2022-09-07 12:26:37 公開日:2022-09-06
# 自然会話における機械学習モデルの説明--対話型xaiエージェントに向けて

Explaining Machine Learning Models in Natural Conversations: Towards a Conversational XAI Agent ( http://arxiv.org/abs/2209.02552v1 )

ライセンス: Link先を確認
Van Bach Nguyen, J\"org Schl\"otterer, Christin Seifert(参考訳) 説明可能なAI(XAI)の目標は、深層ニューラルネットワークのようなブラックボックスモデルの推論プロセスに関する洞察を提供する方法を設計し、それらを人間に説明することである。 社会科学の研究は、このような説明は人間と人間の説明と同様、会話的であるべきだと述べている。 本稿では,自然言語理解と生成成分を含むエージェントの標準設計を用いて,対話型エージェントにxaiを組み込む方法を示す。 我々は,ユーザの情報ニーズを理解するために,品質制御されたパラフレーズによって拡張されたXAI質問銀行を構築した。 さらに,これらの質問に答える情報を提供する適切な説明方法として文献を体系的に調査し,提案の包括的なリストを示す。 私たちの仕事は、説明エージェントによる機械学習モデルに関する真に自然な会話への第一歩です。 XAI質問の包括的リストとそれに対応する説明手法は、ユーザの要求に対処するために必要な情報を提供する他の研究者を支援することができる。

The goal of Explainable AI (XAI) is to design methods to provide insights into the reasoning process of black-box models, such as deep neural networks, in order to explain them to humans. Social science research states that such explanations should be conversational, similar to human-to-human explanations. In this work, we show how to incorporate XAI in a conversational agent, using a standard design for the agent comprising natural language understanding and generation components. We build upon an XAI question bank which we extend by quality-controlled paraphrases to understand the user's information needs. We further systematically survey the literature for suitable explanation methods that provide the information to answer those questions, and present a comprehensive list of suggestions. Our work is the first step towards truly natural conversations about machine learning models with an explanation agent. The comprehensive list of XAI questions and the corresponding explanation methods may support other researchers in providing the necessary information to address users' demands.
翻訳日:2022-09-07 12:26:23 公開日:2022-09-06
# Commonsense Knowledge Priors を用いた行動記述型ヒューマンオブジェクトインタラクションの再構築

Reconstructing Action-Conditioned Human-Object Interactions Using Commonsense Knowledge Priors ( http://arxiv.org/abs/2209.02485v1 )

ライセンス: Link先を確認
Xi Wang, Gen Li, Yen-Ling Kuo, Muhammed Kocabas, Emre Aksan, Otmar Hilliges(参考訳) 画像から人-物間相互作用の多様な3次元モデルを推定する手法を提案する。 1枚の2d画像から人間が複雑なシーンでどのようにオブジェクトと相互作用するかを推論することは、投影による情報の喪失から生じる曖昧さを考えると難しい課題である。 さらに、3dインタラクションのモデリングには、多様なオブジェクトカテゴリとインタラクションタイプに対する一般化機能が必要である。 本研究では,人間と物体の多様な3次元配置を,接触領域や3次元シーン形状の監督なしに推測できるインタラクションの動作条件モデリングを提案する。 本手法は,大規模言語モデル(gpt-3など)から高レベルコモンセンス知識を抽出し,人間と物体の相互作用を3次元推論する。 我々の重要な洞察は、大きな言語モデルから抽出された先行情報が、文章のプロンプトからのみ人間と物体の接触を推測するのに役立ちます。 大規模人・物間相互作用データセットを用いて推定された3次元モデルを定量的に評価し,提案手法がより優れた3次元再構成を実現する方法を示す。 さらに,実画像における本手法の有効性を定性的に評価し,対話型や対象カテゴリに対する一般化性を示す。

We present a method for inferring diverse 3D models of human-object interactions from images. Reasoning about how humans interact with objects in complex scenes from a single 2D image is a challenging task given ambiguities arising from the loss of information through projection. In addition, modeling 3D interactions requires the generalization ability towards diverse object categories and interaction types. We propose an action-conditioned modeling of interactions that allows us to infer diverse 3D arrangements of humans and objects without supervision on contact regions or 3D scene geometry. Our method extracts high-level commonsense knowledge from large language models (such as GPT-3), and applies them to perform 3D reasoning of human-object interactions. Our key insight is priors extracted from large language models can help in reasoning about human-object contacts from textural prompts only. We quantitatively evaluate the inferred 3D models on a large human-object interaction dataset and show how our method leads to better 3D reconstructions. We further qualitatively evaluate the effectiveness of our method on real images and demonstrate its generalizability towards interaction types and object categories.
翻訳日:2022-09-07 12:26:08 公開日:2022-09-06
# ディープCCAニューラルデータ正規化器によるCNNの精度とロバスト性の向上

Improving the Accuracy and Robustness of CNNs Using a Deep CCA Neural Data Regularizer ( http://arxiv.org/abs/2209.02582v1 )

ライセンス: Link先を確認
Cassidy Pirlot, Richard C. Gerum, Cory Efird, Joel Zylberberg, Alona Fyshe(参考訳) 畳み込みニューラルネットワーク(CNN)がオブジェクト認識においてより正確になるにつれて、それらの表現は霊長類の視覚システムとよりよく似ている。 CNN表現が脳に似たものになったら、ネットワークはもっと正確になるのでしょうか? この問題に対処する以前の試みは、正規化法の制限により、精度が極端に向上した。 これらの制限を克服するため,我々は,CNNのイメージ表現とサル視覚野との類似性を最適化するために,ディープカノニカル相関解析(DCCA)を用いたCNNの新しいニューラルデータ正規化器を開発した。 この新しいニューラルデータ正規化器を用いることで、従来の最先端のニューラルデータ正規化器と比較して、分類精度とクラス内精度の両方において、はるかに大きなパフォーマンス向上が見られる。 これらのネットワークは、非正規のネットワークよりも敵の攻撃に対して強固である。 これらの結果から,ニューラルネットワークの正規化によってcnnのパフォーマンスが向上することを確認した。

As convolutional neural networks (CNNs) become more accurate at object recognition, their representations become more similar to the primate visual system. This finding has inspired us and other researchers to ask if the implication also runs the other way: If CNN representations become more brain-like, does the network become more accurate? Previous attempts to address this question showed very modest gains in accuracy, owing in part to limitations of the regularization method. To overcome these limitations, we developed a new neural data regularizer for CNNs that uses Deep Canonical Correlation Analysis (DCCA) to optimize the resemblance of the CNN's image representations to that of the monkey visual cortex. Using this new neural data regularizer, we see much larger performance gains in both classification accuracy and within-super-class accuracy, as compared to the previous state-of-the-art neural data regularizers. These networks are also more robust to adversarial attacks than their unregularized counterparts. Together, these results confirm that neural data regularization can push CNN performance higher, and introduces a new method that obtains a larger performance boost.
翻訳日:2022-09-07 12:22:07 公開日:2022-09-06
# 自然言語理解のためのEntity Aware Syntax Treeに基づくデータ拡張

Entity Aware Syntax Tree Based Data Augmentation for Natural Language Understanding ( http://arxiv.org/abs/2209.02267v1 )

ライセンス: Link先を確認
Jiaxing Xu, Jianbin Cui, Jiangneng Li, Wenge Rong and Noboru Matsuda(参考訳) ユーザの意図を理解し、文から意味的エンティティを認識することは、自然言語理解(nlu)と呼ばれ、多くの自然言語処理タスクの上流タスクである。 主な課題のひとつは、モデルのトレーニングに十分な量の注釈データを集めることだ。 テキスト増補に関する既存の研究は、エンティティを十分に考慮していないため、NLUタスクに悪影響を及ぼす。 この問題を解決するために,木構造を適用した新しいNLPデータ拡張手法であるEntity Aware Data Augmentation (EADA) ,Entity Aware Syntax Tree (EAST) を提案する。 我々のEADA技術は、少量の注釈付きデータからEASTを自動的に構築し、インテント検出とスロットフィリングのための多数のトレーニングインスタンスを生成する。 4つのデータセットの実験結果から,提案手法は,精度と一般化能力の両方の観点から,既存のデータ拡張手法よりも有意に優れていた。

Understanding the intention of the users and recognizing the semantic entities from their sentences, aka natural language understanding (NLU), is the upstream task of many natural language processing tasks. One of the main challenges is to collect a sufficient amount of annotated data to train a model. Existing research about text augmentation does not abundantly consider entity and thus performs badly for NLU tasks. To solve this problem, we propose a novel NLP data augmentation technique, Entity Aware Data Augmentation (EADA), which applies a tree structure, Entity Aware Syntax Tree (EAST), to represent sentences combined with attention on the entity. Our EADA technique automatically constructs an EAST from a small amount of annotated data, and then generates a large number of training instances for intent detection and slot filling. Experimental results on four datasets showed that the proposed technique significantly outperforms the existing data augmentation methods in terms of both accuracy and generalization ability.
翻訳日:2022-09-07 12:21:19 公開日:2022-09-06
# GFlowNetsで生成モデルを統一する

Unifying Generative Models with GFlowNets ( http://arxiv.org/abs/2209.02606v1 )

ライセンス: Link先を確認
Dinghuai Zhang, Ricky T. Q. Chen, Nikolay Malkin, Yoshua Bengio(参考訳) 深層生成モデリングのフレームワークは数多く存在し、それぞれに独自のトレーニングアルゴリズムと推論メソッドが提示されることが多い。 本稿では,既存の深層生成モデルとgflownetフレームワークとの接続について,その重複する特徴に光を当て,マルコフ軌跡を用いた学習レンズを通して統一的な視点を提供する。 これは、トレーニングと推論アルゴリズムを統一する手段を提供し、生成モデルの集合を構築するためのルートを提供する。

There are many frameworks for deep generative modeling, each often presented with their own specific training algorithms and inference methods. We present a short note on the connections between existing deep generative models and the GFlowNet framework, shedding light on their overlapping traits and providing a unifying viewpoint through the lens of learning with Markovian trajectories. This provides a means for unifying training and inference algorithms, and provides a route to construct an agglomeration of generative models.
翻訳日:2022-09-07 12:20:23 公開日:2022-09-06
# 自動ランダムグルーピングによる雑音環境における大規模最適化問題に対する距離ベース選択による協調進化的差分進化

Cooperative coevolutionary Modified Differential Evolution with Distance-based Selection for Large-Scale Optimization Problems in noisy environments through an automatic Random Grouping ( http://arxiv.org/abs/2209.00777v2 )

ライセンス: Link先を確認
Rui Zhong and Masaharu Munetomo(参考訳) 多くの最適化問題はノイズに悩まされており、非線形性チェックに基づく分解法(例えば微分グルーピング)は乗法的雑音環境における変数間の相互作用を完全に検出できないため、雑音環境における大規模最適化問題(LSOP)を分解することは困難である。 本稿では,ユーザが指定した明示的なハイパーパラメータを必要としない自動ランダムグループ(aRG)を提案する。 シミュレーション実験と数学的解析により、aRGはフィットネスランドスケープの知識を使わずに変数間の相互作用を検出でき、aRGによって分解されたサブプロブレムはより小さく、EAの最適化が容易であることが示された。 協調的共進化 (CC) の枠組みに基づき, ノイズの多い環境下での探索能力を高めるために, 距離を用いた改良微分進化 (MDE-DS) という高度な最適化手法を導入する。 パラメータ自己適応, 多様化と拡大のバランス, 距離ベース確率選択は, MDE-DSを探索と利用の能力に優れていた。 提案手法の性能を評価するため,CEC2013 LSGO Suite に基づく雑音環境下での様々な分離性を有する500ドルと1,000ドルを設計した。 数値実験により,ノイズの多い環境下でLSOPを解き,高次元問題に容易に拡張できる可能性が示唆された。

Many optimization problems suffer from noise, and nonlinearity check-based decomposition methods (e.g. Differential Grouping) will completely fail to detect the interactions between variables in multiplicative noisy environments, thus, it is difficult to decompose the large-scale optimization problems (LSOPs) in noisy environments. In this paper, we propose an automatic Random Grouping (aRG), which does not need any explicit hyperparameter specified by users. Simulation experiments and mathematical analysis show that aRG can detect the interactions between variables without the fitness landscape knowledge, and the sub-problems decomposed by aRG have smaller scales, which is easier for EAs to optimize. Based on the cooperative coevolution (CC) framework, we introduce an advanced optimizer named Modified Differential Evolution with Distance-based Selection (MDE-DS) to enhance the search ability in noisy environments. Compared with canonical DE, the parameter self-adaptation, the balance between diversification and intensification, and the distance-based probability selection endow MDE-DS with stronger ability in exploration and exploitation. To evaluate the performance of our proposal, we design $500$-D and $1000$-D problems with various separability in noisy environments based on the CEC2013 LSGO Suite. Numerical experiments show that our proposal has broad prospects to solve LSOPs in noisy environments and can be easily extended to higher-dimensional problems.
翻訳日:2022-09-07 10:44:29 公開日:2022-09-06
# 新しい配列の単純なドイツ語コーパス

A New Aligned Simple German Corpus ( http://arxiv.org/abs/2209.01106v2 )

ライセンス: Link先を確認
Vanessa Toborek and Moritz Busch and Malte Bo{\ss}ert and Christian Bauckhage and Pascal Welke(参考訳) ドイツ語で「leichte sprache」を意味する「leichte sprache」は、異なる集団に通じない複雑な文字言語を促進することを目的とした規制された言語である。 単純ドイツ語のための文列単言語コーパスを新たに提案する。 自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。 文書を手動でラベル付けしたサブセットに基づいてアライメントを評価する。 文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。 データセットはCC BY-SAで公開し、対応するコードはMITライセンスで公開します。

"Leichte Sprache", the German counterpart to Simple English, is a regulated language aiming to facilitate complex written language that would otherwise stay inaccessible to different groups of people. We present a new sentence-aligned monolingual corpus for Simple German -- German. It contains multiple document-aligned sources which we have aligned using automatic sentence-alignment methods. We evaluate our alignments based on a manually labelled subset of aligned documents. The quality of our sentence alignments, as measured by F1-score, surpasses previous work. We publish the dataset under CC BY-SA and the accompanying code under MIT license.
翻訳日:2022-09-07 10:43:41 公開日:2022-09-06
# CLONeR:Occupancy Grid-Aided Neural Representationのためのカメラライダーフュージョン

CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural Representations ( http://arxiv.org/abs/2209.01194v2 )

ライセンス: Link先を確認
Alexandra Carlson, Manikandasriram Srinivasan Ramanagopal, Nathan Tseng, Matthew Johnson-Roberson, Ram Vasudevan, Katherine A. Skinner(参考訳) ニューラルラジアンス場(NeRF)の最近の進歩は、最先端の斬新なビュー合成を実現し、シーン特性の高密度な推定を容易にする。 しかし、NeRFは、フィールドロボティクスの応用に典型的なように、カメラから遠ざかるシーンコンテンツで、非常に狭い視野で撮影される、大きくて無界なシーンでは失敗することが多い。 特に、nerf方式のアルゴリズムは、(1)ポーズの多様性が乏しいビューが不足している場合、(2)シーンが飽和と影を含んでいる場合、(3)微細な構造を持つ大きなアンバウンドシーンを微細にサンプリングする場合には計算集約的になる。 本稿では,スパーク入力センサビューから観測される大規模な屋外走行シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。 これは、NeRFフレームワーク内の占有と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。 さらに,NeRFモデルと平行に3D Occupancy Grid Maps (OGM) を構築するための新しい手法を提案し,この占有網を利用して距離空間におけるボリュームレンダリングのための線に沿った点のサンプリングを改善する。 提案手法は,KITTIデータセットから得られたシーンの定量的および定性的な実験を通じて,スパース入力データを用いたトレーニングにおいて,新しいビュー合成および深度予測タスクにおいて,最先端のNeRFモデルよりも優れた性能を示すことを示す。

Recent advances in neural radiance fields (NeRFs) achieve state-of-the-art novel view synthesis and facilitate dense estimation of scene properties. However, NeRFs often fail for large, unbounded scenes that are captured under very sparse views with the scene content concentrated far away from the camera, as is typical for field robotics applications. In particular, NeRF-style algorithms perform poorly: (1) when there are insufficient views with little pose diversity, (2) when scenes contain saturation and shadows, and (3) when finely sampling large unbounded scenes with fine structures becomes computationally intensive. This paper proposes CLONeR, which significantly improves upon NeRF by allowing it to model large outdoor driving scenes that are observed from sparse input sensor views. This is achieved by decoupling occupancy and color learning within the NeRF framework into separate Multi-Layer Perceptrons (MLPs) trained using LiDAR and camera data, respectively. In addition, this paper proposes a novel method to build differentiable 3D Occupancy Grid Maps (OGM) alongside the NeRF model, and leverage this occupancy grid for improved sampling of points along a ray for volumetric rendering in metric space. Through extensive quantitative and qualitative experiments on scenes from the KITTI dataset, this paper demonstrates that the proposed method outperforms state-of-the-art NeRF models on both novel view synthesis and dense depth prediction tasks when trained on sparse input data.
翻訳日:2022-09-07 10:43:33 公開日:2022-09-06
# 拡散モデル:方法と応用に関する総合的な調査

Diffusion Models: A Comprehensive Survey of Methods and Applications ( http://arxiv.org/abs/2209.00796v2 )

ライセンス: Link先を確認
Ling Yang, Zhilong Zhang, Shenda Hong, Wentao Zhang(参考訳) 拡散モデルは、密集した理論的基礎を持つ様々なタスクで印象的な結果を示す、深い生成モデルのクラスである。 拡散モデルは、他の最先端モデルよりも優れた品質と多彩なサンプル合成を達成したが、それでもコストのかかるサンプリング手順と最適度推定に苦しむ。 近年の研究では拡散モデルの性能向上に大きな関心が寄せられている。 本稿では, 拡散モデルの既存変種について, 初めて包括的レビューを行う。 具体的には,拡散モデルの最初の分類法を提供し,サンプリング・アクセラレーション・エンハンスメント,可能性最大化・データ一般化エンハンスメントという3つのタイプに分類する。 また、他の5つの生成モデル(変分オートエンコーダ、生成逆ネットワーク、正規化フロー、自己回帰モデル、エネルギーベースモデル)を詳細に紹介し、拡散モデルとそれらの生成モデルとの関係を明らかにする。 次に,コンピュータビジョン,自然言語処理,波形信号処理,マルチモーダルモデリング,分子グラフ生成,時系列モデリング,対向的浄化などの拡散モデルの適用について,徹底的に検討する。 さらに,この生成モデルの開発に関する新たな視点を提案する。

Diffusion models are a class of deep generative models that have shown impressive results on various tasks with dense theoretical founding. Although diffusion models have achieved impressive quality and diversity of sample synthesis than other state-of-the-art models, they still suffer from costly sampling procedure and sub-optimal likelihood estimation. Recent studies have shown great enthusiasm on improving the performance of diffusion model. In this article, we present a first comprehensive review of existing variants of the diffusion models. Specifically, we provide a first taxonomy of diffusion models and categorize them variants to three types, namely sampling-acceleration enhancement, likelihood-maximization enhancement and data-generalization enhancement. We also introduce in detail other five generative models (i.e., variational autoencoders, generative adversarial networks, normalizing flow, autoregressive models, and energy-based models), and clarify the connections between diffusion models and these generative models. Then we make a thorough investigation into the applications of diffusion models, including computer vision, natural language processing, waveform signal processing, multi-modal modeling, molecular graph generation, time series modeling, and adversarial purification. Furthermore, we propose new perspectives pertaining to the development of this generative model.
翻訳日:2022-09-07 10:43:02 公開日:2022-09-06