このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221119となっている論文です。

PDF登録状況(公開日: 20221119)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子化された質量中心を持つ相対論的unruh-dewitt検出器

Relativistic Unruh-DeWitt detectors with quantized center of mass ( http://arxiv.org/abs/2211.10562v1 )

ライセンス: Link先を確認
Evan P. G. Gale and Magdalena Zych(参考訳) 本稿では,unruh-dewitt (udw) モデルを拡張し,古典的comを持ち,古典的軌道をたどる検出器の相対論的量子化中心 (com) を含むように拡張する。 本研究は,第1および第2量子化処理から始まる2つの異なるアプローチに従って,検出器の相対論的モデルを構築し,両者の基本的な差異を比較する。 特に, 2 つのモデル間で局在性の概念が異なることが分かり, 無質量スカラー場と相互作用するudw検出器の自発的放射率を比較することにより, 異なる予測が導かれる。 さらに,このUDWシステムを真空・媒質の双方で検討し,古典的あるいは量子化されたCOMを低エネルギーで記述した既存モデルと比較した。 2つの相対論的ケースを含む各モデルの予測は、原則として経験的に区別でき、その結果をさらに拡張して、そのような実験を行うための最適な検知状態やプロセスを見つけることができる。 これにより、外界との相互作用における定量化comの役割と、第1および第2の定量化処理における局在の違いが明確になる。

In this paper, we extend the Unruh-DeWitt (UDW) model to include a relativistic quantized center of mass (COM) for the detector, which traditionally has a classical COM and follows a classical trajectory. We develop a relativistic model of the detector following two different approaches, starting from either a first- or second-quantized treatment, which enables us to compare the fundamental differences between the two schemes. In particular, we find that the notion of localization is different between the two models, and leads to distinct predictions which we study by comparing the spontaneous emission rates for the UDW detector interacting with a massless scalar field. Furthermore, we consider the UDW system in both a vacuum and medium, and compare our results to existing models describing a classical or quantized COM at low energies. We find that the predictions of each model, including the two relativistic cases, can in principle be empirically distinguished, and our results can be further extended to find optimal detector states and processes to perform such experiments. This would clarify both the role of a quantized COM for interactions with an external field, and the differing localizations between the first- and second-quantized treatments.
翻訳日:2023-01-18 02:04:51 公開日:2022-11-19
# 耐雑音性量子パワーフロー

Noise-Resilient Quantum Power Flow ( http://arxiv.org/abs/2211.10555v1 )

ライセンス: Link先を確認
Fei Feng, Yifan Zhou, Peng Zhang(参考訳) 量子パワーフロー(qpf)は、量子コンピューティングを活用するパワーフローの計算負荷に取り組むための刺激的な指示を提供する。 しかし、既存のQPF法は主にノイズ感受性量子アルゴリズムに基づいており、その実用的利用は現在のノイズの中規模量子(NISQ)デバイスの限られた能力によって著しく妨げられている。 本稿では,ノイズ量子コンピュータ上でのパワーフロー計算を可能にするnisq-qpfアルゴリズムを考案する。 主なコントリビューションは,(1)短深さ量子回路を用いたQPFを実現する変分量子回路(VQC)に基づく交流電力フロー定式化,(2)変分量子線形解法(VQLS)に基づく雑音耐性QPFソルバ,(3)雑音量子マシン上で実装可能な信頼性の高い電力フロー解析のための実用的NISQ-QPFフレームワークである。 実証ケーススタディは、IBMの真のノイズの多い量子デバイスにおけるNISQ-QPFの有効性と精度を検証する。

Quantum power flow (QPF) provides inspiring directions for tackling power flow's computational burdens leveraging quantum computing. However, existing QPF methods are mainly based on noise-sensitive quantum algorithms, whose practical utilization is significantly hindered by the limited capability of today's noisy-intermediate-scale quantum (NISQ) devices. This paper devises a NISQ-QPF algorithm, which enables power flow calculation on noisy quantum computers. The main contributions include: (1) a variational quantum circuit (VQC)-based AC power flow formulation, which enables QPF using short-depth quantum circuits; (2) noise-resilient QPF solvers based on the variational quantum linear solver (VQLS) and modified fast decoupled power flow; (3) a practical NISQ-QPF framework for implementable and reliable power flow analysis on noisy quantum machines. Promising case studies validate the effectiveness and accuracy of NISQ-QPF on IBM's real, noisy quantum devices.
翻訳日:2023-01-18 02:04:31 公開日:2022-11-19
# ナノサテライト用偏光符号化QKD用光学ペイロードの設計と試験

Design and test of optical payload for polarization encoded QKD for Nanosatellites ( http://arxiv.org/abs/2211.10814v1 )

ライセンス: Link先を確認
Jaya Sagar, Elliott Hastings, Piede Zhang, Milan Stefko, David Lowndes, Daniel Oi, John Rarity, and Siddarth K. Joshi(参考訳) 低地球軌道(LEO)における衛星ベースの量子鍵分布(QKD)は、現在数千kmに及ぶ唯一の実用技術である。 衛星の典型的なオーバヘッドパスは数分持続するので、秘密鍵長を最大化するために信号レートを増加させることが不可欠である。 2年以内に打ち上げられる予定の QuaRC CubeSat ミッションのために、我々は二重波長、弱コヒーレントパルスのデコイ状態 Bennett-Brassard '84 (WCP DS BB84) QKD ソースを設計している。 この光学ペイロードは、12{\times}9{\times}5 cm^3$ bespoke aluminium casingで設計されている。 離散可変QKD源は、785nmと808nmで動作する2つの対称光源からなる。 レーザダイオードは、それぞれ水平、垂直、対角、対角(h,v,d,a)の偏光を発生させるように固定され、平均光子数0.3および0.5光子/パルスに減衰される。 出力ビームを空間的にフィルタリングし、スペクトルや時間特性を特徴付けることで、ほとんどのサイドチャネル攻撃に対してソースが安全であることを保証する。 源の絶滅率は、固有のQubit Error Rate (QBER) の$0.817 \pm 0.001\%$に寄与する。 このソースは200MHzで動作し、自由空間チャネルの40dBの損失にもかかわらず、数キロビット/秒のセキュアなキーレートを提供するのに十分である。

Satellite based Quantum Key Distribution (QKD) in Low Earth Orbit (LEO) is currently the only viable technology to span thousands of kilometres. Since the typical overhead pass of a satellite lasts for a few minutes, it is crucial to increase the the signal rate to maximise the secret key length. For the QUARC CubeSat mission due to be launched within two years, we are designing a dual wavelength, weak-coherent-pulse decoy-state Bennett-Brassard '84 (WCP DS BB84) QKD source. The optical payload is designed in a $12{\times}9{\times}5 cm^3$ bespoke aluminium casing. The Discrete Variable QKD Source consists of two symmetric sources operating at 785 nm and 808 nm. The laser diodes are fixed to produce Horizontal,Vertical, Diagonal, and Anti-diagonal (H,V,D,A) polarisation respectively, which are combined and attenuated to a mean photon number of 0.3 and 0.5 photons/pulse. We ensure that the source is secure against most side channel attacks by spatially mode filtering the output beam and characterising their spectral and temporal characterstics. The extinction ratio of the source contributes to the intrinsic Qubit Error Rate(QBER) with $0.817 \pm 0.001\%$. This source operates at 200MHz, which is enough to provide secure key rates of a few kilo bits per second despite 40 dB of estimated loss in the free space channel
翻訳日:2023-01-18 02:02:07 公開日:2022-11-19
# 調整された環境で導かれた光-基礎から応用まで(Ph.D.論文)

Light guided in tailored environments: from basic aspects to applications (Ph.D. thesis) ( http://arxiv.org/abs/2211.10799v1 )

ライセンス: Link先を確認
Andrzej Gajewski(参考訳) この論文は、仕立て構造における単一光子を含む量子光学効果の研究に向けられている。 6章と1章からなる。 論文の中心部分は"Theoretical background"という章から始まり、著者はその後の章を理解するのに必要な重要な量子光学概念を紹介している。 次の章では、spdc法を用いて非線形結晶中のセレマイアー係数の推定について論じる。 本手法の精度と実現性は実験結果の文脈で分析する。 次の章では、SPDCプロセスで生成された光子対波動関数の数値モデリングに焦点を当てる。 本章では,2つの異なる実験で得られた実験結果との比較を行った。 第5章は曲がった導波路のモードをモデル化し、解析的考察と数値モデリングを組み合わせたものである。 結果の正しさはCOMSOLで得られた数値シミュレーションを用いて検証した。 この章では、基本的な研究の文脈を強調した: 曲がった導波路は、軸対称の空間における量子粒子の力学の方程式に類似した方程式によって記述されている。 付録は、円筒座標における微分作用素の形式、光ファイバー中の光子伝播が光子波動関数に及ぼす影響、および軸対称の2次元空間における粒子に対するシュル・オーディンガー方程式の解析に向けられている。

This dissertation is dedicated to investigating quantum optical effects involving single photons in tailored structures. It consists of six chapters and an appendix. The central part of the thesis starts with a chapter titled "Theoretical background" where the author introduces key quantum optical concepts needed for understanding the subsequent chapters. The next chapter is devoted to a discussion of the estimation of the Sellmeier coefficient in nonlinear crystals with the SPDC process. The accuracy and feasibility of the method are analysed in the context of the experimental results. The subsequent chapter is focused on the numerical modelling of the photon pair wavefunction generated in the SPDC process. In this chapter, the author presented a comparison between numerically predicted outcomes with the experimental results obtained in two different laboratory setups. The fifth chapter is devoted to modelling the modes of the bent waveguide, combining analytical considerations and numerical modelling. The correctness of the results is verified with numerical simulations obtained in COMSOL. In this chapter author emphasized the context of basic research: It is shown that the bent waveguide is described by equations analogous to the equations of the dynamics of a quantum particle in a space with axial symmetry. The appendix is devoted to the form of the differential operator in cylindrical coordinates, the analysis of the influence of photon propagation in the optical fibre on the photon wave function and the Schr\"odinger equation for a particle in two-dimensional space with axial symmetry.
翻訳日:2023-01-18 02:01:42 公開日:2022-11-19
# 整数および半整数角運動量に対するハーヴィッツ写像と調和波関数

The Hurwitz Map and Harmonic Wave Functions for Integer and Half-Integer Angular Momentum ( http://arxiv.org/abs/2211.10775v1 )

ライセンス: Link先を確認
Sergio A. Hojman, Eduardo Nahmad-Achar, and Adolfo S\'anchez-Valenzuela(参考訳) 整数と半整数角運動量に対する調和波関数は、回転を $so(3)$ で定義するオイラー角 $(\phi,\theta,\psi)$ と、球面座標 $(r,\phi,\theta)$ の通常の意味を保ちながら、ユークリッドノルム $r$ in ${\bbb r}^3$ で与えられる。 それらは、$\Cal H=\Cal H_0\oplus\Cal H_1$という形で分解されたヒルベルト空間を形成する。 シュウィンガーの古典的な研究に続いて、2ドルの高調波発振器は半単位の波動関数の角運動量固有値を変化させる昇降作用素を生成するために用いられる。 表現空間 $\cal h$ の性質は二重被覆群準同型 $su(2)\to so(3)$ から接近し、関連する位相は hurwitz 写像 $h:{\bbb r}^4\to{\bbb r}^3$ を用いて扱う。 2-to-1 のグループマップである $g_0={\bbb r}^+\times su(2)\to {\bbb r}^+\times so(3)$ を再検討する方法を示した。${\bbb c}^2$ の適切な識別の下で、$(z_1,z_2)\mapsto (r,\phi,\theta,\psi)$ という2つの複素変数の項で$(z_1,z_2)$ を$(z_1,z_2)$ に変換する。 G_0$ のリー代数は、作用素 $\{z_1,z_2,\bar{z}_1,\bar{z}_2\}$ とそれらの随伴によって生成される 2$次元(シュヴィヒナーの)調和振動子の2つのハイゼンベルクリー代数とどのように結合しているかを示す。 作用素全体の集合は、9$次元リー代数か8$次元リー超代数に閉じる。 また、$\cal h$ の波動関数は複素座標 $(z_1,z_2)$ とその複素共役 $(\bar{z}_1,\bar{z}_2)$ の多項式の項で書くことができ、これらの表現は$g_0$ の最高重(または最低重み)ベクトル表現によって明示的に構成される。

Harmonic wave functions for integer and half-integer angular momentum are given in terms of the Euler angles $(\phi,\theta,\psi)$ that define a rotation in $SO(3)$, and the Euclidean norm $r$ in ${\Bbb R}^3$, keeping the usual meaning of the spherical coordinates $(r,\phi,\theta)$. They form a Hilbert (super)-space decomposed in the form $\Cal H=\Cal H_0\oplus\Cal H_1$. Following a classical work by Schwinger, $2$-dimensional harmonic oscillators are used to produce raising and lowering operators that change the total angular momentum eigenvalue of the wave functions in half units. The nature of the representation space $\Cal H$ is approached from the double covering group homomorphism $SU(2)\to SO(3)$ and the topology involved is taken care of by using the Hurwitz map $H:{\Bbb R}^4\to{\Bbb R}^3$. It is shown how to reconsider $H$ as a 2-to-1 group map, $G_0={\Bbb R}^+\times SU(2)\to {\Bbb R}^+\times SO(3)$, translating into an assignment $(z_1,z_2)\mapsto (r,\phi,\theta,\psi)$ in terms of two complex variables $(z_1,z_2)$, under the appropriate identification of ${\Bbb R}^4$ with ${\Bbb C}^2$. It is shown how the Lie algebra of $G_0$ is coupled with the two Heisenberg Lie algebras of the $2$-dimensional (Schwigner's) harmonic oscillators generated by the operators $\{z_1,z_2,\bar{z}_1,\bar{z}_2\}$ and their adjoints. The whole set of operators close either into a $9$-dimensional Lie algebra or into an $8$-dimensional Lie superalgebra. The wave functions in $\Cal H$ can also be written in terms polynomials in the complex coordinates $(z_1,z_2)$ and their complex conjugates $(\bar{z}_1,\bar{z}_2)$ and the representations are explicitly constructed via highest weight (or lowest weight) vector representations for $G_0$.
翻訳日:2023-01-18 02:01:19 公開日:2022-11-19
# 隠れ文字列同定のための量子アルゴリズムとマトロイド問題への応用

Quantum Algorithms for Identifying Hidden Strings with Applications to Matroid Problems ( http://arxiv.org/abs/2211.10667v1 )

ライセンス: Link先を確認
Xiaowei Huang, Shihao Zhang and Lvzhou Li(参考訳) 本稿では,最大内積オラクルとサブセットオラクルを用いて,同じ数1sを持つことを約束する$n$-bitバイナリ文字列のペアを正確に2ビットで識別する,マトロイド理論にインスパイアされたこの問題に対する量子スピードアップについて検討する。 具体的には、2つの文字列 $s, s'\in\{0, 1\}^n$ が上記の制約を満たすと、任意の$x\in\{0, 1\}^n$ の極大内積 oracle $O_{max}(x)$ は $s\cdot x$ と $s'\cdot x$ の間の最大値を返す。 量子アルゴリズムは最大内積オラクルに対して$O(1)$クエリを消費し、$\{s, s'\}$を識別し、任意の古典的アルゴリズムが$Omega(n/\log_{2}n)$クエリを必要とすることを証明する。 また、サブセットオラクルへの$\frac{n}{2}+o(\sqrt{n})$クエリを消費する量子アルゴリズムを示し、任意の古典的アルゴリズムが少なくとも$n+\omega(1)$クエリを必要とすることを示す。 したがって、量子スピードアップは2つのoracleモデルで明らかにされる。 さらに、上記の結果は、マトロイドが$k$塩基を持つ場合、マトロイドが$k$塩基と呼ばれる2塩基のマトロイドのすべての基底を見つけるという問題に適用される。

In this paper, we explore quantum speedups for the problem, inspired by matroid theory, of identifying a pair of $n$-bit binary strings that are promised to have the same number of 1s and differ in exactly two bits, by using the max inner product oracle and the sub-set oracle. More specifically, given two string $s, s'\in\{0, 1\}^n$ satisfying the above constraints, for any $x\in\{0, 1\}^n$ the max inner product oracle $O_{max}(x)$ returns the max value between $s\cdot x$ and $s'\cdot x$, and the sub-set oracle $O_{sub}(x)$ indicates whether the index set of the 1s in $x$ is a subset of that in $s$ or $s'$. We present a quantum algorithm consuming $O(1)$ queries to the max inner product oracle for identifying the pair $\{s, s'\}$, and prove that any classical algorithm requires $\Omega(n/\log_{2}n)$ queries. Also, we present a quantum algorithm consuming $\frac{n}{2}+O(\sqrt{n})$ queries to the subset oracle, and prove that any classical algorithm requires at least $n+\Omega(1)$ queries. Therefore, quantum speedups are revealed in the two oracle models. Furthermore, the above results are applied to the problem in matroid theory of finding all the bases of a 2-bases matroid, where a matroid is called $k$-bases if it has $k$ bases.
翻訳日:2023-01-18 02:00:19 公開日:2022-11-19
# 非エルミートハミルトニアンと量子論のハイブリッド形式

Hybrid form of quantum theory with non-Hermitian Hamiltonians ( http://arxiv.org/abs/2211.10633v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 1956年、フリーマン・ダイソンは、標準自己随伴ハミルトニアン $\mathfrak{h}=\mathfrak{h}^\dagger$ を、非エルミート的アイソスペクトルアバター $H =\Omega^{-1} \mathfrak{h} \Omega$ と $\Omega^\dagger\Omega=\Theta \neq I$ で置き換えるときに、Schr\"{o}dinger 方程式の実用解が促進されることを発見した。 進化の標準的なユニタリ解釈は、$\mathfrak{h}$ の `operator transformation'' (OT) 再構成や、ヒルベルト空間の計量補正 (MA) 変換、${\cal H}_{auxiliary}\to {\cal H}_{physical}$ によって達成される。 本報告では,otモデル構築戦略とmaモデル構築戦略を単純に組み合わせた'hybrid form'' (hf) のオルタナティブなエルミット化について述べる。 このアプローチの利点は、図式的な2状態量子システムを用いて示される。

In 1956, Freeman Dyson discovered that the practical solution of Schr\"{o}dinger equation may be facilitated when one replaces the standard self-adjoint Hamiltonian $\mathfrak{h}=\mathfrak{h}^\dagger$ by its manifestly non-Hermitian isospectral avatar $H =\Omega^{-1} \mathfrak{h} \Omega$ with $\Omega^\dagger\Omega=\Theta \neq I$. The standard unitary interpretation of the evolution can be then achieved either by the ``operator transformation'' (OT) reconstruction of $\mathfrak{h}$, or via a metric-amendment (MA) change of the Hilbert space, ${\cal H}_{auxiliary}\to {\cal H}_{physical}$. In our present letter we describe an alternative Hermitization of a ``hybrid form'' (HF) which simply combines the OT model-building strategy with the MA model-building strategy. The merits of the approach are illustrated using a schematic two-state quantum system.
翻訳日:2023-01-18 01:59:41 公開日:2022-11-19
# キャビティ内のフォトニック合成次元による位相材料シミュレーション

Simulating topological materials with photonic synthetic dimensions in cavities ( http://arxiv.org/abs/2211.10602v1 )

ライセンス: Link先を確認
Mu Yang, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo(参考訳) 光子は基礎物理学や実用技術において重要な役割を果たす。 それらは量子計算と量子シミュレーションの魅力的な情報キャリアの1つになっている。 近年,光共振器によって支持される様々なフォトニック自由度がフォトニック合成次元を形成し,新しいトポロジー材料をシミュレートするための全光学的プラットフォームに寄与している。 フォトニック離散あるいは連続自由度は、シミュレーションされた位相物質の格子またはモーメントにマッピングされ、光学モード間の結合は準粒子間の相互作用と等価である。 成熟した光変調は、シミュレーションハミルトニアンの柔軟な工学を可能にする。 一方、共鳴検出法は対応するエネルギーバンド構造、粒子分布、動的進化を得るための直接的アプローチを提供する。 本稿では、周波数、軌道角運動量、時間多重格子、独立パラメータを含む光学共振器の合成次元について概観する。 高次元トポロジカルモデルが低次元合成系で実証されている。 今後、フォトニック合成次元の潜在的な発展についてさらに議論する。

Photons play essential roles in fundamental physics and practical technologies. They have become one of the attractive informaiton carriers for quantum computation and quantum simulation. Recently, various photonic degrees of freedom supported by optical resonant cavities form photonic synthetic dimensions, which contribute to all-optical platforms for simulating novel topological materials. The photonic discrete or continuous degrees of freedom are mapped to the lattices or momenta of the simulated topological matter, and the couplings between optical modes are equivalent to the interactions among quasi-particles. Mature optical modulations enable flexible engineering of the simulated Hamiltonian. Meanwhile, the resonant detection methods provide direct approaches to obtaining the corresponding energy band structures, particle distributions and dynamical evolutions. In this Review, we give an overview of the synthetic dimensions in optical cavities, including frequency, orbital angular momentum, time-multiplexed lattice, and independent parameters. Abundant higher-dimensional topological models have been demonstrated in lower dimensional synthetic systems. We further discuss the potential development of photonic synthetic dimensions in the future.
翻訳日:2023-01-18 01:58:32 公開日:2022-11-19
# 二次元光学空洞におけるシリコン異方性

Silicon anisotropy in a bi-dimensional optomechanical cavity ( http://arxiv.org/abs/2211.10573v1 )

ライセンス: Link先を確認
Cau\^e M. Kersul, Rodrigo Benevides, Fl\'avio Moraes, Gabriel H. M. de Aguiar, Andreas Wallucks, Simon Gr\"oblacher, Gustavo S. Wiederhecker and Thiago P. Mayer Alegre(参考訳) 本研究では,2次元光学結晶幾何学における機械異方性の影響について検討する。 シリコンの結晶化方向に対する機械的スペクトルと装置の相対角度との光学的結合の依存性を示すため,異なる配向のデバイスを作製・測定した。 以上の結果から, デバイス配向が機械的バンド構造に強く影響し, 製造不完全化の影響を受けやすいことがわかった。 最後に, この装置は, mK温度で0.2フォノンの接地状態に到達した低温測定と互換性があることを示す。

In this work, we study the effects of mechanical anisotropy in a 2D optomechanical crystal geometry. We fabricate and measure devices with different orientations, showing the dependence of the mechanical spectrum and the optomechanical coupling with the relative angle of the device to the crystallography directions of silicon. Our results show that the device orientation strongly affects its mechanical band structure, which makes the devices more susceptible to fabrication imperfections. Finally, we show that our device is compatible with cryogenic measurements reaching ground state occupancy of 0.2 phonons at mK temperature.
翻訳日:2023-01-18 01:58:15 公開日:2022-11-19
# 希薄ボース・アインシュタイン凝縮体における音波伝搬の解法

Resolving the puzzle of sound propagation in a dilute Bose-Einstein condensate ( http://arxiv.org/abs/2211.10570v1 )

ライセンス: Link先を確認
Konstantin G. Zloshchastiev(参考訳) 波動方程式において、グロス・ピタエフスキー項は標準摂動理論によって示唆されるように2体相互作用を記述するが、対数項は本質的に非摂動的であり、量子真空効果を考慮に入れて、希薄なボース=アインシュタイン凝縮体の統一モデルが提案されている。 このモデルは、アンドリュースと共同研究者による古典的著作以来知られている冷ナトリウム原子の凝縮物における音伝搬データとよく一致していることが示されている。 このデータにより、対数項とグロス・ピタエフスキー項の強みを記述する統一モデルのパラメータの2つに制約を課すことができた。 さらに, 凝縮物内部における多体相互作用のアトラクション-反発遷移を用いて, 第3パラメータの値(モデルの対数部の特性密度スケール)を制約する実験を提案する。

A unified model of a dilute Bose-Einstein condensate is proposed, combining of the logarithmic and Gross-Pitaevskii nonlinear terms in a wave equation, where the Gross-Pitaevskii term describes two-body interactions, as suggested by standard perturbation theory; while the logarithmic term is essentially non-perturbative, and takes into account quantum vacuum effects. The model is shown to have excellent agreement with sound propagation data in the condensate of cold sodium atoms known since the now classic works by Andrews and collaborators. The data also allowed us to place constraints on two of the unified model's parameters, which describe the strengths of the logarithmic and Gross-Pitaevskii terms. Additionally, we suggest an experiment constraining the value of the third parameter (the characteristic density scale of the logarithmic part of the model), using the conjectured attraction-repulsion transition of many-body interaction inside the condensate.
翻訳日:2023-01-18 01:58:04 公開日:2022-11-19
# 自然発生ストーリーの原理予測のための機械学習アプローチ

Machine Learning Approaches for Principle Prediction in Naturally Occurring Stories ( http://arxiv.org/abs/2212.06048v1 )

ライセンス: Link先を確認
Md Sultan Al Nahian, Spencer Frazier, Brent Harrison, Mark Riedl(参考訳) 価値アライメントは、人間の価値と一致した自律的なシステムを構築するタスクである。 過去の研究は、ストーリーが人間の価値に関する情報の潜在的に豊富な情報源であることを示してきたが、過去の作業はバイナリな意味での価値を考えることに限られていた。 本研究では,自然発生するストーリーデータに対する規範原理予測タスクにおける機械学習モデルの利用について検討する。 これを実現するために、これまでに二項規範分類器のトレーニングに使用されたデータセットを道徳的原則のアノテーションで拡張する。 次に、このデータセットを使用して、さまざまな機械学習モデルをトレーニングし、これらのモデルを評価し、同じタスクを実行するように求められた人間と比較します。 個別の原則は分類できるが、「道徳的原則」が表すもののあいまいさは、人間の参加者と、同じ課題に直面している自律システムの両方に課題をもたらすことを示す。

Value alignment is the task of creating autonomous systems whose values align with those of humans. Past work has shown that stories are a potentially rich source of information on human values; however, past work has been limited to considering values in a binary sense. In this work, we explore the use of machine learning models for the task of normative principle prediction on naturally occurring story data. To do this, we extend a dataset that has been previously used to train a binary normative classifier with annotations of moral principles. We then use this dataset to train a variety of machine learning models, evaluate these models and compare their results against humans who were asked to perform the same task. We show that while individual principles can be classified, the ambiguity of what "moral principles" represent, poses a challenge for both human participants and autonomous systems which are faced with the same task.
翻訳日:2022-12-18 19:03:32 公開日:2022-11-19
# CARPのための最初の競争的アントコロニー方式

First Competitive Ant Colony Scheme for the CARP ( http://arxiv.org/abs/2212.02228v1 )

ライセンス: Link先を確認
Lacomme Philippe, Prins Christian, Tanguy Alain(参考訳) 本稿では,antコロニー最適化手法を用いたcapacitated arc routing problem (carp)について述べる。 antコロニースキームは、vrpの中規模インスタンスのソリューションを計算できる。 提案されているAnt Colonyは、140以上のノードと190の弧を持つCARPの大規模インスタンスに特化している。 antコロニースキームは局所探索手順と結合され、高品質なソリューションを提供する。 我々が行ったベンチマークは、十分な数の反復がアリに費やされた場合に、カーペットのように利益の出る解を得ることができることを示した。 ソリューションの品質に関してはLacommeらの遺伝的アルゴリズムと競合するが、大規模インスタンスでは時間がかかる。 この手法は、Eglese、DeArmon、そしてBerenguer、Benaventの有名な例に強くベンチマークされている。 この研究報告は、Ant ColonyによるCARP解決の進歩であり、Ant ColonyはTaboo検索法や遺伝的アルゴリズムと競合できることを証明している。

This paper addresses the Capacitated Arc Routing Problem (CARP) using an Ant Colony Optimization scheme. Ant Colony schemes can compute solutions for medium scale instances of VRP. The proposed Ant Colony is dedicated to large-scale instances of CARP with more than 140 nodes and 190 arcs to service. The Ant Colony scheme is coupled with a local search procedure and provides high quality solutions. The benchmarks we carried out prove possible to obtain solutions as profitable as CARPET ones can be obtained using such scheme when a sufficient number of iterations is devoted to the ants. It competes with the Genetic Algorithm of Lacomme et al. regarding solution quality but it is more time consuming on large scale instances. The method has been intensively benchmarked on the well-known instances of Eglese, DeArmon and the last ones of Belenguer and Benavent. This research report is a step forward CARP resolution by Ant Colony proving ant schemes can compete with Taboo search methods and Genetic Algorithms
翻訳日:2022-12-11 13:00:44 公開日:2022-11-19
# CF近似空間による領域の表現

Representations of Domains via CF-approximation Spaces ( http://arxiv.org/abs/2211.17099v1 )

ライセンス: Link先を確認
Guojun Wu and Luoshan Xu(参考訳) ドメインの表現は、いくつかの数学的構造の集合包含順序が与えられた適切な家族としてドメインを表す一般的な方法で意味する。 本稿では,CF近似空間による領域の表現について考察する。 CF近似空間とCF閉集合の概念を導入する。 集合包含順序で与えられる CF-近似空間における CF-閉集合の族は連続領域であり、すべての連続領域は集合包含順序で与えられる CF-閉集合の族に同型であることが証明された。 CF-近似可能関係の概念は、カテゴリー的アプローチを用いて導入され、後にCF-近似空間とCF-近似可能関係の圏が連続領域とスコット連続写像の圏と同値であるという証明を促進する。

Representations of domains mean in a general way representing a domain as a suitable family endowed with set-inclusion order of some mathematical structures. In this paper, representations of domains via CF-approximation spaces are considered. Concepts of CF-approximation spaces and CF-closed sets are introduced. It is proved that the family of CF-closed sets in a CF-approximation space endowed with set-inclusion order is a continuous domain and that every continuous domain is isomorphic to the family of CF-closed sets of some CF-approximation space endowed with set-inclusion order. The concept of CF-approximable relations is introduced using a categorical approach, which later facilitates the proof that the category of CF-approximation spaces and CF-approximable relations is equivalent to that of continuous domains and Scott continuous maps.
翻訳日:2022-12-04 14:44:00 公開日:2022-11-19
# 制約生成モデル評価用テストセットの追加による仕様の運用

Operationalizing Specifications, In Addition to Test Sets for Evaluating Constrained Generative Models ( http://arxiv.org/abs/2212.00006v1 )

ライセンス: Link先を確認
Vikas Raunak, Matt Post and Arul Menezes(参考訳) 本稿では,制約付き生成タスクに対する最先端生成モデルの評価について提案する。 生成モデルの進歩は近年急速に進んでいる。 第一に、言語と視覚の両方における生成の流動性により、システムエラーの診断において、一般的な平均ケース評価メトリクスは、あまり役に立たない。 第二に、同じ基板モデルが多くのアプリケーションの基礎を形成し、それらの表現の有用性と、そのようなモデルとの相互作用の抽象化レベルを高めるコンテキスト内学習のような現象の両方によって駆動される。 第3に、これらのモデルとそのフェットされたパブリックリリースに関するユーザの期待は、ドメインの一般化の技術的課題を、実際にははるかに少なくした。 その後、評価手法はこれらの変化に適応していない。 より具体的には、生成モデルと相互作用するユーティリティや方法が拡張されているが、同様の拡張は評価の実践では見られていない。 本稿では,生成モデルのスケールを利用して,評価自体が実行される抽象化レベルを高め,それに対するレコメンデーションを提供することができると論じる。 我々の勧告は、仕様を生成品質を評価するための強力な手段として活用することに基づいており、様々なタスクに容易に適用できる。

In this work, we present some recommendations on the evaluation of state-of-the-art generative models for constrained generation tasks. The progress on generative models has been rapid in recent years. These large-scale models have had three impacts: firstly, the fluency of generation in both language and vision modalities has rendered common average-case evaluation metrics much less useful in diagnosing system errors. Secondly, the same substrate models now form the basis of a number of applications, driven both by the utility of their representations as well as phenomena such as in-context learning, which raise the abstraction level of interacting with such models. Thirdly, the user expectations around these models and their feted public releases have made the technical challenge of out of domain generalization much less excusable in practice. Subsequently, our evaluation methodologies haven't adapted to these changes. More concretely, while the associated utility and methods of interacting with generative models have expanded, a similar expansion has not been observed in their evaluation practices. In this paper, we argue that the scale of generative models could be exploited to raise the abstraction level at which evaluation itself is conducted and provide recommendations for the same. Our recommendations are based on leveraging specifications as a powerful instrument to evaluate generation quality and are readily applicable to a variety of tasks.
翻訳日:2022-12-04 14:25:21 公開日:2022-11-19
# クラウドソーシングにおけるラベル集約のための軽量・効率的・効率的なモデル

A Light-weight, Effective and Efficient Model for Label Aggregation in Crowdsourcing ( http://arxiv.org/abs/2212.00007v1 )

ライセンス: Link先を確認
Yi Yang, Zhong-Qiu Zhao, Quan Bai, Qing Liu, Weihua Li(参考訳) クラウドソーシングラベルのノイズのため、クラウドソーシングラベルの標準手順としてラベルアグリゲーション(la)が登場している。 laメソッドは、ワーカーの品質をモデル化することで、クラウドソースのラベルから真のラベルを推定する。 既存のLA法の多くは本質的に反復的である。 すべてのクラウドソースのラベルを複数回トラバースして,真のラベルとワーカの品質をコンバージェンスまで共同で,反復的に更新する必要があります。 したがって、これらの手法は空間と時間の複雑さが高い。 本稿では,LAを動的システムとして扱い,動的ベイズネットワークとしてモデル化する。 動的モデルからLA\textsuperscript{onepass}とLA\textsuperscript{twopass}という2つの軽量アルゴリズムを導出する。 動的性質から,提案手法では過去のデータを再訪することなく,オンライン上のラベルを推定することもできる。 提案するアルゴリズムの収束特性を理論的に証明し,推定労働者品質の誤差を限定した。 また,提案アルゴリズムの空間と時間的複雑度を分析し,多数決のそれと同値であることを示す。 20個の実世界のデータセットで実施した実験により、提案アルゴリズムは、すべてのラベルを最大2回トラバースしても、オフラインとオンラインの両方でラベルを効果的かつ効率的に集約できることが示されている。

Due to the noises in crowdsourced labels, label aggregation (LA) has emerged as a standard procedure to post-process crowdsourced labels. LA methods estimate true labels from crowdsourced labels by modeling worker qualities. Most existing LA methods are iterative in nature. They need to traverse all the crowdsourced labels multiple times in order to jointly and iteratively update true labels and worker qualities until convergence. Consequently, these methods have high space and time complexities. In this paper, we treat LA as a dynamic system and model it as a Dynamic Bayesian network. From the dynamic model we derive two light-weight algorithms, LA\textsuperscript{onepass} and LA\textsuperscript{twopass}, which can effectively and efficiently estimate worker qualities and true labels by traversing all the labels at most twice. Due to the dynamic nature, the proposed algorithms can also estimate true labels online without re-visiting historical data. We theoretically prove the convergence property of the proposed algorithms, and bound the error of estimated worker qualities. We also analyze the space and time complexities of the proposed algorithms and show that they are equivalent to those of majority voting. Experiments conducted on 20 real-world datasets demonstrate that the proposed algorithms can effectively and efficiently aggregate labels in both offline and online settings even if they traverse all the labels at most twice.
翻訳日:2022-12-04 14:24:06 公開日:2022-11-19
# FPGAによる深層学習による閉ループ睡眠変調システム

A Closed-loop Sleep Modulation System with FPGA-Accelerated Deep Learning ( http://arxiv.org/abs/2211.13128v1 )

ライセンス: Link先を確認
Mingzhe Sun, Aaron Zhou, Naize Yang, Yaqian Xu, Yuhan Hou, and Xilin Liu(参考訳) クローズドループ睡眠変調は、睡眠障害の治療と睡眠改善のための新たな研究パラダイムである。 しかし、2つの大きな障壁は、この研究パラダイムの広範な適用を妨げる。 まず、被験者は、睡眠の質に悪影響を及ぼすデータ取得のためにラックマウントインスツルメンテーションにワイヤー接続する必要があることが多い。 第二に、従来のリアルタイム睡眠ステージ分類アルゴリズムは限られた性能を与える。 本研究では,デバイス上でのクローズドループ操作をサポートする睡眠変調システムの開発により,これらの2つの制約を克服する。 低消費電力フィールドプログラマブルゲートアレイ(FPGA)デバイスによって加速される軽量深層学習(DL)モデルを用いて睡眠ステージ分類を行う。 DLモデルは入力に単一チャネル脳波(EEG)を使用する。 2つの畳み込みニューラルネットワーク(CNN)は一般的な特徴と詳細な特徴を捉えるのに使われ、双方向長短メモリ(LSTM)ネットワークは時間変動シーケンスの特徴を捉えるのに使用される。 8ビット量子化は性能を損なうことなく計算コストを削減するために用いられる。 DLモデルは、81人の被験者を含む公衆睡眠データベースを用いて検証され、最先端の分類精度85.8%、F1スコア79%を達成している。 開発したモデルでは、異なるチャネルや入力データ長に一般化する可能性も示している。 テストベンチでは閉ループ内相音刺激が実証された。

Closed-loop sleep modulation is an emerging research paradigm to treat sleep disorders and enhance sleep benefits. However, two major barriers hinder the widespread application of this research paradigm. First, subjects often need to be wire-connected to rack-mount instrumentation for data acquisition, which negatively affects sleep quality. Second, conventional real-time sleep stage classification algorithms give limited performance. In this work, we conquer these two limitations by developing a sleep modulation system that supports closed-loop operations on the device. Sleep stage classification is performed using a lightweight deep learning (DL) model accelerated by a low-power field-programmable gate array (FPGA) device. The DL model uses a single channel electroencephalogram (EEG) as input. Two convolutional neural networks (CNNs) are used to capture general and detailed features, and a bidirectional long-short-term memory (LSTM) network is used to capture time-variant sequence features. An 8-bit quantization is used to reduce the computational cost without compromising performance. The DL model has been validated using a public sleep database containing 81 subjects, achieving a state-of-the-art classification accuracy of 85.8% and a F1-score of 79%. The developed model has also shown the potential to be generalized to different channels and input data lengths. Closed-loop in-phase auditory stimulation has been demonstrated on the test bench.
翻訳日:2022-11-24 16:25:33 公開日:2022-11-19
# 人工知能における文化共生

Cultural Incongruencies in Artificial Intelligence ( http://arxiv.org/abs/2211.13069v1 )

ライセンス: Link先を確認
Vinodkumar Prabhakaran, Rida Qadri, Ben Hutchinson(参考訳) 人工知能(AI)システムは人間の行動を模倣しようとする。 この模倣をいかにうまく行うかは、その実用性を評価し、人間のような(あるいは人工的な)知性をそれらに当てはめるためにしばしば使われる。 しかし、AIに関するほとんどの研究は、人間の行動が本来、彼らが埋め込まれている文化的文脈、彼らが保持する価値観と信念、それに従う社会的実践によって形作られるという事実を考慮せずに、人間の知性に言及し、依存している。 さらに、AI技術は主に少数の国で考案され開発されているため、これらの国の文化的価値観と実践を埋め込んでいる。 同様に、モデルのトレーニングに使用されるデータは、グローバルな文化的多様性を公平に表現できない。 したがって、これらの技術が世界規模で多様な社会や文化と相互作用し、異なる価値と解釈の実践によって問題が発生する。 本稿では、aiベースの言語とビジョン技術の文脈における文化的依存と不合理性について述べ、これらの不合理性に対処するための可能性と潜在的戦略を考察する。

Artificial intelligence (AI) systems attempt to imitate human behavior. How well they do this imitation is often used to assess their utility and to attribute human-like (or artificial) intelligence to them. However, most work on AI refers to and relies on human intelligence without accounting for the fact that human behavior is inherently shaped by the cultural contexts they are embedded in, the values and beliefs they hold, and the social practices they follow. Additionally, since AI technologies are mostly conceived and developed in just a handful of countries, they embed the cultural values and practices of these countries. Similarly, the data that is used to train the models also fails to equitably represent global cultural diversity. Problems therefore arise when these technologies interact with globally diverse societies and cultures, with different values and interpretive practices. In this position paper, we describe a set of cultural dependencies and incongruencies in the context of AI-based language and vision technologies, and reflect on the possibilities of and potential strategies towards addressing these incongruencies.
翻訳日:2022-11-24 15:49:25 公開日:2022-11-19
# 脳疾患分類のためのrs-fMRIを用いた動的機能接続ネットワークの自己注意に基づく高次機能再構成

Self-attention based high order sequence feature reconstruction of dynamic functional connectivity networks with rs-fMRI for brain disease classification ( http://arxiv.org/abs/2211.11750v1 )

ライセンス: Link先を確認
Zhixiang Zhang, Biao Jie, Zhengdong Wang, Jie Zhou, Yang Yang(参考訳) rs-fMRIに基づく動的機能接続ネットワーク(dFCN)は脳機能解析や脳疾患の分類において大きな可能性を示唆している。 近年,ディープラーニング技術(畳み込みニューラルネットワーク,CNN)をdFCN分類に適用し,従来の機械学習手法よりも優れた性能を実現している。 それにもかかわらず、従来のディープラーニング手法では、入力されたdFCN上で連続的な畳み込み操作を行い、高次脳ネットワーク集約機能を取得し、各スライディングウィンドウから一連のスプリットを用いてそれらを抽出し、異なる領域間の非線形相関や情報のシーケンシャル性を無視する。 そこで本研究では, 分類性能をさらに向上できる重要なdFCNの高次配列情報を無視する。 近年,自然言語処理とコンピュータビジョンにおけるtransformerの偉大な成功に触発され,rs-fmriデータに基づく脳疾患診断へのtransformerの適用に関する最新の研究も行われている。 Transformerは非線形相関を捉えることができるが、局所的な空間的特徴パターンのキャプチャや並列コンピューティングによる時間次元のモデル化は、位置符号化技術も備えていない。 これらの課題に対処するために, RS-fMRIデータを用いた脳疾患分類のための自己注意型畳み込みリカレントネットワーク(SA-CRN)学習フレームワークを提案する。 公開データセット(ADNI)における実験結果は,提案手法の有効性を示すものである。

Dynamic functional connectivity networks (dFCN) based on rs-fMRI have demonstrated tremendous potential for brain function analysis and brain disease classification. Recently, studies have applied deep learning techniques (i.e., convolutional neural network, CNN) to dFCN classification, and achieved better performance than the traditional machine learning methods. Nevertheless, previous deep learning methods usually perform successive convolutional operations on the input dFCNs to obtain high-order brain network aggregation features, extracting them from each sliding window using a series split, which may neglect non-linear correlations among different regions and the sequentiality of information. Thus, important high-order sequence information of dFCNs, which could further improve the classification performance, is ignored in these studies. Nowadays, inspired by the great success of Transformer in natural language processing and computer vision, some latest work has also emerged on the application of Transformer for brain disease diagnosis based on rs-fMRI data. Although Transformer is capable of capturing non-linear correlations, it lacks accounting for capturing local spatial feature patterns and modelling the temporal dimension due to parallel computing, even equipped with a positional encoding technique. To address these issues, we propose a self-attention (SA) based convolutional recurrent network (SA-CRN) learning framework for brain disease classification with rs-fMRI data. The experimental results on a public dataset (i.e., ADNI) demonstrate the effectiveness of our proposed SA-CRN method.
翻訳日:2022-11-23 19:33:18 公開日:2022-11-19
# GRATIS:タスク固有のトポロジと多次元エッジ特徴を持つディープラーニンググラフ表現

GRATIS: Deep Learning Graph Representation with Task-specific Topology and Multi-dimensional Edge Features ( http://arxiv.org/abs/2211.12482v1 )

ライセンス: Link先を確認
Siyang Song, Yuxin Song, Cheng Luo, Zhiyuan Song, Selim Kuzucu, Xi Jia, Zhijiang Guo, Weicheng Xie, Linlin Shen, and Hatice Gunes(参考訳) graphは、さまざまなタイプの実世界データを表現するのに強力です。 グラフのトポロジー(エッジの存在)とエッジの特徴は、グラフ内の頂点間のメッセージパッシング機構を決定する。 既存のほとんどのアプローチは、一対の頂点間の接続性や強みを記述するために、手動で単一値エッジを定義するだけであるが、タスク固有の重要な関係キューは、そのような手動で定義されたトポロジーと単一値エッジの特徴によって無視されることがある。 本稿では,任意の入力からタスク固有のトポロジーとタスク固有の多次元エッジ特徴を持つ強グラフ表現を生成する,最初の汎用グラフ表現学習フレームワーク(gratis)を提案する。 それぞれのエッジの存在と多次元の特徴を学習するために,我々のフレームワークは,対応する頂点対とそのグローバルな文脈情報の両方を考慮に入れ,生成されたグラフ表現が,下流のタスクに最適なメッセージパッシング機構を持つようにした。 11のグラフと非グラフデータセットの様々なグラフ解析タスクで達成された原則に基づく調査の結果、我々のグラティスは、事前定義されたグラフを大きく強化できるだけでなく、非グラフデータの強力なグラフ表現を学ぶことができ、すべてのタスクで明らかにパフォーマンスが向上することが示された。 特に、学習されたトポロジーと多次元エッジ機能は、グラフ分析タスクに補完的なタスク関連ヒントを提供する。 私たちのフレームワークは効率的で堅牢で柔軟性があり、さまざまなバックボーンやグラフニューラルネットワーク(gnn)と組み合わせて、さまざまなグラフや非グラフデータからタスク固有のグラフ表現を生成するプラグインアンドプレイモジュールです。 私たちのコードはhttps://github.com/SSYSteve/Learning-Graph-Representation-with-Task-specific-Topology-and-Multi-dime nsional-Edge-Featuresで公開されています。

Graph is powerful for representing various types of real-world data. The topology (edges' presence) and edges' features of a graph decides the message passing mechanism among vertices within the graph. While most existing approaches only manually define a single-value edge to describe the connectivity or strength of association between a pair of vertices, task-specific and crucial relationship cues may be disregarded by such manually defined topology and single-value edge features. In this paper, we propose the first general graph representation learning framework (called GRATIS) which can generate a strong graph representation with a task-specific topology and task-specific multi-dimensional edge features from any arbitrary input. To learn each edge's presence and multi-dimensional feature, our framework takes both of the corresponding vertices pair and their global contextual information into consideration, enabling the generated graph representation to have a globally optimal message passing mechanism for different down-stream tasks. The principled investigation results achieved for various graph analysis tasks on 11 graph and non-graph datasets show that our GRATIS can not only largely enhance pre-defined graphs but also learns a strong graph representation for non-graph data, with clear performance improvements on all tasks. In particular, the learned topology and multi-dimensional edge features provide complementary task-related cues for graph analysis tasks. Our framework is effective, robust and flexible, and is a plug-and-play module that can be combined with different backbones and Graph Neural Networks (GNNs) to generate a task-specific graph representation from various graph and non-graph data. Our code is made publicly available at https://github.com/SSYSteve/Learning-Graph-Representation-with-Task-specific-Topology-and-Multi-dime nsional-Edge-Features.
翻訳日:2022-11-23 18:55:39 公開日:2022-11-19
# ProCC: オープンワールド構成ゼロショット学習のためのプログレッシブなクロスプライミティブ一貫性

ProCC: Progressive Cross-primitive Consistency for Open-World Compositional Zero-Shot Learning ( http://arxiv.org/abs/2211.12417v1 )

ライセンス: Link先を確認
Fushuo Huo, Wenchao Xu, Song Guo, Jingcai Guo, Haozhao Wang, Ziming Liu(参考訳) open-world compositional zero-shot learning (ow-czsl) は、合成空間に先行しない画像における状態および対象プリミティブの新しい合成を認識することを目的としている。 既存の作品は結合状態オブジェクト埋め込みを学習するか、別々の分類器で単純なプリミティブを予測する。 しかし、前者は外部単語埋め込み法に大きく依存しており、後者は相互依存プリミティブの相互作用を無視している。 本稿では,プリミティブ予測法を再検討し,ow-czslタスクの人間学習プロセスを模倣するprogressive cross-primitive consistency(procc)と呼ばれる新しい手法を提案する。 具体的には、クロスプライミティブな一貫性モジュールは、トレーニング可能なメモリユニットとの状態とオブジェクトの相互作用をモデル化することを明示的に学習する。 さらに,複数タスク予測の不均衡問題だけでなく,部分スーパービジョン設定 (pCZSL) も考慮し,プリミティブな分類器が対話して識別情報を手軽に取得できるように,プログレッシブトレーニングパラダイムを設計する。 本手法がow-czslとpczslの2つの代表的な手法をlで上回ることを示す3つのベンチマークデータセットに関する広範囲な実験を行った。

Open-World Compositional Zero-shot Learning (OW-CZSL) aims to recognize novel compositions of state and object primitives in images with no priors on the compositional space, which induces a tremendously large output space containing all possible state-object compositions. Existing works either learn the joint compositional state-object embedding or predict simple primitives with separate classifiers. However, the former heavily relies on external word embedding methods, and the latter ignores the interactions of interdependent primitives, respectively. In this paper, we revisit the primitive prediction approach and propose a novel method, termed Progressive Cross-primitive Consistency (ProCC), to mimic the human learning process for OW-CZSL tasks. Specifically, the cross-primitive consistency module explicitly learns to model the interactions of state and object features with the trainable memory units, which efficiently acquires cross-primitive visual attention and avoids cross-primitive feasibility scores. Moreover, considering the partial-supervision setting (pCZSL) as well as the imbalance issue of multiple tasks prediction, we design a progressive training paradigm to enable the primitive classifiers to interact to obtain discriminative information in an easy-to-hard manner. Extensive experiments on three widely used benchmark datasets demonstrate that our method outperforms other representative methods on both OW-CZSL and pCZSL settings by l
翻訳日:2022-11-23 18:27:26 公開日:2022-11-19
# 知識強化型マルチモーダル学習に関する調査研究

A survey on knowledge-enhanced multimodal learning ( http://arxiv.org/abs/2211.12328v1 )

ライセンス: Link先を確認
Maria Lymperaiou, Giorgos Stamou(参考訳) マルチモーダル学習は、単一の関節表現に様々なモダリティを組み合わせることを目的とした関心の高まりの分野である。 特に視覚言語学(VL)の分野では、画像やテキストを含む様々なタスクを対象とする複数のモデルやテクニックが開発されている。 VLモデルはトランスフォーマーの概念を拡張し、両方のモダリティが互いに学習できるようにし、前例のない性能を達成した。 大規模な事前学習手順により、VLモデルは一定のレベルの現実的理解を得られるが、多くのギャップが特定できる: 常識、事実、時間、その他の日常的な知識の限られた理解は、VLタスクの拡張性に疑問を投げかける。 知識グラフやその他の知識ソースは、不足した情報を明示的に提供し、VLモデルの新機能をアンロックすることで、これらのギャップを埋めることができる。 同時に、知識グラフは、そのような複雑な実装において最も重要な課題である、説明可能性、公正性、意思決定の妥当性を高める。 本調査は,VL表現学習と知識グラフの分野の統合を目標とし,知識強化VLモデルの分類と分析を行う。

Multimodal learning has been a field of increasing interest, aiming to combine various modalities in a single joint representation. Especially in the area of visiolinguistic (VL) learning multiple models and techniques have been developed, targeting a variety of tasks that involve images and text. VL models have reached unprecedented performances by extending the idea of Transformers, so that both modalities can learn from each other. Massive pre-training procedures enable VL models to acquire a certain level of real-world understanding, although many gaps can be identified: the limited comprehension of commonsense, factual, temporal and other everyday knowledge aspects questions the extendability of VL tasks. Knowledge graphs and other knowledge sources can fill those gaps by explicitly providing missing information, unlocking novel capabilities of VL models. In the same time, knowledge graphs enhance explainability, fairness and validity of decision making, issues of outermost importance for such complex implementations. The current survey aims to unify the fields of VL representation learning and knowledge graphs, and provides a taxonomy and analysis of knowledge-enhanced VL models.
翻訳日:2022-11-23 16:59:47 公開日:2022-11-19
# クリーンデータの監督下でのロバストなauc最適化

Robust AUC Optimization under the Supervision of Clean Data ( http://arxiv.org/abs/2211.11751v1 )

ライセンス: Link先を確認
Chenkang Zhang(参考訳) AUC(ROC曲線の下での領域)最適化アルゴリズムは、真に不均衡なデータに対する驚くほどの適応性のために多くの注目を集めている。 実世界のデータセットは通常、モデルの性能を著しく阻害する広範囲なノイズサンプルを含んでいるが、限られた数のクリーンサンプルを容易に得ることができる。 いくつかのAUC最適化研究はノイズの多いサンプルを処分する努力をしているが、これらのクリーンなサンプルをうまく利用していない。 本稿では, クリーンサンプルを有効利用した堅牢なAUC最適化アルゴリズム(RAUCO)を提案する。 RAUCOアルゴリズムは, クリーンサンプルの監督下で, SPL(Self-paced Learning)技術を用いることで, ノイズのあるサンプルをトレーニングから排除することができる。 また,データ強化技術がSPLに与える影響を考慮し,SPLに整合性正規化という用語を革新的に導入する。 RAUCOアルゴリズムの収束に関する理論的結果は軽微な仮定の下で提供される。 包括的実験により、RAUCOアルゴリズムは既存のアルゴリズムよりも堅牢性が高いことが示された。

AUC (area under the ROC curve) optimization algorithms have drawn much attention due to the incredible adaptability for seriously imbalanced data. Real-world datasets usually contain extensive noisy samples that seriously hinder the model performance, but a limited number of clean samples can be obtained easily. Although some AUC optimization studies make an effort to dispose of noisy samples, they do not utilize such clean samples well. In this paper, we propose a robust AUC optimization algorithm (RAUCO) with good use of available clean samples. Expressly, our RAUCO algorithm can exclude noisy samples from the training by employing the technology of self-paced learning (SPL) under the supervision of clean samples. Moreover, considering the impact of the data enhancement technology on SPL, we innovatively introduce the consistency regularization term to SPL. Theoretical results on the convergence of our RAUCO algorithm are provided under mild assumptions. Comprehensive experiments demonstrate that our RAUCO algorithm holds better robustness than existing algorithms.
翻訳日:2022-11-23 16:51:14 公開日:2022-11-19
# 雑音に頑健な小文字キーワードに対するフィルタバンク学習

Filterbank Learning for Small-Footprint Keyword Spotting Robust to Noise ( http://arxiv.org/abs/2211.10565v1 )

ライセンス: Link先を確認
Iv\'an L\'opez-Espejo and Ram C. M. C. Shekar and Zheng-Hua Tan and Jesper Jensen and John H. L. Hansen(参考訳) キーワードスポッティング(KWS)の文脈では、学習可能な特徴による手作り音声特徴の置き換えは、優れたKWS性能を与えていない。 本研究では,フィルタバンクのチャネル数が大幅に減少するたびに,フィルタバンク学習がKWSの手作り音声特性より優れていることを示す。 チャネル数を減らすことで、特定のKWS性能が低下する可能性があるが、低リソースデバイスに常時オンのKWSをデプロイする際には、かなりのエネルギー消費が減少する。 Google Speech Commands Datasetのノイズバージョンの実験結果によると、特にドロップアウトが統合された場合、フィルタバンク学習はノイズ特性に適応し、ノイズに対する高い堅牢性を提供する。 したがって、通常使われる40チャンネルのログメル機能から8チャンネルの学習機能に切り替えると、相対的なKWS精度の損失は3.5%に過ぎず、同時に6.3倍のエネルギー消費削減を実現している。

In the context of keyword spotting (KWS), the replacement of handcrafted speech features by learnable features has not yielded superior KWS performance. In this study, we demonstrate that filterbank learning outperforms handcrafted speech features for KWS whenever the number of filterbank channels is severely decreased. Reducing the number of channels might yield certain KWS performance drop, but also a substantial energy consumption reduction, which is key when deploying common always-on KWS on low-resource devices. Experimental results on a noisy version of the Google Speech Commands Dataset show that filterbank learning adapts to noise characteristics to provide a higher degree of robustness to noise, especially when dropout is integrated. Thus, switching from typically used 40-channel log-Mel features to 8-channel learned features leads to a relative KWS accuracy loss of only 3.5% while simultaneously achieving a 6.3x energy consumption reduction.
翻訳日:2022-11-22 23:32:57 公開日:2022-11-19
# グラディエントDescentはおそらく線形力学系を学習できるか?

Can Gradient Descent Provably Learn Linear Dynamic Systems? ( http://arxiv.org/abs/2211.10582v1 )

ライセンス: Link先を確認
Lifu Wang, Bo Shen, Bo Hu, Xing Cao(参考訳) 勾配降下を伴う線形リカレントニューラルネットワークの学習能力について検討した。 線形力学系を安定に学習するグラディエント Descent を用いた線形 RNN に関する最初の理論的保証を証明した。 rnn の幅が十分大きい(かつ隠れた層で必要とされる幅が入力列の長さに依存しない)場合、最適化損失の非凸性にもかかわらず、線形 rnn は、サンプルと時間複雑性多項式を用いた任意の安定線形力学系を $\frac{1}{1-\rho_c}$ (ここで $\rho_c$ は安定系のスペクトル半径の略である) で確実に学習することができる。 その結果,線形RNNを学習するための理論的保証を初めて提供し,リカレント構造が動的システムの学習にどのように役立つかを実証した。

We study the learning ability of linear recurrent neural networks with gradient descent. We prove the first theoretical guarantee on linear RNNs with Gradient Descent to learn any stable linear dynamic system. We show that despite the non-convexity of the optimization loss if the width of the RNN is large enough (and the required width in hidden layers does not rely on the length of the input sequence), a linear RNN can provably learn any stable linear dynamic system with the sample and time complexity polynomial in $\frac{1}{1-\rho_C}$ where $\rho_C$ is roughly the spectral radius of the stable system. Our results provide the first theoretical guarantee to learn a linear RNN and demonstrate how can the recurrent structure help to learn a dynamic system.
翻訳日:2022-11-22 23:32:39 公開日:2022-11-19
# 情報理論レンズによるSDEの2面:訓練軌道と終端状態によるSGDの一般化

Two Facets of SDE Under an Information-Theoretic Lens: Generalization of SGD via Training Trajectories and via Terminal States ( http://arxiv.org/abs/2211.10691v1 )

ライセンス: Link先を確認
Ziqiao Wang and Yongyi Mao(参考訳) 確率微分方程式(SDE)は、SGDを用いた学習機械学習モデルの力学をうまく特徴づけるために最近示されている。 これにより、SDE近似を通じてSGDの一般化挙動をよりよく理解する2つの機会が得られる。 第一に、SDE特性下では、SGDはガウス勾配雑音を伴うフルバッチ勾配勾配とみなすことができる。 これにより、Xu & Raginsky (2017) によって開発された一般化境界を SGD の一般化挙動の解析に適用することができ、トレーニングセットとトレーニング軌道の間の相互情報の観点からの上界が得られる。 第二に、軽度の仮定では、SDEの定常重量分布の推定値が得られる。 この推定値を用いて、Xu & Raginsky (2017) と Negrea et al. (2019) で開発された PAC-Bayes のような情報理論境界を適用し、SGD の定常重み分布間の KL 分布の一般化の上界を求める。 様々な選択肢の中で、SGDが同じトレーニングセットで得た定常状態の重量分布として事前を選択することができるが、1つの例が示される。 この場合、境界は影響関数(Koh & Liang, 2017)を用いてエレガントに表現することができ、これはSGDの一般化がSGDの安定性と関連していることを示唆している。 これらの境界の発展にともなって様々な知見が提示され、その後数値的に検証される。

Stochastic differential equations (SDEs) have been shown recently to well characterize the dynamics of training machine learning models with SGD. This provides two opportunities for better understanding the generalization behaviour of SGD through its SDE approximation. First, under the SDE characterization, SGD may be regarded as the full-batch gradient descent with Gaussian gradient noise. This allows the application of the generalization bounds developed by Xu & Raginsky (2017) to analyzing the generalization behaviour of SGD, resulting in upper bounds in terms of the mutual information between the training set and the training trajectory. Second, under mild assumptions, it is possible to obtain an estimate of the steady-state weight distribution of SDE. Using this estimate, we apply the PAC-Bayes-like information-theoretic bounds developed in both Xu & Raginsky (2017) and Negrea et al. (2019) to obtain generalization upper bounds in terms of the KL divergence between the steady-state weight distribution of SGD with respect to a prior distribution. Among various options, one may choose the prior as the steady-state weight distribution obtained by SGD on the same training set but with one example held out. In this case, the bound can be elegantly expressed using the influence function (Koh & Liang, 2017), which suggests that the generalization of the SGD is related to the stability of SGD. Various insights are presented along the development of these bounds, which are subsequently validated numerically.
翻訳日:2022-11-22 23:32:21 公開日:2022-11-19
# 建設作業員のウェアラブルIoTセンサのためのディープラーニングとブロックチェーンに基づくプライバシ保護データストレージとサービスフレームワーク

A privacy-preserving data storage and service framework based on deep learning and blockchain for construction workers' wearable IoT sensors ( http://arxiv.org/abs/2211.10713v1 )

ライセンス: Link先を確認
Xiaoshan Zhou and Pin-Chao Liao(参考訳) ウェアラブルモノのインターネット(IoT)センサー、特に脳-コンピュータインターフェース(BCI)によって収集される脳信号の分類は、最も急速に成長している研究分野の1つである。 しかし、研究は収集された個人の神経生理学的データの保管とプライバシー保護の問題をほとんど無視している。 そこで本稿では,このギャップを埋めて,BCIアプリケーションを実装するためのセキュアなプライバシ保護プロトコルを提案する。 まず脳の信号を画像に変換し、生成的敵ネットワークを使って合成信号を生成し、データのプライバシーを保護した。 その後,信号分類に転送学習のパラダイムを適用した。 提案法をケーススタディで評価し,人工的に生成したサンプルを加味した実際の脳波データは分類性能に優れることを示す。 さらに、ブロックチェーンベースのスキームを提案し、ethereumのプロトタイプを開発した。これは、個人の神経生理学的データと分析レポートの保存、クエリ、共有を可能にすることを目的としている。 建設業者、bciサービスプロバイダ、プロジェクトマネージャの3つの主要な取引機関の権利について述べ、提案するシステムの利点について論じる。 この論文は、サイバー攻撃に対してプライベートデータを安全に保護し、bciアプリケーション開発者のためのプレーフィールドをレベル化し、業界におけるプロフェッショナルな幸福を最終的に改善するための、十分なソリューションを提供すると信じています。

Classifying brain signals collected by wearable Internet of Things (IoT) sensors, especially brain-computer interfaces (BCIs), is one of the fastest-growing areas of research. However, research has mostly ignored the secure storage and privacy protection issues of collected personal neurophysiological data. Therefore, in this article, we try to bridge this gap and propose a secure privacy-preserving protocol for implementing BCI applications. We first transformed brain signals into images and used generative adversarial network to generate synthetic signals to protect data privacy. Subsequently, we applied the paradigm of transfer learning for signal classification. The proposed method was evaluated by a case study and results indicate that real electroencephalogram data augmented with artificially generated samples provide superior classification performance. In addition, we proposed a blockchain-based scheme and developed a prototype on Ethereum, which aims to make storing, querying and sharing personal neurophysiological data and analysis reports secure and privacy-aware. The rights of three main transaction bodies - construction workers, BCI service providers and project managers - are described and the advantages of the proposed system are discussed. We believe this paper provides a well-rounded solution to safeguard private data against cyber-attacks, level the playing field for BCI application developers, and to the end improve professional well-being in the industry.
翻訳日:2022-11-22 23:31:52 公開日:2022-11-19
# 非コヒーレントオーバーザエア分散確率勾配ディフレッシュ

Non-Coherent Over-the-Air Decentralized Stochastic Gradient Descent ( http://arxiv.org/abs/2211.10777v1 )

ライセンス: Link先を確認
Nicolo Michelusi(参考訳) 本稿では,無線接続システム上の分散機械学習タスクを,基地局の調整なしに解く分散確率勾配降下(dsgd)アルゴリズムを提案する。 局所確率勾配降下ステップと非コヒーレントオーバーザエア(NCOTA)コンセンサススキームを組み合わせることで、無線チャネルの波形重畳特性を活用することで同時送信を可能にする。 NCOTAでは、局所最適化信号は直交プリアンブルシーケンスの混合にマッピングされ、半二重制約の下で無線チャネル上で同時に送信される。 受信信号とプリアンブルシーケンスを非コヒーレントに結合し、コンセンサスステップを介してノイズやフェーディングの影響を軽減することでコンセンサスを推定する。 NCOTA-DSGDはチャネル状態情報(典型的にはチャネル反転のためのオーバー・ザ・エア計算方式で使用される)なしで動作し、チャネルパスロスを利用して信号の混合を行う。 コンセンサスと学習の段階化を減少させる適切なチューニングにより、局所的および大域的最適モデル間の誤差(ユークリッド距離として測定される)は、$k$反復の後に$\mathcal O(k^{-1/4})$で消滅する。 ncota-dsgdは、mnistデータセット上の画像分類タスクを正則化クロスエントロピー損失最小化として解いて数値的に評価される。 数値計算の結果は,学習装置数が大きい場合,厳密な遅延制約下で,デジタルおよびアナログ直交チャネル上でのdsgdアルゴリズムの実装よりも高速に収束する vis-\`a-vis 実行時間を示す。

This paper proposes a Decentralized Stochastic Gradient Descent (DSGD) algorithm to solve distributed machine-learning tasks over wirelessly-connected systems, without the coordination of a base station. It combines local stochastic gradient descent steps with a Non-Coherent Over-The-Air (NCOTA) consensus scheme at the receivers, that enables concurrent transmissions by leveraging the waveform superposition properties of the wireless channels. With NCOTA, local optimization signals are mapped to a mixture of orthogonal preamble sequences and transmitted concurrently over the wireless channel under half-duplex constraints. Consensus is estimated by non-coherently combining the received signals with the preamble sequences and mitigating the impact of noise and fading via a consensus stepsize. NCOTA-DSGD operates without channel state information (typically used in over-the-air computation schemes for channel inversion) and leverages the channel pathloss to mix signals, without explicit knowledge of the mixing weights (typically known in consensus-based optimization). It is shown that, with a suitable tuning of decreasing consensus and learning stepsizes, the error (measured as Euclidean distance) between the local and globally optimum models vanishes with rate $\mathcal O(k^{-1/4})$ after $k$ iterations. NCOTA-DSGD is evaluated numerically by solving an image classification task on the MNIST dataset, cast as a regularized cross-entropy loss minimization. Numerical results depict faster convergence vis-\`a-vis running time than implementations of the classical DSGD algorithm over digital and analog orthogonal channels, when the number of learning devices is large, under stringent delay constraints.
翻訳日:2022-11-22 23:31:28 公開日:2022-11-19
# EDGE:音楽から編集可能なダンスジェネレーション

EDGE: Editable Dance Generation From Music ( http://arxiv.org/abs/2211.10658v1 )

ライセンス: Link先を確認
Jonathan Tseng, Rodrigo Castellon, C. Karen Liu(参考訳) ダンスは重要な芸術形態であるが、新しいダンスを作るのは難しく時間がかかる。 本研究では,編集可能ダンスジェネレーション(EDGE)について紹介する。編集可能ダンスジェネレーション(EDGE)は,入力音楽に忠実なまま,リアルで物理的に表現可能なダンスを生成することができる編集可能ダンスジェネレーションである。 EDGEは、強力な音楽特徴抽出器であるJukeboxと組み合わせたトランスフォーマーベースの拡散モデルを使用し、ダンスに適した強力な編集機能、例えばジョイントワイドコンディショニングやイン・バイ・ビートニングを提供する。 身体的可視性に関する新しい指標を導入し,(1) 身体的可視性, ビートアライメント, 多様性ベンチマークに関する複数の定量的指標を通じて, 提案手法が生み出すダンスの質を評価する。 私たちのモデルの定性的なサンプルは、私たちのWebサイトにある。

Dance is an important human art form, but creating new dances can be difficult and time-consuming. In this work, we introduce Editable Dance GEneration (EDGE), a state-of-the-art method for editable dance generation that is capable of creating realistic, physically-plausible dances while remaining faithful to the input music. EDGE uses a transformer-based diffusion model paired with Jukebox, a strong music feature extractor, and confers powerful editing capabilities well-suited to dance, including joint-wise conditioning, and in-betweening. We introduce a new metric for physical plausibility, and evaluate dance quality generated by our method extensively through (1) multiple quantitative metrics on physical plausibility, beat alignment, and diversity benchmarks, and more importantly, (2) a large-scale user study, demonstrating a significant improvement over previous state-of-the-art methods. Qualitative samples from our model can be found at our website.
翻訳日:2022-11-22 23:24:32 公開日:2022-11-19
# varietysound: 音色制御可能なビデオ - 教師なし情報不連続による音声生成

VarietySound: Timbre-Controllable Video to Sound Generation via Unsupervised Information Disentanglement ( http://arxiv.org/abs/2211.10666v1 )

ライセンス: Link先を確認
Chenye Cui, Yi Ren, Jinglin Liu, Rongjie Huang, Zhou Zhao(参考訳) 映像から音声への生成は、映像入力によってリアルで自然な音を生成することを目的としている。 しかし、従来のビデオ音声生成手法では、生成した音色を制御したり特殊化したりすることなく、ランダムあるいは平均的な音色しか生成できないため、これらの手法で所望の音色が得られないという問題がある。 本稿では,ビデオ入力と参照音声サンプルが与えられた特定の音色で音声を生成する作業を行う。 この課題を解決するために,対象の音声を時間情報,音響情報,背景情報という3つの構成要素にまとめる。 まず3つのエンコーダを使ってそれぞれをエンコードします。 1) 時間情報を符号化するテンポラリエンコーダであって,入力ビデオが原音と同じ時間情報を共有しているため,映像フレームが供給されるもの 2 音色情報を符号化する音響エンコーダであって、原音を入力として取り出し、時間的破損操作によりその時間的情報を破棄する。 3) 背景エンコーダは、元の音声の背景部を入力として、残音または背景音を符号化する。 得られた結果が品質と時間的アライメントを改善するために,メル判別器と時間的判別器を交戦訓練に採用する。 vasデータセットを用いた実験により,映像中のイベントとの同期性が良好で,参照音声との音色類似度も高い高品質な音声サンプルを生成できることを示した。

Video to sound generation aims to generate realistic and natural sound given a video input. However, previous video-to-sound generation methods can only generate a random or average timbre without any controls or specializations of the generated sound timbre, leading to the problem that people cannot obtain the desired timbre under these methods sometimes. In this paper, we pose the task of generating sound with a specific timbre given a video input and a reference audio sample. To solve this task, we disentangle each target sound audio into three components: temporal information, acoustic information, and background information. We first use three encoders to encode these components respectively: 1) a temporal encoder to encode temporal information, which is fed with video frames since the input video shares the same temporal information as the original audio; 2) an acoustic encoder to encode timbre information, which takes the original audio as input and discards its temporal information by a temporal-corrupting operation; and 3) a background encoder to encode the residual or background sound, which uses the background part of the original audio as input. To make the generated result achieve better quality and temporal alignment, we also adopt a mel discriminator and a temporal discriminator for the adversarial training. Our experimental results on the VAS dataset demonstrate that our method can generate high-quality audio samples with good synchronization with events in video and high timbre similarity with the reference audio.
翻訳日:2022-11-22 23:24:08 公開日:2022-11-19
# 周辺地域のネットワークモデルを用いたCOVID-19シーケンスデータの評価

Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network Model ( http://arxiv.org/abs/2211.10546v1 )

ライセンス: Link先を確認
Sarwan Ali(参考訳) SARS-CoV-2は、ヒトの新型コロナウイルス感染症の原因である。 多くの新型コロナウイルスと同様、異なる宿主に適応し、異なる系統に進化することができる。 主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。 スパイクタンパク質の構造を理解し、どのように摂動するかを理解することは、系統が懸念されているかどうかを理解し、決定するのに不可欠である。 これらは、現在の流行を特定し、コントロールし、将来のパンデミックを防ぐために重要である。 機械学習(ML)メソッドは、利用可能なシーケンシングデータの量を考えると、この取り組みの実行可能なソリューションである。 しかし、そのようなML法はユークリッド空間における固定長の数値特徴ベクトルを適用する必要がある。 同様に、ユークリッド空間は、生物配列の分類とクラスタリングのタスクに取り組む際に最適な選択ではないと考えられている。 本研究では,タンパク質(スパイク)配列を配列類似性ネットワーク(SSN)に変換する手法を設計する。 次に、分類やクラスタリングといった典型的なタスクに対して、グラフマイニング領域からの古典的なアルゴリズムの入力としてSSNを使うことができる。 提案手法はクラスタリングの結果から,現在のSOTA法より優れていることを示す。 同様に、よく知られたNode2Vecベースの埋め込みを使用して、他のベースライン埋め込みアプローチよりも高い分類精度を達成することができる。

The SARS-CoV-2 coronavirus is the cause of the COVID-19 disease in humans. Like many coronaviruses, it can adapt to different hosts and evolve into different lineages. It is well-known that the major SARS-CoV-2 lineages are characterized by mutations that happen predominantly in the spike protein. Understanding the spike protein structure and how it can be perturbed is vital for understanding and determining if a lineage is of concern. These are crucial to identifying and controlling current outbreaks and preventing future pandemics. Machine learning (ML) methods are a viable solution to this effort, given the volume of available sequencing data, much of which is unaligned or even unassembled. However, such ML methods require fixed-length numerical feature vectors in Euclidean space to be applicable. Similarly, euclidean space is not considered the best choice when working with the classification and clustering tasks for biological sequences. For this purpose, we design a method that converts the protein (spike) sequences into the sequence similarity network (SSN). We can then use SSN as an input for the classical algorithms from the graph mining domain for the typical tasks such as classification and clustering to understand the data. We show that the proposed alignment-free method is able to outperform the current SOTA method in terms of clustering results. Similarly, we are able to achieve higher classification accuracy using well-known Node2Vec-based embedding compared to other baseline embedding approaches.
翻訳日:2022-11-22 22:57:18 公開日:2022-11-19
# 多出力ガウス過程に基づく大規模建物における屋内位置推定のための指紋データの多次元増強について

On the Multidimensional Augmentation of Fingerprint Data for Indoor Localization in A Large-Scale Building Complex Based on Multi-Output Gaussian Process ( http://arxiv.org/abs/2211.10642v1 )

ライセンス: Link先を確認
Zhe Tang, Sihao Li, Kyeong Soo Kim, Jeremy Smith(参考訳) Wi-Fiフィンガープリントは、新しいインフラや専用デバイスを必要としないという大きな利点があるため、大規模な屋内ローカライズの主要なソリューションとなる。 しかし、オフラインフェーズにおけるRSSIのような位置化指紋の測定のための基準点(RP)の数と分布は、例えばUJIIndoorLocは、建物や床上のRPの不均一な空間分布の問題で知られているように、位置化の精度に大きな影響を与えている。 既存の指紋データベースにおけるRPの小さな数と不均一な分布を改善するだけでなく、新しい指紋データベースを構築する際の労力と時間コストを削減するために、データ拡張が実現可能なソリューションとして提案されている。 本稿では,多出力ガウスプロセス(MOGP)に基づく大規模建物群における屋内位置推定のための指紋データの多次元増強について提案し,UJIIndoorLocデータベースと階層的RNNに基づく最先端ニューラルネットワーク屋内位置推定モデルを用いた室内位置推定の性能に及ぼすMOGPカーネル関数およびそのハイパーパラメータを用いたモデルの影響を系統的に検討する。 The investigation based on experimental results suggests that we can generate synthetic RSSI fingerprint data up to ten times the original data -- i.e., the augmentation ratio of 10 -- through the proposed multidimensional MOGP-based data augmentation without significantly affecting the indoor localization performance compared to that of the original data alone, which extends the spatial coverage of the combined RPs and thereby could improve the localization performance at the locations that are not part of the test dataset.

Wi-Fi fingerprinting becomes a dominant solution for large-scale indoor localization due to its major advantage of not requiring new infrastructure and dedicated devices. The number and the distribution of Reference Points (RPs) for the measurement of localization fingerprints like RSSI during the offline phase, however, greatly affects the localization accuracy; for instance, the UJIIndoorLoc is known to have the issue of uneven spatial distribution of RPs over buildings and floors. Data augmentation has been proposed as a feasible solution to not only improve the smaller number and the uneven distribution of RPs in the existing fingerprint databases but also reduce the labor and time costs of constructing new fingerprint databases. In this paper, we propose the multidimensional augmentation of fingerprint data for indoor localization in a large-scale building complex based on Multi-Output Gaussian Process (MOGP) and systematically investigate the impact of augmentation ratio as well as MOGP kernel functions and models with their hyperparameters on the performance of indoor localization using the UJIIndoorLoc database and the state-of-the-art neural network indoor localization model based on a hierarchical RNN. The investigation based on experimental results suggests that we can generate synthetic RSSI fingerprint data up to ten times the original data -- i.e., the augmentation ratio of 10 -- through the proposed multidimensional MOGP-based data augmentation without significantly affecting the indoor localization performance compared to that of the original data alone, which extends the spatial coverage of the combined RPs and thereby could improve the localization performance at the locations that are not part of the test dataset.
翻訳日:2022-11-22 22:56:57 公開日:2022-11-19
# 機械学習による微分プライバシーの実態調査と今後の展望

A Survey on Differential Privacy with Machine Learning and Future Outlook ( http://arxiv.org/abs/2211.10708v1 )

ライセンス: Link先を確認
Samah Baraheem and Zhongmei Yao(参考訳) 現在、機械学習モデルとアプリケーションはますます普及している。 機械学習モデルの開発と雇用の急速な増加に伴い、プライバシに関する懸念が高まっている。 したがって、データの漏洩や攻撃から保護する正当な必要性がある。 マシンラーニングモデルを攻撃や脆弱性から保護するために使用できる最強かつ最も普及しているプライバシモデルの1つは、差分プライバシ(DP)である。 DPは厳格で厳格なプライバシー定義であり、敵がデータセットに特定の参加者が含まれているかどうかを確実に予測できないことを保証できる。 入力、出力、基底の真理ラベル、目的関数、さらには勾配に対して、データにノイズを注入することで、プライバシ上の問題を緩和し、データを保護する。 そこで本研究では,2つの主なカテゴリ(従来型機械学習モデルとディープラーニングモデル)に分類した,異なる個人用機械学習アルゴリズムを提案する。 さらに、機械学習アルゴリズムによる差分プライバシー研究の方向性について概説する。

Nowadays, machine learning models and applications have become increasingly pervasive. With this rapid increase in the development and employment of machine learning models, a concern regarding privacy has risen. Thus, there is a legitimate need to protect the data from leaking and from any attacks. One of the strongest and most prevalent privacy models that can be used to protect machine learning models from any attacks and vulnerabilities is differential privacy (DP). DP is strict and rigid definition of privacy, where it can guarantee that an adversary is not capable to reliably predict if a specific participant is included in the dataset or not. It works by injecting a noise to the data whether to the inputs, the outputs, the ground truth labels, the objective functions, or even to the gradients to alleviate the privacy issue and protect the data. To this end, this survey paper presents different differentially private machine learning algorithms categorized into two main categories (traditional machine learning models vs. deep learning models). Moreover, future research directions for differential privacy with machine learning algorithms are outlined.
翻訳日:2022-11-22 22:56:29 公開日:2022-11-19
# 深部スマートコントラクトインテント検出

Deep Smart Contract Intent Detection ( http://arxiv.org/abs/2211.10724v1 )

ライセンス: Link先を確認
Youwei Huang, Tao Zhang, Sen Fang, Youshuai Tan(参考訳) 現在、スマートコントラクトのセキュリティ活動は脆弱性検出に集中している。 初期の成功にもかかわらず、スマートコントラクトを書くという開発者の意図は、悪意のある意図を持つスマートコントラクトがユーザの経済的損失を著しく引き起こしているため、より注目すべきセキュリティ上の問題であることがわかった。 残念ながら、前述の悪意のあるスマートコントラクトを特定するための現在のアプローチはスマートコントラクトのセキュリティ監査に依存している。 この問題を解決するために,スマートコントラクトの自動検出を行うための,新しいディープラーニングベースのアプローチであるSmartIntentNNを提案する。 smartintentnnは、スマートコントラクトのコンテキスト表現を生成する事前学習された文エンコーダ、意図に関連する表現を強調するk平均クラスタリング方法、スマートコントラクトの意図を予測するための双方向lstmベース(long-short term memory)マルチラベル分類ネットワークである。 SmartIntentNNの性能を評価するために、我々は4万以上のリアルなスマートコントラクトを収集し、選択したベースラインアプローチとの比較実験を行った。 実験の結果、SmartIntentNNはf1スコアメートル法ですべてのベースラインを最大0.8212で上回っていることがわかった。

Nowadays, security activities in smart contracts concentrate on vulnerability detection. Despite early success, we find that developers' intent to write smart contracts is a more noteworthy security concern because smart contracts with malicious intent have caused significant users' financial loss. Unfortunately, current approaches to identify the aforementioned malicious smart contracts rely on smart contract security audits, which entail huge manpower consumption and financial expenditure. To resolve this issue, we propose a novel deep learning-based approach, SmartIntentNN, to conduct automated smart contract intent detection. SmartIntentNN consists of three primary parts: a pre-trained sentence encoder to generate the contextual representations of smart contracts, a K-means clustering method to highlight intent-related representations, and a bidirectional LSTM-based (long-short term memory) multi-label classification network to predict the intents in smart contracts. To evaluate the performance of SmartIntentNN, we collect more than 40,000 real smart contracts and perform a series of comparison experiments with our selected baseline approaches. The experimental results demonstrate that SmartIntentNN outperforms all baselines by up to 0.8212 in terms of the f1-score metric.
翻訳日:2022-11-22 22:56:15 公開日:2022-11-19
# グラフニューラルネットワークを用いた遅延認識バックプレッシャルーティング

Delay-aware Backpressure Routing Using Graph Neural Networks ( http://arxiv.org/abs/2211.10748v1 )

ライセンス: Link先を確認
Zhongyuan Zhao, Bojan Radojicic, Gunjan Verma, Ananthram Swami, Santiago Segarra(参考訳) 本稿では,エンド・ツー・エンドの遅延を最小化しようとするグラフニューラルネットワークによってバイアスを学習する,ルーティングのためのスループット最適化バイアスバックプレッシャ(bp)アルゴリズムを提案する。 古典的なBPルーティングは、無線マルチホップネットワークにおけるリソース割り当てにシンプルだが強力な分散ソリューションを提供するが、遅延性能は低い。 この遅延性能を改善するための低コストなアプローチは、目的地までの最短経路(ホップ)距離に基づくバイアスなど、BP計算に予め定義されたバイアスを組み込むことによって、より短い経路を選択することである。 本研究では,グラフ畳み込みニューラルネットワークを用いて予測するリンクデューティサイクルに基づくバイアスを導入することにより,最短経路バイアスに対するホップ距離(およびその変種)の広く使用されている測定値を改善する。 数値解析の結果,従来のBPと既存のBPの代替品と比較して,干渉密度に適応しながら,既定バイアスに基づいて遅延性能を向上できることが示唆された。 複雑性の面では、分散実装では、従来のBPと比較して1時間(ネットワーク上のデバイス数)のオーバーヘッドと、既存のバイアスベースのBPアルゴリズムと比較して一定のオーバーヘッドしか導入していません。

We propose a throughput-optimal biased backpressure (BP) algorithm for routing, where the bias is learned through a graph neural network that seeks to minimize end-to-end delay. Classical BP routing provides a simple yet powerful distributed solution for resource allocation in wireless multi-hop networks but has poor delay performance. A low-cost approach to improve this delay performance is to favor shorter paths by incorporating pre-defined biases in the BP computation, such as a bias based on the shortest path (hop) distance to the destination. In this work, we improve upon the widely-used metric of hop distance (and its variants) for the shortest path bias by introducing a bias based on the link duty cycle, which we predict using a graph convolutional neural network. Numerical results show that our approach can improve the delay performance compared to classical BP and existing BP alternatives based on pre-defined bias while being adaptive to interference density. In terms of complexity, our distributed implementation only introduces a one-time overhead (linear in the number of devices in the network) compared to classical BP, and a constant overhead compared to the lowest-complexity existing bias-based BP algorithms.
翻訳日:2022-11-22 22:55:52 公開日:2022-11-19
# let graph be the go board: 強化学習によるグラフニューラルネットワークのための勾配なしノードインジェクション攻撃

Let Graph be the Go Board: Gradient-free Node Injection Attack for Graph Neural Networks via Reinforcement Learning ( http://arxiv.org/abs/2211.10782v1 )

ライセンス: Link先を確認
Mingxuan Ju, Yujie Fan, Chuxu Zhang, Yanfang Ye(参考訳) グラフニューラルネットワーク(GNN)は、長年にわたって大きな注目を集め、製品レコメンデーションやユーザビヘイビアモデリングといった堅牢性や活発なセキュリティ標準を必要とする本質的なアプリケーションに広く適用されてきた。 これらのシナリオの下では、GNNの脆弱性を悪用し、パフォーマンスをさらに低下させることは、敵にとって非常にインセンティブとなる。 以前の攻撃者は、サーロゲートモデルからの勾配により、既存のグラフへの構造的摂動やノード注入に主に焦点を合わせていた。 有望な結果をもたらすが、いくつかの制限は残っている。 構造的摂動攻撃が提案された攻撃を開始するためには、敵は既存のグラフトポロジーを操作する必要がある。 ノードインジェクション攻撃はより実用的ではあるが、現在のアプローチではホワイトボックス設定をシミュレートするためにサロゲートモデルをトレーニングする必要がある。 本稿では,これらのギャップを埋めるために,ブラックボックス・ノード・インジェクション・アタックの問題を,潜在的に誤解を招くサロゲートモデルを訓練することなく研究する。 具体的には,ノードインジェクション攻撃をマルコフ決定プロセスとしてモデル化し,g2a2cという,アドバンテージアクタ批判という形で強化学習フレームワークを提案する。 被害者モデルを直接クエリすることで、g2a2cは、攻撃予算が非常に少ない、非常に悪意のあるノードを注入することを学び、同様のノード機能分布を維持する。 異なる特性を持つ8つの認識されたベンチマークデータセットを包括的に実験した結果,提案するg2a2cが既存の攻撃者よりも優れた性能を示す。 ソースコードはhttps://github.com/jumxglhf/G2A2C}で公開されている。

Graph Neural Networks (GNNs) have drawn significant attentions over the years and been broadly applied to essential applications requiring solid robustness or vigorous security standards, such as product recommendation and user behavior modeling. Under these scenarios, exploiting GNN's vulnerabilities and further downgrading its performance become extremely incentive for adversaries. Previous attackers mainly focus on structural perturbations or node injections to the existing graphs, guided by gradients from the surrogate models. Although they deliver promising results, several limitations still exist. For the structural perturbation attack, to launch a proposed attack, adversaries need to manipulate the existing graph topology, which is impractical in most circumstances. Whereas for the node injection attack, though being more practical, current approaches require training surrogate models to simulate a white-box setting, which results in significant performance downgrade when the surrogate architecture diverges from the actual victim model. To bridge these gaps, in this paper, we study the problem of black-box node injection attack, without training a potentially misleading surrogate model. Specifically, we model the node injection attack as a Markov decision process and propose Gradient-free Graph Advantage Actor Critic, namely G2A2C, a reinforcement learning framework in the fashion of advantage actor critic. By directly querying the victim model, G2A2C learns to inject highly malicious nodes with extremely limited attacking budgets, while maintaining a similar node feature distribution. Through our comprehensive experiments over eight acknowledged benchmark datasets with different characteristics, we demonstrate the superior performance of our proposed G2A2C over the existing state-of-the-art attackers. Source code is publicly available at: https://github.com/jumxglhf/G2A2C}.
翻訳日:2022-11-22 22:55:32 公開日:2022-11-19
# csiに基づく屋内定位のための簡易かつ効果的な拡張法

Simple and Effective Augmentation Methods for CSI Based Indoor Localization ( http://arxiv.org/abs/2211.10790v1 )

ライセンス: Link先を確認
Omer Gokalp Serbetci and Ju-Hyung Lee and Daoud Burghal and Andreas F. Molisch(参考訳) 屋内のローカライゼーションは難しい課題です。 GPSが支配的な屋外環境とは対照的に、堅牢でほぼ普遍的なアプローチはない。 近年、機械学習(ML)は、正確な屋内ローカライゼーションを実現するための最も有望なアプローチとして浮上しているが、その主な課題は、ニューラルネットワークをトレーニングする大規模なデータセットの必要性である。 データ収集手順は、様々な屋内環境に対する広範囲な計測とラベル付けプロセスを必要とするため、費用がかかる。 Data Augmentation (DA)は、MLのデータセットを拡張するための一般的なフレームワークであり、MLシステムがより堅牢になり、一般化能力が向上する。 本稿では,チャネル状態情報(CSI)に基づく屋内位置推定を物理的に考慮した簡易かつ驚くほど効果的に行う2つのDAアルゴリズムを提案する。 与えられた精度要求に対して必要な測定回数を1桁減らすことができることを示す。 具体的には,屋内Wi-Fi計測データセットを用いて行った実験により,アルゴリズムの有効性を実証する。 また,提案手法によりデータセットをさらに拡張すれば,精度が3倍以上向上することを示した。

Indoor localization is a challenging task. There is no robust and almost-universal approach, in contrast to outdoor environments where GPS is dominant. Recently, machine learning (ML) has emerged as the most promising approach for achieving accurate indoor localization, yet its main challenge is the requirement for large datasets to train the neural networks. The data collection procedure is costly and laborious as the procedure requires extensive measurements and labeling processes for different indoor environments. The situation can be improved by Data Augmentation (DA), which is a general framework to enlarge the datasets for ML, making ML systems more robust and increases their generalization capabilities. In this paper, we propose two simple yet surprisingly effective DA algorithms for channel state information (CSI) based indoor localization motivated by physical considerations. We show that the required number of measurements for a given accuracy requirement may be decreased by an order of magnitude. Specifically, we demonstrate the algorithms' effectiveness by experiments conducted with a measured indoor WiFi measurement dataset: as little as 10% of the original dataset size is enough to get the same performance of the original dataset. We also showed that, if we further augment the dataset with proposed techniques we get better test accuracy more than three-fold.
翻訳日:2022-11-22 22:54:59 公開日:2022-11-19
# トレーニング中のmlモデル指導のための人間のバイアスと知識の定量化

Quantifying Human Bias and Knowledge to guide ML models during Training ( http://arxiv.org/abs/2211.10796v1 )

ライセンス: Link先を確認
Hrishikesh Viswanath, Andrey Shor, Yoshimasa Kitaguchi(参考訳) 本稿では,分類問題の結果を決定する際に,データセットの異なる属性の重要性を定量化するクラウドソーシング手法について述べる。 このヒューリスティックは、人間が提供し、機械学習モデルの初期重量シードとして働き、勾配降下プロセス中にモデルをより最適なものに導く。 多くの場合、データを扱う場合、歪んだデータセットを扱うことは珍しくありません。 スキューデータセットは、バイアス付き関数の学習や過度な適合など、予期せぬ問題を引き起こす可能性がある。 教師付き学習における従来のデータ拡張技術には、オーバーサンプリングと合成データによるトレーニングが含まれる。 トレーニングプロセスに人間を含めることで、このような不均衡なデータセットを扱うための実験的なアプローチを導入する。 我々は,データセットの特徴の重要性をランク付けし,ランクアグリゲーションを通じてモデルの初期重みバイアスを決定する。 集団的人間のバイアスは、機械学習モデルがバイアス標本の代わりに真の人口についての洞察を学習できることを示す。 本稿では,2つのランクアグリゲータ法kemeny youngとマルコフ連鎖アグリゲータを用いて,特徴の重要性に関する人間の意見を定量化する。 この研究は主に、Deep Neural NetworksとSupport Vector Machinesの2つのMLモデルにおけるバイナリ分類(Popular vs Not-popular)問題に対する人間の知識の有効性をテストする。 このアプローチは人間を弱い学習者とみなし、個々のバイアスとドメインの親密さを相殺するために集約に依存する。

This paper discusses a crowdsourcing based method that we designed to quantify the importance of different attributes of a dataset in determining the outcome of a classification problem. This heuristic, provided by humans acts as the initial weight seed for machine learning models and guides the model towards a better optimal during the gradient descent process. Often times when dealing with data, it is not uncommon to deal with skewed datasets, that over represent items of certain classes, while underrepresenting the rest. Skewed datasets may lead to unforeseen issues with models such as learning a biased function or overfitting. Traditional data augmentation techniques in supervised learning include oversampling and training with synthetic data. We introduce an experimental approach to dealing with such unbalanced datasets by including humans in the training process. We ask humans to rank the importance of features of the dataset, and through rank aggregation, determine the initial weight bias for the model. We show that collective human bias can allow ML models to learn insights about the true population instead of the biased sample. In this paper, we use two rank aggregator methods Kemeny Young and the Markov Chain aggregator to quantify human opinion on importance of features. This work mainly tests the effectiveness of human knowledge on binary classification (Popular vs Not-popular) problems on two ML models: Deep Neural Networks and Support Vector Machines. This approach considers humans as weak learners and relies on aggregation to offset individual biases and domain unfamiliarity.
翻訳日:2022-11-22 22:54:41 公開日:2022-11-19
# 非定常リスク感応型強化学習:準最適動的回帰、適応検出、分離設計

Non-stationary Risk-sensitive Reinforcement Learning: Near-optimal Dynamic Regret, Adaptive Detection, and Separation Design ( http://arxiv.org/abs/2211.10815v1 )

ライセンス: Link先を確認
Yuhao Ding, Ming Jin, Javad Lavaei(参考訳) エピソード非定常マルコフ決定過程(MDP)におけるエントロピー的リスク尺度に基づくリスク感受性強化学習(RL)について検討した。 報酬関数と状態遷移カーネルはともに未知であり、累積変動の予算とともに時間とともに任意に変化する。 この変動予算が事前に知られている場合、再起動に基づく2つのアルゴリズム、すなわちRestart-RSMBとRestart-RSQを提案する。 これらの結果に基づき、変動予算に関する事前の知識を必要とせず、指数関数上の非定常性を適応的に検出できるメタアルゴリズムを提案する。 そして、提案アルゴリズムのほぼ最適性を証明するために、非定常リスク感応性RLに対して動的後悔の下限を確立する。 また, 適応アルゴリズムにおける非定常検出機構はリスクパラメータに依存するが, 変動予算を事前に知っていれば, リスク制御と非定常性の処理は別々に設計できることを示した。 この研究は、文献における非定常リスク感受性RLに対する最初の非漸近理論解析を提供する。

We study risk-sensitive reinforcement learning (RL) based on an entropic risk measure in episodic non-stationary Markov decision processes (MDPs). Both the reward functions and the state transition kernels are unknown and allowed to vary arbitrarily over time with a budget on their cumulative variations. When this variation budget is known a prior, we propose two restart-based algorithms, namely Restart-RSMB and Restart-RSQ, and establish their dynamic regrets. Based on these results, we further present a meta-algorithm that does not require any prior knowledge of the variation budget and can adaptively detect the non-stationarity on the exponential value functions. A dynamic regret lower bound is then established for non-stationary risk-sensitive RL to certify the near-optimality of the proposed algorithms. Our results also show that the risk control and the handling of the non-stationarity can be separately designed in the algorithm if the variation budget is known a prior, while the non-stationary detection mechanism in the adaptive algorithm depends on the risk parameter. This work offers the first non-asymptotic theoretical analyses for the non-stationary risk-sensitive RL in the literature.
翻訳日:2022-11-22 22:54:16 公開日:2022-11-19
# 肺結節切開用2.5Dネットワークの隣接スライス特性

Adjacent Slice Feature Guided 2.5D Network for Pulmonary Nodule Segmentation ( http://arxiv.org/abs/2211.10597v1 )

ライセンス: Link先を確認
Xinwei Xue, Gaoyu Wang, Long Ma, Qi Jia and Yi Wang(参考訳) 肺結節の分節により多くの注意が払われている。 ディープラーニングに基づく現在の方法では、3dセグメンテーションメソッドが直接3dイメージを入力し、大量のメモリを消費し、膨大な計算をもたらす。 しかし, パラメータや計算量が少ない2次元分割法の多くはスライス間の空間的関係を欠いているため, セグメンテーション性能が低下する。 これらの問題を解決するために, 2.5Dネットワークに隣接するスライス機能を提案する。 本稿では,隣接するスライス情報の導入を目的とした,隣接スライス特徴融合モデルの設計を行う。 モデル性能をさらに向上するため、よりコンテキスト情報を取得するためのマルチスケール融合モジュールを構築し、エッジ領域におけるセグメント化結果を最適化するエッジ制約ロス関数を設計する。 本手法は肺結節分節作業における他の方法よりも優れた性能を示す。

More and more attention has been paid to the segmentation of pulmonary nodules. Among the current methods based on deep learning, 3D segmentation methods directly input 3D images, which takes up a lot of memory and brings huge computation. However, most of the 2D segmentation methods with less parameters and calculation have the problem of lacking spatial relations between slices, resulting in poor segmentation performance. In order to solve these problems, we propose an adjacent slice feature guided 2.5D network. In this paper, we design an adjacent slice feature fusion model to introduce information from adjacent slices. To further improve the model performance, we construct a multi-scale fusion module to capture more context information, in addition, we design an edge-constrained loss function to optimize the segmentation results in the edge region. Fully experiments show that our method performs better than other existing methods in pulmonary nodule segmentation task.
翻訳日:2022-11-22 22:29:21 公開日:2022-11-19
# DiffStyler:テキスト駆動画像スティル化のための制御可能なデュアル拡散

DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization ( http://arxiv.org/abs/2211.10682v1 )

ライセンス: Link先を確認
Nisha Huang, Yuxin Zhang, Fan Tang, Chongyang Ma, Haibin Huang, Yong Zhang, Weiming Dong, Changsheng Xu(参考訳) 任意の画像誘導スタイル転送方式の印象的な結果にもかかわらず、ユーザが提供する対象スタイルのテキスト記述に従って自然な画像をスタイライゼーション方式に転送するためのテキスト駆動画像スタイライゼーションが最近提案されている。 従来の画像間転送アプローチとは異なり、テキスト誘導型スタイリゼーションの進歩により、ユーザはより正確で直感的に、望ましいスタイルを表現することができる。 しかしながら、クロスモーダル入力/出力間の大きな不一致は、典型的なフィードフォワードcnnパイプラインでテキスト駆動のイメージスタイライゼーションを行うことを困難にしている。 本稿では拡散モデルに基づくDiffStylerについて述べる。 拡散進行ステップバイステップにおいて、クロスモーダルスタイル情報をガイダンスとして容易に統合することができる。 特に,2重拡散処理アーキテクチャを用いて拡散結果のスタイルと内容のバランスを制御する。 さらに,逆雑音化処理に基づくコンテンツ画像に基づく学習可能ノイズを提案し,スタイライゼーション結果がコンテンツ画像の構造情報をより良く保存できることを示す。 提案したDiffStylerは, 定性的, 定量的な実験により, ベースライン法を超えて検証する。

Despite the impressive results of arbitrary image-guided style transfer methods, text-driven image stylization has recently been proposed for transferring a natural image into the stylized one according to textual descriptions of the target style provided by the user. Unlike previous image-to-image transfer approaches, text-guided stylization progress provides users with a more precise and intuitive way to express the desired style. However, the huge discrepancy between cross-modal inputs/outputs makes it challenging to conduct text-driven image stylization in a typical feed-forward CNN pipeline. In this paper, we present DiffStyler on the basis of diffusion models. The cross-modal style information can be easily integrated as guidance during the diffusion progress step-by-step. In particular, we use a dual diffusion processing architecture to control the balance between the content and style of the diffused results. Furthermore, we propose a content image-based learnable noise on which the reverse denoising process is based, enabling the stylization results to better preserve the structure information of the content image. We validate the proposed DiffStyler beyond the baseline methods through extensive qualitative and quantitative experiments.
翻訳日:2022-11-22 22:29:05 公開日:2022-11-19
# convoHER2:HER2乳癌の多段階分類のためのディープニューラルネットワーク

convoHER2: A Deep Neural Network for Multi-Stage Classification of HER2 Breast Cancer ( http://arxiv.org/abs/2211.10690v1 )

ライセンス: Link先を確認
M. F. Mridha, Md. Kishor Morol, Md. Asraf Ali, and Md Sakib Hossain Shovon(参考訳) 一般的に、ヒト上皮成長因子2(HER2)乳癌は他の種類の乳癌よりも攻撃的である。 現在、高価な医療検査でHER2乳癌を検出するのが最も高価である。 そこで本研究では,畳み込みニューラルネットワーク(CNN)を用いた画像データを用いて,HER2乳癌を検出するConvoHER2という計算モデルを開発した。 ヘマトキシリンとエオシン(h&e)と免疫組織化学的(ihc)染色画像は、ベイズ情報基準(bic)ベンチマークデータセットの生データとして使用されている。 このデータセットは4873枚のH&EとIHCの画像で構成されている。 データセットの全画像のうち、それぞれ3896画像と977画像を適用し、convoher2モデルのトレーニングとテストを行う。 すべての画像が高解像度であるので、コンボHER2モデルで処理できるようにサイズを変更します。 がんサンプル画像は、がんのステージ(0+,1+,2+,3+)に基づいて4つのクラスに分類される。 コンボHER2モデルは、H&E画像とIHC画像を用いて、HER2癌とそのグレードを精度85%と88%で検出することができる。 本研究の結果, 今後, HER2乳がんの回復のために, コンボHER2モデルのHER2癌検出率は, 患者に良好な診断を与えるのに十分であることがわかった。

Generally, human epidermal growth factor 2 (HER2) breast cancer is more aggressive than other kinds of breast cancer. Currently, HER2 breast cancer is detected using expensive medical tests are most expensive. Therefore, the aim of this study was to develop a computational model named convoHER2 for detecting HER2 breast cancer with image data using convolution neural network (CNN). Hematoxylin and eosin (H&E) and immunohistochemical (IHC) stained images has been used as raw data from the Bayesian information criterion (BIC) benchmark dataset. This dataset consists of 4873 images of H&E and IHC. Among all images of the dataset, 3896 and 977 images are applied to train and test the convoHER2 model, respectively. As all the images are in high resolution, we resize them so that we can feed them in our convoHER2 model. The cancerous samples images are classified into four classes based on the stage of the cancer (0+, 1+, 2+, 3+). The convoHER2 model is able to detect HER2 cancer and its grade with accuracy 85% and 88% using H&E images and IHC images, respectively. The outcomes of this study determined that the HER2 cancer detecting rates of the convoHER2 model are much enough to provide better diagnosis to the patient for recovering their HER2 breast cancer in future.
翻訳日:2022-11-22 22:28:48 公開日:2022-11-19
# 太陽光干渉計を用いたパッシブマイクロンスケール飛行時間

Passive Micron-scale Time-of-Flight with Sunlight Interferometry ( http://arxiv.org/abs/2211.10732v1 )

ライセンス: Link先を確認
Alankar Kotwal and Anat Levin and Ioannis Gkioulekas(参考訳) 微視的軸方向分解能における受動飛行時間イメージングと深度センシングのための干渉計測手法を提案する。 我々の技術は、日光を唯一の光源として使うように修正されたフルフィールドマイケルソン干渉計を使用する。 日光のスペクトル帯域が大きいため、簡単な軸走査操作により、マイクロメートル分解能の時間分解能シーン応答を得ることができる。 さらに、太陽光の角帯域幅は、反射や地下散乱のような間接的な照明効果に敏感な飛行時間の測定を捉えることができる。 我々は, 屋外, 直射日光の下で, 機械振動や自動車交通などの環境条件下での運転を行う実験プロトタイプを構築した。 このプロトタイプを用いて,マイクロメータの奥行き検出による間接照明のロバスト化,直接撮像,ディフューザによるイメージングなどのパッシブイメージング機能を初めて実証した。

We introduce an interferometric technique for passive time-of-flight imaging and depth sensing at micrometer axial resolutions. Our technique uses a full-field Michelson interferometer, modified to use sunlight as the only light source. The large spectral bandwidth of sunlight makes it possible to acquire micrometer-resolution time-resolved scene responses, through a simple axial scanning operation. Additionally, the angular bandwidth of sunlight makes it possible to capture time-of-flight measurements insensitive to indirect illumination effects, such as interreflections and subsurface scattering. We build an experimental prototype that we operate outdoors, under direct sunlight, and in adverse environmental conditions such as mechanical vibrations and vehicle traffic. We use this prototype to demonstrate, for the first time, passive imaging capabilities such as micrometer-scale depth sensing robust to indirect illumination, direct-only imaging, and imaging through diffusers.
翻訳日:2022-11-22 22:28:27 公開日:2022-11-19
# ワクチンか政府か? 新型コロナウイルスワクチン有害事象における党派バイアス

Suffering from Vaccines or from Government? : Partisan Bias in COVID-19 Vaccine Adverse Events Coverage ( http://arxiv.org/abs/2211.10707v1 )

ライセンス: Link先を確認
TaeYoung Kang, Hanbin Lee(参考訳) ワクチンの有害事象は、政治的分極に免疫を持つ比較的客観的な指標であると推定されている。 しかし、実世界のデータは、大統領不承認格付けと有害事象の主観的重み付けの相関を示している。 本稿では、ワクチン関連記事の話題とニュースコメントの政治的処分を分類できる言語モデルを用いて、新型コロナウイルスワクチンの有害事象における党派バイアスを調査した。 52の大手新聞社による90万件のニュース記事から、保守系メディアはリベラル派よりも有害事象を頻繁に報告する傾向にあり、報道自体が現実の有害事象の深刻さと統計的に無関係であることがわかった。 保守党を支持するユーザーは、ニュースプラットフォーム上で2.3Kのランダムなサンプル記事から人気のあるコメントを書く傾向があった。 この研究は、人口の大多数がワクチン接種を受けた後も、両党制が新型コロナウイルスワクチンに対する世論形成に重要な役割を果たすことを示唆している。

Vaccine adverse events have been presumed to be a relatively objective measure that is immune to political polarization. The real-world data, however, shows the correlation between presidential disapproval ratings and the subjective severity of adverse events. This paper investigates the partisan bias in COVID vaccine adverse events coverage with language models that can classify the topic of vaccine-related articles and the political disposition of news comments. Based on 90K news articles from 52 major newspaper companies, we found that conservative media are inclined to report adverse events more frequently than their liberal counterparts, while the coverage itself was statistically uncorrelated with the severity of real-world adverse events. The users who support the conservative opposing party were more likely to write the popular comments from 2.3K random sampled articles on news platforms. This research implies that bipartisanship can still play a significant role in forming public opinion on the COVID vaccine even after the majority of the population's vaccination
翻訳日:2022-11-22 22:19:22 公開日:2022-11-19
# PIC4rl-gym: 深層強化学習によるロボット自律走行のためのROS2モジュラーフレームワーク

PIC4rl-gym: a ROS2 modular framework for Robots Autonomous Navigation with Deep Reinforcement Learning ( http://arxiv.org/abs/2211.10714v1 )

ライセンス: Link先を確認
Mauro Martini, Andrea Eirale, Simone Cerrato, Marcello Chiaberge(参考訳) 学習エージェントは、様々なアプローチを採用することで、システムの柔軟性、効率性、計算コストを改善する標準自律ナビゲーションを最適化することができる。 本稿では,ロボットコミュニティの標準ツールであるros2とgazboとdeep reinforcement learning(drl)を組み合わせて,ナビゲーションと学習研究を強化するための基本モジュールフレームワークである \textit{pic4rl-gym}を紹介する。 本稿では、DRLエージェントのトレーニングとテストを完全に統合したPIC4rl-gymの全体構造について述べる。 新しいプラットフォーム、センサー、モデルを選択することでシミュレーションを簡単にカスタマイズするためのモジュラーアプローチが採用されている。 得られたポリシーをベンチマークし、異なるナビゲーションタスクのためにトレーニングし、完全なメトリクスセットで、新しいジムの可能性を示す。

Learning agents can optimize standard autonomous navigation improving flexibility, efficiency, and computational cost of the system by adopting a wide variety of approaches. This work introduces the \textit{PIC4rl-gym}, a fundamental modular framework to enhance navigation and learning research by mixing ROS2 and Gazebo, the standard tools of the robotics community, with Deep Reinforcement Learning (DRL). The paper describes the whole structure of the PIC4rl-gym, which fully integrates DRL agent's training and testing in several indoor and outdoor navigation scenarios and tasks. A modular approach is adopted to easily customize the simulation by selecting new platforms, sensors, or models. We demonstrate the potential of our novel gym by benchmarking the resulting policies, trained for different navigation tasks, with a complete set of metrics.
翻訳日:2022-11-22 22:12:36 公開日:2022-11-19
# 認知症者のための異なるタイプの記憶を支援する人工知能インタフェースの可能性の検討

Investigating the Potential of Artificial Intelligence Powered Interfaces to Support Different Types of Memory for People with Dementia ( http://arxiv.org/abs/2211.10756v1 )

ライセンス: Link先を確認
Hanuma Teja Maddali and Emma Dixon and Alisha Pradhan and Amanda Lazar(参考訳) 認知症患者の特定の技術的ニーズを理解し、自己管理型の日常活動でそれらをサポートするhciへの関心が高まっている。 もっとも困難な課題の1つは、認知症の特定の種類の認知症や状態の進行によって異なる認知症の患者のアクセシビリティーニーズの変動を支援することである。 研究者たちは、自動パーソナライズされたインターフェースを特定し、最近では人工知能やAIによるパーソナライゼーションを、変動能力のあるユーザのためのスケーラブルな方法で商用技術にアクセス可能にする潜在的なソリューションとして特定している。 しかし、日常的な技術利用の助けとして、認知症にまつわる人々の認識や、他の非AI技術や人的援助を含む、全体的な自己管理システムにおけるその役割について、理解の欠如がある。 本稿では、認知症に関連する異なる種類の記憶のインタフェースをパーソナライズするためのAIベースのシステム設計の今後の方向性と、認知症のあるユーザとのAIインタラクションへの期待について述べる。

There has been a growing interest in HCI to understand the specific technological needs of people with dementia and supporting them in self-managing daily activities. One of the most difficult challenges to address is supporting the fluctuating accessibility needs of people with dementia, which vary with the specific type of dementia and the progression of the condition. Researchers have identified auto-personalized interfaces, and more recently, Artificial Intelligence or AI-driven personalization as a potential solution to making commercial technology accessible in a scalable manner for users with fluctuating ability. However, there is a lack of understanding on the perceptions of people with dementia around AI as an aid to their everyday technology use and its role in their overall self-management systems, which include other non-AI technology, and human assistance. In this paper, we present future directions for the design of AI-based systems to personalize an interface for dementia-related changes in different types of memory, along with expectations for AI interactions with the user with dementia.
翻訳日:2022-11-22 22:12:20 公開日:2022-11-19
# 機械学習を用いたHPCアプリケーションにおけるデータ分割のためのブロックサイズ推定

Block size estimation for data partitioning in HPC applications using machine learning techniques ( http://arxiv.org/abs/2211.10819v1 )

ライセンス: Link先を確認
Riccardo Cantini, Fabrizio Marozzo, Alessio Orsino, Domenico Talia, Paolo Trunfio, Rosa M. Badia, Jorge Ejarque, Fernando Vazquez(参考訳) データ集約型アプリケーションを実行するためのHPCインフラストラクチャとフレームワークの広範な使用により、データパーティショニング技術や戦略への関心が高まっている。 実際、効果的なパーティショニング、すなわちデータブロックに適したサイズを見つけることは、並列データ集約アプリケーションのスピードアップとスケーラビリティ向上のための重要な戦略である。 本稿では,教師付き機械学習技術を用いたhpcアプリケーションにおけるデータブロックサイズ推定手法について述べる。 提案手法の実装は、PyCOMPSsフレームワーク上に構築された機械学習アルゴリズムに重点を置いた分散コンピューティングライブラリであるTestbed Dislibを用いて評価された。 我々は,MareNostrum 4スーパーコンピュータを含む,異なるアルゴリズム,データセット,インフラストラクチャを考慮した広範な実験評価を通じて,ソリューションの有効性を評価した。 その結果、与えられたデータセットを分割する適切な方法を効率的に決定できるため、高性能環境でのデータ並列アプリケーションの効率的な実行が可能となった。

The extensive use of HPC infrastructures and frameworks for running data-intensive applications has led to a growing interest in data partitioning techniques and strategies. In fact, finding an effective partitioning, i.e. a suitable size for data blocks, is a key strategy to speed-up parallel data-intensive applications and increase scalability. This paper describes a methodology for data block size estimation in HPC applications, which relies on supervised machine learning techniques. The implementation of the proposed methodology was evaluated using as a testbed dislib, a distributed computing library highly focused on machine learning algorithms built on top of the PyCOMPSs framework. We assessed the effectiveness of our solution through an extensive experimental evaluation considering different algorithms, datasets, and infrastructures, including the MareNostrum 4 supercomputer. The results we obtained show that the methodology is able to efficiently determine a suitable way to split a given dataset, thus enabling the efficient execution of data-parallel applications in high performance environments.
翻訳日:2022-11-22 22:12:02 公開日:2022-11-19
# NVDiff:ノードベクトルの拡散によるグラフ生成

NVDiff: Graph Generation through the Diffusion of Node Vectors ( http://arxiv.org/abs/2211.10794v1 )

ライセンス: Link先を確認
Xiaohui Chen, Yukun Li, Aonan Zhang, Li-ping Liu(参考訳) グラフを生成する学習は、グラフが複雑な組合せ構造をコードするペア接続された、順序のないノードの集合であるため、難しい。 近年,正規化フローやスコアベース拡散モデルに基づくグラフ生成モデルが提案されている。 しかし、これらのモデルは、不必要に高い次元を持つ同じプロセスから平行にノードとエッジを生成する必要がある。 我々は,VGAE構造を取り入れたNVDiffを提案し,サンプルノードベクトルに先立ってフレキシブルなスコアベース生成モデル(SGM)を用いる。 潜在空間におけるノードベクトルのみをモデル化することにより、NVDiffは拡散過程の次元を著しく減らし、サンプリング速度を向上する。 nvdiffフレームワークを基盤として,グラフの局所的およびグローバル的コンテキストをキャプチャ可能な注意に基づくスコアネットワークを提案する。 実験によると、NVDiffは計算を著しく削減し、競合する手法よりもはるかに大きなグラフをモデル化できる。 同時に、従来の手法と比較して、さまざまなデータセットよりも優れた、あるいは競争的なパフォーマンスを達成する。

Learning to generate graphs is challenging as a graph is a set of pairwise connected, unordered nodes encoding complex combinatorial structures. Recently, several works have proposed graph generative models based on normalizing flows or score-based diffusion models. However, these models need to generate nodes and edges in parallel from the same process, whose dimensionality is unnecessarily high. We propose NVDiff, which takes the VGAE structure and uses a score-based generative model (SGM) as a flexible prior to sample node vectors. By modeling only node vectors in the latent space, NVDiff significantly reduces the dimension of the diffusion process and thus improves sampling speed. Built on the NVDiff framework, we introduce an attention-based score network capable of capturing both local and global contexts of graphs. Experiments indicate that NVDiff significantly reduces computations and can model much larger graphs than competing methods. At the same time, it achieves superior or competitive performances over various datasets compared to previous methods.
翻訳日:2022-11-22 21:54:41 公開日:2022-11-19
# オーバースモーニングに飽きた? ストレスグラフの描画は必要なだけ!

Tired of Over-smoothing? Stress Graph Drawing Is All You Need! ( http://arxiv.org/abs/2211.10579v1 )

ライセンス: Link先を確認
Xue Li and Yuanzhi Cheng(参考訳) グラフニューラルネットワークの設計と適用において、私たちはしばしば最適化の落とし穴に陥ります。 基本的な理由は、グラフニューラルネットワークの仕組みが理解されていないからです。 ストレスグラフの描画は、グラフ内のメッセージイテレーションに対するユニークな視点を提供することができる。例えば、過剰なスムーシング問題の根源は、ノード間の理想的な距離を維持するグラフモデルができないことである。 オーバースムーシングのトリガー条件をさらに解明し,ストレスグラフニューラルネットワークを提案する。 ストレス反復から引き起こされる魅力的なメッセージパッシングを導入することで、過剰なスムースを防止せずにディープモデルを構築する方法、反発情報の使用方法、そして、現在のメッセージパッシングスキームを最適化して全ストレスメッセージの伝搬を近似する方法を示す。 23個のデータセット上で異なるタスクを行うことで,本モデルの有効性とストレス反復とグラフニューラルネットワークの関係を検証した。 ストレスグラフの描画は、グラフニューラルネットワークの理解と設計に人気のあるリソースになると考えています。

In designing and applying graph neural networks, we often fall into some optimization pitfalls, the most deceptive of which is that we can only build a deep model by solving over-smoothing. The fundamental reason is that we do not understand how graph neural networks work. Stress graph drawing can offer a unique viewpoint to message iteration in the graph, such as the root of the over-smoothing problem lies in the inability of graph models to maintain an ideal distance between nodes. We further elucidate the trigger conditions of over-smoothing and propose Stress Graph Neural Networks. By introducing the attractive and repulsive message passing from stress iteration, we show how to build a deep model without preventing over-smoothing, how to use repulsive information, and how to optimize the current message-passing scheme to approximate the full stress message propagation. By performing different tasks on 23 datasets, we verified the effectiveness of our attractive and repulsive models and the derived relationship between stress iteration and graph neural networks. We believe that stress graph drawing will be a popular resource for understanding and designing graph neural networks.
翻訳日:2022-11-22 21:45:43 公開日:2022-11-19
# 時系列分類のためのクラス特化注意(CSA)

Class-Specific Attention (CSA) for Time-Series Classification ( http://arxiv.org/abs/2211.10609v1 )

ライセンス: Link先を確認
Yifan Hao, Huiping Cao, K. Selcuk Candan, Jiefei Liu, Huiying Chen, Ziwei Ma(参考訳) ほとんどのニューラルネットワークベースの分類器は、複数の隠れレイヤを使用して特徴を抽出し、これらの特徴を利用して出力層で予測を行う。 すべての機能がすべてのクラスで等しく発音されるわけではない。 既存のモデルは、隠れたレイヤから抽出されたすべての機能を出力層に等しく供給するため、機能におけるクラス固有の違いを完全には利用しません。 最近の注意機構は、異なる特徴に異なる強調(または注意)を与えることができるが、これらの注意モデルはクラスに依存しない。 本稿では,クラス特有な特徴を捉え,時系列の全体的な分類性能を向上させるための新しいクラス特有注意(csa)モジュールを提案する。 CSAモジュールは、時系列分類を行うために、既存のニューラルネットワーク(NN)ベースのモデルで採用できるように設計されている。 実験では、このモジュールを5つの最先端ニューラルネットワークモデルにプラグインして時系列分類を行い、40の実際のデータセットを使用してその効果をテストする。 広範な実験により、csaモジュールに埋め込まれたnnモデルは、ほとんどのケースでベースモデルを改善することができ、精度が最大42%向上することが示されている。 統計分析の結果, CSAモジュールを組み込んだNNモデルの性能は, MTSの67%, UTSテストの80%でベースNNモデルよりも優れており, MTSの11%, UTSテストの13%では有意に優れていた。

Most neural network-based classifiers extract features using several hidden layers and make predictions at the output layer by utilizing these extracted features. We observe that not all features are equally pronounced in all classes; we call such features class-specific features. Existing models do not fully utilize the class-specific differences in features as they feed all extracted features from the hidden layers equally to the output layers. Recent attention mechanisms allow giving different emphasis (or attention) to different features, but these attention models are themselves class-agnostic. In this paper, we propose a novel class-specific attention (CSA) module to capture significant class-specific features and improve the overall classification performance of time series. The CSA module is designed in a way such that it can be adopted in existing neural network (NN) based models to conduct time series classification. In the experiments, this module is plugged into five start-of-the-art neural network models for time series classification to test its effectiveness by using 40 different real datasets. Extensive experiments show that an NN model embedded with the CSA module can improve the base model in most cases and the accuracy improvement can be up to 42%. Our statistical analysis show that the performance of an NN model embedding the CSA module is better than the base NN model on 67% of MTS and 80% of UTS test cases and is significantly better on 11% of MTS and 13% of UTS test cases.
翻訳日:2022-11-22 21:45:25 公開日:2022-11-19
# LibSignal: トラフィック信号制御のためのオープンライブラリ

LibSignal: An Open Library for Traffic Signal Control ( http://arxiv.org/abs/2211.10649v1 )

ライセンス: Link先を確認
Hao Mei, Xiaoliang Lei, Longchao Da, Bin Shi, Hua Wei(参考訳) 本稿では,信号制御タスクにおける強化学習モデルのクロスシミュレータ比較のためのライブラリを提案する。 このライブラリは、拡張可能なインターフェースとクロスシミュレーター評価メトリクスを統一した最新の最先端強化学習モデルを実装するために開発された。 交通信号制御タスクで一般的に使用されるシミュレーター(SUMO)やCityFlow、公正な比較のための複数のベンチマークデータセットなど)をサポートする。 我々は,モデルの実装を検証する実験を行い,シミュレータのキャリブレーションを行い,一方のシミュレータによる実験を他方のシミュレータに参照できるようにした。 検証されたモデルと校正環境に基づいて、異なるデータセットやシミュレータ間での現在の最先端RLアルゴリズムの性能を比較し、報告する。 これらの手法が、異なるシミュレーターで同じデータセットでかなり比較されたのはこれが初めてである。

This paper introduces a library for cross-simulator comparison of reinforcement learning models in traffic signal control tasks. This library is developed to implement recent state-of-the-art reinforcement learning models with extensible interfaces and unified cross-simulator evaluation metrics. It supports commonly-used simulators in traffic signal control tasks, including Simulation of Urban MObility(SUMO) and CityFlow, and multiple benchmark datasets for fair comparisons. We conducted experiments to validate our implementation of the models and to calibrate the simulators so that the experiments from one simulator could be referential to the other. Based on the validated models and calibrated environments, this paper compares and reports the performance of current state-of-the-art RL algorithms across different datasets and simulators. This is the first time that these methods have been compared fairly under the same datasets with different simulators.
翻訳日:2022-11-22 21:44:58 公開日:2022-11-19
# ディープビジョンアルゴリズムの逆ロバスト性に向けて

Towards Adversarial Robustness of Deep Vision Algorithms ( http://arxiv.org/abs/2211.10670v1 )

ライセンス: Link先を確認
Hanshu Yan(参考訳) 深層学習法はコンピュータビジョンタスクの解法において大きな成功を収めており、画像処理、解析、理解のために人工知能システムで広く利用されている。 しかし、深層ニューラルネットワークは入力データにおける敵の摂動に弱いことが示されている。 そのため、ディープニューラルネットワークのセキュリティ問題が前面に浮かび上がっている。 ディープビジョンアルゴリズムの敵対的堅牢性を包括的に研究することが不可欠である。 本講演は,画像分類モデルと画像復調器の対角的堅牢性に焦点を当てた。 深部ビジョンアルゴリズムのロバスト性について3つの視点から論じる。 1)ロバスト性評価(難聴者のロバスト性評価のためのObsAtkを提案する) 2)堅牢性向上(HAT、TisODE、CIFSはビジョンモデルを強化するために開発されている)、 3)新しい領域への可逆的ロバスト性と一般化能力の関係(可逆的ロバストなデノイザーが実世界のノイズに対処できることが分かる)。

Deep learning methods have achieved great success in solving computer vision tasks, and they have been widely utilized in artificially intelligent systems for image processing, analysis, and understanding. However, deep neural networks have been shown to be vulnerable to adversarial perturbations in input data. The security issues of deep neural networks have thus come to the fore. It is imperative to study the adversarial robustness of deep vision algorithms comprehensively. This talk focuses on the adversarial robustness of image classification models and image denoisers. We will discuss the robustness of deep vision algorithms from three perspectives: 1) robustness evaluation (we propose the ObsAtk to evaluate the robustness of denoisers), 2) robustness improvement (HAT, TisODE, and CIFS are developed to robustify vision models), and 3) the connection between adversarial robustness and generalization capability to new domains (we find that adversarially robust denoisers can deal with unseen types of real-world noise).
翻訳日:2022-11-22 21:44:46 公開日:2022-11-19
# 拡張クラスによる補足ラベル学習

Complementary Labels Learning with Augmented Classes ( http://arxiv.org/abs/2211.10701v1 )

ライセンス: Link先を確認
Zhongnian Li, Jian Zhang, Mengting Xu, Xinzheng Xu, Daoqiang Zhang(参考訳) 補完ラベル学習 (Complementary Labels Learning, CLL) は、標準的な教師付き学習と比較してアノテーションコストを軽減することを目的とした、プライベート質問分類やオンライン学習など、現実世界の多くのタスクで発生する。 残念なことに、以前のほとんどのcllアルゴリズムは、オープンでダイナミックなシナリオではなく、安定した環境にあった。 本稿では,cllac(compresoral labels learning with augmented classes)と呼ばれる新しい問題集合を提案する。これは,補完ラベルによって訓練された分類器が,観測されたクラスから正確にインスタンスを分類できるだけでなく,テストフェーズで拡張クラスからインスタンスを認識できるという課題をもたらす。 具体的には,ラベルのないデータを用いて,cllacの分類リスクの偏りのない推定法を提案する。 また,提案手法の一般化誤差は,推定誤差に対して最適なパラメトリック収束率が得られることを示すものである。 最後に,いくつかのベンチマークデータセットにおける実験結果から,提案手法の有効性を検証した。

Complementary Labels Learning (CLL) arises in many real-world tasks such as private questions classification and online learning, which aims to alleviate the annotation cost compared with standard supervised learning. Unfortunately, most previous CLL algorithms were in a stable environment rather than an open and dynamic scenarios, where data collected from unseen augmented classes in the training process might emerge in the testing phase. In this paper, we propose a novel problem setting called Complementary Labels Learning with Augmented Classes (CLLAC), which brings the challenge that classifiers trained by complementary labels should not only be able to classify the instances from observed classes accurately, but also recognize the instance from the Augmented Classes in the testing phase. Specifically, by using unlabeled data, we propose an unbiased estimator of classification risk for CLLAC, which is guaranteed to be provably consistent. Moreover, we provide generalization error bound for proposed method which shows that the optimal parametric convergence rate is achieved for estimation error. Finally, the experimental results on several benchmark datasets verify the effectiveness of the proposed method.
翻訳日:2022-11-22 21:44:33 公開日:2022-11-19
# 情報処理ユニットがニューロモーフィック学習を加速

Intelligence Processing Units Accelerate Neuromorphic Learning ( http://arxiv.org/abs/2211.10725v1 )

ライセンス: Link先を確認
Pao-Sheng Vincent Sun, Alexander Titterton, Anjlee Gopiani, Tim Santos, Arindam Basu, Wei D. Lu, and Jason K. Eshraghian(参考訳) スパイキングニューラルネットワーク(SNN)は、ディープラーニングワークロードで推論を実行する際のエネルギー消費とレイテンシの観点から、桁違いに改善されている。 現在、誤りのバックプロパゲーションはSNNのトレーニングにおいて最も効果的な方法と考えられているが、皮肉なことに、現代のグラフィックス処理ユニット(GPU)のトレーニングでは、非スパイクネットワークよりも高価になる。 Graphcoreのインテリジェンス処理ユニット(IPUs)の出現は、ディープラーニングワークロードの並列化特性と、SNNのトレーニングで広く見られる、シーケンシャルで再利用可能な、スパーシフィケーションされた操作特性とをバランスさせる。 IPUは、より小さなデータブロック上で個々の処理スレッドを実行することで、マルチ命令マルチデータ(MIMD)並列性を採用する。 我々は、SNNワークロードのトレーニングに特徴的な不規則でスパースなデータアクセスパターンを高速化するために、低レベルのプリコンパイルされたカスタム操作を活用することで、粒度の並列性を活用するカスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提案する。 本稿では,よく用いられるスパイキングニューロンモデル群を対象とした厳密な性能評価を行い,ハーフ精度トレーニングによる実行時間短縮手法を提案する。 逐次処理のコストをベクトル化可能な集団コードに補正することにより、ドメイン固有の加速器を次世代のニューラルネットワークに統合する可能性を最終的に実証する。

Spiking neural networks (SNNs) have achieved orders of magnitude improvement in terms of energy consumption and latency when performing inference with deep learning workloads. Error backpropagation is presently regarded as the most effective method for training SNNs, but in a twist of irony, when training on modern graphics processing units (GPUs) this becomes more expensive than non-spiking networks. The emergence of Graphcore's Intelligence Processing Units (IPUs) balances the parallelized nature of deep learning workloads with the sequential, reusable, and sparsified nature of operations prevalent when training SNNs. IPUs adopt multi-instruction multi-data (MIMD) parallelism by running individual processing threads on smaller data blocks, which is a natural fit for the sequential, non-vectorized steps required to solve spiking neuron dynamical state equations. We present an IPU-optimized release of our custom SNN Python package, snnTorch, which exploits fine-grained parallelism by utilizing low-level, pre-compiled custom operations to accelerate irregular and sparse data access patterns that are characteristic of training SNN workloads. We provide a rigorous performance assessment across a suite of commonly used spiking neuron models, and propose methods to further reduce training run-time via half-precision training. By amortizing the cost of sequential processing into vectorizable population codes, we ultimately demonstrate the potential for integrating domain-specific accelerators with the next generation of neural networks.
翻訳日:2022-11-22 21:44:13 公開日:2022-11-19
# 精度ブースター:dnnトレーニングのためのエポック駆動混合マニサブロック浮動小数点

Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for DNN Training ( http://arxiv.org/abs/2211.10737v1 )

ライセンス: Link先を確認
Simla Burcu Harma, Canberk S\"onmez, Babak Falsafi, Martin Jaggi, Yunho Oh(参考訳) DNNモデルの複雑さ、サイズ、トレーニングデータの量に対する前例のない成長は、コンピューティングの需要の増大と最小限のエンコーディングの探索につながった。 近年,HBFP(Hybrid Block Floating-Point)は,演算処理の大部分を8ビット固定点に変換することで,加速器のシリコン供給を最小化する技術として提唱されている。 本稿では,HBFP設計空間を大規模に探索し,最小マンティサ符号化,ブロックサイズの変化,層間およびエポック間の混合マンティサビット幅について検討する。 我々は,6ビットのマンティッサのみを使用し,訓練中の算術演算の99.7 %$を4ビットのマンティッサに変換するエポック駆動混合マンティッサHBFPである \emph{Accuracy Boosters} を提案する。 高精度ブースターは、FP32と比較してHBFPトレーニングアクセラレータのシリコン供給を16.98\times$で削減し、FP32の精度を保留または上回る。

The unprecedented growth in DNN model complexity, size and the amount of training data have led to a commensurate increase in demand for computing and a search for minimal encoding. Recent research advocates Hybrid Block Floating-Point (HBFP) as a technique that minimizes silicon provisioning in accelerators by converting the majority of arithmetic operations in training to 8-bit fixed-point. In this paper, we perform a full-scale exploration of the HBFP design space including minimal mantissa encoding, varying block sizes, and mixed mantissa bit-width across layers and epochs. We propose \emph{Accuracy Boosters}, an epoch-driven mixed-mantissa HBFP that uses 6-bit mantissa only in the last epoch and converts $99.7\%$ of all arithmetic operations in training to 4-bit mantissas. Accuracy Boosters enable reducing silicon provisioning for an HBFP training accelerator by $16.98\times$ as compared to FP32, while preserving or outperforming FP32 accuracy.
翻訳日:2022-11-22 21:43:48 公開日:2022-11-19
# EDEN: 1-WLテストを超えたプラグイン同変距離符号化

EDEN: A Plug-in Equivariant Distance Encoding to Beyond the 1-WL Test ( http://arxiv.org/abs/2211.10739v1 )

ライセンス: Link先を確認
Chang Liu, Yuwen Yang, Yue Ding, Hongtao Lu(参考訳) メッセージパッシング方式はグラフ表現学習のコアとなる。 多くの既存のメッセージパスグラフニューラルネットワーク(MPNN)はグラフレベルの表現学習において置換不変であり、ノードレベルの表現学習とエッジレベルの表現学習では置換不変であるが、その表現力は1-Weisfeiler-Lehman (1-WL)グラフ同型テストによって制限される。 近年、複雑なメッセージパッシング機構を設計した表現型グラフニューラルネットワーク(GNN)は実用的ではない。 このギャップを埋めるために,MPNNのためのプラグインEquivariant Distance ENcoding (EDEN)を提案する。 EDENはグラフの距離行列上の一連の解釈可能な変換に由来する。 我々は,EDENがすべてのレベルグラフ表現学習における置換同変であることを理論的に証明し,EDENの表現力が3WLまで到達できることを実証的に示す。 実世界のデータセットに対する大規模な実験により、EDENと従来のGNNを組み合わせることは、最近の進歩したGNNを上回ることが示されている。

The message-passing scheme is the core of graph representation learning. While most existing message-passing graph neural networks (MPNNs) are permutation-invariant in graph-level representation learning and permutation-equivariant in node- and edge-level representation learning, their expressive power is commonly limited by the 1-Weisfeiler-Lehman (1-WL) graph isomorphism test. Recently proposed expressive graph neural networks (GNNs) with specially designed complex message-passing mechanisms are not practical. To bridge the gap, we propose a plug-in Equivariant Distance ENcoding (EDEN) for MPNNs. EDEN is derived from a series of interpretable transformations on the graph's distance matrix. We theoretically prove that EDEN is permutation-equivariant for all level graph representation learning, and we empirically illustrate that EDEN's expressive power can reach up to the 3-WL test. Extensive experiments on real-world datasets show that combining EDEN with conventional GNNs surpasses recent advanced GNNs.
翻訳日:2022-11-22 21:43:28 公開日:2022-11-19
# 合成表データ評価に関する実験的研究

An experimental study on Synthetic Tabular Data Evaluation ( http://arxiv.org/abs/2211.10760v1 )

ライセンス: Link先を確認
Javier Marin(参考訳) 本稿では,表データから生成された合成データの類似性を測定するための様々な手法について述べる。 特に本研究は,合成データが実データよりも多くのサンプルを持つ場合に適用する。 このタスクには特別な複雑さがあり、この合成されたデータの信頼性を元のデータよりもはるかに多くのサンプルで検証する。 文献に見られる最も一般的なグローバル指標を評価した。 我々は,データの位相的シグネチャ解析に基づく新しい手法を導入した。 トポロジカルデータ分析は後者の課題に対処する上でいくつかの利点がある。 定性的幾何情報の研究は、量的距離関数値を無視しながら幾何学的性質に焦点を当てている。 これは試料サイズが著しく増大した高次元合成データに特に有用である。 これは、元のデータによって設定された制限内でデータ空間に新しいデータポイントを導入するのに匹敵する。 そして、大規模な合成データ空間では、ポイントは元の空間よりもはるかに集中し、それらの分析は使用されるメトリクスとノイズの両方にはるかに敏感になる。 代わりに、点間の「近さ」の概念は定性的幾何学的情報に使用される。 最後に,合成データのノイズレベルを評価するために,データ固有ベクトルに基づく手法を提案する。 このアプローチは、オリジナルデータと合成データの類似性を評価するためにも使用できる。

In this paper, we present the findings of various methodologies for measuring the similarity of synthetic data generated from tabular data samples. We particularly apply our research to the case where the synthetic data has many more samples than the real data. This task has a special complexity: validating the reliability of this synthetically generated data with a much higher number of samples than the original. We evaluated the most commonly used global metrics found in the literature. We introduced a novel approach based on the data's topological signature analysis. Topological data analysis has several advantages in addressing this latter challenge. The study of qualitative geometric information focuses on geometric properties while neglecting quantitative distance function values. This is especially useful with high-dimensional synthetic data where the sample size has been significantly increased. It is comparable to introducing new data points into the data space within the limits set by the original data. Then, in large synthetic data spaces, points will be much more concentrated than in the original space, and their analysis will become much more sensitive to both the metrics used and noise. Instead, the concept of "closeness" between points is used for qualitative geometric information. Finally, we suggest an approach based on data Eigen vectors for evaluating the level of noise in synthetic data. This approach can also be used to assess the similarity of original and synthetic data.
翻訳日:2022-11-22 21:43:06 公開日:2022-11-19
# $k$Nearest隣人のための2段階能動学習アルゴリズム

A Two-Stage Active Learning Algorithm for $k$-Nearest Neighbors ( http://arxiv.org/abs/2211.10773v1 )

ライセンス: Link先を確認
Nick Rittler and Kamalika Chaudhuri(参考訳) 我々は,$k$-nearest近傍の分類器を訓練するために,単純で直感的な2段階のアクティブラーニングアルゴリズムを導入する。 また,条件付き確率関数 $\mathbb{p}(y=y|x=x)$ が十分に滑らかであり,tsybakov 雑音条件が保持されている場合,能動的に訓練された分類器は,受動的に訓練された $k$-nearest 隣接分類器よりも早い漸近速度でベイズ最適分類器に収束することを示す。

We introduce a simple and intuitive two-stage active learning algorithm for the training of $k$-nearest neighbors classifiers. We provide consistency guarantees for a modified $k$-nearest neighbors classifier trained on samples acquired via our scheme, and show that when the conditional probability function $\mathbb{P}(Y=y|X=x)$ is sufficiently smooth and the Tsybakov noise condition holds, our actively trained classifiers converge to the Bayes optimal classifier at a faster asymptotic rate than passively trained $k$-nearest neighbor classifiers.
翻訳日:2022-11-22 21:42:50 公開日:2022-11-19
# メタファー的言語変化は自己組織的批判である

Metaphorical Language Change Is Self-Organized Criticality ( http://arxiv.org/abs/2211.10709v1 )

ライセンス: Link先を確認
Xuri Tang and Huifang Ye(参考訳) 比喩的言語変化のアクティベーション問題を解決する一つの方法は、比喩的構成の統計的プロファイルと先行条件による生成規則を提供することである。 複雑なシステムとしての言語とメタファーのダイナミックな視点の議論に基づいて,メタファ的言語変化は自己組織的臨界状態として適しており,メタファの言語表現は時空間的相関を持つフラクタルとしてプロファイルできる,と論じた。 同時に、これらの比喩表現は、自己相似でスケール不変なフラクタルへと自己組織化され、これは、時間的に長い範囲の相互依存は、言語システムに固有の変換規則によって自己組織化過程を制約する。 この議論は, 大規模ダイアクロニックコーパスにおいて, ランダムに選択された12の中国語動詞のメタファーを統計的に分析して検証した。

One way to resolve the actuation problem of metaphorical language change is to provide a statistical profile of metaphorical constructions and generative rules with antecedent conditions. Based on arguments from the view of language as complex systems and the dynamic view of metaphor, this paper argues that metaphorical language change qualifies as a self-organized criticality state and the linguistic expressions of a metaphor can be profiled as a fractal with spatio-temporal correlations. Synchronously, these metaphorical expressions self-organize into a self-similar, scale-invariant fractal that follows a power-law distribution; temporally, long range inter-dependence constrains the self-organization process by the way of transformation rules that are intrinsic of a language system. This argument is verified in the paper with statistical analyses of twelve randomly selected Chinese verb metaphors in a large-scale diachronic corpus.
翻訳日:2022-11-22 21:35:35 公開日:2022-11-19
# 異種知識グラフデータセットを用いた映像理解と知識埋め込みのための統一モデル

A Unified Model for Video Understanding and Knowledge Embedding with Heterogeneous Knowledge Graph Dataset ( http://arxiv.org/abs/2211.10624v1 )

ライセンス: Link先を確認
Jiaxin Deng, Dong Shen, Haojie Pan, Xiangyu Wu, Ximan Liu, Gaofeng Meng, Fan Yang, Size Li, Ruiji Fu, Zhongyuan Wang(参考訳) ビデオ理解はショートビデオビジネスプラットフォームにおいて重要な課題であり、ビデオレコメンデーションと分類に広く応用されている。 既存のビデオ理解作業のほとんどは、ビデオフレーム、オーディオ、テキストなど、ビデオコンテンツの中に現れる情報のみに焦点を当てている。 しかし,外部知識グラフ(KG)データセットから常識知識を導入することは,映像にはあまり関連のないコンテンツを参照する場合,ビデオ理解に不可欠である。 ビデオ知識グラフデータセットの欠如により、ビデオ理解とkgを統合する作業は稀である。 本稿では,マルチモーダルビデオエンティティと実りある共通感覚関係を含む異種データセットを提案する。 このデータセットはまた、VRT(Video-Relation-Tag)やVRV(Video-Relation-Video)タスクのような、複数の新しいビデオ推論タスクも提供する。 さらに,本データセットに基づいて,映像理解の目的と知識グラフの埋め込みを協調的に最適化するエンド・ツー・エンドモデルを提案する。 総合的な実験により,映像理解と事実知識の組み合わせは,コンテンツベースの映像検索性能に有益であることが示された。 さらに、VRTやVRVのタスクにおいて従来のKGEベースの手法を少なくとも42.36%、HITS@10で17.73%改善した知識グラフの埋め込みも改善されている。

Video understanding is an important task in short video business platforms and it has a wide application in video recommendation and classification. Most of the existing video understanding works only focus on the information that appeared within the video content, including the video frames, audio and text. However, introducing common sense knowledge from the external Knowledge Graph (KG) dataset is essential for video understanding when referring to the content which is less relevant to the video. Owing to the lack of video knowledge graph dataset, the work which integrates video understanding and KG is rare. In this paper, we propose a heterogeneous dataset that contains the multi-modal video entity and fruitful common sense relations. This dataset also provides multiple novel video inference tasks like the Video-Relation-Tag (VRT) and Video-Relation-Video (VRV) tasks. Furthermore, based on this dataset, we propose an end-to-end model that jointly optimizes the video understanding objective with knowledge graph embedding, which can not only better inject factual knowledge into video understanding but also generate effective multi-modal entity embedding for KG. Comprehensive experiments indicate that combining video understanding embedding with factual knowledge benefits the content-based video retrieval performance. Moreover, it also helps the model generate better knowledge graph embedding which outperforms traditional KGE-based methods on VRT and VRV tasks with at least 42.36% and 17.73% improvement in HITS@10.
翻訳日:2022-11-22 20:08:45 公開日:2022-11-19
# 縮小表現事項:協調的縮小画像による画像再スケーリングの改善

Downscaled Representation Matters: Improving Image Rescaling with Collaborative Downscaled Images ( http://arxiv.org/abs/2211.10643v1 )

ライセンス: Link先を確認
Bingna Xu, Yong Guo, Luoqian Jiang, Mianjie Yu, Jian Chen(参考訳) ディープネットワークは、解像度の低い(LR)イメージを学習し、元の高解像度(HR)イメージを再構築する、画像再スケーリング(IR)タスクにおいて大きな成功を収めている。 固定的なダウンスケーリング方式(例えばバイコビック、IR)を考える超解像法と比較すると、学習されたダウンスケール表現のおかげで、再現性能は大幅に向上する。 これは、画像再構成タスクにおける優れたダウンスケール表現の重要性を強調している。 既存のIR法は主にダウンスケールモデルとアップスケールモデルを協調的に最適化することでダウンスケール表現を学習する。 それらとは異なり、私たちは、異なる、より直接的な方法で、ダウンスケールの表現を改善することを目指している:ダウンスケールのイメージ自体を、ダウン/アップスケールのモデルではなく最適化する。 具体的には、IRプロセスの恩恵を受けるために、リコンストラクション損失の勾配を下げることにより、協調LRサンプルを直接生成する協調的なダウンスケーリング方式を提案する。 さらに、対応するHR画像からLR画像がダウンスケールされるので、HR領域により良い表現があれば、ダウンスケールされた表現を改善することもできる。 そこで本研究では,hrドメインとlrドメインの両方で勾配降下を行う階層型協調型ダウンスケーリング(hcd)手法を提案する。 広範囲にわたる実験により, hcdは定量的および質的に復元性能を著しく向上させた。 さらに、多様なIRモデルにまたがる一般化が可能であるため、HCDの柔軟性も強調する。

Deep networks have achieved great success in image rescaling (IR) task that seeks to learn the optimal downscaled representations, i.e., low-resolution (LR) images, to reconstruct the original high-resolution (HR) images. Compared with super-resolution methods that consider a fixed downscaling scheme, e.g., bicubic, IR often achieves significantly better reconstruction performance thanks to the learned downscaled representations. This highlights the importance of a good downscaled representation in image reconstruction tasks. Existing IR methods mainly learn the downscaled representation by jointly optimizing the downscaling and upscaling models. Unlike them, we seek to improve the downscaled representation through a different and more direct way: optimizing the downscaled image itself instead of the down-/upscaling models. Specifically, we propose a collaborative downscaling scheme that directly generates the collaborative LR examples by descending the gradient w.r.t. the reconstruction loss on them to benefit the IR process. Furthermore, since LR images are downscaled from the corresponding HR images, one can also improve the downscaled representation if we have a better representation in the HR domain. Inspired by this, we propose a Hierarchical Collaborative Downscaling (HCD) method that performs gradient descent in both HR and LR domains to improve the downscaled representations. Extensive experiments show that our HCD significantly improves the reconstruction performance both quantitatively and qualitatively. Moreover, we also highlight the flexibility of our HCD since it can generalize well across diverse IR models.
翻訳日:2022-11-22 20:08:21 公開日:2022-11-19
# 合成ゼロショット学習のための状態物体成分の相互バランス

Mutual Balancing in State-Object Components for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2211.10647v1 )

ライセンス: Link先を確認
Chenyi Jiang (1), Dubing Chen (1), Shidong Wang (2), Yuming Shen (3), Haofeng Zhang (1), Ling Shao (4) ((1) Nanjing University of Science and Technology, (2) University of Newcastle-upon-Tyne, (3) University of Oxford, (4) Terminus Group, Beijing, China)(参考訳) 合成ゼロショット学習(CZSL)は、見えない状態や物体から見えない構成を認識することを目的としている。 手動でラベル付けされたセマンティック情報と実際の視覚的特徴の相違は、様々なオブジェクトクラスと状態クラスの分布における視覚的偏差のかなりの不均衡を引き起こす。 これらの課題を改善するために、CZSLタスクを非バランスなマルチラベル分類タスクとみなし、モデルに帰納バイアスを与えるCZSLのSTate-object Components(MUST)におけるMUSTと呼ばれる新しい手法を提案する。 特に,構成クラスを2つの連続的なプロセスに分割し,2つのコンポーネントの絡み合いを分析し,その2つのコンポーネント間の視覚的差異の程度を反映した追加知識を得る。 得られた知識をモデルトレーニングプロセスの修正に利用して,視覚的差異の大きいクラスに対して,より明確なクラス境界を生成する。 大規模な実験により、MIT-States、UT-Zappos、C-GQAの基本的なCZSLフレームワークと組み合わせた場合、我々のアプローチは最先端のCZSLフレームワークを著しく上回り、様々なCZSLフレームワークを改善できることが示された。 私たちのコードはhttps://anonymous.4open.science/r/MUST_CGE/で利用可能です。

Compositional Zero-Shot Learning (CZSL) aims to recognize unseen compositions from seen states and objects. The disparity between the manually labeled semantic information and its actual visual features causes a significant imbalance of visual deviation in the distribution of various object classes and state classes, which is ignored by existing methods. To ameliorate these issues, we consider the CZSL task as an unbalanced multi-label classification task and propose a novel method called MUtual balancing in STate-object components (MUST) for CZSL, which provides a balancing inductive bias for the model. In particular, we split the classification of the composition classes into two consecutive processes to analyze the entanglement of the two components to get additional knowledge in advance, which reflects the degree of visual deviation between the two components. We use the knowledge gained to modify the model's training process in order to generate more distinct class borders for classes with significant visual deviations. Extensive experiments demonstrate that our approach significantly outperforms the state-of-the-art on MIT-States, UT-Zappos, and C-GQA when combined with the basic CZSL frameworks, and it can improve various CZSL frameworks. Our codes are available on https://anonymous.4open.science/r/MUST_CGE/.
翻訳日:2022-11-22 20:07:55 公開日:2022-11-19
# tore: トランスフォーマーによる効率的なメッシュリカバリのためのトークン削減

TORE: Token Reduction for Efficient Human Mesh Recovery with Transformer ( http://arxiv.org/abs/2211.10705v1 )

ライセンス: Link先を確認
Zhiyang Dou, Qingxuan Wu, Cheng Lin, Zeyu Cao, Qiangqiang Wu, Weilin Wan, Taku Komura, Wenping Wang(参考訳) 本稿では,モノクロ画像からトランスフォーマーをベースとしたヒューマンメッシュ回復のための効果的なToken Reduction(TORE)戦略を提案する。 現在のSOTA性能はTransformerベースの構造によって達成されている。 しかし、冗長なトークンによって引き起こされる高いモデルの複雑さと計算コストに苦しむ。 本稿では,2つの重要な側面,すなわち3次元形状構造と2次元画像特徴に基づくトークン削減戦略を提案する。 その結果,トランスフォーマーにおける高複雑さ相互作用に関与するトークンの数を大幅に削減し,計算コストを大幅に削減した形状回復の競合精度を実現した。 提案手法の有効性を検証し,手メッシュ回収における本手法の一般化可能性を示すため,幅広いベンチマーク実験を行った。 論文が公開されたら、私たちのコードは公開されます。

In this paper, we introduce a set of effective TOken REduction (TORE) strategies for Transformer-based Human Mesh Recovery from monocular images. Current SOTA performance is achieved by Transformer-based structures. However, they suffer from high model complexity and computation cost caused by redundant tokens. We propose token reduction strategies based on two important aspects, i.e., the 3D geometry structure and 2D image feature, where we hierarchically recover the mesh geometry with priors from body structure and conduct token clustering to pass fewer but more discriminative image feature tokens to the Transformer. As a result, our method vastly reduces the number of tokens involved in high-complexity interactions in the Transformer, achieving competitive accuracy of shape recovery at a significantly reduced computational cost. We conduct extensive experiments across a wide range of benchmarks to validate the proposed method and further demonstrate the generalizability of our method on hand mesh recovery. Our code will be publicly available once the paper is published.
翻訳日:2022-11-22 20:07:32 公開日:2022-11-19
# 単段マルチパスバーチャルトライオン

Single Stage Multi-Pose Virtual Try-On ( http://arxiv.org/abs/2211.10715v1 )

ライセンス: Link先を確認
Sen He, Yi-Zhe Song, Tao Xiang(参考訳) Multi-pose Virtual try-on (MPVTON) は、ターゲットの服をターゲットのポーズで人に合わせることを目的としている。 伝統的な仮想試着(VTON)と比べ、ポーズは変わらないが、MPVTONはより優れた試着体験を提供するが、二重の衣服と編集目的のため、より難しい。 既存のMPVTON法では、ターゲットセマンティックレイアウト予測モジュール、粗い試行画像生成器、精細な試行画像生成器を含む3つの不整合モジュールからなるパイプラインを採用している。 これらのモデルは個別に訓練され、最適以下のモデルトレーニングと不満足な結果をもたらす。 本稿では,MPVTONのための新しい単一ステージモデルを提案する。 我々のモデルにおける鍵となるのは、ターゲットポーズに条件付けされた人物と衣服画像の両方のフロー場を予測する並列フロー推定モジュールである。 予測フローは、その後、人物の外観特徴マップと衣料画像とを警告してスタイルマップを構築するために使用される。 次に、ターゲットのポーズの特徴マップを変調して、ターゲットの試行画像を生成する。 並列フロー推定設計により、我々のモデルは1段階のエンドツーエンドで訓練することができ、計算効率が向上し、既存のMPVTONベンチマーク上でのSOTA性能が向上する。 さらに,マルチタスクトレーニングを導入し,従来のvtonおよびspas転送タスクにも適用できることを示し,両タスクのsoma専用モデルと同等の性能を実現する。

Multi-pose virtual try-on (MPVTON) aims to fit a target garment onto a person at a target pose. Compared to traditional virtual try-on (VTON) that fits the garment but keeps the pose unchanged, MPVTON provides a better try-on experience, but is also more challenging due to the dual garment and pose editing objectives. Existing MPVTON methods adopt a pipeline comprising three disjoint modules including a target semantic layout prediction module, a coarse try-on image generator and a refinement try-on image generator. These models are trained separately, leading to sub-optimal model training and unsatisfactory results. In this paper, we propose a novel single stage model for MPVTON. Key to our model is a parallel flow estimation module that predicts the flow fields for both person and garment images conditioned on the target pose. The predicted flows are subsequently used to warp the appearance feature maps of the person and the garment images to construct a style map. The map is then used to modulate the target pose's feature map for target try-on image generation. With the parallel flow estimation design, our model can be trained end-to-end in a single stage and is more computationally efficient, resulting in new SOTA performance on existing MPVTON benchmarks. We further introduce multi-task training and demonstrate that our model can also be applied for traditional VTON and pose transfer tasks and achieve comparable performance to SOTA specialized models on both tasks.
翻訳日:2022-11-22 20:07:17 公開日:2022-11-19
# ロバストデータセット学習に向けて

Towards Robust Dataset Learning ( http://arxiv.org/abs/2211.10752v1 )

ライセンス: Link先を確認
Yihan Wu and Xinda Li and Florian Kerschbaum and Heng Huang and Hongyang Zhang(参考訳) 最近のコンピュータビジョン研究において、モデルの堅牢性を改善するために、敵の訓練が活発に研究されている。 しかし, 対数サンプルの生成に膨大な計算コストがかかるため, 対数学習法は遅いことが多い。 本稿では,データセット上で自然に訓練された任意の分類器が逆向きに堅牢であるような頑健なデータセットを学習する問題を考察する。 このようなデータセットは、自然なトレーニングが敵のトレーニングよりもはるかに高速であるため、下流のタスクの恩恵を受け、堅牢性の望ましい性質がモデルとデータ間で転送可能であることを示す。 本研究では,頑健なデータセット学習問題を定式化するための三段階最適化を提案する。 我々は,ロバスト特徴と非ロバスト特徴を特徴付ける抽象モデルの下で,提案手法がロバストデータセットを確実に学習することを示す。 MNIST, CIFAR10, TinyImageNetの大規模な実験により, ネットワークの初期化とアーキテクチャの異なるアルゴリズムの有効性が明らかにされた。

Adversarial training has been actively studied in recent computer vision research to improve the robustness of models. However, due to the huge computational cost of generating adversarial samples, adversarial training methods are often slow. In this paper, we study the problem of learning a robust dataset such that any classifier naturally trained on the dataset is adversarially robust. Such a dataset benefits the downstream tasks as natural training is much faster than adversarial training, and demonstrates that the desired property of robustness is transferable between models and data. In this work, we propose a principled, tri-level optimization to formulate the robust dataset learning problem. We show that, under an abstraction model that characterizes robust vs. non-robust features, the proposed method provably learns a robust dataset. Extensive experiments on MNIST, CIFAR10, and TinyImageNet demostrate the effectiveness of our algorithm with different network initializations and architectures.
翻訳日:2022-11-22 20:06:50 公開日:2022-11-19
# HALSIE -- 画像とイベントの同時発散によるセグメンテーション学習へのハイブリッドアプローチ

HALSIE -- Hybrid Approach to Learning Segmentation by Simultaneously Exploiting Image and Event Modalities ( http://arxiv.org/abs/2211.10754v1 )

ライセンス: Link先を確認
Shristi Das Biswas, Adarsh Kosta, Chamika Liyanagedera, Marco Apolinario, Kaushik Roy(参考訳) 標準フレームベースのアルゴリズムは、従来のカメラで一般的であるダイナミックレンジと動きのぼやきが制限されたため、自律ナビゲーションのようなリアルタイムなアプリケーションで正確なセグメンテーションマップを取得することができない。 イベントカメラは、時間分解能が高く、ダイナミックレンジが高く、動きのぼけのないイベントストリームを生成するために、ピクセル単位の強度の変化を非同期に検出することで、これらの制限に対処する。 しかし、イベントカメラ出力は、動作中のピクセルでのみ情報をキャプチャするため、信頼できるセグメンテーションマップを生成するために直接使用することはできない。 空間的に密集したフレームと時間的に密集したイベントを融合させることで、微粒な予測を伴うセマンティックマップを生成できることを仮定する。 そこで本稿では,画像とイベントのモダリティを同時に活用し,セグメンテーション学習のためのハイブリッドアプローチであるhalsieを提案する。 モダリティを横断する効率的な学習を可能にするため,提案するハイブリッドフレームワークは,スパイクニューラルネットワーク(snn)ブランチと標準ニューラルネットワーク(ann)ブランチの2つの入力ブランチからなり,対応するニューラルネットワークを活用しながらイベントとフレームデータをそれぞれ処理する。 当社のハイブリッドネットワークは、DDD17とMVSECデータセットの最先端セマンティックセマンティックセマンティクスベンチマークより優れており、最大33.23$\times$ネットワークパラメータの削減によるDSEC-Semanticデータセットで同等のパフォーマンスを示している。 さらに,提案手法は既存のSOTA手法と比較して最大18.92$\times$推論コストの改善を示し,資源制約のあるエッジアプリケーションに適している。

Standard frame-based algorithms fail to retrieve accurate segmentation maps in challenging real-time applications like autonomous navigation, owing to the limited dynamic range and motion blur prevalent in traditional cameras. Event cameras address these limitations by asynchronously detecting changes in per-pixel intensity to generate event streams with high temporal resolution, high dynamic range, and no motion blur. However, event camera outputs cannot be directly used to generate reliable segmentation maps as they only capture information at the pixels in motion. To augment the missing contextual information, we postulate that fusing spatially dense frames with temporally dense events can generate semantic maps with fine-grained predictions. To this end, we propose HALSIE, a hybrid approach to learning segmentation by simultaneously leveraging image and event modalities. To enable efficient learning across modalities, our proposed hybrid framework comprises two input branches, a Spiking Neural Network (SNN) branch and a standard Artificial Neural Network (ANN) branch to process event and frame data respectively, while exploiting their corresponding neural dynamics. Our hybrid network outperforms the state-of-the-art semantic segmentation benchmarks on DDD17 and MVSEC datasets and shows comparable performance on the DSEC-Semantic dataset with upto 33.23$\times$ reduction in network parameters. Further, our method shows upto 18.92$\times$ improvement in inference cost compared to existing SOTA approaches, making it suitable for resource-constrained edge applications.
翻訳日:2022-11-22 20:06:34 公開日:2022-11-19
# PIDray: リアルタイム禁止項目検出のための大規模X線ベンチマーク

PIDray: A Large-scale X-ray Benchmark for Real-World Prohibited Item Detection ( http://arxiv.org/abs/2211.10763v1 )

ライセンス: Link先を確認
Libo Zhang, Lutao Jiang, Ruyi Ji, Heng Fan(参考訳) コンピュータビジョン技術に依存する自動セキュリティ検査は、クラス内分散、クラス不均衡、オクルージョンなど多くの要因により、現実のシナリオでは難しい課題である。 以前のほとんどの方法は、大規模なデータセットの不足のため、禁止されたアイテムが故意に乱雑なオブジェクトに隠れているケースにほとんど触れず、アプリケーションを妨げる。 この問題に対処し,関連する研究を促進するために,特に故意に隠蔽された項目を検出するために,現実のシナリオにおいて様々なケースをカバーする大規模データセットであるPIDrayを提案する。 具体的には、pidrayは124,486枚のx線画像を禁止アイテムのカテゴリで集め、各画像に注意深い検査を施す。 一方,pidray上のベースラインアルゴリズムを開発するために,一般的な分割・分割パイプラインを提案する。 具体的には,PIDrayデータセットにおける長い尾の課題の影響を抑えるために,木のような構造を採用し,第1のコース粒度ノードを二分分類してヘッドカテゴリの影響を緩和し,続く細粒度ノードをテールカテゴリの特定のタスクに限定する。 この単純で効果的なスキームに基づいて、オブジェクト検出、インスタンスセグメンテーション、マルチラベル分類タスクにまたがる強力なタスク固有のベースラインを提供し、共通のデータセット(例えばcocoとpascal voc)の一般化能力を検証する。 PIDrayの広汎な実験により,提案手法は現在の最先端手法,特に故意に隠された項目に対して好適に動作することが示された。 ベンチマークとコードはhttps://github.com/lutao2021/pidrayでリリースします。

Automatic security inspection relying on computer vision technology is a challenging task in real-world scenarios due to many factors, such as intra-class variance, class imbalance, and occlusion. Most previous methods rarely touch the cases where the prohibited items are deliberately hidden in messy objects because of the scarcity of large-scale datasets, hindering their applications. To address this issue and facilitate related research, we present a large-scale dataset, named PIDray, which covers various cases in real-world scenarios for prohibited item detection, especially for deliberately hidden items. In specific, PIDray collects 124,486 X-ray images for $12$ categories of prohibited items, and each image is manually annotated with careful inspection, which makes it, to our best knowledge, to largest prohibited items detection dataset to date. Meanwhile, we propose a general divide-and-conquer pipeline to develop baseline algorithms on PIDray. Specifically, we adopt the tree-like structure to suppress the influence of the long-tailed issue in the PIDray dataset, where the first course-grained node is tasked with the binary classification to alleviate the influence of head category, while the subsequent fine-grained node is dedicated to the specific tasks of the tail categories. Based on this simple yet effective scheme, we offer strong task-specific baselines across object detection, instance segmentation, and multi-label classification tasks and verify the generalization ability on common datasets (e.g., COCO and PASCAL VOC). Extensive experiments on PIDray demonstrate that the proposed method performs favorably against current state-of-the-art methods, especially for deliberately hidden items. Our benchmark and codes will be released at https://github.com/lutao2021/PIDray.
翻訳日:2022-11-22 20:06:03 公開日:2022-11-19
# DeepSolo: テキストスポッティングのための明示的なポイントソロ付きトランスフォーマーデコーダ

DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting ( http://arxiv.org/abs/2211.10772v1 )

ライセンス: Link先を確認
Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao(参考訳) エンドツーエンドテキストスポッティングは、シーンテキストの検出と認識を統一されたフレームワークに統合することを目的としている。 2つのサブタスク間の関係を扱うことは、効果的なスポッターを設計する上で重要な役割を果たす。 トランスフォーマーベースの手法ではヒューリスティックなポストプロセッシングは排除されるが、サブタスクと低トレーニング効率の相乗効果の問題に苦しむ。 本稿では,テキスト検出と認識を同時に行うために,Explicit Points Soloを持つ1つのデコーダを同時に使用可能な,単純な検出トランスフォーマベースラインであるDeepSoloを提案する。 技術的には、各テキストインスタンスでは、文字列を順序付けポイントとして表現し、学習可能な明示的なポイントクエリでモデル化します。 単一のデコーダを渡すと、ポイントクエリは必要なテキストセマンティクスと場所を符号化するので、非常に単純な予測ヘッドを通じてテキストの中央線、境界線、スクリプト、信頼性にさらにデコードでき、統一されたフレームワークでテキストスポッティングのサブタスクを解決できる。 さらに,より正確な監視信号を提供するためのテキストマッチング基準を導入し,より効率的なトレーニングを可能にした。 公開ベンチマークの定量的実験によると、DeepSoloは従来の最先端の手法より優れ、訓練効率が向上している。 さらに、deepsoloは行アノテーションとも互換性があり、ポリゴンよりもはるかに少ないアノテーションコストを必要とする。 コードはリリースされます。

End-to-end text spotting aims to integrate scene text detection and recognition into a unified framework. Dealing with the relationship between the two sub-tasks plays a pivotal role in designing effective spotters. Although transformer-based methods eliminate the heuristic post-processing, they still suffer from the synergy issue between the sub-tasks and low training efficiency. In this paper, we present DeepSolo, a simple detection transformer baseline that lets a single Decoder with Explicit Points Solo for text detection and recognition simultaneously. Technically, for each text instance, we represent the character sequence as ordered points and model them with learnable explicit point queries. After passing a single decoder, the point queries have encoded requisite text semantics and locations and thus can be further decoded to the center line, boundary, script, and confidence of text via very simple prediction heads in parallel, solving the sub-tasks in text spotting in a unified framework. Besides, we also introduce a text-matching criterion to deliver more accurate supervisory signals, thus enabling more efficient training. Quantitative experiments on public benchmarks demonstrate that DeepSolo outperforms previous state-of-the-art methods and achieves better training efficiency. In addition, DeepSolo is also compatible with line annotations, which require much less annotation cost than polygons. The code will be released.
翻訳日:2022-11-22 20:05:32 公開日:2022-11-19
# NIO:ビデオフレーム補間のための軽量ニューラルネットワークアーキテクチャ

NIO: Lightweight neural operator-based architecture for video frame interpolation ( http://arxiv.org/abs/2211.10791v1 )

ライセンス: Link先を確認
Hrishikesh Viswanath, Md Ashiqur Rahman, Rashmi Bhaskara, Aniket Bera(参考訳) NIO-Neural Interpolation Operatorは,ビデオフレーム補間を行うための,軽量で効率的なニューラル演算子ベースのアーキテクチャである。 現在のディープラーニングベースの方法は、機能学習のための局所畳み込みに依存しており、包括的なデータセットで大量のトレーニングを必要とする。 さらに、トランスフォーマーベースのアーキテクチャは大規模で、トレーニング用に専用のGPUが必要です。 一方,我々のニューラル演算子に基づくアプローチであるnioは,高速フーリエ変換(fft)を用いて画像行列をフーリエ空間に変換することで,フレームの特徴を学習する。 このモデルはグローバルな畳み込みを行い、離散化は不変である。 我々は、NIOが視覚的に滑らかで正確な結果を生成でき、最先端のアプローチよりもエポックに収束することを示す。 補間フレームの視覚的品質を評価するために、生成されたフレームと地上の真理フレームとの間の構造類似度指数(SSIM)とピーク信号とノイズ比(PSNR)を算出する。 本稿では,Vimeo-90Kデータセット,DAVIS,UCF101,DisFA+データセットの定量的性能について述べる。

We present, NIO - Neural Interpolation Operator, a lightweight efficient neural operator-based architecture to perform video frame interpolation. Current deep learning based methods rely on local convolutions for feature learning and require a large amount of training on comprehensive datasets. Furthermore, transformer-based architectures are large and need dedicated GPUs for training. On the other hand, NIO, our neural operator-based approach learns the features in the frames by translating the image matrix into the Fourier space by using Fast Fourier Transform (FFT). The model performs global convolution, making it discretization invariant. We show that NIO can produce visually-smooth and accurate results and converges in fewer epochs than state-of-the-art approaches. To evaluate the visual quality of our interpolated frames, we calculate the structural similarity index (SSIM) and Peak Signal to Noise Ratio (PSNR) between the generated frame and the ground truth frame. We provide the quantitative performance of our model on Vimeo-90K dataset, DAVIS, UCF101 and DISFA+ dataset.
翻訳日:2022-11-22 20:05:05 公開日:2022-11-19
# スマートグラスの実用的ステレオ深度システム

A Practical Stereo Depth System for Smart Glasses ( http://arxiv.org/abs/2211.10551v1 )

ライセンス: Link先を確認
Jialiang Wang, Daniel Scharstein, Akash Bapat, Kevin Blackburn-Matzen, Matthew Yu, Jonathan Lehman, Suhib Alsisan, Yanghan Wang, Sam Tsai, Jan-Michael Frahm, Zijian He, Peter Vajda, Michael F. Cohen, Matt Uyttendaele(参考訳) 本稿では, 事前処理, オンラインステレオ修正, ステレオ深度推定を, 信頼性の低いモノクロ深度推定にフォールバックして行う, エンド・ツー・エンドのステレオ深度検知システムの設計について述べる。 深度検知システムの出力は、新しいビュー生成パイプラインで、スマートグラスが捉えたポイント・オブ・ビュー画像を用いて3次元の計算写真効果を生成する。 これらのステップはすべて、携帯電話の厳格な計算予算でオンデバイスで実行されます。ユーザが幅広いスマートフォンを使用できると期待しているため、私たちの設計は汎用的で、スマートフォンGPUのような特定のハードウェアやMLアクセラレーションに依存しない必要があります。 これらのステップは十分に研究されているが、実際的なシステムの記述はまだ欠けている。 このようなシステムでは、これらのステップは互いに相互に連携して動作し、システム内の障害や理想的な入力データよりも適切にフォールバックする必要がある。 例えば、熱によるキャリブレーションの予期せぬ変更の処理方法、ワイルドでの深さ推定の堅牢なサポート、スムーズなユーザエクスペリエンスに必要なメモリとレイテンシの制約などを示します。 トレーニングされたモデルは高速で、6歳のSamsung Galaxy S8のCPU上では1秒未満で動作します。 われわれのモデルは、見当たらないデータに対してよく一般化し、ミドルベリーやスマートグラスから捉えた画像の良好な結果が得られる。

We present the design of a productionized end-to-end stereo depth sensing system that does pre-processing, online stereo rectification, and stereo depth estimation with a fallback to monocular depth estimation when rectification is unreliable. The output of our depth sensing system is then used in a novel view generation pipeline to create 3D computational photography effect using point-of-view images captured by smart glasses. All these steps are executed on-device on the stringent compute budget of a mobile phone, and because we expect the users can use a wide range of smartphones, our design needs to be general and cannot be dependent on a particular hardware or ML accelerator such as a smartphone GPU. Although each of these steps is well-studied, a description of a practical system is still lacking. For such a system, each of these steps need to work in tandem with one another and fallback gracefully on failures within the system or less than ideal input data. We show how we handle unforeseen changes to calibration, e.g. due to heat, robustly support depth estimation in the wild, and still abide by the memory and latency constraints required for a smooth user experience. We show that our trained models are fast, that run in less than 1s on a six-year-old Samsung Galaxy S8 phone's CPU. Our models generalize well to unseen data and achieve good results on Middlebury and in-the-wild images captured from the smart glasses.
翻訳日:2022-11-22 19:59:59 公開日:2022-11-19
# CL-CrossVQA: クロスドメイン視覚質問応答のための連続学習ベンチマーク

CL-CrossVQA: A Continual Learning Benchmark for Cross-Domain Visual Question Answering ( http://arxiv.org/abs/2211.10567v1 )

ライセンス: Link先を確認
Yao Zhang, Haokun Chen, Ahmed Frikha, Yezi Yang, Denis Krompass, Gengyuan Zhang, Jindong Gu, Volker Tresp(参考訳) VQA(Visual Question Answering)は、多分野の研究課題である。 正しい答えを生み出すには、画像の視覚的な内容、自然言語に関する質問、および画像に含まれる情報と世界の知識に関する常識的推論を理解する必要がある。 近年,VQAタスクにおいて,VLPM(Vision-and-Language Pre-trained Models)が主流となっている。 標準のプラクティスは、ドメイン固有のVQAデータセットを使用して、巨大な汎用ドメインデータセットで事前トレーニングされた大規模なVLPMを微調整することである。 しかし実際には、アプリケーションドメインは時間とともに変化し、vlpmは、以前獲得した知識を忘れずに新しいドメインを継続的に学習し、適応する必要があります。 既存の継続学習(CL)研究のほとんどは一助課題に集中しているが、より実践的なシナリオ、すなわちクロスドメインVQAにおけるCLは研究されていない。 CL-CrossVQAは,4つのVLPM,4つのCLアプローチ,および5つのVQAデータセットに対する広範囲な実験を行う,クロスドメイン視覚質問回答のための厳密な連続学習ベンチマークである。 さらに, モデルアーキテクチャがCL性能にどのように影響するか, CLアプローチがVLPMの忘れをある程度緩和するのに役立つのか, そして, この挑戦的な連続学習環境において, VLPMに適したCLアプローチを設計する方法について考察する。 クロスドメインVQAのためのCLの今後の作業を容易にするため、データセットとコードをリリースします。

Visual Question Answering (VQA) is a multi-discipline research task. To produce the right answer, it requires an understanding of the visual content of images, the natural language questions, as well as commonsense reasoning over the information contained in the image and world knowledge. Recently, large-scale Vision-and-Language Pre-trained Models (VLPMs) have been the mainstream approach to VQA tasks due to their superior performance. The standard practice is to fine-tune large-scale VLPMs pre-trained on huge general-domain datasets using the domain-specific VQA datasets. However, in reality, the application domain can change over time, necessitating VLPMs to continually learn and adapt to new domains without forgetting previously acquired knowledge. Most existing continual learning (CL) research concentrates on unimodal tasks, whereas a more practical application scenario, i.e, CL on cross-domain VQA, has not been studied. Motivated by this, we introduce CL-CrossVQA, a rigorous Continual Learning benchmark for Cross-domain Visual Question Answering, through which we conduct extensive experiments on 4 VLPMs, 4 CL approaches, and 5 VQA datasets from different domains. In addition, by probing the forgetting phenomenon of the intermediate layers, we provide insights into how model architecture affects CL performance, why CL approaches can help mitigate forgetting in VLPMs to some extent, and how to design CL approaches suitable for VLPMs in this challenging continual learning environment. To facilitate future work on CL for cross-domain VQA, we will release our datasets and code.
翻訳日:2022-11-22 19:59:34 公開日:2022-11-19
# abinet++:シーンテキストスポッティングのための自律的、双方向、反復言語モデリング

ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Spotting ( http://arxiv.org/abs/2211.10578v1 )

ライセンス: Link先を確認
Shancheng Fang, Zhendong Mao, Hongtao Xie, Yuxin Wang, Chenggang Yan, Yongdong Zhang(参考訳) シーンテキストスポッティングは、様々な用途のためにコンピュータビジョンコミュニティにとって非常に重要である。 最近の手法では、純粋に視覚的な分類ではなく、認識に挑戦するための言語知識の導入を試みる。 しかし、エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法は研究課題である。 本稿では,言語モデルの限られた能力は言語モデルから生じると論じる。 1) 暗黙の言語モデリング 2) 一方向の特徴表現,及び 3)雑音入力言語モデル。 そこで我々は,シーンテキストスポッティングのための自律的,双方向かつ反復的なABINet++を提案する。 まず、自律型は認識者を視覚モデルと言語モデルに分離し、両方のモデル間の勾配フローをブロックすることで、明示的に言語モデリングを強制することを提案します。 次に,双方向特徴表現に基づく言語モデルとして,新たな双方向クローゼネットワーク(BCN)を提案する。 第3に、雑音入力の影響を効果的に緩和できる言語モデルに対する反復的修正の実行方法を提案する。 最後に, abinet++ を長文認識で磨くために, u-net 内にトランスフォーマーユニットを組み込んで水平特徴を集約し, 文字の順序とコンテンツを文字の特徴に正確に統合した位置・コンテンツ注目モジュールを設計することを提案する。 ABINet++は、シーンテキスト認識とシーンテキストスポッティングベンチマークの両方で最先端のパフォーマンスを実現しており、特に低画質画像において、各環境における我々の手法の優位性を一貫して示している。 さらに、英語や中国語を含む広範な実験により、我々の言語モデリング手法を取り入れたテキストスポッターは、一般的に使われている注意に基づく認識器と比較して、精度と速度の両方でその性能を著しく向上させることができることが証明された。

Scene text spotting is of great importance to the computer vision community due to its wide variety of applications. Recent methods attempt to introduce linguistic knowledge for challenging recognition rather than pure visual classification. However, how to effectively model the linguistic rules in end-to-end deep networks remains a research challenge. In this paper, we argue that the limited capacity of language models comes from 1) implicit language modeling; 2) unidirectional feature representation; and 3) language model with noise input. Correspondingly, we propose an autonomous, bidirectional and iterative ABINet++ for scene text spotting. Firstly, the autonomous suggests enforcing explicitly language modeling by decoupling the recognizer into vision model and language model and blocking gradient flow between both models. Secondly, a novel bidirectional cloze network (BCN) as the language model is proposed based on bidirectional feature representation. Thirdly, we propose an execution manner of iterative correction for the language model which can effectively alleviate the impact of noise input. Finally, to polish ABINet++ in long text recognition, we propose to aggregate horizontal features by embedding Transformer units inside a U-Net, and design a position and content attention module which integrates character order and content to attend to character features precisely. ABINet++ achieves state-of-the-art performance on both scene text recognition and scene text spotting benchmarks, which consistently demonstrates the superiority of our method in various environments especially on low-quality images. Besides, extensive experiments including in English and Chinese also prove that, a text spotter that incorporates our language modeling method can significantly improve its performance both in accuracy and speed compared with commonly used attention-based recognizers.
翻訳日:2022-11-22 19:59:07 公開日:2022-11-19
# 正規変換器:視覚意味論によるLiDAR点からの表面形状の抽出

Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics ( http://arxiv.org/abs/2211.10580v1 )

ライセンス: Link先を確認
Ancheng Lin, Jun Li(参考訳) 表面ノーマルの高品質な推定は、衝突回避や咬合推定のような多くの幾何学的理解問題において曖昧さを減らすのに役立つ。 本稿では,3次元点雲と2次元カラー画像から正規分布を推定する手法を提案する。 本研究では,視覚意味と3次元幾何学データのハイブリッド情報と効果的な学習戦略を活用すべく,トランスフォーマーニューラルネットワークを開発した。 既存の手法と比較して,提案手法の情報融合はより効果的であり,実験によって支援されている。 また、3次元レンダリングエンジンに屋外交通シーンのシミュレーション環境を構築し、通常の推定器を訓練するための注釈付きデータを得た。 合成データに基づいてトレーニングされたモデルは、KITTIデータセットの実際のシーンでテストされる。 KITTIデータセットの通常の方向を推定したタスクは、提案した推定器が既存の手法よりも優れていることを示す。

High-quality estimation of surface normal can help reduce ambiguity in many geometry understanding problems, such as collision avoidance and occlusion inference. This paper presents a technique for estimating the normal from 3D point clouds and 2D colour images. We have developed a transformer neural network that learns to utilise the hybrid information of visual semantic and 3D geometric data, as well as effective learning strategies. Compared to existing methods, the information fusion of the proposed method is more effective, which is supported by experiments. We have also built a simulation environment of outdoor traffic scenes in a 3D rendering engine to obtain annotated data to train the normal estimator. The model trained on synthetic data is tested on the real scenes in the KITTI dataset. And subsequent tasks built upon the estimated normal directions in the KITTI dataset show that the proposed estimator has advantage over existing methods.
翻訳日:2022-11-22 19:58:41 公開日:2022-11-19
# スパース4D:空間-時間融合による多視点3次元物体検出

Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion ( http://arxiv.org/abs/2211.10581v1 )

ライセンス: Link先を確認
Xuewu Lin, Tianwei Lin, Zixiang Pei, Lichao Huang, Zhizhong Su(参考訳) バードアイビュー(BEV)に基づく手法は,近年,多視点3D検出タスクにおいて大きな進歩を遂げている。 BEVベースの手法と比較して、スパースベースの手法はパフォーマンスが遅れているが、まだ多くの非無視的なメリットがある。 本研究では,スパース3次元検出をさらに推し進めるために,空間的時間的特徴をスパースサンプリング・融合することで,アンカーボックスの反復的改良を行うSparse4Dを提案する。 1)スパース4Dサンプリング:各3Dアンカーに対して複数の4Dキーポイントを割り当て、そのキーポイントをマルチビュー/スケール/タイムスタンプ画像の特徴に投影し、対応する特徴をサンプリングする;(2)階層的特徴融合:異なるビュー/スケール、異なるタイムスタンプ、異なるキーポイントのサンプル特徴を階層的に融合して高品質なインスタンス特徴を生成する。 このようにして、sparse4dは、濃密なビュー変換やグローバルな注意に頼ることなく、効率的かつ効果的に3d検出を実現できる。 さらに,3D-to-2Dプロジェクションの問題点を軽減するために,インスタンスレベルの深度リウェイトモジュールを導入する。 実験では,nuscenesデータセットにおける検出タスクに基づいて,スパースベースメソッドとほとんどのbevベースメソッドを上回った。

Bird-eye-view (BEV) based methods have made great progress recently in multi-view 3D detection task. Comparing with BEV based methods, sparse based methods lag behind in performance, but still have lots of non-negligible merits. To push sparse 3D detection further, in this work, we introduce a novel method, named Sparse4D, which does the iterative refinement of anchor boxes via sparsely sampling and fusing spatial-temporal features. (1) Sparse 4D Sampling: for each 3D anchor, we assign multiple 4D keypoints, which are then projected to multi-view/scale/timestamp image features to sample corresponding features; (2) Hierarchy Feature Fusion: we hierarchically fuse sampled features of different view/scale, different timestamp and different keypoints to generate high-quality instance feature. In this way, Sparse4D can efficiently and effectively achieve 3D detection without relying on dense view transformation nor global attention, and is more friendly to edge devices deployment. Furthermore, we introduce an instance-level depth reweight module to alleviate the ill-posed issue in 3D-to-2D projection. In experiment, our method outperforms all sparse based methods and most BEV based methods on detection task in the nuScenes dataset.
翻訳日:2022-11-22 19:58:28 公開日:2022-11-19
# スチル化セグメンテーションへの高速適応のための事前指導型Deep Different Meta-Learner

Prior Guided Deep Difference Meta-Learner for Fast Adaptation to Stylized Segmentation ( http://arxiv.org/abs/2211.10588v1 )

ライセンス: Link先を確認
Anjali Balagopal, Dan Nguyen, Ti Bai, Michael Dohopolski, Mu-Han Lin, Steve Jiang(参考訳) プレトレーニング済みの総合的自己隔離モデルが新施設に配備された場合,提案する事前指導型DDLネットワークにおけるサポートフレームワークは,患者の初期グループのために臨床医が修正・承認したモデル予測と最終輪郭との系統的差異を学習する。 学習スタイルの特徴差は、新しい患者(クエリ)の特徴と結合され、次に、スタイル適応セグメンテーションを取得するためにデコードされる。 モデルは実践スタイルや解剖学的構造とは独立している。 模擬スタイルの違いを伴ってメタ学習を行い、トレーニング中に実際の臨床スタイル構造に露出する必要はない。 シミュレーションデータをトレーニングすると、新たな練習スタイルや新しい解剖学的構造に適応するために臨床用途にデプロイすることができる。 概念実証のために,3つの解剖学的構造に対して,6種類の練習スタイルで先行誘導型DDLネットワークを試験した。 術後臨床ターゲットボリューム(ctv)のセグメンテーションからセグメンテーションctvstyle1,ctvstyle2,ctvstyle3,耳下腺セグメンテーションから耳下腺セグメンテーション,直腸セグメンテーションからセグメンテーション直腸上および直腸後へ,術前セグメンテーションモデルを適用した。 モード性能はDice similarity Coefficient (DSC)で定量化した。 CTVstyle1, CTVstyle2, CTVstyle3, Parotidsuperficial, Rectumsuperior, Rectumposteriorの順応により, 平均DSCは78.6, 71.9, 63.0, 52.2, 46.3, 69.6から84.4, 77.8, 73.0, 77.8, 70.5, 68.1, for CTVstyle1, CTVstyle2, CTVstyle3, Parotidsuperficial, Rectumsuperior, Rectumposteriorの順応性を示した。

When a pre-trained general auto-segmentation model is deployed at a new institution, a support framework in the proposed Prior-guided DDL network will learn the systematic difference between the model predictions and the final contours revised and approved by clinicians for an initial group of patients. The learned style feature differences are concatenated with the new patients (query) features and then decoded to get the style-adapted segmentations. The model is independent of practice styles and anatomical structures. It meta-learns with simulated style differences and does not need to be exposed to any real clinical stylized structures during training. Once trained on the simulated data, it can be deployed for clinical use to adapt to new practice styles and new anatomical structures without further training. To show the proof of concept, we tested the Prior-guided DDL network on six different practice style variations for three different anatomical structures. Pre-trained segmentation models were adapted from post-operative clinical target volume (CTV) segmentation to segment CTVstyle1, CTVstyle2, and CTVstyle3, from parotid gland segmentation to segment Parotidsuperficial, and from rectum segmentation to segment Rectumsuperior and Rectumposterior. The mode performance was quantified with Dice Similarity Coefficient (DSC). With adaptation based on only the first three patients, the average DSCs were improved from 78.6, 71.9, 63.0, 52.2, 46.3 and 69.6 to 84.4, 77.8, 73.0, 77.8, 70.5, 68.1, for CTVstyle1, CTVstyle2, and CTVstyle3, Parotidsuperficial, Rectumsuperior, and Rectumposterior, respectively, showing the great potential of the Priorguided DDL network for a fast and effortless adaptation to new practice styles
翻訳日:2022-11-22 19:58:03 公開日:2022-11-19
# MatrixVT: 3次元知覚のための高効率マルチカメラとBEV変換

MatrixVT: Efficient Multi-Camera to BEV Transformation for 3D Perception ( http://arxiv.org/abs/2211.10593v1 )

ライセンス: Link先を確認
Hongyu Zhou, Zheng Ge, Zeming Li, Xiangyu Zhang(参考訳) 本稿では, MatrixVT と呼ばれる3次元知覚のための, Bird's-Eye-View (BEV) ビュー変換手法を提案する。 既存のビュートランスフォーマーは変換効率が悪いか、デバイス固有のオペレータに依存しており、bevモデルの幅広い適用を妨げる。 対照的に、本手法は畳み込みと行列乗法(MatMul)のみを用いてBEV特性を効率的に生成する。 具体的には,BEV の特徴を画像特徴の MatMul とスパース特徴輸送行列 (FTM) として記述する。 次に、画像特徴の次元を圧縮し、FTMの間隔を減らすためにプライム抽出モジュールが導入された。 さらに,ftmを2つの行列に置き換え,計算量を減らすためにパイプラインを再構成するために,環 \&ray分解を提案する。 既存の方法と比較して、MatrixVTは高速で、メモリフットプリントも少なく、デプロイしやすい。 nuScenesベンチマークの大規模な実験により,本手法は高効率であるが,オブジェクト検出およびマップ分割タスクにおけるSOTA法と同等の結果が得られた。

This paper proposes an efficient multi-camera to Bird's-Eye-View (BEV) view transformation method for 3D perception, dubbed MatrixVT. Existing view transformers either suffer from poor transformation efficiency or rely on device-specific operators, hindering the broad application of BEV models. In contrast, our method generates BEV features efficiently with only convolutions and matrix multiplications (MatMul). Specifically, we propose describing the BEV feature as the MatMul of image feature and a sparse Feature Transporting Matrix (FTM). A Prime Extraction module is then introduced to compress the dimension of image features and reduce FTM's sparsity. Moreover, we propose the Ring \& Ray Decomposition to replace the FTM with two matrices and reformulate our pipeline to reduce calculation further. Compared to existing methods, MatrixVT enjoys a faster speed and less memory footprint while remaining deploy-friendly. Extensive experiments on the nuScenes benchmark demonstrate that our method is highly efficient but obtains results on par with the SOTA method in object detection and map segmentation tasks
翻訳日:2022-11-22 19:57:16 公開日:2022-11-19
# LIDAR GAIT:ポイントクラウドによる3次元歩行認識のベンチマーク

LIDAR GAIT: Benchmarking 3D Gait Recognition with Point Clouds ( http://arxiv.org/abs/2211.10598v1 )

ライセンス: Link先を確認
Chuanfu Shen, Chao Fan, Wei Wu, Rui Wang, George Q. Huang, Shiqi Yu(参考訳) ビデオベースの歩行認識は制約のあるシナリオで印象的な結果を得た。 しかし、視覚カメラは人間の3d構造情報を無視し、3dワイルドワールドにおける歩行認識の可能性を制限する。 本研究では,画像から歩容特徴を抽出する代わりに,点雲から正確な3次元歩容特徴を探索し,多視点投影ネットワーク(MVPNet)と呼ばれる単純な3次元歩容認識フレームワークを提案する。 MVPNetはまず、異なる視点から雲を複数の深度マップに向け、次に深度画像を融合して、3D幾何学情報でコンパクトな表現を学ぶ。 ポイントクラウドデータセットが不足しているため、ロボットに搭載されたLidarセンサとRGBカメラによって収集された、最初の大規模Lidarベースの歩行認識データセットであるLIDAR GAITを構築した。 データセットには1,050人の被験者から25,279のシーケンスがあり、可視性、ビュー、オクルージョン、衣服、持ち運び、シーンなど、さまざまなバリエーションをカバーしている。 広範な実験により,(1)3次元構造情報が歩行認識の重要な特徴であることがわかった。 (2) mvpnetは5つの代表的なポイントベース手法と競合するだけでなく、既存のカメラベースの手法を大きなマージンで上回っている。 (3)Lidarセンサーは、野生での歩行認識にRGBカメラより優れている。 LIDAR GAITデータセットとMVPNetコードが公開される。

Video-based gait recognition has achieved impressive results in constrained scenarios. However, visual cameras neglect human 3D structure information, which limits the feasibility of gait recognition in the 3D wild world. In this work, instead of extracting gait features from images, we explore precise 3D gait features from point clouds and propose a simple yet efficient 3D gait recognition framework, termed multi-view projection network (MVPNet). MVPNet first projects point clouds into multiple depth maps from different perspectives, and then fuse depth images together, to learn the compact representation with 3D geometry information. Due to the lack of point cloud datasets, we build the first large-scale Lidar-based gait recognition dataset, LIDAR GAIT, collected by a Lidar sensor and an RGB camera mounted on a robot. The dataset contains 25,279 sequences from 1,050 subjects and covers many different variations, including visibility, views, occlusions, clothing, carrying, and scenes. Extensive experiments show that, (1) 3D structure information serves as a significant feature for gait recognition. (2) MVPNet not only competes with five representative point-based methods, but it also outperforms existing camera-based methods by large margins. (3) The Lidar sensor is superior to the RGB camera for gait recognition in the wild. LIDAR GAIT dataset and MVPNet code will be publicly available.
翻訳日:2022-11-22 19:56:56 公開日:2022-11-19
# 水中画像強調のための意味認識型テクスチャ構造特徴協調

Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement ( http://arxiv.org/abs/2211.10608v1 )

ライセンス: Link先を確認
Di Wang, Long Ma, Risheng Liu, Xin Fan(参考訳) 水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。 しかし、限られたデータセットと不完全な手作りの地上真理は、その強固さを未知のシナリオに弱め、高レベルのビジョンタスクへの応用を妨げます。 上記の制約に対処するために,高レベル意味認識事前学習モデルと協調して効率良くコンパクトな拡張ネットワークを開発し,その階層的特徴表現を低レベル水中画像強調の補助として活用することを目的とした。 具体的には、浅い層の特徴をテクスチャとして特徴付け、深い層をセマンティクス・アウェアモデルの構造として特徴付け、複数のスケールで特徴を洗練し、異なる特徴間の相関をモデル化するマルチパス・コンテクスト・フィーチャー・リファインメント・モジュール(cfrm)を提案する。 さらに, 拡張ネットワークの異なる特徴パターンに適応するための, 集合テクスチャと構造特徴のチャネルワイズ変調を行うために, 特徴支配ネットワークを考案した。 ベンチマーク実験により、提案アルゴリズムはより魅力的な結果を得ることができ、最先端の手法を大きなマージンで上回ることを示した。 また,提案手法を水中サルエント物体検出タスクに適用し,高レベル視覚タスクに好適な意味認識能力を明らかにする。 コードはstscで入手できる。

Underwater image enhancement has become an attractive topic as a significant technology in marine engineering and aquatic robotics. However, the limited number of datasets and imperfect hand-crafted ground truth weaken its robustness to unseen scenarios, and hamper the application to high-level vision tasks. To address the above limitations, we develop an efficient and compact enhancement network in collaboration with a high-level semantic-aware pretrained model, aiming to exploit its hierarchical feature representation as an auxiliary for the low-level underwater image enhancement. Specifically, we tend to characterize the shallow layer features as textures while the deep layer features as structures in the semantic-aware model, and propose a multi-path Contextual Feature Refinement Module (CFRM) to refine features in multiple scales and model the correlation between different features. In addition, a feature dominative network is devised to perform channel-wise modulation on the aggregated texture and structure features for the adaptation to different feature patterns of the enhancement network. Extensive experiments on benchmarks demonstrate that the proposed algorithm achieves more appealing results and outperforms state-of-the-art methods by large margins. We also apply the proposed algorithm to the underwater salient object detection task to reveal the favorable semantic-aware ability for high-level vision tasks. The code is available at STSC.
翻訳日:2022-11-22 19:56:33 公開日:2022-11-19
# データ表現のためのバッチサンプル関係再考:バッチグラフ変換に基づくアプローチ

Rethinking Batch Sample Relationships for Data Representation: A Batch-Graph Transformer based Approach ( http://arxiv.org/abs/2211.10622v1 )

ライセンス: Link先を確認
Xixi Wang, Bo Jiang, Xiao Wang, Bin Luo(参考訳) 各ミニバッチ内のサンプル関係の探索は、画像表現を学習する大きな可能性を示している。 既存の作業は一般的に、サンプル間のセマンティック/ラベル相関の手がかりを無視して、視覚的コンテンツ関係をモデル化するために通常のトランスフォーマーを採用している。 また、彼らは一般的に、明らかに冗長でノイズの多いサンプルに敏感な「完全な」自己認識メカニズムを採用しています。 これらの課題を克服するために,視覚と意味の両方の観点から画像サンプルの関係を深く捉えることで,ミニバッチサンプル表現のための単純で柔軟なバッチグラフ変換器(BGFormer)を設計する。 BGFormerには3つの主な側面がある。 1) 各ミニバッチ内のサンプルの視覚的および意味的関係を共同符号化するために,バッチグラフと呼ばれるフレキシブルグラフモデルを用いる。 2) サンプルの近傍関係をスパースグラフ表現の概念を借用して探索し, ノイズのあるサンプルを頑健に処理する。 (3) サンプルトークン(ノード)表現のバッチグラフ情報を慎重に活用するため, グラフ正規化やFFNなどとともに, 二重構造制約型自己アテンション(SSA)を主とする新しいトランスフォーマーアーキテクチャを考案した。 アプリケーションとして,メトリクス学習タスクにBGFormerを適用する。 4つの一般的なデータセットに対する大規模な実験は、提案モデルの有効性を示す。

Exploring sample relationships within each mini-batch has shown great potential for learning image representations. Existing works generally adopt the regular Transformer to model the visual content relationships, ignoring the cues of semantic/label correlations between samples. Also, they generally adopt the "full" self-attention mechanism which are obviously redundant and also sensitive to the noisy samples. To overcome these issues, in this paper, we design a simple yet flexible Batch-Graph Transformer (BGFormer) for mini-batch sample representations by deeply capturing the relationships of image samples from both visual and semantic perspectives. BGFormer has three main aspects. (1) It employs a flexible graph model, termed Batch Graph to jointly encode the visual and semantic relationships of samples within each mini-batch. (2) It explores the neighborhood relationships of samples by borrowing the idea of sparse graph representation which thus performs robustly, w.r.t., noisy samples. (3) It devises a novel Transformer architecture that mainly adopts dual structure-constrained self-attention (SSA), together with graph normalization, FFN, etc, to carefully exploit the batch graph information for sample tokens (nodes) representations. As an application, we apply BGFormer to the metric learning tasks. Extensive experiments on four popular datasets demonstrate the effectiveness of the proposed model.
翻訳日:2022-11-22 19:56:09 公開日:2022-11-19
# CryptOpt:暗号化プリミティブのランダムプログラム検索による検証済みコンパイル

CryptOpt: Verified Compilation with Random Program Search for Cryptographic Primitives ( http://arxiv.org/abs/2211.10665v1 )

ライセンス: Link先を確認
Joel Kuepper, Andres Erbsen, Jason Gross, Owen Conoly, Chuyue Sun, Samuel Tian, David Wu, Adam Chlipala, Chitchanok Chuengsatiansup, Daniel Genkin, Markus Wagner, Yuval Yarom(参考訳) ほとんどのソフトウェアドメインは、高レベルのコードを複数の異なるマシン言語に翻訳するコンパイラに依存しており、パフォーマンスは開発者がアセンブリ言語で直接書く忍耐力を持つものよりもそれほど悪くはない。 しかし、暗号は例外であり、多くのパフォーマンスクリティカルなルーチンが直接アセンブリ(時にはメタプログラミング層を通して)で書かれてきた。 いくつかの過去の研究は、そのアセンブリの正式な検証方法を示しており、他の研究は、正式な証明とともにCコードを自動的に生成する方法を示している。 我々は、GCCやClangが生成するものよりもはるかに高速なアセンブリコードに高レベルの暗号関数プログラムを専門とする最初のコンパイルパイプラインであるCryptOptを紹介する。 最適化側では、ターゲットcpu上で自動ベンチマークを繰り返して、アセンブリプログラムの空間にランダム検索を適用する。 形式検証側では,関数型プログラムをCライクなIRコードに変換するFiat Cryptographyフレームワークに接続して,SMTソルバとシンボリックエグゼクティブエンジンの既知の特徴の質素なサブセットを組み込んだ,プログラム等価チェッカを新たに正式に認証した。 全体的なプロトタイプは非常に実用的であり、例えば比較的新しいIntel i9 12G向けに、Curve25519(TLS標準の一部)とBitcoin楕円曲線secp256k1の両方の有限フィールド演算を新たに開発した。

Most software domains rely on compilers to translate high-level code to multiple different machine languages, with performance not too much worse than what developers would have the patience to write directly in assembly language. However, cryptography has been an exception, where many performance-critical routines have been written directly in assembly (sometimes through metaprogramming layers). Some past work has shown how to do formal verification of that assembly, and other work has shown how to generate C code automatically along with formal proof, but with consequent performance penalties vs. the best-known assembly. We present CryptOpt, the first compilation pipeline that specializes high-level cryptographic functional programs into assembly code significantly faster than what GCC or Clang produce, with mechanized proof (in Coq) whose final theorem statement mentions little beyond the input functional program and the operational semantics of x86-64 assembly. On the optimization side, we apply randomized search through the space of assembly programs, with repeated automatic benchmarking on target CPUs. On the formal-verification side, we connect to the Fiat Cryptography framework (which translates functional programs into C-like IR code) and extend it with a new formally verified program-equivalence checker, incorporating a modest subset of known features of SMT solvers and symbolic-execution engines. The overall prototype is quite practical, e.g. producing new fastest-known implementations for the relatively new Intel i9 12G, of finite-field arithmetic for both Curve25519 (part of the TLS standard) and the Bitcoin elliptic curve secp256k1.
翻訳日:2022-11-22 19:48:35 公開日:2022-11-19
# 対話システムの自動評価のためのバイパートプレイ対話コレクション

Bipartite-play Dialogue Collection for Practical Automatic Evaluation of Dialogue Systems ( http://arxiv.org/abs/2211.10596v1 )

ライセンス: Link先を確認
Shiki Sato, Yosuke Kishinami, Hiroaki Sugiyama, Reina Akama, Ryoko Tokuhisa, Jun Suzuki(参考訳) 対話システム評価の自動化は対話システムの効率的な開発のための原動力である。 本稿では,対話システム評価を自動化する対話収集手法であるbipartite-play法を提案する。 既存の対話収集メソッドの制限に対処する。 (i)公開されていないシステムと比較できないこと、 (ii)比較対象のシステムを意図的に選択することによる不正行為の脆弱性。 実験結果から,バイパルタイト・プレイ法による自動評価はこれらの2つの欠点を軽減し,従来の方法と強く相関していることがわかった。

Automation of dialogue system evaluation is a driving force for the efficient development of dialogue systems. This paper introduces the bipartite-play method, a dialogue collection method for automating dialogue system evaluation. It addresses the limitations of existing dialogue collection methods: (i) inability to compare with systems that are not publicly available, and (ii) vulnerability to cheating by intentionally selecting systems to be compared. Experimental results show that the automatic evaluation using the bipartite-play method mitigates these two drawbacks and correlates as strongly with human subjectivity as existing methods.
翻訳日:2022-11-22 19:30:15 公開日:2022-11-19
# ロングテールマルチラベルテキスト分類のためのペアワイズインスタンス関係拡張

Pairwise Instance Relation Augmentation for Long-tailed Multi-label Text Classification ( http://arxiv.org/abs/2211.10685v1 )

ライセンス: Link先を確認
Lin Xiao, Pengyu Xu, Liping Jing and Xiangliang Zhang(参考訳) マルチラベルテキスト分類(MLTC)は自然言語処理における重要なタスクの1つである。 複数のターゲットラベルを1つのドキュメントに割り当てることを目的としている。 ラベルが不均一に人気があるため、ラベルごとのドキュメントの数は、ほとんどの場合、長い尾の配布に続く。 データリッチなヘッドラベルよりも、データスカースなテールラベルの分類器を学ぶことがずっと難しい。 主な理由は、通常、ヘッドラベルには十分な情報があり、例えば、大きなクラス内多様性があるが、テールラベルは持っていない。 そこで本研究では,尾ラベルと頭部ラベルのバランスをとるために,尾ラベル文書を補完するペアワイズインスタンス関係拡張ネットワーク(piran)を提案する。 PIRANはリレーショナルコレクタとインスタンスジェネレータで構成される。 前者は、ヘッドラベルから文書対関係を抽出することを目的としている。 これらの関係を摂動として、後者は制限付きラベルインスタンスの周りの高レベルな機能空間で新しいドキュメントインスタンスの生成を試みる。 一方、2つの正規化器(多様性と一貫性)は生成プロセスを制限するように設計されている。 一貫性レギュラライザは、テールラベルのばらつきをヘッドラベルに近づけ、データセット全体のバランスをさらに向上させる。 また、多様性調整器は生成されたインスタンスの多様性を保証し、冗長なインスタンスの生成を避ける。 3つのベンチマークデータセットの大規模な実験結果から、PIRANはSOTA法より一貫して優れ、テールラベルの性能が劇的に向上することが示された。

Multi-label text classification (MLTC) is one of the key tasks in natural language processing. It aims to assign multiple target labels to one document. Due to the uneven popularity of labels, the number of documents per label follows a long-tailed distribution in most cases. It is much more challenging to learn classifiers for data-scarce tail labels than for data-rich head labels. The main reason is that head labels usually have sufficient information, e.g., a large intra-class diversity, while tail labels do not. In response, we propose a Pairwise Instance Relation Augmentation Network (PIRAN) to augment tailed-label documents for balancing tail labels and head labels. PIRAN consists of a relation collector and an instance generator. The former aims to extract the document pairwise relations from head labels. Taking these relations as perturbations, the latter tries to generate new document instances in high-level feature space around the limited given tailed-label instances. Meanwhile, two regularizers (diversity and consistency) are designed to constrain the generation process. The consistency-regularizer encourages the variance of tail labels to be close to head labels and further balances the whole datasets. And diversity-regularizer makes sure the generated instances have diversity and avoids generating redundant instances. Extensive experimental results on three benchmark datasets demonstrate that PIRAN consistently outperforms the SOTA methods, and dramatically improves the performance of tail labels.
翻訳日:2022-11-22 19:30:07 公開日:2022-11-19
# オープンエンドテキスト生成のためのコントラスト検索とコントラスト復号に関する実証的研究

An Empirical Study On Contrastive Search And Contrastive Decoding For Open-ended Text Generation ( http://arxiv.org/abs/2211.10797v1 )

ライセンス: Link先を確認
Yixuan Su and Jialu Xu(参考訳) 本研究では,最近提案された2つの復号法,すなわちコントラスト検索 (cs) とコントラスト復号法 (cd) をオープンエンドテキスト生成のために実験的に比較した。 自動評価の結果, CSはMAUVE測定値のCDよりも劣るが, 多様性とコヒーレンス測定値のCDを大きく上回っていることが示唆された。 より注目すべきは、3つの異なるドメインにわたる広範囲な人間評価によって、人間の注釈はcdよりもcdよりも普遍的に有利であることが示される。 MAUVEと人間評価の矛盾した結果は、MAUVEが人間の好みを正確に反映していないことを示している。 そこで我々は,オープンエンドテキスト生成のためのより良い評価指標の開発を研究コミュニティに呼びかける。 作業の再現性を確保するため、私たちはhttps://github.com/yxuansu/Contrastive_Search_versus_Contrastive_Decodingで、コード、評価結果、および人間のアノテーションをオープンソース化しました。

In the study, we empirically compare the two recently proposed decoding methods, i.e. Contrastive Search (CS) and Contrastive Decoding (CD), for open-ended text generation. The automatic evaluation results suggest that, while CS performs worse than CD on the MAUVE metric, it substantially surpasses CD on the diversity and coherence metrics. More notably, extensive human evaluations across three different domains demonstrate that human annotators are universally more in favor of CS over CD with substantial margins. The contradicted results between MAUVE and human evaluations reveal that MAUVE does not accurately reflect human preferences. Therefore, we call upon the research community to develop better evaluation metrics for open-ended text generation. To ensure the reproducibility of our work, we have open-sourced all our code, evaluation results, as well as human annotations at https://github.com/yxuansu/Contrastive_Search_versus_Contrastive_Decoding.
翻訳日:2022-11-22 19:29:43 公開日:2022-11-19
# ゼロショットおよびゼロショットマルチドキュメント要約のための最先端モデルと極大辺縁関係の組合せ

Combining State-of-the-Art Models with Maximal Marginal Relevance for Few-Shot and Zero-Shot Multi-Document Summarization ( http://arxiv.org/abs/2211.10808v1 )

ライセンス: Link先を確認
David Adams, Gandharv Suri, Yllias Chali(参考訳) 自然言語処理において、多文書要約(MDS)は、単一文書要約(SDS)によって生じるよりも多くの課題を研究者にもたらす。 これらの課題には、検索スペースの増大と冗長な情報を含む可能性の増大が含まれる。 ディープラーニングアプローチの進歩は、要約が可能な先進言語モデルの開発につながっているが、MDSの問題に特有の訓練データの種類は比較的限られている。 したがって、事前トレーニングをほとんど必要としないMDSアプローチは、ほとんどショットやゼロショットアプリケーションとして知られており、要約で利用可能な現在のツールセットに有益な追加となる可能性がある。 1つの可能なアプローチを探るため、文書の多様性ではなく、MMR(Maximal marginal Relevance)による最先端モデルの出力とクエリ関連性に重点を置く戦略を考案した。 我々のMMRベースのアプローチは、いくつかのショットとゼロショットのMDSアプリケーションにおいて、現在の最先端結果のいくつかの側面よりも改善されている一方で、すべての利用可能なメトリクスによる出力の最先端標準を維持しています。

In Natural Language Processing, multi-document summarization (MDS) poses many challenges to researchers above those posed by single-document summarization (SDS). These challenges include the increased search space and greater potential for the inclusion of redundant information. While advancements in deep learning approaches have led to the development of several advanced language models capable of summarization, the variety of training data specific to the problem of MDS remains relatively limited. Therefore, MDS approaches which require little to no pretraining, known as few-shot or zero-shot applications, respectively, could be beneficial additions to the current set of tools available in summarization. To explore one possible approach, we devise a strategy for combining state-of-the-art models' outputs using maximal marginal relevance (MMR) with a focus on query relevance rather than document diversity. Our MMR-based approach shows improvement over some aspects of the current state-of-the-art results in both few-shot and zero-shot MDS applications while maintaining a state-of-the-art standard of output by all available metrics.
翻訳日:2022-11-22 19:29:21 公開日:2022-11-19
# 教師なし双方向ドメイン転送学習による実世界の超解像

Real-World Image Super Resolution via Unsupervised Bi-directional Cycle Domain Transfer Learning based Generative Adversarial Network ( http://arxiv.org/abs/2211.10563v1 )

ライセンス: Link先を確認
Xiang Wang, Yimin Yang, Zhichang Guo, Zhili Zhou, Yu Liu, Qixiang Pang, Shan Du(参考訳) 深部畳み込みニューラルネットワーク(DCNN)は、画像の超解像処理において素晴らしい性能を示した。 しかし、これらの深層学習に基づく超解像法は、高解像と低解像のペア画像が使用できず、低解像が複雑で未知のカーネルによって劣化する現実の超解像タスクでは、性能が劣る。 これらの制限を解消するために、Unsupervised Bi-directional Domain Transfer Learning-based Generative Adversarial Network (UBCDTL-GAN) を提案し、これはUnsupervised Bi-directional Cycle Domain Transfer Network (UBCDTN) とSemantic Encoder Guided Super Resolution Network (SESRN) から構成される。 まず、UBCDTNは、人工劣化領域から実世界のLR画像領域にLR画像を転送することで、近似された実状LR画像を生成することができる。 第二に、SESRNは、近似されたリアルライクなLR画像をフォトリアリスティックなHR画像に超解ける能力を持っている。 非ペア化実世界画像ベンチマークデータセットの広範な実験により,提案手法が最先端の手法よりも優れた性能を達成できることが証明された。

Deep Convolutional Neural Networks (DCNNs) have exhibited impressive performance on image super-resolution tasks. However, these deep learning-based super-resolution methods perform poorly in real-world super-resolution tasks, where the paired high-resolution and low-resolution images are unavailable and the low-resolution images are degraded by complicated and unknown kernels. To break these limitations, we propose the Unsupervised Bi-directional Cycle Domain Transfer Learning-based Generative Adversarial Network (UBCDTL-GAN), which consists of an Unsupervised Bi-directional Cycle Domain Transfer Network (UBCDTN) and the Semantic Encoder guided Super Resolution Network (SESRN). First, the UBCDTN is able to produce an approximated real-like LR image through transferring the LR image from an artificially degraded domain to the real-world LR image domain. Second, the SESRN has the ability to super-resolve the approximated real-like LR image to a photo-realistic HR image. Extensive experiments on unpaired real-world image benchmark datasets demonstrate that the proposed method achieves superior performance compared to state-of-the-art methods.
翻訳日:2022-11-22 19:23:19 公開日:2022-11-19
# 再帰的分割のポイントワイズ挙動とその不均一因果効果推定への応用について

On the Pointwise Behavior of Recursive Partitioning and Its Implications for Heterogeneous Causal Effect Estimation ( http://arxiv.org/abs/2211.10805v1 )

ライセンス: Link先を確認
Mattias D. Cattaneo, Jason M. Klusowski, Peter M. Tian(参考訳) 決定木学習は、ポイントワイズ推論にますます使われている。 重要な応用例としては、因果的不均質な治療効果や動的政策決定、条件付き質的回帰や実験の設計などがある。 本稿では,決定木(適応再帰的分割によって訓練される)が一様ノルムにおける収束率を定式化しても達成できないことを示すことで,決定木の使用を疑問視する。 代わりに、収束は多対数であるかもしれないし、正直な回帰木のようないくつかの重要な特殊ケースでは、完全に失敗する。 ランダムな森林は、樹木をほとんど最適な手順に転換し、解釈可能性を失い、さらに2つの追加のチューニングパラメータを導入することで状況を改善することができることを示す。 ランダム林の2つの特徴, サブサンプリングとランダム特徴選択機構は, それぞれが考慮されたモデルクラスに対してほぼ最適な性能を達成するのに顕著に寄与している。

Decision tree learning is increasingly being used for pointwise inference. Important applications include causal heterogenous treatment effects and dynamic policy decisions, as well as conditional quantile regression and design of experiments, where tree estimation and inference is conducted at specific values of the covariates. In this paper, we call into question the use of decision trees (trained by adaptive recursive partitioning) for such purposes by demonstrating that they can fail to achieve polynomial rates of convergence in uniform norm, even with pruning. Instead, the convergence may be poly-logarithmic or, in some important special cases, such as honest regression trees, fail completely. We show that random forests can remedy the situation, turning poor performing trees into nearly optimal procedures, at the cost of losing interpretability and introducing two additional tuning parameters. The two hallmarks of random forests, subsampling and the random feature selection mechanism, are seen to each distinctively contribute to achieving nearly optimal performance for the model class considered.
翻訳日:2022-11-22 19:12:24 公開日:2022-11-19
# 説明可能な人工知能と因果推論に基づくATMフラッド検出

Explainable Artificial Intelligence and Causal Inference based ATM Fraud Detection ( http://arxiv.org/abs/2211.10595v1 )

ライセンス: Link先を確認
Yelleti Vivek, Vadlamani Ravi, Abhay Anand Mane, Laveti Ramesh Naidu(参考訳) 顧客の信頼を得て共感を提供することは、金融分野において非常に重要です。 不正行為の頻発はこれら2つの要因に影響する。 したがって、金融機関や銀行はそれらを軽減するために最善の注意を払わなければならない。 その中でもATM不正取引は銀行が直面する一般的な問題である。 不正データセットには、以下の重要な課題がある。データセットは高度に不均衡であり、不正パターンは変化している。 不正行為の希少性のため、フルート検出は二項分類問題または一項分類(OCC)として定式化することができる。 本研究では,インドから収集したATMトランザクションデータセットを用いて,これらの手法について検討した。 二項分類では,SMOTE(Synthetic Minority Oversampling Technique)やGAN(Generative Adversarial Networks)など,様々なオーバーサンプリング手法の有効性を検討した。 さらに,NB(Naive Bayes),LR(Logistic Regression),SVM(Support Vector Machine),DT(Decision Tree),RF(Random Forest),GBT(Gradient Boosting Tree),MLP(Multi-layer Perceptron)といった機械学習技術を用いた。 GBTは0.963 AUCを達成し、DTは0.958 AUCで2位となった。 複雑性と解釈可能性の観点から考えると、DTが勝者になります。 オーバーサンプリングアプローチの中で、SMOTEとその変異体はより良い性能を示すことが観察された。 OCCではIForestが0.959 CRを獲得し、OCSVMは0.947 CRで2位を獲得した。 さらに,不正検出フレームワークに説明可能な人工知能(XAI)と因果推論(CI)を導入し,様々な分析を行った。

Gaining the trust of customers and providing them empathy are very critical in the financial domain. Frequent occurrence of fraudulent activities affects these two factors. Hence, financial organizations and banks must take utmost care to mitigate them. Among them, ATM fraudulent transaction is a common problem faced by banks. There following are the critical challenges involved in fraud datasets: the dataset is highly imbalanced, the fraud pattern is changing, etc. Owing to the rarity of fraudulent activities, Fraud detection can be formulated as either a binary classification problem or One class classification (OCC). In this study, we handled these techniques on an ATM transactions dataset collected from India. In binary classification, we investigated the effectiveness of various over-sampling techniques, such as the Synthetic Minority Oversampling Technique (SMOTE) and its variants, Generative Adversarial Networks (GAN), to achieve oversampling. Further, we employed various machine learning techniques viz., Naive Bayes (NB), Logistic Regression (LR), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Gradient Boosting Tree (GBT), Multi-layer perceptron (MLP). GBT outperformed the rest of the models by achieving 0.963 AUC, and DT stands second with 0.958 AUC. DT is the winner if the complexity and interpretability aspects are considered. Among all the oversampling approaches, SMOTE and its variants were observed to perform better. In OCC, IForest attained 0.959 CR, and OCSVM secured second place with 0.947 CR. Further, we incorporated explainable artificial intelligence (XAI) and causal inference (CI) in the fraud detection framework and studied it through various analyses.
翻訳日:2022-11-22 19:05:43 公開日:2022-11-19
# グラフ拡張クラスタリングネットワーク

Graph Augmentation Clustering Network ( http://arxiv.org/abs/2211.10627v1 )

ライセンス: Link先を確認
Zhihao Peng, Hui Liu, Yuheng Jia, Junhui Hou(参考訳) 既存のグラフクラスタリングネットワークは事前に定義されたグラフに大きく依存しており、初期グラフが低品質であれば失敗する可能性がある。 そこで本研究では,初期グラフを適応的に拡張し,クラスタリング性能を向上させる新しいグラフ拡張クラスタリングネットワークを提案する。 具体的には、まずノード属性とトポロジ構造情報を統合し、潜在特徴表現を学習する。 次に,埋め込み空間上の局所幾何学的構造情報を探索して隣接グラフを構築し,その後適応グラフ拡張アーキテクチャを開発し,そのグラフを初期グラフと動的に融合させる。 最後に,複数の派生分布間のジェフリー分散を最小化し,教師なし方式でネットワークトレーニングを行う。 6つの一般的なベンチマークデータセットに関する広範な実験は、提案手法が最先端のアプローチを一貫して上回っていることを示している。 特に本手法では, dblp 上で最高のベースラインに対して 9.39 % 以上のari 改善を行う。 ソースコードとデータは付録に提出されている。

Existing graph clustering networks heavily rely on a predefined graph and may fail if the initial graph is of low quality. To tackle this issue, we propose a novel graph augmentation clustering network capable of adaptively enhancing the initial graph to achieve better clustering performance. Specifically, we first integrate the node attribute and topology structure information to learn the latent feature representation. Then, we explore the local geometric structure information on the embedding space to construct an adjacency graph and subsequently develop an adaptive graph augmentation architecture to fuse that graph with the initial one dynamically. Finally, we minimize the Jeffreys divergence between multiple derived distributions to conduct network training in an unsupervised fashion. Extensive experiments on six commonly used benchmark datasets demonstrate that the proposed method consistently outperforms several state-of-the-art approaches. In particular, our method improves the ARI by more than 9.39\% over the best baseline on DBLP. The source codes and data have been submitted to the appendix.
翻訳日:2022-11-22 19:05:12 公開日:2022-11-19
# 個人化事前情報を用いた個人化フェデレーション学習

Personalized Federated Learning with Hidden Information on Personalized Prior ( http://arxiv.org/abs/2211.10684v1 )

ライセンス: Link先を確認
Mingjia Shi, Yuhao Zhou, Qing Ye, Jiancheng Lv(参考訳) フェデレートラーニング(Federated Learning, FL)は、グローバルサーバとコラボレーティブクライアントを利用して、直接的なデータ共有なしに、プライバシを保存するグローバルモデルトレーニングを実現する分散機械学習技術である。 しかし、FLの主な問題の一つである異種データ問題は、グローバルモデルが各クライアントのローカルデータに対して効果的に実行するのを困難にしている。 このように、パーソナライズド・フェデレーション・ラーニング(PFL)は、ローカルデータにおけるモデルの性能を可能な限り向上することを目的としている。 ベイズ学習(ベイズ学習、英: Bayesian learning、英: Bayesian learning)は、モデルのパラメータが事前の仮定でランダム変数と見なされる場合、モデルが使用する局所データが多いほど局所データに集中し、それ以外は先行データにフォーカスする傾向にあるため、不均一データ問題に対する実現可能な解である。 ベイズ学習がPFLに適用されるとき、グローバルモデルは、局所的なトレーニングプロセスの前のグローバルな知識を提供する。 本稿では,スケールした指数関数列の事前を仮定してpflをモデル化するベイズ学習を用いて,ブレグマン分岐正規化を用いてモデル化する問題を解くためのフレームワークであるpfedbredを提案する。 実験の結果,球面ガウスの事前仮定と平均選択の1次戦略により,提案手法が複数の公開ベンチマークにおいて他のpflアルゴリズムを大きく上回ることがわかった。

Federated learning (FL for simplification) is a distributed machine learning technique that utilizes global servers and collaborative clients to achieve privacy-preserving global model training without direct data sharing. However, heterogeneous data problem, as one of FL's main problems, makes it difficult for the global model to perform effectively on each client's local data. Thus, personalized federated learning (PFL for simplification) aims to improve the performance of the model on local data as much as possible. Bayesian learning, where the parameters of the model are seen as random variables with a prior assumption, is a feasible solution to the heterogeneous data problem due to the tendency that the more local data the model use, the more it focuses on the local data, otherwise focuses on the prior. When Bayesian learning is applied to PFL, the global model provides global knowledge as a prior to the local training process. In this paper, we employ Bayesian learning to model PFL by assuming a prior in the scaled exponential family, and therefore propose pFedBreD, a framework to solve the problem we model using Bregman divergence regularization. Empirically, our experiments show that, under the prior assumption of the spherical Gaussian and the first order strategy of mean selection, our proposal significantly outcompetes other PFL algorithms on multiple public benchmarks.
翻訳日:2022-11-22 19:04:57 公開日:2022-11-19
# 関係対称性に基づく知識グラフコントラスト学習

Relational Symmetry based Knowledge Graph Contrastive Learning ( http://arxiv.org/abs/2211.10738v1 )

ライセンス: Link先を確認
Ke Liang, Yue Liu, Sihang Zhou, Xinwang Liu, Wenxuan Tu(参考訳) 知識グラフ埋め込み(KGE)は、質問応答やレコメンデーションなど、さまざまな人工知能アプリケーションに有用な強力な表現を学ぶことを目的としている。 一方、学習表現の識別能力を高める効果的なメカニズムである対照的学習(CL)は、異なる分野、特にグラフベースモデルで活用されている。 しかし、知識グラフ(KG)の構造は、通常、均質グラフよりも複雑であるため、適切な対照的なサンプルペアを構築するのは難しい。 この論文では、対称構造内の実体は、通常より類似しており、相関関係がある。 この重要な性質は、コントラスト学習のための対照的な正のペアを構築するのに利用できる。 KGEモデルの識別能力を高めるために,KGにおける対称構造情報を活用するKGE-SymCLと呼ばれる関係対称構造に基づく知識グラフ比較学習フレームワークを提案する。 具体的には、関係対称位置の実体を正のサンプルとして、プラグアンドプレイアプローチを設計する。 さらに、自己教師付きアライメント損失を用いて、構築された正のサンプルペアを組み合わせることで、コントラスト学習を行う。 ベンチマークデータセットの広範な実験結果から,提案フレームワークの優れた一般化と優越性が検証された。

Knowledge graph embedding (KGE) aims to learn powerful representations to benefit various artificial intelligence applications, such as question answering and recommendations. Meanwhile, contrastive learning (CL), as an effective mechanism to enhance the discriminative capacity of the learned representations, has been leveraged in different fields, especially graph-based models. However, since the structures of knowledge graphs (KGs) are usually more complicated compared to homogeneous graphs, it is hard to construct appropriate contrastive sample pairs. In this paper, we find that the entities within a symmetrical structure are usually more similar and correlated. This key property can be utilized to construct contrastive positive pairs for contrastive learning. Following the ideas above, we propose a relational symmetrical structure based knowledge graph contrastive learning framework, termed KGE-SymCL, which leverages the symmetrical structure information in KGs to enhance the discriminative ability of KGE models. Concretely, a plug-and-play approach is designed by taking the entities in the relational symmetrical positions as the positive samples. Besides, a self-supervised alignment loss is used to pull together the constructed positive sample pairs for contrastive learning. Extensive experimental results on benchmark datasets have verified the good generalization and superiority of the proposed framework.
翻訳日:2022-11-22 19:04:29 公開日:2022-11-19
# DeepGAR: アナロジー推論のためのディープグラフ学習

DeepGAR: Deep Graph Learning for Analogical Reasoning ( http://arxiv.org/abs/2211.10821v1 )

ライセンス: Link先を確認
Chen Ling, Tanmoy Chowdhury, Junji Jiang, Junxiang Wang, Xuchao Zhang, Haifeng Chen, and Liang Zhao(参考訳) 類推的推論とは、対象対象から基本対象への対応を発見・マッピングする過程である。 類似推論の最もよく知られた計算手法として、構造マッピング理論(smt)は、対象対象と基本対象の両方を関係グラフに抽象化し、対象グラフと整合する対象グラフに対応する部分グラフ(すなわち対応)を見つけることによって、類似推論の認知過程を形成する。 しかし、SMTにディープラーニングを組み込むことは、いくつかの障害があるため、まだ未検討である。 1) 対象グラフにおける対応の検索の組合せ的複雑さ 2) 対応マイニングは, 認知理論による制約によって制限される。 両課題に対処するために,認知理論に基づく制約を定め,ソースドメインとターゲットドメインの対応を識別する新たなフレームワーク(DeepGAR)を提案する。 具体的には,効率的な部分グラフ探索のためのノード埋め込みから部分グラフ関係を誘導する幾何学的制約埋め込み空間を設計する。 さらに,認知理論によって引き起こされる制約と厳密に一致する対応をエンドツーエンドで識別できる新しい学習と最適化戦略を開発した。 既存の手法に対して提案したDeepGARの有効性を実証するために、合成および実世界のデータセットで大規模な実験を行った。

Analogical reasoning is the process of discovering and mapping correspondences from a target subject to a base subject. As the most well-known computational method of analogical reasoning, Structure-Mapping Theory (SMT) abstracts both target and base subjects into relational graphs and forms the cognitive process of analogical reasoning by finding a corresponding subgraph (i.e., correspondence) in the target graph that is aligned with the base graph. However, incorporating deep learning for SMT is still under-explored due to several obstacles: 1) the combinatorial complexity of searching for the correspondence in the target graph; 2) the correspondence mining is restricted by various cognitive theory-driven constraints. To address both challenges, we propose a novel framework for Analogical Reasoning (DeepGAR) that identifies the correspondence between source and target domains by assuring cognitive theory-driven constraints. Specifically, we design a geometric constraint embedding space to induce subgraph relation from node embeddings for efficient subgraph search. Furthermore, we develop novel learning and optimization strategies that could end-to-end identify correspondences that are strictly consistent with constraints driven by the cognitive theory. Extensive experiments are conducted on synthetic and real-world datasets to demonstrate the effectiveness of the proposed DeepGAR over existing methods.
翻訳日:2022-11-22 19:04:09 公開日:2022-11-19
# チェックすべき文を識別するためのエンティティ支援言語モデル

Entity-Assisted Language Models for Identifying Check-worthy Sentences ( http://arxiv.org/abs/2211.10678v1 )

ライセンス: Link先を確認
Ting Su, Craig Macdonald, Iadh Ounis(参考訳) 本稿では,政治討論や音声の書き起こしにおいて,チェックすべき文を識別するプロセスを自動化するための,テキスト分類とランク付けのための新しい統一フレームワークを提案する。 本フレームワークは,文の意味分析と,文内の識別されたエンティティから得られる追加のエンティティ埋め込みを組み合わせる。 特に、BERT、ALBERT、RoBERTaといった最先端のニューラルネットワークモデルを用いて各文の意味を解析し、知識グラフ(KG)埋め込みモデルからエンティティへの埋め込みを求める。 具体的には,5つの異なる言語モデル,6つの異なるKG埋め込みモデルから得られたエンティティ埋め込み,および2つの組み合わせ手法を用いて,フレームワークをインスタンス化する。 CLEF' 2019と2020 CheckThatの2つの公開データセットを使用して、我々のフレームワークの有効性を広く評価する。 研究室 その結果,ニューラルネットワークモデルは従来のTF.IDF法やLSTM法よりも大幅に優れていた。 さらに、ALBERTモデルは、テストされた全てのニューラルネットワークモデルの中で、一貫して最も効果的なモデルであることを示す。 当社のエンティティ埋め込みは,kg埋め込みと併用した場合の文中のエンティティ間の類似性と関連度スコアに基づく文献の既存のアプローチを著しく上回っている。

We propose a new uniform framework for text classification and ranking that can automate the process of identifying check-worthy sentences in political debates and speech transcripts. Our framework combines the semantic analysis of the sentences, with additional entity embeddings obtained through the identified entities within the sentences. In particular, we analyse the semantic meaning of each sentence using state-of-the-art neural language models such as BERT, ALBERT, and RoBERTa, while embeddings for entities are obtained from knowledge graph (KG) embedding models. Specifically, we instantiate our framework using five different language models, entity embeddings obtained from six different KG embedding models, as well as two combination methods leading to several Entity-Assisted neural language models. We extensively evaluate the effectiveness of our framework using two publicly available datasets from the CLEF' 2019 & 2020 CheckThat! Labs. Our results show that the neural language models significantly outperform traditional TF.IDF and LSTM methods. In addition, we show that the ALBERT model is consistently the most effective model among all the tested neural language models. Our entity embeddings significantly outperform other existing approaches from the literature that are based on similarity and relatedness scores between the entities in a sentence, when used alongside a KG embedding.
翻訳日:2022-11-22 18:53:58 公開日:2022-11-19
# neural frames: 基盤となるイメージデータセットの接バンドルと、ディープラーニングモデルによる処理方法を研究するツール

Neural frames: A Tool for Studying the Tangent Bundles Underlying Image Datasets and How Deep Learning Models Process Them ( http://arxiv.org/abs/2211.10558v1 )

ライセンス: Link先を確認
Henry Kvinge, Grayson Jorgenson, Davis Brown, Charles Godfrey, Tegan Emerson(参考訳) 画像のような高次元データの多くの形式が、しばしば多様体仮説として知られる低次元多様体上に存在するという仮定は、ディープラーニングがどのように、なぜ機能するのかという我々の直観の根底にある。 我々の直感の中心的な役割にもかかわらず、高次元でまばらなサンプル画像データセットの場合、データ多様体は驚くほど難しい。 データ多様体を計測する能力は、ディープラーニングモデルの内部動作とダイナミクスに明らかな窓を提供するため、これは特にいらいらする。 そこで本研究では, 微分幾何学からのフレーム概念に触発された, 新しく, 使いやすいツールであるneural framesを紹介する。 ニューラルネットワークは、単一のデータポイントしか持たない場合でも、ニューラルネットワークの隠れた層を通過するデータ多様体の局所的な近傍を探索するために使用できる。 ニューラルフレームの数学的枠組みを提案し,その性質について考察する。 次に、それらを使用して、現代のモデルアーキテクチャとトレーニングルーチン、例えば重い強化や敵対的なトレーニングがモデルのローカルな振る舞いにどのように影響するかを観察します。

The assumption that many forms of high-dimensional data, such as images, actually live on low-dimensional manifolds, sometimes known as the manifold hypothesis, underlies much of our intuition for how and why deep learning works. Despite the central role that they play in our intuition, data manifolds are surprisingly hard to measure in the case of high-dimensional, sparsely sampled image datasets. This is particularly frustrating since the capability to measure data manifolds would provide a revealing window into the inner workings and dynamics of deep learning models. Motivated by this, we introduce neural frames, a novel and easy to use tool inspired by the notion of a frame from differential geometry. Neural frames can be used to explore the local neighborhoods of data manifolds as they pass through the hidden layers of neural networks even when one only has a single datapoint available. We present a mathematical framework for neural frames and explore some of their properties. We then use them to make a range of observations about how modern model architectures and training routines, such as heavy augmentation and adversarial training, affect the local behavior of a model.
翻訳日:2022-11-22 18:46:56 公開日:2022-11-19
# Gumbel-Softmax選択ネットワーク

Gumbel-Softmax Selective Networks ( http://arxiv.org/abs/2211.10564v1 )

ライセンス: Link先を確認
Mahmoud Salem, Mohamed Osama Ahmed, Frederick Tung and Gabriel Oliveira(参考訳) MLモデルは大規模なシステムのコンテキスト内で運用されることが多く、MLモデルが不確実な場合には、セーフデフォルトのフォールバックやループ内の人間など、その応答に適応することができる。 この一般的に遭遇する運用コンテキストは、不確実な時に予測を控えるオプションを備えたMLモデルをトレーニングするための原則化されたテクニックを要求する。 選択ニューラルネットワークは、吸収する統合的なオプションでトレーニングされ、信頼できる予測を行うことのできるデータディストリビューションのサブセットを認識し、最適化することを学ぶことができる。 しかし、二項選択関数の非微分性(予測するか否かの離散決定)のため、選択ネットワークの最適化は困難である。 本稿では,gumbel-softmax再パラメータ化手法を利用した選択ネットワークの訓練方法を提案する。 公開データセットに関する実験は、ガンベル・ソフトマックス選択ネットワークの選択的回帰と分類の可能性を示している。

ML models often operate within the context of a larger system that can adapt its response when the ML model is uncertain, such as falling back on safe defaults or a human in the loop. This commonly encountered operational context calls for principled techniques for training ML models with the option to abstain from predicting when uncertain. Selective neural networks are trained with an integrated option to abstain, allowing them to learn to recognize and optimize for the subset of the data distribution for which confident predictions can be made. However, optimizing selective networks is challenging due to the non-differentiability of the binary selection function (the discrete decision of whether to predict or abstain). This paper presents a general method for training selective networks that leverages the Gumbel-softmax reparameterization trick to enable selection within an end-to-end differentiable training framework. Experiments on public datasets demonstrate the potential of Gumbel-softmax selective networks for selective regression and classification.
翻訳日:2022-11-22 18:46:38 公開日:2022-11-19
# 動き中心トークン選択を用いたマスク映像モデルによる効率的な映像表現学習

Efficient Video Representation Learning via Masked Video Modeling with Motion-centric Token Selection ( http://arxiv.org/abs/2211.10636v1 )

ライセンス: Link先を確認
Sunil Hwang, Jaehong Yoon, Youngwan Lee, Sung Ju Hwang(参考訳) 自己教師付きビデオ表現学習(VRL)は、さまざまな下流タスクに使用できる未処理の未ラベルのビデオストリームから転送可能な表現を学習することを目的としている。 近年のMasked Image Modeling (MIM) の進歩により、視認パッチのみを与えられた画像内のランダムなマスキング領域の予測が学習され、MIMベースのVRL法が出現し、従来のVRL法を大幅に上回る可能性を示した。 しかし、これらは時間次元の追加による過剰な計算を必要とする。 これは、既存のMIMベースのVRL手法が、ランダムマスキング戦略に頼って、到着するビデオのパッチ間の空間的および時間的情報密度の不等式を見落としているためである。 マスク付きビデオモデリングのこれらの制約に対処するため,我々は,物体の動きに応じてより重要なトークンをオンライン的にマスキングする新しいトークン選択法を提案し,これをモーション中心のトークン選択と呼ぶ。 さらに,モデルが最小限の冗長性で有益かつ因果的なフレームに集中できる動的フレーム選択戦略を提案する。 提案手法を用いた事前学習モデルは,動作認識やオブジェクト状態変化の分類などの下流タスクにおいて,従来のVRL手法よりも大幅に優れ,事前学習や微調整の際のメモリ要求を大幅に低減することを示した。

Self-supervised Video Representation Learning (VRL) aims to learn transferrable representations from uncurated, unlabeled video streams that could be utilized for diverse downstream tasks. With recent advances in Masked Image Modeling (MIM), in which the model learns to predict randomly masked regions in the images given only the visible patches, MIM-based VRL methods have emerged and demonstrated their potential by significantly outperforming previous VRL methods. However, they require an excessive amount of computations due to the added temporal dimension. This is because existing MIM-based VRL methods overlook spatial and temporal inequality of information density among the patches in arriving videos by resorting to random masking strategies, thereby wasting computations on predicting uninformative tokens/frames. To tackle these limitations of Masked Video Modeling, we propose a new token selection method that masks our more important tokens according to the object's motions in an online manner, which we refer to as Motion-centric Token Selection. Further, we present a dynamic frame selection strategy that allows the model to focus on informative and causal frames with minimal redundancy. We validate our method over multiple benchmark and Ego4D datasets, showing that the pre-trained model using our proposed method significantly outperforms state-of-the-art VRL methods on downstream tasks, such as action recognition and object state change classification while largely reducing memory requirements during pre-training and fine-tuning.
翻訳日:2022-11-22 18:46:24 公開日:2022-11-19
# 図面における顔・身体検出のためのドメイン適応型自己監督型事前訓練

Domain-Adaptive Self-Supervised Pre-Training for Face & Body Detection in Drawings ( http://arxiv.org/abs/2211.10641v1 )

ライセンス: Link先を確認
Bar{\i}\c{s} Batuhan Topal, Deniz Yuret, Tevfik Metin Sezgin(参考訳) 図面は絵の抽象とコミュニケーションの強力な手段である。 デジタルアート、漫画、漫画など様々な形の図面を理解することは、コンピュータビジョンやコンピュータグラフィックスのコミュニティにとって大きな関心事となっている。 漫画や漫画のデジタル化図面は多いが、多彩なスタイルのバリエーションがあり、ドメイン固有認識器の訓練に高価な手書きラベルを必要とする。 本研究では,学生ネットワークの更新設計を改良した教師学生ネットワークに基づく自己教師型学習が,顔と身体の検知にどのように役立つかを示す。 私たちの設定では、少数のサブセットのみにラベルが提供される場合、ターゲットドメインから大量のラベル付きデータを利用できます。 さらに我々は,自然画像(現実世界の画像)から大量のドメイン外ラベル付き画像を用いて,学習パイプラインからブートストラップ検出器へのスタイル転送が可能であることを実証した。 組合わされたアーキテクチャは,最小限のアノテーションによる最先端(SOTA)および近SOTA性能の検出器を生成する。

Drawings are powerful means of pictorial abstraction and communication. Understanding diverse forms of drawings, including digital arts, cartoons, and comics, has been a major problem of interest for the computer vision and computer graphics communities. Although there are large amounts of digitized drawings from comic books and cartoons, they contain vast stylistic variations, which necessitate expensive manual labeling for training domain-specific recognizers. In this work, we show how self-supervised learning, based on a teacher-student network with a modified student network update design, can be used to build face and body detectors. Our setup allows exploiting large amounts of unlabeled data from the target domain when labels are provided for only a small subset of it. We further demonstrate that style transfer can be incorporated into our learning pipeline to bootstrap detectors using a vast amount of out-of-domain labeled images from natural images (i.e., images from the real world). Our combined architecture yields detectors with state-of-the-art (SOTA) and near-SOTA performance using minimal annotation effort.
翻訳日:2022-11-22 18:45:54 公開日:2022-11-19
# BENK: ニューラルネットワークを用いたベラン推定器による不均一処理効果の推定

BENK: The Beran Estimator with Neural Kernels for Estimating the Heterogeneous Treatment Effect ( http://arxiv.org/abs/2211.10793v1 )

ライセンス: Link先を確認
Stanislav R. Kirpichenko and Lev V. Utkin and Andrei V. Konstantinov(参考訳) BENK (Beran Estimator with Neural Kernels) と呼ばれる検閲時間対イベントデータの条件下での条件平均処理効果を推定する手法を提案する。 この手法の背後にある主な考え方は、制御と治療の生存機能の推定にberan estimatorを適用することである。 ベラン推定器の典型的なカーネル関数の代わりに、ニューラルカーネルと呼ばれる特定の形式のニューラルネットワークの形でカーネルを実装することが提案されている。 条件付き平均処理効果は、共有パラメータを持つニューラルネットワークの集合からなる制御および処理ニューラルネットワークの結果としてサバイバル関数を用いて推定される。 神経核はより柔軟で、特徴ベクトルの複雑な位置構造を正確にモデル化することができる。 様々な数値シミュレーション実験はBENKを例示し、よく知られたTラーナー、Sラーナー、Xラーナーと比較し、Coxモデル、ランダムサバイバルフォレスト、およびガウス核によるナダラヤ・ワトソン回帰に基づく制御および治療結果関数の様々なタイプについて比較する。 BENKを実装するアルゴリズムのコードはhttps://github.com/Stasychbr/BENKで公開されている。

A method for estimating the conditional average treatment effect under condition of censored time-to-event data called BENK (the Beran Estimator with Neural Kernels) is proposed. The main idea behind the method is to apply the Beran estimator for estimating the survival functions of controls and treatments. Instead of typical kernel functions in the Beran estimator, it is proposed to implement kernels in the form of neural networks of a specific form called the neural kernels. The conditional average treatment effect is estimated by using the survival functions as outcomes of the control and treatment neural networks which consists of a set of neural kernels with shared parameters. The neural kernels are more flexible and can accurately model a complex location structure of feature vectors. Various numerical simulation experiments illustrate BENK and compare it with the well-known T-learner, S-learner and X-learner for several types of the control and treatment outcome functions based on the Cox models, the random survival forest and the Nadaraya-Watson regression with Gaussian kernels. The code of proposed algorithms implementing BENK is available in https://github.com/Stasychbr/BENK.
翻訳日:2022-11-22 18:38:22 公開日:2022-11-19
# オフラインモデルに基づく最適化における生成モデルの良質な検証指標を目指して

Towards good validation metrics for generative models in offline model-based optimisation ( http://arxiv.org/abs/2211.10747v1 )

ライセンス: Link先を確認
Christopher Beckham, Alexandre Piche, David Vazquez, Christopher Pal(参考訳) 本研究では、生成モデルがいかにうまく外挿できるかを測定するために、モデルに基づく最適化のための原理評価フレームワークを提案する。 検証セットの例がトレーニングセットのそれよりもずっと大きなスコアを含む場合、各'入念'な基底真理分布から、トレーニングと検証の分割を抜粋として解釈することで、これを達成する。 モデル選択は、所定の検証基準の検証セット上で実行される。 しかし、主要な研究課題は、どの検証基準が生成した候補者の期待値と基礎的真理のオラクルに最もよく相関しているかを判断することであり、この疑問に答える作業は、現実の真理のオラクルを評価するのに高価であるため、大きな経済的な利益に変換することができる。 本フレームワークを用いて, 生成的敵ネットワークに対する様々な検証指標を比較した。 また、既存のデータセットに関するフレームワークの制限や、それらを軽減するための進捗状況についても論じます。

In this work we propose a principled evaluation framework for model-based optimisation to measure how well a generative model can extrapolate. We achieve this by interpreting the training and validation splits as draws from their respective `truncated' ground truth distributions, where examples in the validation set contain scores much larger than those in the training set. Model selection is performed on the validation set for some prescribed validation metric. A major research question however is in determining what validation metric correlates best with the expected value of generated candidates with respect to the ground truth oracle; work towards answering this question can translate to large economic gains since it is expensive to evaluate the ground truth oracle in the real world. We compare various validation metrics for generative adversarial networks using our framework. We also discuss limitations with our framework with respect to existing datasets and how progress can be made to mitigate them.
翻訳日:2022-11-22 18:26:36 公開日:2022-11-19
# 深い平衡モデルを用いたラベル入力グラフニューラルネットワークの統一化

Unifying Label-inputted Graph Neural Networks with Deep Equilibrium Models ( http://arxiv.org/abs/2211.10629v1 )

ライセンス: Link先を確認
Yi Luo, Guiduo Duan, Guangchun Luo, Aiguo Chen(参考訳) ノード分類において、グラフニューラルネットワーク(gnn)は、グラフ構造に沿って伝播するノードの特徴に従って、予め定義されたラベルをグラフノードに割り当てる。 ディープラーニングから受け継いだ従来のエンドツーエンドの方法とは別に、その後の多くの作業は分類性能を改善するためにラベルをGNNに入力した。 このようなラベル入力型GNN(LGNN)は、学習可能な特徴伝搬と長距離ラベル伝搬の利点を組み合わせ、様々なベンチマークで最先端のパフォーマンスを実現する。 しかし、LGNNの理論的基礎は十分に確立されておらず、長い範囲の伝播が最適化にメモリを消費するため、Seamと組み合わせられている。 この目的のために、この研究はLGNNをインプリシットGNN(IGNN)の理論で解釈し、ネットワークを無限に繰り返す固定状態点を出力し、一定メモリ消費で無限範囲の伝搬を最適化する。 さらに、LGNNへの以前のコントリビューションは、ネットワークを1回だけ繰り返して、固定点の存在と特異性を暗黙的に保証するためにフォワードパスでランダムにマスクされている履歴状態から始めることで、IGNNのトレーニングにおける重い計算を克服するきっかけとなった。 ignnの改善はネットワークに依存しない: 初めて、それらは複雑なネットワークで拡張され、大規模グラフに適用されます。 2つの合成および6つの実世界のデータセットに対する実験は、長距離依存関係のキャプチャ、ラベル遷移モデリング、正確性、スケーラビリティ、効率性、そして順応性の観点から、我々の方法の利点を検証する。

For node classification, Graph Neural Networks (GNN) assign predefined labels to graph nodes according to node features propagated along the graph structure. Apart from the traditional end-to-end manner inherited from deep learning, many subsequent works input assigned labels into GNNs to improve their classification performance. Such label-inputted GNNs (LGNN) combine the advantages of learnable feature propagation and long-range label propagation, producing state-of-the-art performance on various benchmarks. However, the theoretical foundations of LGNNs are not well-established, and the combination is with seam because the long-range propagation is memory-consuming for optimization. To this end, this work interprets LGNNs with the theory of Implicit GNN (IGNN), which outputs a fixed state point of iterating its network infinite times and optimizes the infinite-range propagation with constant memory consumption. Besides, previous contributions to LGNNs inspire us to overcome the heavy computation in training IGNN by iterating the network only once but starting from historical states, which are randomly masked in forward-pass to implicitly guarantee the existence and uniqueness of the fixed point. Our improvements to IGNNs are network agnostic: for the first time, they are extended with complex networks and applied to large-scale graphs. Experiments on two synthetic and six real-world datasets verify the advantages of our method in terms of long-range dependencies capturing, label transitions modelling, accuracy, scalability, efficiency, and well-posedness.
翻訳日:2022-11-22 18:21:07 公開日:2022-11-19
# 最大エントロピー深部逆強化学習による都市の安全感の評価

Evaluating the Perceived Safety of Urban City via Maximum Entropy Deep Inverse Reinforcement Learning ( http://arxiv.org/abs/2211.10660v1 )

ライセンス: Link先を確認
Yaxuan Wang, Zhixin Zeng, Qijun Zhao(参考訳) 都市感に対する専門家評価政策に触発されて,都市安全を予測し,それに対応する報酬関数を回復するための新しい逆強化学習(IRL)フレームワークを提案した。 また,予測問題をマルコフ決定過程(mdp)としてモデル化するスケーラブルな状態表現法を提案し,その解法として強化学習(rl)を用いた。 さらに,クラウドソーシング手法に基づくsmallcityというデータセットを構築し,研究を行った。 私たちが知る限り、専門家が知覚的特徴を定量的に分析するために、都市安全の認識と計画分野にIRLアプローチが導入されたのはこれが初めてです。 その結果、IRLはこの分野で有望な見通しを示した。 クラウドソーシングデータ収集サイトと本論文で提案したモデルについて,後にオープンソース化する。

Inspired by expert evaluation policy for urban perception, we proposed a novel inverse reinforcement learning (IRL) based framework for predicting urban safety and recovering the corresponding reward function. We also presented a scalable state representation method to model the prediction problem as a Markov decision process (MDP) and use reinforcement learning (RL) to solve the problem. Additionally, we built a dataset called SmallCity based on the crowdsourcing method to conduct the research. As far as we know, this is the first time the IRL approach has been introduced to the urban safety perception and planning field to help experts quantitatively analyze perceptual features. Our results showed that IRL has promising prospects in this field. We will later open-source the crowdsourcing data collection site and the model proposed in this paper.
翻訳日:2022-11-22 18:20:38 公開日:2022-11-19
# タブラルデータに対する局所的コントラスト特徴学習

Local Contrastive Feature learning for Tabular Data ( http://arxiv.org/abs/2211.10549v1 )

ライセンス: Link先を確認
Zhabiz Gharibshah, Xingquan Zhu(参考訳) 対照的な自己教師付き学習は、画像、テキスト、グラフなど多くの領域で、ラベル情報を必要とせずに機能を学ぶためにうまく使われてきた。 本稿では,局所的特徴学習(LoCL)フレームワークを提案する。そのテーマは,表データから局所的なパターンや特徴を学習することである。 局所学習のためのニッチを構築するために、我々は特徴相関を用いて最大拡大木を作成し、木を特徴部分集合に分割し、互いに強く相関した特徴を割り当てる。 特徴の畳み込み学習は、対比的および再構成的損失によって規制される潜在的特徴空間の学習に使用される。 公開表型データセットを用いた実験では,提案手法と最先端ベースライン法の有効性が示された。

Contrastive self-supervised learning has been successfully used in many domains, such as images, texts, graphs, etc., to learn features without requiring label information. In this paper, we propose a new local contrastive feature learning (LoCL) framework, and our theme is to learn local patterns/features from tabular data. In order to create a niche for local learning, we use feature correlations to create a maximum-spanning tree, and break the tree into feature subsets, with strongly correlated features being assigned next to each other. Convolutional learning of the features is used to learn latent feature space, regulated by contrastive and reconstruction losses. Experiments on public tabular datasets show the effectiveness of the proposed method versus state-of-the-art baseline methods.
翻訳日:2022-11-22 18:09:39 公開日:2022-11-19
# 外値関数の学習によるメタグラデーション強化学習の偏り

Debiasing Meta-Gradient Reinforcement Learning by Learning the Outer Value Function ( http://arxiv.org/abs/2211.10550v1 )

ライセンス: Link先を確認
Cl\'ement Bonnet, Laurence Midgley, Alexandre Laterre(参考訳) meta-gradient reinforcement learning(rl)は、トレーニング中にエージェントがハイパーパラメータをオンライン形式で自己調整できるようにする。 本稿では,現在のメタグラディエントRLアプローチのメタグラディエントにおけるバイアスを同定する。 このバイアスは、異なる割引係数を必要とする外的目的において有利な推定のためにメタ学習割引係数を用いて訓練された批評家の使用に由来する。 メタ学習型割引因子は、通常、外側の目的で使用されるものよりも低いため、結果として生じるバイアスは、メタ学習型が筋電図ポリシーを好む原因となる。 本稿では,外損失推定における代替関数であるemph{outer}値関数を用いることで,このバイアスを排除し,この問題に対する簡単な解を提案する。 この外値関数を得るためには、第2のヘッドを批評家ネットワークに追加し、外損失割引係数を用いて古典的批評家と一緒に訓練する。 具体的玩具問題では、このバイアスが現在のメタグラディエントRLアプローチの破滅的な失敗を引き起こすことを示し、提案手法がそれを修正することを示す。 提案手法をより複雑な環境に適用し,メタ勾配バイアスの修正によって性能が著しく向上することを示す。

Meta-gradient Reinforcement Learning (RL) allows agents to self-tune their hyper-parameters in an online fashion during training. In this paper, we identify a bias in the meta-gradient of current meta-gradient RL approaches. This bias comes from using the critic that is trained using the meta-learned discount factor for the advantage estimation in the outer objective which requires a different discount factor. Because the meta-learned discount factor is typically lower than the one used in the outer objective, the resulting bias can cause the meta-gradient to favor myopic policies. We propose a simple solution to this issue: we eliminate this bias by using an alternative, \emph{outer} value function in the estimation of the outer loss. To obtain this outer value function we add a second head to the critic network and train it alongside the classic critic, using the outer loss discount factor. On an illustrative toy problem, we show that the bias can cause catastrophic failure of current meta-gradient RL approaches, and show that our proposed solution fixes it. We then apply our method to a more complex environment and demonstrate that fixing the meta-gradient bias can significantly improve performance.
翻訳日:2022-11-22 18:09:26 公開日:2022-11-19
# インシリコ化学のための分子構造-特性共学習基礎モデル

Molecular Structure-Property Co-Trained Foundation Model for In Silico Chemistry ( http://arxiv.org/abs/2211.10590v1 )

ライセンス: Link先を確認
Jinho Chang and Jong Chul Ye(参考訳) 近年, 仮想スクリーニングやデノボ分子設計など, 化学における様々な問題に対するディープラーニングのアプローチが広く研究されている。 素晴らしい成功にもかかわらず、特定のタスクに対するエンドツーエンドのトレーニングは通常、個別に設計されたネットワークを必要とするため、既存のアーキテクチャと新しいタスクのためのデータセットを相乗的に組み合わせる統一原則を取得することは、しばしば困難である。 これを解決するために、ビジョンランゲージ事前学習モデル (VLP) のような事前訓練されたマルチモーダル基礎モデルの最近の進歩に触発され、化学における様々な下流タスクに使用できる新しいマルチモーダル基礎モデルを提案する。 具体的には, 分子構造と化学特性を共通埋め込み空間で整列させるために, X 形状の二重ストリーム変換器をベースとした構造固有マルチモーダル(SPMM)基盤モデルを構築した。 これにより、SPMMは与えられた構造記述文字列から化学的性質を予測すると同時に、与えられた化学特性のための分子構造を生成することができる。 さらに,分子の特異な一様表現はマルチモーダル学習から発生し,他の多くの下流タスクに対して微調整を行う可能性があることを示す。

Recently, deep learning approaches have been extensively studied for various problems in chemistry, such as virtual screening, de novo molecule design, etc. Despite the impressive successes, end-to-end training for specific tasks usually requires separately designed networks, so it's often difficult to acquire a unified principle to synergistically combine existing architectures and training datasets for novel tasks. To address this, inspired by recent advances of pre-trained multi-modal foundation models such as Vision-Language Pretrained models (VLP), here we present a novel multimodal foundation model that can be used {\em in silico} for various downstream tasks in chemistry. Specifically, our framework, dubbed as the structure-property multi-modal (SPMM) foundation model, is based on the dual-stream transformer with X-shape attention, so that it can align the molecule structure and the chemical properties in a common embedding space. Accordingly, SPMM can simultaneously perform chemical property prediction from given structure-describing strings and allows the generation of molecular structures for given chemical properties, which was previously not possible with a single architecture. Furthermore, we show that the outstanding unimodal representation of a molecule emerges from multimodal learning, which has the potential to be fine-tuned for many other downstream tasks.
翻訳日:2022-11-22 18:09:05 公開日:2022-11-19
# ネットワークダイナミクスのための自己回帰GNN-ODE GRUモデル

Autoregressive GNN-ODE GRU Model for Network Dynamics ( http://arxiv.org/abs/2211.10594v1 )

ライセンス: Link先を確認
Bo Liang, Lin Wang, Xiaofan Wang(参考訳) ネットワーク上の連続的なダイナミクスを明らかにすることは複雑なシステムの理解、予測、制御には不可欠であるが、複雑で未知の制御方程式、複雑なシステムの高次元、不十分な観測により、連続的なネットワークダイナミクスを学習しモデル化することは困難である。 さらに、実例では、観測された時系列データは、通常一様でなくスパースであり、深刻な問題を引き起こす。 本稿では,連続ネットワークのダイナミクスを学習し,データ駆動方式でノード状態の予測を実現するための自己回帰型gnn-ode gruモデル(agog)を提案する。 gnnモジュールは複雑で非線形なネットワークダイナミクスのモデル化に使用される。 ノード状態の隠れ状態はodeシステムによって指定され、拡張されたodeシステムはgnnを連続時間領域にマッピングするために利用される。 隠された状態はGRUCellを通して観測によって更新される。 先行知識として、同じタイムスタンプにおける真の観測は、次の予測のために隠れた状態と組み合わせられる。 自己回帰モデルを用いて観測履歴に基づいて1段階の予測を行う。 この予測はODEの初期値問題を解くことで達成される。 モデルの性能を検証するために,学習したダイナミクスを可視化し,補間再構成,補間予測,正規シーケンス予測という3つのタスクでテストした。 その結果,我々のモデルは複雑なシステムの連続的動的過程を正確に捉え,最小限の誤差でノード状態の正確な予測を行うことができた。 私たちのモデルは、他のベースラインを一貫して上回り、同等のパフォーマンスを達成できます。

Revealing the continuous dynamics on the networks is essential for understanding, predicting, and even controlling complex systems, but it is hard to learn and model the continuous network dynamics because of complex and unknown governing equations, high dimensions of complex systems, and unsatisfactory observations. Moreover, in real cases, observed time-series data are usually non-uniform and sparse, which also causes serious challenges. In this paper, we propose an Autoregressive GNN-ODE GRU Model (AGOG) to learn and capture the continuous network dynamics and realize predictions of node states at an arbitrary time in a data-driven manner. The GNN module is used to model complicated and nonlinear network dynamics. The hidden state of node states is specified by the ODE system, and the augmented ODE system is utilized to map the GNN into the continuous time domain. The hidden state is updated through GRUCell by observations. As prior knowledge, the true observations at the same timestamp are combined with the hidden states for the next prediction. We use the autoregressive model to make a one-step ahead prediction based on observation history. The prediction is achieved by solving an initial-value problem for ODE. To verify the performance of our model, we visualize the learned dynamics and test them in three tasks: interpolation reconstruction, extrapolation prediction, and regular sequences prediction. The results demonstrate that our model can capture the continuous dynamic process of complex systems accurately and make precise predictions of node states with minimal error. Our model can consistently outperform other baselines or achieve comparable performance.
翻訳日:2022-11-22 18:08:40 公開日:2022-11-19
# 一定メモリによるImageNet-1Kへのデータセット蒸留のスケールアップ

Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory ( http://arxiv.org/abs/2211.10586v1 )

ライセンス: Link先を確認
Justin Cui, Ruochen Wang, Si Si, Cho-Jui Hsieh(参考訳) データセット蒸留法(dataset distillation method)は、大規模なデータセットを小さな合成サンプルに圧縮することを目的としている。 最近提案された手法のうち、MTT(Matching Training Trajectories)は、バックプロパゲーションによるアンロール勾配計算を行う際の大きなメモリ要件のため、ImageNet-1kデータセットへのスケーリングが困難でありながら、CIFAR-10/100における最先端のパフォーマンスを達成する。 意外なことに、トラジェクトリー整合損失の勾配を一定のGPUメモリ要件で正確に計算する手順が存在する(無回転ステップの数に関係している)。 これにより、提案手法は6倍のメモリ削減でImageNet-1Kに容易にスケールできるが、実行時のオーバーヘッドは元のNTTよりも2%程度しか発生しない。 さらに,合成画像にソフトラベルを割り当てることは,より多くのカテゴリ(例えば1,000)にスケールする場合のパフォーマンスに不可欠であり,大規模データセットにおけるモデルトレーニングトラジェクタの整合性が向上した,新しいソフトラベルバージョンの軌道マッチングを提案する。 提案アルゴリズムは,ImageNet-1K の以前の SOTA を超低 IPC (Images Per Class) で上回るだけでなく,ImageNet-1K で50 IPC までのスケールアップを可能にする。 我々の方法(TESLA)は27.9%の精度で、先行技術よりも18.2%の差がある。

Dataset distillation methods aim to compress a large dataset into a small set of synthetic samples, such that when being trained on, competitive performances can be achieved compared to regular training on the entire dataset. Among recently proposed methods, Matching Training Trajectories (MTT) achieves state-of-the-art performance on CIFAR-10/100, while having difficulty scaling to ImageNet-1k dataset due to the large memory requirement when performing unrolled gradient computation through back-propagation. Surprisingly, we show that there exists a procedure to exactly calculate the gradient of the trajectory matching loss with constant GPU memory requirement (irrelevant to the number of unrolled steps). With this finding, the proposed memory-efficient trajectory matching method can easily scale to ImageNet-1K with 6x memory reduction while introducing only around 2% runtime overhead than original MTT. Further, we find that assigning soft labels for synthetic images is crucial for the performance when scaling to larger number of categories (e.g., 1,000) and propose a novel soft label version of trajectory matching that facilities better aligning of model training trajectories on large datasets. The proposed algorithm not only surpasses previous SOTA on ImageNet-1K under extremely low IPCs (Images Per Class), but also for the first time enables us to scale up to 50 IPCs on ImageNet-1K. Our method (TESLA) achieves 27.9% testing accuracy, a remarkable +18.2% margin over prior arts.
翻訳日:2022-11-22 17:54:39 公開日:2022-11-19
# ボトルネックとしての進歩的概念(Progressive Concepts as Bottlenecks)

I saw, I conceived, I concluded: Progressive Concepts as Bottlenecks ( http://arxiv.org/abs/2211.10630v1 )

ライセンス: Link先を確認
Manxi Lin, Aasa Feragen, Zahra Bashir, Martin Gr{\o}nneb{\ae}k Tolsgaard, Anders Nymark Christensen(参考訳) 概念ボトルネックモデル(CBM)は、予測された中間概念の修正によって推論中に説明可能性と介入を提供する人間解釈可能な概念のボトルネックを含む。 これにより、cbmは高リスク意思決定に魅力的である。 本稿では, 胎児超音波検査の品質評価を, 医療におけるcbm決定支援のユースケースとして活用する。 この場合、単純なバイナリの概念は、不安定な二元化概念につながる可能性のある、非常に可変な品質の画像から直接マッピングされるため、十分に信頼できない。 さらに、スカラーの概念は、ユーザーが要求する直感的な空間的フィードバックを提供しない。 これに対処するために,我々は,"見る","想像する","結論付ける"という,逐次的専門家意思決定プロセスを模倣した階層型cbmを設計した。 私たちのモデルはまず、ビジュアルなセグメンテーションベースの概念の層を通過し、次に、意思決定タスクに直接関連するプロパティ概念の2番目の層を通過します。 専門家は推論中に視覚的概念とプロパティの概念の両方に介入できる。 さらに,タスク関連概念の相互作用を考慮し,ボトルネック容量を増加させる。 超音波スキャン品質評価の応用は、標準化された画像コンテンツの視認性と幾何学的特性の評価と(しばしば貧弱な)画像品質のバランスに依存するため、困難である。 我々の検証によると、これまでのcbmモデルとは対照的に、cbmモデルは予測性能の点で同等のコンセプトフリーモデルよりも優れています。 さらに、介入によって最先端のパフォーマンスがさらに向上することを示す。

Concept bottleneck models (CBMs) include a bottleneck of human-interpretable concepts providing explainability and intervention during inference by correcting the predicted, intermediate concepts. This makes CBMs attractive for high-stakes decision-making. In this paper, we take the quality assessment of fetal ultrasound scans as a real-life use case for CBM decision support in healthcare. For this case, simple binary concepts are not sufficiently reliable, as they are mapped directly from images of highly variable quality, for which variable model calibration might lead to unstable binarized concepts. Moreover, scalar concepts do not provide the intuitive spatial feedback requested by users. To address this, we design a hierarchical CBM imitating the sequential expert decision-making process of "seeing", "conceiving" and "concluding". Our model first passes through a layer of visual, segmentation-based concepts, and next a second layer of property concepts directly associated with the decision-making task. We note that experts can intervene on both the visual and property concepts during inference. Additionally, we increase the bottleneck capacity by considering task-relevant concept interaction. Our application of ultrasound scan quality assessment is challenging, as it relies on balancing the (often poor) image quality against an assessment of the visibility and geometric properties of standardized image content. Our validation shows that -- in contrast with previous CBM models -- our CBM models actually outperform equivalent concept-free models in terms of predictive performance. Moreover, we illustrate how interventions can further improve our performance over the state-of-the-art.
翻訳日:2022-11-22 17:54:11 公開日:2022-11-19
# 合成ゼロショット学習のための分解ソフトプロンプト誘導核融合

Decomposed Soft Prompt Guided Fusion Enhancing for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2211.10681v1 )

ライセンス: Link先を確認
Xiaocheng Lu, Ziming Liu, Song Guo, Jingcai Guo(参考訳) 合成ゼロショット学習(CZSL)は、学習中に既知の状態や物体によって形成される新しい概念を認識することを目的としている。 既存の方法は、組み合わせた状態オブジェクト表現を学習し、目に見えない合成の一般化に挑戦するか、2つの分類器を設計し、画像の特徴から状態とオブジェクトを別々に識別し、それら間の本質的な関係を無視している。 上記の問題を共同で排除し、より堅牢なCZSLシステムを構築するために、視覚言語モデル(VLM)を組み込んで、ソフトプロンプトによる分解融合(DFSP)1(Decomposed Fusion with Soft Prompt)という新しいフレームワークを提案する。 具体的には、DFSPは学習可能なソフトプロンプトと状態とオブジェクトのベクトル結合を構築し、それらの結合表現を確立する。 さらに、言語とイメージブランチ間でクロスモーダル分解型融合モジュールが設計されており、イメージ機能ではなく、言語機能の中で状態とオブジェクトを分解する。 特に、分解された特徴と融合することにより、画像特徴は、それぞれ状態とオブジェクトの関係を学習し、ペア空間における見えざる組成の応答を改善し、見るものと見えない集合の間のドメインギャップを狭めることができる。 3つの難解なベンチマークの実験結果は、我々のアプローチが他の最先端の手法を大きく上回っていることを示している。

Compositional Zero-Shot Learning (CZSL) aims to recognize novel concepts formed by known states and objects during training. Existing methods either learn the combined state-object representation, challenging the generalization of unseen compositions, or design two classifiers to identify state and object separately from image features, ignoring the intrinsic relationship between them. To jointly eliminate the above issues and construct a more robust CZSL system, we propose a novel framework termed Decomposed Fusion with Soft Prompt (DFSP)1, by involving vision-language models (VLMs) for unseen composition recognition. Specifically, DFSP constructs a vector combination of learnable soft prompts with state and object to establish the joint representation of them. In addition, a cross-modal decomposed fusion module is designed between the language and image branches, which decomposes state and object among language features instead of image features. Notably, being fused with the decomposed features, the image features can be more expressive for learning the relationship with states and objects, respectively, to improve the response of unseen compositions in the pair space, hence narrowing the domain gap between seen and unseen sets. Experimental results on three challenging benchmarks demonstrate that our approach significantly outperforms other state-of-the-art methods by large margins.
翻訳日:2022-11-22 17:53:51 公開日:2022-11-19
# 非負の概念活性化ベクトルとCNNモデルの決定木を用いた概念ベース説明

Concept-based Explanations using Non-negative Concept Activation Vectors and Decision Tree for CNN Models ( http://arxiv.org/abs/2211.10807v1 )

ライセンス: Link先を確認
Gayda Mutahar, Tim Miller(参考訳) 本稿では,概念に基づく説明文から抽出した概念に基づいて決定木をトレーニングすることで,畳み込みニューラルネットワーク(CNN)モデルの解釈可能性を高め,使用済み説明文の忠実度と性能を高めることができるかを評価する。 コンピュータビジョンのためのCNNは、重要な産業において例外的な性能を示している。 しかし、CNNのデプロイには複雑さと解釈可能性の欠如が大きな障壁となっている。 コンピュータビジョンモデルを説明する最近の研究は、低レベル特徴(ピクセルベース説明)から中レベル特徴(概念ベース説明)へと移行している。 現在の研究方向は、線形木モデルや決定木モデルのような近似アルゴリズムを開発する際に抽出された特徴を用いる傾向にある。 本稿では,最先端概念に基づく説明の1つを修正し,treeice という代替フレームワークを提案する。 本研究では, 忠実度(原モデルラベルへの近似モデル), 性能(地木ラベルへの近似モデル), 解釈可能性(人間への近似モデルの意味)の要件に基づいて, 体系的な評価を設計する。 我々は、木氷が解釈可能性においてベースラインを上回っており、意味木構造という形でより可読性のある説明を生成することを見出し、計算的評価(忠実性と性能)と人間の主題実験(解釈可能性)を行う。 この作業は、解釈可能性が非常に重要である場合に、より理解可能な説明を持つことがいかに重要であるかを特徴としている。

This paper evaluates whether training a decision tree based on concepts extracted from a concept-based explainer can increase interpretability for Convolutional Neural Networks (CNNs) models and boost the fidelity and performance of the used explainer. CNNs for computer vision have shown exceptional performance in critical industries. However, it is a significant barrier when deploying CNNs due to their complexity and lack of interpretability. Recent studies to explain computer vision models have shifted from extracting low-level features (pixel-based explanations) to mid-or high-level features (concept-based explanations). The current research direction tends to use extracted features in developing approximation algorithms such as linear or decision tree models to interpret an original model. In this work, we modify one of the state-of-the-art concept-based explanations and propose an alternative framework named TreeICE. We design a systematic evaluation based on the requirements of fidelity (approximate models to original model's labels), performance (approximate models to ground-truth labels), and interpretability (meaningful of approximate models to humans). We conduct computational evaluation (for fidelity and performance) and human subject experiments (for interpretability) We find that Tree-ICE outperforms the baseline in interpretability and generates more human readable explanations in the form of a semantic tree structure. This work features how important to have more understandable explanations when interpretability is crucial.
翻訳日:2022-11-22 17:53:25 公開日:2022-11-19
# 簡単な算術操作としての顔スワッピング

Face Swapping as A Simple Arithmetic Operation ( http://arxiv.org/abs/2211.10812v1 )

ライセンス: Link先を確認
Truong Vu, Kien Do, Khang Nguyen, Khoat Than(参考訳) 本稿では,事前学習されたスタイルガンの中間的潜在空間 w+ を "identity" と "style" の部分空間に明示的に分離し,w+ の潜在コードを "identity" コードと対応する部分空間内の "style" コードの和とする,"arithmetic face swapping" (afs) と呼ばれる新しい高忠実な顔スワップ法を提案する。 我々の非絡み合いのため、顔スワッピング(FS)はW+の単純な算術演算、すなわちソースの「同一性」コードとターゲットの「スタイル」コードの和と見なすことができる。 これにより、AFSは他のFSメソッドよりも直感的でエレガントになる。 さらに,本手法は,他の興味深い操作,例えば1つのソースの同一性と複数のターゲットのスタイルの組み合わせをサポートするために,標準的な顔交換を一般化することができる。 潜在コードから"スタイル"コードにマップするニューラルネットワークを学習することで、idスタイルの絡み合いを実装します。 顔交換操作のシーケンスを経ても、ソースフェイスのアイデンティティ保存を理論的に保証するネットワークの条件を提供する。 大規模な実験により, 高品質なスワップ面の創出において, 最先端FS法よりも優れた方法が示された。

We propose a novel high-fidelity face swapping method called "Arithmetic Face Swapping" (AFS) that explicitly disentangles the intermediate latent space W+ of a pretrained StyleGAN into the "identity" and "style" subspaces so that a latent code in W+ is the sum of an "identity" code and a "style" code in the corresponding subspaces. Via our disentanglement, face swapping (FS) can be regarded as a simple arithmetic operation in W+, i.e., the summation of a source "identity" code and a target "style" code. This makes AFS more intuitive and elegant than other FS methods. In addition, our method can generalize over the standard face swapping to support other interesting operations, e.g., combining the identity of one source with styles of multiple targets and vice versa. We implement our identity-style disentanglement by learning a neural network that maps a latent code to a "style" code. We provide a condition for this network which theoretically guarantees identity preservation of the source face even after a sequence of face swapping operations. Extensive experiments demonstrate the advantage of our method over state-of-the-art FS methods in producing high-quality swapped faces.
翻訳日:2022-11-22 17:53:00 公開日:2022-11-19
# ブラインド逆問題に対する演算子の並列拡散モデルと画像

Parallel Diffusion Models of Operator and Image for Blind Inverse Problems ( http://arxiv.org/abs/2211.10656v1 )

ライセンス: Link先を確認
Hyungjin Chung, Jeongsol Kim, Sehui Kim, Jong Chul Ye(参考訳) 拡散モデルに基づく逆問題解法は、フォワード演算子が知られている場合(すなわち非盲点)に最先端の性能を示す。 しかし, ブラインド逆問題に対する手法の適用性はまだ検討されていない。 本研究では、フォワード演算子に先立って別の拡散を構成することにより、真に視覚的逆問題の族を解くことができることを示す。 具体的には、中間段階からの勾配で導かれる平行逆拡散により、前方演算子パラメータと画像の両方のジョイント最適化が可能となり、どちらも並列逆拡散手順の最後に共同で推定される。 本手法は,ブラインドデブラリングと乱流によるイメージングという2つの代表的なタスクに対して有効性を示し,本手法が最先端の性能をもたらすと同時に,機能形式を知っていれば一般のブラインド逆問題にも柔軟に適用できることを示す。

Diffusion model-based inverse problem solvers have demonstrated state-of-the-art performance in cases where the forward operator is known (i.e. non-blind). However, the applicability of the method to blind inverse problems has yet to be explored. In this work, we show that we can indeed solve a family of blind inverse problems by constructing another diffusion prior for the forward operator. Specifically, parallel reverse diffusion guided by gradients from the intermediate stages enables joint optimization of both the forward operator parameters as well as the image, such that both are jointly estimated at the end of the parallel reverse diffusion procedure. We show the efficacy of our method on two representative tasks -- blind deblurring, and imaging through turbulence -- and show that our method yields state-of-the-art performance, while also being flexible to be applicable to general blind inverse problems when we know the functional forms.
翻訳日:2022-11-22 17:35:12 公開日:2022-11-19
# Spikeformer: 高性能低レイテンシスパイクニューラルネットワークのトレーニングのための新しいアーキテクチャ

Spikeformer: A Novel Architecture for Training High-Performance Low-Latency Spiking Neural Network ( http://arxiv.org/abs/2211.10686v1 )

ライセンス: Link先を確認
Yudong Li, Yunlin Lei, Xu Yang(参考訳) スパイキングニューラルネットワーク(SNN)は、ここ数年、パフォーマンスと効率の両方に大きな進歩を遂げてきたが、そのユニークな動作パターンは、高性能な低レイテンシSNNのトレーニングを困難にしている。 To compensate this gap,many extraordinary works have been proposed.Nevertheless,these works are mainly based on the same kind of network structure (i.e.CNN) and their performance is worse than their ANN counterparts,which limits the applications of SNNs.To this end,we propose a novel Transformer-based SNN,termed "Spikeformer",which outperforms its ANN counterpart on both static dataset and neuromorphic dataset and may be an alternative architecture to CNN for training high-performance SNNs.First,to deal with the problem of "data hungry" and the unstable training period exhibited in the vanilla model,we design the Convolutional Tokenizer (CT) module,which improves the accuracy of the original model on DVS-Gesture by more than 16%. さらに、Transformer内部の注意機構とSNN固有の時空間情報をよりよく組み込むため、空間的・時間的注意ではなく時空間的注意(STA)を採用し、DVS-CIFAR10、DVS-Gesture、ImageNetデータセット上での競合または最先端(SOTA)SNNのパフォーマンスを最小のシミュレーション時間ステップ(低レイテンシ)で達成する。 注目すべきなのは、SpikeformerはImageNet上の他のSNNを大きなマージン(すなわち5%以上)で上回り、DVS-GestureとImageNetでそれぞれ3.1%と2.2%を上回り、Spikeformerは大規模SNNをトレーニングするための有望なアーキテクチャであり、CNNと比較してSNNに適している可能性があることを示している。

Spiking neural networks (SNNs) have made great progress on both performance and efficiency over the last few years,but their unique working pattern makes it hard to train a high-performance low-latency SNN.Thus the development of SNNs still lags behind traditional artificial neural networks (ANNs).To compensate this gap,many extraordinary works have been proposed.Nevertheless,these works are mainly based on the same kind of network structure (i.e.CNN) and their performance is worse than their ANN counterparts,which limits the applications of SNNs.To this end,we propose a novel Transformer-based SNN,termed "Spikeformer",which outperforms its ANN counterpart on both static dataset and neuromorphic dataset and may be an alternative architecture to CNN for training high-performance SNNs.First,to deal with the problem of "data hungry" and the unstable training period exhibited in the vanilla model,we design the Convolutional Tokenizer (CT) module,which improves the accuracy of the original model on DVS-Gesture by more than 16%.Besides,in order to better incorporate the attention mechanism inside Transformer and the spatio-temporal information inherent to SNN,we adopt spatio-temporal attention (STA) instead of spatial-wise or temporal-wise attention.With our proposed method,we achieve competitive or state-of-the-art (SOTA) SNN performance on DVS-CIFAR10,DVS-Gesture,and ImageNet datasets with the least simulation time steps (i.e.low latency).Remarkably,our Spikeformer outperforms other SNNs on ImageNet by a large margin (i.e.more than 5%) and even outperforms its ANN counterpart by 3.1% and 2.2% on DVS-Gesture and ImageNet respectively,indicating that Spikeformer is a promising architecture for training large-scale SNNs and may be more suitable for SNNs compared to CNN.We believe that this work shall keep the development of SNNs in step with ANNs as much as possible.Code will be available.
翻訳日:2022-11-22 17:34:56 公開日:2022-11-19
# reinform:コンテキスト化リンク予測のための強化学習による経路選択

ReInform: Selecting paths with reinforcement learning for contextualized link prediction ( http://arxiv.org/abs/2211.10688v1 )

ライセンス: Link先を確認
Marina Speranskaya, Sameh Methias, Benjamin Roth(参考訳) そこで本研究では,正答率の予測に最も有用なパスを提供することにより,トランスフォーマティブに基づくコンテキスト化リンク予測モデルに強化学習を適用することを提案する。 従来の手法とは対照的に、強化学習(RL)を用いて回答を直接検索するか、あるいは限定的あるいはランダムに選択された文脈に基づいて予測する。 WN18RR と FB15k-237 に関する実験により、文脈化されたリンク予測モデルは、RL ベースの回答探索を一貫して上回り、リンク予測モデルと RL を組み合わせることで、最大 13.5 % MRR のさらなる改善が得られることを示した。

We propose to use reinforcement learning to inform transformer-based contextualized link prediction models by providing paths that are most useful for predicting the correct answer. This is in contrast to previous approaches, that either used reinforcement learning (RL) to directly search for the answer, or based their prediction on limited or randomly selected context. Our experiments on WN18RR and FB15k-237 show that contextualized link prediction models consistently outperform RL-based answer search, and that additional improvements (of up to 13.5\% MRR) can be gained by combining RL with a link prediction model.
翻訳日:2022-11-22 17:32:50 公開日:2022-11-19
# 事前学習2次元拡散モデルを用いた3次元逆問題の解法

Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models ( http://arxiv.org/abs/2211.10655v1 )

ライセンス: Link先を確認
Hyungjin Chung, Dohoon Ryu, Michael T. McCann, Marc L. Klasky, Jong Chul Ye(参考訳) 拡散モデルは、モードカバレッジや高い柔軟性といった興味深い特性を持つ高品質なサンプルを持つ新しい最先端の生成モデルとして登場した。 それらはまた、分布の前兆として作用する効果的な逆問題解決器であることが示され、一方、フォワードモデルの情報はサンプリング段階で与えられる。 それでも生成過程は同じ高次元(すなわちデータ次元と同一)空間に留まっているため、モデルは非常に高いメモリと計算コストのために3次元逆問題に拡張されていない。 本稿では,従来のモデルに基づく反復的再構成法と現代の拡散モデルを組み合わせて,スパースビュートモグラフィ,限定アングルトモグラフィ,圧縮センシングmriなどの3次元医用画像再構成課題を,事前学習した2次元拡散モデルから解決する手法を提案する。 本研究は, 実験時の残留方向におけるモデルに基づく事前の2次元拡散を補強し, 全次元にわたってコヒーレントな再構成を実現することを提案する。 提案手法は,1つのコモディティGPUで動作可能であり,新しい最先端技術を確立し,最も極端な場合(例えば2-view 3Dトモグラフィー)においても高い忠実度と精度の再現が可能なことを示す。 さらに,提案手法の一般化能力は驚くほど高く,トレーニングデータセットとは全く異なるボリュームの再構築に使用できることを明らかにした。

Diffusion models have emerged as the new state-of-the-art generative model with high quality samples, with intriguing properties such as mode coverage and high flexibility. They have also been shown to be effective inverse problem solvers, acting as the prior of the distribution, while the information of the forward model can be granted at the sampling stage. Nonetheless, as the generative process remains in the same high dimensional (i.e. identical to data dimension) space, the models have not been extended to 3D inverse problems due to the extremely high memory and computational cost. In this paper, we combine the ideas from the conventional model-based iterative reconstruction with the modern diffusion models, which leads to a highly effective method for solving 3D medical image reconstruction tasks such as sparse-view tomography, limited angle tomography, compressed sensing MRI from pre-trained 2D diffusion models. In essence, we propose to augment the 2D diffusion prior with a model-based prior in the remaining direction at test time, such that one can achieve coherent reconstructions across all dimensions. Our method can be run in a single commodity GPU, and establishes the new state-of-the-art, showing that the proposed method can perform reconstructions of high fidelity and accuracy even in the most extreme cases (e.g. 2-view 3D tomography). We further reveal that the generalization capacity of the proposed method is surprisingly high, and can be used to reconstruct volumes that are entirely different from the training dataset.
翻訳日:2022-11-22 17:27:24 公開日:2022-11-19
# タマネギの皮剥き:効率的な視覚トランスフォーマートレーニングのためのデータ冗長性の階層的削減

Peeling the Onion: Hierarchical Reduction of Data Redundancy for Efficient Vision Transformer Training ( http://arxiv.org/abs/2211.10801v1 )

ライセンス: Link先を確認
Zhenglun Kong, Haoyu Ma, Geng Yuan, Mengshu Sun, Yanyue Xie, Peiyan Dong, Xin Meng, Xuan Shen, Hao Tang, Minghai Qin, Tianlong Chen, Xiaolong Ma, Xiaohui Xie, Zhangyang Wang, Yanzhi Wang(参考訳) 視覚変換器(ViT)は近年、多くのアプリケーションで成功を収めているが、その集中計算と、トレーニング時間と推論時間の両方でのメモリ使用量により、一般化が制限されている。 従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。 対照的に,本研究では,100万件のトレーニングデータが冗長であり,退屈なトレーニングの根本的な理由を指摘する。 そこで本論文では,データに空間性を導入することを目的として,3つの疎視的視点から,エンドツーエンドの効率的なトレーニングフレームワークTri-Level E-ViTを提案する。 具体的には,データセットのトレーニング例数,各サンプルのパッチ(トークン)数,注目重みにあるトークン間の接続数という,3つのレベルからスパーシティを探索することで,階層的なデータ冗長性低減手法を活用する。 大規模な実験により,提案手法は精度を維持しつつ,様々なViTアーキテクチャのトレーニングを著しく高速化できることを示す。 注目すべきは、一定の比率で、私たちはそれを妥協するのではなく、ViTの精度を向上させることができることです。 例えば、deit-tでは72.6%(+0.4)のtop-1精度で15.2%、deit-sでは79.9%(+0.1)のtop-1精度で15.7%のスピードアップを達成できる。 これはvitにおけるデータ冗長性の存在を証明する。

Vision transformers (ViTs) have recently obtained success in many applications, but their intensive computation and heavy memory usage at both training and inference time limit their generalization. Previous compression algorithms usually start from the pre-trained dense models and only focus on efficient inference, while time-consuming training is still unavoidable. In contrast, this paper points out that the million-scale training data is redundant, which is the fundamental reason for the tedious training. To address the issue, this paper aims to introduce sparsity into data and proposes an end-to-end efficient training framework from three sparse perspectives, dubbed Tri-Level E-ViT. Specifically, we leverage a hierarchical data redundancy reduction scheme, by exploring the sparsity under three levels: number of training examples in the dataset, number of patches (tokens) in each example, and number of connections between tokens that lie in attention weights. With extensive experiments, we demonstrate that our proposed technique can noticeably accelerate training for various ViT architectures while maintaining accuracy. Remarkably, under certain ratios, we are able to improve the ViT accuracy rather than compromising it. For example, we can achieve 15.2% speedup with 72.6% (+0.4) Top-1 accuracy on Deit-T, and 15.7% speedup with 79.9% (+0.1) Top-1 accuracy on Deit-S. This proves the existence of data redundancy in ViT.
翻訳日:2022-11-22 17:26:57 公開日:2022-11-19
# 座標、支配方程式および基本定数のデータ駆動的発見のためのベイズオートエンコーダ

Bayesian autoencoders for data-driven discovery of coordinates, governing equations and fundamental constants ( http://arxiv.org/abs/2211.10575v1 )

ライセンス: Link先を確認
L. Mars Gao and J. Nathan Kutz(参考訳) 自己エンコーダに基づく非線形力学(SINDy)の制約下でのスパース同定の最近の進歩は、シミュレートされたビデオフレームを含む時空間データから支配方程式と潜在座標系の共同発見を可能にする。 しかし、ノイズ測定やサンプルサイズが制限されるため、$\ell_1$ベースのスパース推論が実際のデータに対して正しい識別を行うことは困難である。 低データ・高ノイズ環境でのデータ駆動型物理学の発見に取り組むために,階層型ベイズ型スパルサ化プリミティブであるspike-and-slab gaussian lassoを組み込んだベイズ型シンディオートエンコーダを提案する。 ベイジアン SINDy オートエンコーダは、理論上保証された不確実性推定を伴う支配方程式と座標系の共同発見を可能にする。 そこで我々は,確率勾配ランゲヴィン力学(SGLD)を用いた適応的ベイズ的手法を適用し,ベイズ的後方サンプリングの計算容易な方法を提案する。 ベイジアンSINDYオートエンコーダは、実験によって示唆される妥当な不確実性定量化とともに、より低いデータと少ないトレーニングエポックによるより良い物理発見を実現する。 ベイジアン SINDy オートエンコーダは、実際のビデオデータに適用することができ、正確な物理発見により、支配方程式を正しく識別し、例えば振り子のビデオで重力$g$のような標準物理学定数を綿密に見積もることができる。

Recent progress in autoencoder-based sparse identification of nonlinear dynamics (SINDy) under $\ell_1$ constraints allows joint discoveries of governing equations and latent coordinate systems from spatio-temporal data, including simulated video frames. However, it is challenging for $\ell_1$-based sparse inference to perform correct identification for real data due to the noisy measurements and often limited sample sizes. To address the data-driven discovery of physics in the low-data and high-noise regimes, we propose Bayesian SINDy autoencoders, which incorporate a hierarchical Bayesian sparsifying prior: Spike-and-slab Gaussian Lasso. Bayesian SINDy autoencoder enables the joint discovery of governing equations and coordinate systems with a theoretically guaranteed uncertainty estimate. To resolve the challenging computational tractability of the Bayesian hierarchical setting, we adapt an adaptive empirical Bayesian method with Stochatic gradient Langevin dynamics (SGLD) which gives a computationally tractable way of Bayesian posterior sampling within our framework. Bayesian SINDy autoencoder achieves better physics discovery with lower data and fewer training epochs, along with valid uncertainty quantification suggested by the experimental studies. The Bayesian SINDy autoencoder can be applied to real video data, with accurate physics discovery which correctly identifies the governing equation and provides a close estimate for standard physics constants like gravity $g$, for example, in videos of a pendulum.
翻訳日:2022-11-22 17:17:38 公開日:2022-11-19
# ArtELingo: 言語と文化に対する多様性を重視したWikiArtの100万の感情アノテーション

ArtELingo: A Million Emotion Annotations of WikiArt with Emphasis on Diversity over Language and Culture ( http://arxiv.org/abs/2211.10780v1 )

ライセンス: Link先を確認
Youssef Mohamed, Mohamed Abdelfattah, Shyma Alhuwaider, Feifan Li, Xiangliang Zhang, Kenneth Ward Church, Mohamed Elhoseiny(参考訳) 本稿では,言語や文化の多様性に取り組むための新しいベンチマークとデータセットであるartelingoを紹介する。 WikiArtの80kアートのコレクションであるArtEmisに続いて、ArtELingoは、アラビア語と中国語でさらに0.79Mアノテーションと、スペイン語で4.8Kの「文化的伝達」のパフォーマンスを評価する。 51k以上の美術品は3言語で5以上の注釈を持っている。 この多様性により、言語や文化間の類似性と相違を研究することができる。 さらに,キャプションタスクを調査し,ベースラインモデルの性能を多様性が向上することを示す。 ArtELingoはhttps://www.artelingo.org/で公開されている。 われわれの研究が、多言語と文化的に認識されたAIに関する将来の研究を容易にしてくれることを期待している。

This paper introduces ArtELingo, a new benchmark and dataset, designed to encourage work on diversity across languages and cultures. Following ArtEmis, a collection of 80k artworks from WikiArt with 0.45M emotion labels and English-only captions, ArtELingo adds another 0.79M annotations in Arabic and Chinese, plus 4.8K in Spanish to evaluate "cultural-transfer" performance. More than 51K artworks have 5 annotations or more in 3 languages. This diversity makes it possible to study similarities and differences across languages and cultures. Further, we investigate captioning tasks, and find diversity improves the performance of baseline models. ArtELingo is publicly available at https://www.artelingo.org/ with standard splits and baseline models. We hope our work will help ease future research on multilinguality and culturally-aware AI.
翻訳日:2022-11-22 17:06:50 公開日:2022-11-19