このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221104となっている論文です。

PDF登録状況(公開日: 20221104)

TitleAuthorsAbstract論文公表日・翻訳日
# 古典力学における演算子形式主義からの南武ブラケットの量子化

Quantization of Nambu Brackets from Operator Formalism in Classical Mechanics ( http://arxiv.org/abs/2209.09798v2 )

ライセンス: Link先を確認
So Katagiri(参考訳) ナンブブラケットの量子化は古典力学の量子力学的定式化のアプローチを用いて定式化される。 量子モーメント作用素は、ナムブ力学の2変数間の可換関係と、量子配置作用素と運動量作用素の間の正準可換関係が、ナムブ力学の位相空間に対するボーア・ソマーフェルト量子化の自然な拡張であることを示す。 具体的な例として,膜のnambu力学系を構築し,その量子化について論じる。

The quantization of Nambu brackets is formulated using the approach of quantum mechanical formulation of classical mechanics. It is shown that the quantum-momentum operator is defined by the commutation relation between two variables in Nambu dynamics and that the canonical commutation relation between the quantum-position operator and the momentum operator is a natural extension of the Bohr-Sommerfeld quantization for the phase space in Nambu dynamics. As a concrete example, the Nambu dynamical system of membranes is constructed, and its quantization is discussed.
翻訳日:2023-01-25 23:21:07 公開日:2022-11-04
# 変分量子アルゴリズムにおける不毛台地の発生を遅らせる摂動ガジェット

A perturbative gadget for delaying the onset of barren plateaus in variational quantum algorithms ( http://arxiv.org/abs/2210.03099v2 )

ライセンス: Link先を確認
Simon Cichy, Paul K. Faehrmann, Sumeet Khatri, Jens Eisert(参考訳) 変分量子アルゴリズムは、ノイズの多い中間スケール量子コンピュータの有用な応用を見つけるための有望なアプローチとして研究されている。 しかし、多くの興味のある問題に対応するコスト関数は本質的に大域的であり、多体相互作用を持つハミルトニアンによって定義される。 その結果、最適化のランドスケープは指数関数的に消失する勾配、いわゆる不毛高原を示し、最適な解を見つけるのが難しい。 したがって、不毛高原を緩和するための戦略は、変分量子アルゴリズムを訓練可能とし、大規模量子コンピュータで実行可能にするために必要である。 本研究では,ノイズの多い中間規模量子デバイスを有用なものにするために,提案する手法のポートフォリオに摂動ガジェットのツールボックスを寄贈する。 我々は,変分量子アルゴリズムに合わせた新しい摂動ガジェットを導入し,不毛高原の発生を遅らせることができる。 我々の摂動ガジェットは、グローバルコスト関数に対応する任意の多体ハミルトニアンを、3体ハミルトニアンの低エネルギー部分空間に符号化する。 我々の構築には、$r$項からなる$k$-bodyハミルトニアンに対して$rk$追加の量子ビットが必要です。 我々は、大域的最小値の近さを保証し、我々の3体ハミルトニアンによって定義される局所的コスト関数が非消滅勾配を示すことを証明する。 次に,提案手法の機能を示す数値実験を行い,その実践的実装を支援するヒューリスティックスについて議論する。

Variational quantum algorithms are being explored as a promising approach to finding useful applications for noisy intermediate-scale quantum computers. However, cost functions corresponding to many problems of interest are inherently global, defined by Hamiltonians with many-body interactions. Consequently, the optimization landscape can exhibit exponentially vanishing gradients, so-called barren plateaus, rendering optimal solutions difficult to find. Strategies for mitigating barren plateaus are therefore needed to make variational quantum algorithms trainable and capable of running on larger-scale quantum computers. In this work, we contribute the toolbox of perturbative gadgets to the portfolio of methods being explored in the quest for making noisy intermediate-scale quantum devices useful. We introduce a novel perturbative gadget, tailored to variational quantum algorithms, that can be used to delay the onset of barren plateaus. Our perturbative gadget encodes an arbitrary many-body Hamiltonian corresponding to a global cost function into the low-energy subspace of a three-body Hamiltonian. Our construction requires $rk$ additional qubits for a $k$-body Hamiltonian comprising $r$ terms. We provide guarantees on the closeness of global minima and prove that the local cost function defined by our three-body Hamiltonian exhibits non-vanishing gradients. We then provide numerical demonstrations to show the functioning of our approach and discuss heuristics that might aid its practical implementation.
翻訳日:2023-01-23 14:43:03 公開日:2022-11-04
# 粒子保存量子東モデルにおけるヒルベルト空間の断片化とスローダイナミクス

Hilbert space fragmentation and slow dynamics in particle-conserving quantum East models ( http://arxiv.org/abs/2210.15607v2 )

ライセンス: Link先を確認
Pietro Brighi, Marko Ljubotina and Maksym Serbyn(参考訳) 量子論的に制約されたモデルは、その異常な力学と熱化によって近年大きな注目を集めている。 本研究では,保存粒子数と容易なホッピングによる強い反転対称性の破れを特徴とする速度論的制約付きモデルについて紹介する。 これらのモデルがいわゆる量子ヒルベルト空間の断片化の一般的な例を示し、ヒルベルト空間の非連結セクターで表されるが、計算ベースでは明らかではない。 量子ヒルベルト空間の断片化は、いくつかの二部分断をまたがるちょうど0の絡み合いエントロピーを持つ固有状態の系サイズが指数関数的に増加する。 これらの固有状態は単純な初期積状態のクエンチェを用いて動的に観測することができる。 さらに, ドメイン壁状態から放出されるユニタリダイナミクス下での粒子拡散の研究を行い, より小さな密度で対数的に緩やかに緩和される高粒子密度での拡散ダイナミクスよりも速いことを発見した。 古典的シミュレート可能なセルオートマトンを用いて、量子ケースで観測された対数ダイナミクスを再現する。 我々の研究は、逆対称性の破れを持つ粒子保存制約モデルが、これまで探索されていない力学の普遍性クラスを実現し、さらなる理論的および実験的研究を招待することを示唆している。

Quantum kinetically constrained models have recently attracted significant attention due to their anomalous dynamics and thermalization. In this work, we introduce a hitherto unexplored family of kinetically constrained models featuring a conserved particle number and strong inversion-symmetry breaking due to facilitated hopping. We demonstrate that these models provide a generic example of so-called quantum Hilbert space fragmentation, that is manifested in disconnected sectors in the Hilbert space that are not apparent in the computational basis. Quantum Hilbert space fragmentation leads to an exponential in system size number of eigenstates with exactly zero entanglement entropy across several bipartite cuts. These eigenstates can be probed dynamically using quenches from simple initial product states. In addition, we study the particle spreading under unitary dynamics launched from the domain wall state, and find faster than diffusive dynamics at high particle densities, that crosses over into logarithmically slow relaxation at smaller densities. Using a classically simulable cellular automaton, we reproduce the logarithmic dynamics observed in the quantum case. Our work suggests that particle conserving constrained models with inversion symmetry breaking realize so far unexplored universality classes of dynamics and invite their further theoretical and experimental studies.
翻訳日:2023-01-21 08:05:21 公開日:2022-11-04
# 相互作用するハミルトンの散乱解による分子スピン量子ビットの電子制御

Scattering solution of interacting Hamiltonian for electronic control of molecular spin qubits ( http://arxiv.org/abs/2210.15747v2 )

ライセンス: Link先を確認
Christian Bunker, Silas Hoffman, Jie-Xiang Yu, Xiao-Guang Zhang, and Hai-Ping Cheng(参考訳) 散乱電子が分子スピン量子ビット(MSQ)をどう絡めるか理論的に研究する。 これは1つの電子の散乱領域を通る非弾性輸送を、密結合相互作用するハミルトニアンによって記述される。 我々はこれをグリーン関数解を用いて達成する。 強結合ハミルトニアンを磁気異方性と交換相互作用の第一原理記述でパラメータ化することにより、MSQの現実的な物理的実装をモデル化することができる。 逆対称性を持つ2-MSQ系の場合、散乱電子の自由度はMSQ間の絡み合いの度合いを確率論的に制御する。

We theoretically study how a scattered electron can entangle molecular spin qubits (MSQs). This requires solving the inelastic transport of a single electron through a scattering region described by a tight-binding interacting Hamiltonian. We accomplish this using a Green's function solution. We can model realistic physical implementations of MSQs by parameterizing the tight-binding Hamiltonian with first-principles descriptions of magnetic anisotropy and exchange interactions. We find that for two-MSQ systems with inversion symmetry, the spin degree of freedom of the scattered electron offers probabilistic control of the degree of entanglement between the MSQs.
翻訳日:2023-01-21 07:56:03 公開日:2022-11-04
# 運動の局所積分の多体展開:多体局所化相における準粒子を記述するために、実際に何対の粒子ホールが必要か?

Multibody expansion of the local integrals of motion: How many pairs of particle-hole do we really need to describe the quasiparticles in the many-body localized phase? ( http://arxiv.org/abs/2210.16607v2 )

ライセンス: Link先を確認
Z. Gholami, M. Amini, M. Soltani, E. Ghanbari-Adivi(参考訳) 多体局所化(mbl)系における創発的可積分性は、運動の局所積分(liom)の完全集合の存在によって特徴づけられる。 このような厳密に保存された指数的局所化作用素はしばしば準粒子作用素として理解され、異なる数の粒子-ホール対を持つ単粒子作用素の言葉で拡張することができる。 ここでは、1次元のXXZスピン-$\frac12$ Heisenberg鎖をランダム場の存在下で考慮し、粒子ホール励起の存在によりLOOMに付随する準粒子の画像において考慮すべき補正の定量化を試みる。 この目的のために、MBL方式において、システムのLOOM生成演算子の多体展開を明示的に示す。 我々は,この膨張係数を解析的に取得し,粒子ホール励起数の異なる高次補正の効果について議論する。 分析の結果, 系の局在長によっては, 高次項から得られる寄与が, LIOMの有効一粒子記述を分解し, 擬似粒子が本質的に多体様になることが示唆された。

The emergent integrability in a many-body localized (MBL) system can be well characterized by the existence of the complete set of local integrals of motion (LIOMs). Such exactly conserved and exponentially localized operators are often understood as quasiparticle operators which can be expanded in terms of single-particle operators dressed with different numbers of particle-hole pairs. Here, we consider a one-dimensional XXZ spin-$\frac12$ Heisenberg chain in the presence of a random field and try to quantify the corrections needed to be considered in the picture of quasiparticles associated with LIOMs due to the presence of particle-hole excitations. To this end, we explicitly present the multibody expansion of LIOM creation operators of the system in the MBL regime. We analytically obtain the coefficients of this expansion and discuss the effect of higher-order corrections associated with different numbers of particle-hole excitations. Our analysis shows that depending on the localization length of the system, there exist a regime in which the contributions that come from higher-order terms can break down the effective one-particle description of the LIOMs and such quasiparticles become essentially many-body-like.
翻訳日:2023-01-21 02:58:39 公開日:2022-11-04
# Pseudorandom(Function-like)量子状態発生器:新しい定義と応用

Pseudorandom (Function-Like) Quantum State Generators: New Definitions and Applications ( http://arxiv.org/abs/2211.01444v2 )

ライセンス: Link先を確認
Prabhanjan Ananth, Aditya Gulati, Luowen Qian, Henry Yuen(参考訳) Pseudorandom quantum state (PRS) は、計算的にHaar-randomと区別できない効率的な構成可能な状態であり、最近暗号アプリケーションを発見した。 新しい定義、新しい性質、および擬似乱数状態の応用について検討し、1.新しい定義: ananth, qian, yuen (crypto'22) によって導入された疑似乱数関数様状態 (prfs) 生成器の変種について検討する。 量子後片方向関数の存在を前提として,これらの変種の有効性を示す。 2. 古典通信: 対数出力長のPSSジェネレータは, 古典通信のコミットメントと暗号化スキームを暗示することを示す。 PRSジェネレータからのこのようなスキームの以前の構築は、量子通信を必要とした。 3. 単純化された証明: ブラカースキー-シュマウレイ (TCC'19) の結果のより単純な証明は、ランダムな二項相を持つ一様重ね合わせ状態の多項式的に多くのコピーがハールランダム状態と区別できないことである。 4. 計算的仮定の必要性: 出力長対数あるいはキー長の大きいセキュアなPSSは必ずしも計算的な仮定を必要とすることを示す。

Pseudorandom quantum states (PRS) are efficiently constructible states that are computationally indistinguishable from being Haar-random, and have recently found cryptographic applications. We explore new definitions, new properties and applications of pseudorandom states, and present the following contributions: 1. New Definitions: We study variants of pseudorandom function-like state (PRFS) generators, introduced by Ananth, Qian, and Yuen (CRYPTO'22), where the pseudorandomness property holds even when the generator can be queried adaptively or in superposition. We show feasibility of these variants assuming the existence of post-quantum one-way functions. 2. Classical Communication: We show that PRS generators with logarithmic output length imply commitment and encryption schemes with classical communication. Previous constructions of such schemes from PRS generators required quantum communication. 3. Simplified Proof: We give a simpler proof of the Brakerski--Shmueli (TCC'19) result that polynomially-many copies of uniform superposition states with random binary phases are indistinguishable from Haar-random states. 4. Necessity of Computational Assumptions: We also show that a secure PRS with output length logarithmic, or larger, in the key length necessarily requires computational assumptions.
翻訳日:2023-01-20 16:28:34 公開日:2022-11-04
# 監査可能な量子認証から公的な検証可能な中途半端な検証可能なマルチパーティ量子計算へ

From Auditable Quantum Authentication to Best-of-Both-Worlds Multiparty Quantum Computation with Public Verifiable Identifiable Abort ( http://arxiv.org/abs/2211.01665v2 )

ライセンス: Link先を確認
Mi-Ying Huang, Er-Cheng Tang(参考訳) pvia securityは、pvia securityによって、従来の計算能力しか持たない外部のオブザーバが、abortの場合の悪意のあるパーティのアイデンティティについて合意できる、公開検証可能なabort(mpqc-pvia)プロトコルを用いて、最初のセキュアなマルチパーティ量子計算を構築する。 さらに、私たちのMPQCはBest-of-Both-Worlds(BoBW)セキュリティを提供する最初の量子環境です。 私たちの構築の中心には、Auditable Quantum Authentication (AQA)と呼ばれる一般的な変換があり、悪意のある送信者を圧倒的な確率で公に特定します。 当社のアプローチには,従来のMPQCプロトコル構築方法よりもいくつかのメリットがあります。 まず、Cliffordのコードパラダイムに従う代わりに、当社のプロトコルはさまざまな認証コードに基づいています。 第2に、mpqcのオンラインフェーズは、古典的な通信のみを必要とする。 第3に,我々は,出力配信を条件付きで保証するmpqcに調整可能な,精巧なプロトコル設計による分散計算を実現する。

We construct the first secure multiparty quantum computation with public verifiable identifiable abort (MPQC-PVIA) protocol, where PVIA security enables outside observers with only classical computational power to agree on the identity of a malicious party in case of an abort. Moreover, our MPQC is the first quantum setting to provide Best-of-Both-Worlds (BoBW) security, which attains full security with an honest majority and is secure with abort if the majority is dishonest. At the heart of our construction is a generic transformation called Auditable Quantum Authentication (AQA) that publicly identifies the malicious sender with overwhelming probability. Our approach comes with several advantages over the traditional way of building MPQC protocols. First, instead of following the Clifford code paradigm, our protocol can be based on a variety of authentication codes. Second, the online phase of our MPQC requires only classical communications. Third, our construction can achieve distributed computation via a carefully crafted protocol design, which can be adjusted to an MPQC that conditionally guarantees output delivery.
翻訳日:2023-01-20 12:01:34 公開日:2022-11-04
# 非可換空間における修正ハイレラアスポテンシャルの下でのディラック方程式

Dirac Equation under Modified Hylleraas Potential in Noncommutative Spaces ( http://arxiv.org/abs/2211.02216v1 )

ライセンス: Link先を確認
Lu Liu and Zheng-Wen Long(参考訳) 本稿では、スピン1/2ディラック粒子とハイレラアスポテンシャルとの相互作用を非可換空間の枠組みに基づいて研究する。 波動方程式における非可換パラメータ$\theta$によるエネルギーレベルの一階補正を解く。 さらに, 弱電場の作用によるエネルギー準位補正の問題点を解析した。 非可換パラメータのため、エネルギー準位は分割される。 非可換パラメータ $\theta$ はエネルギー固有値に大きな影響を及ぼす。 電場によるエネルギーレベル分裂に対する$\theta$の効果は、分裂後のエネルギーレベルにわずかに数値的な変化を加えることによって反映される。

In this paper, we study the interaction of spin 1/2 Dirac particles with the Hylleraas potential based on the noncommutative space framework. Solving the first-order correction of the energy level caused by the noncommutation parameter $\theta$ in the wave equation. The problem of energy level correction under the action of additional weak electric field is further analyzed. Due to the non-commutation parameter, the energy levels are split. The noncommutation parameter $\theta$ has a significant effect on the energy eigenvalues. The effect of $\theta$ on the energy level splitting caused by the electric field is reflected by adding a slight numerical change to the energy level after splitting.
翻訳日:2023-01-20 09:11:45 公開日:2022-11-04
# 混合量子古典半古典力学における非線形相関関数と零点エネルギーフロー

Non-Linear Correlation Functions and Zero-Point Energy Flow in Mixed Quantum-Classical Semiclassical Dynamics ( http://arxiv.org/abs/2211.02485v1 )

ライセンス: Link先を確認
Shreyas Malpathak and Nandini Ananth(参考訳) mixed quantum classical (mqc)-ivrは、最近導入された半古典的フレームワークであり、複雑なシステムのモードの選択的量子化を可能にする。 量子限界では、MQCは半古典的なDouble Herman-Kluk IVR結果を再現し、核量子コヒーレンスを正確に捉え、ゼロ点エネルギーを保存する。 しかし、古典的な極限では、MQCは線形作用素と実時間相関関数のフシミ-IVRを模倣するが、時間ゼロでも誤差のある非線形相関関数の精度は著しく低い。 ここでは、MQCの定式化におけるこの相違点の起源を特定し、修正を提案する。 修正MQCアプローチはゼロ時のすべての相関関数に対して正確であることを解析的に示し、ゼロ点エネルギー(ZPE)流の研究において、時間関数として量子的および古典的極限を正しく得ることを数値的に示す。 興味深いことに、古典リミットMQCシミュレーションは期待されている非物理的ZPE漏れを示す一方で、最小の量子力学的に要求されるエネルギーを保った量子リミットモードで、システムの選択的量子化によってZPE流れの方向を予測・修正することも可能である。

Mixed Quantum Classical (MQC)-IVR is a recently introduced semiclassical framework that allows for selective quantization of the modes of a complex system. In the quantum limit, MQC reproduces the semiclassical Double Herman-Kluk IVR results, accurately capturing nuclear quantum coherences and conserving zero-point energy. However, in the classical limit, while MQC mimics the Husimi-IVR for real-time correlation functions with linear operators, it is significantly less accurate for non-linear correlation functions with errors even at time zero. Here, we identify the origin of this discrepancy in the MQC formulation and propose a modification. We analytically show that the modified MQC approach is exact for all correlation functions at time zero, and in a study of zero-point energy (ZPE) flow, we numerically demonstrate that it correctly obtains the quantum and classical limits as a function of time. Interestingly, while classical-limit MQC simulations show the expected, unphysical ZPE leakage, we find it is possible to predict and even modify the direction of ZPE flow through selective quantization of the system, with the quantum-limit modes accepting energy additions but preserving the minimum quantum mechanically required energy.
翻訳日:2023-01-20 09:07:47 公開日:2022-11-04
# 中性ストロンチウムにおける$^{1}\mathrm{s}_0$-$^{3}\mathrm{p}_2$磁気四極子転移

The $^{1}\mathrm{S}_0$-$^{3}\mathrm{P}_2$ magnetic quadrupole transition in neutral strontium ( http://arxiv.org/abs/2211.02470v1 )

ライセンス: Link先を確認
J. Trautmann, D. Yankelev, V. Kl\"usener, A. J. Park, I. Bloch, S. Blatt(参考訳) 我々は、中性ストロンチウム中における超狭磁性四極子$^{1}\mathrm{S}_0$-$^{3}\mathrm{P}_2$遷移の詳細な研究を行い、量子シミュレーションや量子計算にどのようにアクセスできるかを示す。 1次元光学格子の光シフトをエンジニアリングすることにより、高分解能分光を行い、磁気四重極遷移の特性吸収パターンを観察する。 絶対遷移周波数は 446,647,242,704(5) khz で$^{88}$sr であり、同位体シフトは +62.93(6) mhz である。 原理実証実験では、この遷移を利用して、レイリー基準分解能494(45)nmの532nmの光学格子で局所的なアドレッシングを示す。 以上の結果から, 磁気四極子遷移を光量子ビットとして, 光格子の単一部位アドレッシングへの応用の道を開いた。

We present a detailed investigation of the ultranarrow magnetic-quadrupole $^{1}\mathrm{S}_0$-$^{3}\mathrm{P}_2$ transition in neutral strontium and show how it can be made accessible for quantum simulation and quantum computation. By engineering the light shift in a one-dimensional optical lattice, we perform high-resolution spectroscopy and observe the characteristic absorption patterns for a magnetic quadrupole transition. We measure an absolute transition frequency of 446,647,242,704(5) kHz in $^{88}$Sr and an isotope shift for $^{87}$Sr of +62.93(6) MHz. In a proof-of-principle experiment, we use this transition to demonstrate local addressing in an optical lattice with 532 nm spacing with a Rayleigh-criterion resolution of 494(45) nm. Our results pave the way for applications of the magnetic quadrupole transition as an optical qubit and for single-site addressing in optical lattices.
翻訳日:2023-01-20 09:07:13 公開日:2022-11-04
# 任意軌道沿いの量子状態駆動

Quantum State Driving along Arbitrary Trajectories ( http://arxiv.org/abs/2211.02457v1 )

ライセンス: Link先を確認
Le Hu and Andrew N. Jordan(参考訳) 無限小形式の量子ブラヒストローネ問題から始め、任意の事前に割り当てられた軌道に沿って限られたリソースを持つ純粋な量子状態を動かすための最小時間と対応する時間依存ハミルトニアンを解く。 また、あらゆる可能な軌道のうち、限られた資源を持ち、物理的にアクセス可能であり、そうでないことも示されている。 解は混合量子状態のケースに一般化され、離散的あるいは連続的なスペクトルを持つ単一または複数のパラメータによってパラメータ化される軌跡に適用される。 次に,その解法を対断駆動法と比較し,ベリー相が両方の駆動過程にどのように直接関与しているかを示す。

Starting with the quantum brachistochrone problem of the infinitesimal form, we solve the minimal time and corresponding time-dependent Hamiltonian to drive a pure quantum state with limited resources along arbitrary pre-assigned trajectories. It is also shown that out of all possible trajectories, with limited resources, which are physically accessible and which are not. The solution is then generalized to the mixed quantum state cases, and applied to trajectories parameterized by single or multiple parameters with discrete or continuous spectrum. We then compare the solution to that of the counterdiabatic driving, and show how the Berry phase is directly involved in both driving processes.
翻訳日:2023-01-20 09:06:51 公開日:2022-11-04
# 量子時間拡張の普遍性

Universality of quantum time dilation ( http://arxiv.org/abs/2211.02425v1 )

ライセンス: Link先を確認
Kacper D\k{e}bski, Piotr T. Grochowski, Rafa{\l} Demkowicz-Dobrza\'nski, Andrzej Dragan(参考訳) タイムディレーション(英: Time Dilation)とは、異なる速度で移動する2つの時計間の測定時間の違いである。 これらの効果はどちらも相対性理論に由来し、通常、位置、運動量、加速度によって特徴づけられる古典的に定義された軌道と関連している。 しかし、空間的自由度が量子的に扱われ、時計が2つのモータまたは2つの高さのコヒーレントな重畳状態にある場合、古典的時間拡張に対する追加の量子補正(キネマティックと重力的量子時間拡張)がそれぞれ現れる。 古典的なものと同様、キネマティック量子時間拡張は任意のクロック機構に対して普遍的であるが、重力量子時間拡張はそうではない。 また,これらの効果はいずれも異なる古典的時間拡張寄与の非一貫性な平均化に還元されるが,古典的類似性がなく,システムのハミルトニアンへの高次補正から抽出できる量子時間拡張効果が存在することを示した。

Time dilation is a difference in measured time between two clocks that either move with different velocities or experience different gravitational potentials. Both of these effects stem from the theory of relativity and are usually associated with classically defined trajectories, characterized by position, momentum, and acceleration. However, when spatial degrees of freedom are treated in a quantum way and a clock is allowed to be in a coherent superposition of either two momenta or two heights, additional quantum corrections to classical time dilation appear, called kinematic and gravitational quantum time dilations, respectively. We show that similarly to its classical counterpart, kinematic quantum time dilation is universal for any clock mechanism, while gravitational quantum time dilation is not. We also show that although both of these effects reduce to incoherent averaging of different classical time dilation contributions, there exists an additional quantum time dilation effect that has no classical analog and can be extracted from higher-order corrections to the system's Hamiltonian.
翻訳日:2023-01-20 09:06:39 公開日:2022-11-04
# 真の多部絡み付き離散性に基づく真の非局所性

Distinguishability-based genuine nonlocality with genuine multipartite entanglement ( http://arxiv.org/abs/2211.02388v1 )

ライセンス: Link先を確認
Zong-Xing Xiong, Mao-Sheng Li, Zhu-Jun Zheng, Lvzhou Li(参考訳) 直交多部量子状態の集合が判別可能性に基づく真の非局所的(あるいは真の非局所的)であるとは、状態が部分系の任意の分割にわたって局所的に区別不能であるときに言う。 この多成分非局所性の形式は、最近普及した「強い非局所性(strong nonlocality)」よりも自然に発生するが、より注意を引かない。 本研究では,greenberger-horne-zeilinger (ghz) 様状態の識別性に基づく真の非局所性について検討する。 まず、3量子ビット ghz 基底の任意の 5 つの状態が真に非局所的であることを示すが、それらの 4 つの状態はそうではない。 そして、より一般的な三部式系に対して、任意のGHZ型状態の濃度について真の非局所性を示す普遍的境界を示す。 必須ではないが、多くの状況で国家の差別が困難になると考えられている。 文献では、二部系における最大に絡み合った状態からなる小さな非局所集合を求める取り組みなど、この視点を支持する多くの研究がなされている。 ここでは、GHZのような状態が研究される三部形式の場合、いくつかの真の非局所集合の存在も見出す: 濃度が局所次元 d において線型にスケールダウンできることが示される。 この結果は、多元的シナリオにおける開拓的視点を実証するだけでなく、強非局所性と正規識別性に基づく多元的非局所性の間には実質的な差が存在する可能性を示唆する。

A set of orthogonal multipartite quantum states is said to be distinguishability-based genuinely nonlocal (also genuinely nonlocal, for abbreviation) if the states are locally indistinguishable across any bipartition of the subsystems. This form of multipartite nonlocality, although more naturally arising than the recently popular "strong nonlocality" in the context of local distinguishability, receives much less attention. In this work, we study the distinguishability-based genuine nonlocality of a special type of genuinely multipartite entangled states -- the Greenberger-Horne-Zeilinger (GHZ)-like states. We first show that any 5 states of the three-qubit GHZ basis are genuinely nonlocal, while any 4 states of them are not. Then for more general tripartite systems, we present a universal bound about the cardinality for an arbitrary set of GHZ-like states to be genuinely nonlocal. Although not necessary, entanglement is believed to raise difficulty in state discrimination in many situations. In the literature, there has been lots of studies in favor of this perspective, including the efforts seeking for small nonlocal sets consisting of maximally entangled states in bipartite systems. Here in the tripartite case, where GHZ-like states are studied, we also find the existence of some small genuinely nonlocal sets: we show that the cardinality can scale down to linear in the local dimension d. This result not only substantiates the aforemention perspective in multipartite scenario, but also suggests that there might exist substantial difference between strong nonlocality and the normal distinguishability-based multipartite nonlocality.
翻訳日:2023-01-20 09:06:03 公開日:2022-11-04
# キャビティ内非線形光学結晶を用いた光学系における光熱効果

Photothermal effect in macroscopic optomechanical systems with an intracavity nonlinear optical crystal ( http://arxiv.org/abs/2211.02373v1 )

ライセンス: Link先を確認
Sotatsu Otabe, Kentaro Komori, Ken-ichi Harada, Kaido Suzuki, Yuta Michimura, and Kentaro Somiya(参考訳) キャビティ内スクイージングは重力波検出器の感度を向上し、光学振動子を地上状態に冷却する有望な技術である。 しかし、光熱効果は光学キャビティに非線形光学結晶が存在するため、光学的カップリングの発生を変更する可能性がある。 本稿では,光機械発振器の感受性を計測し,純光ばね定数と光熱吸収率を同定し,光熱効果の影響を予測する新しい方法を提案する。 本手法を用いて, 従来開発された手法では測定できなかった微量光熱効果のパラメータを正確に推定することに成功した。

Intracavity squeezing is a promising technique that may improve the sensitivity of gravitational wave detectors and cool optomechanical oscillators to the ground state. However, the photothermal effect may modify the occurrence of optomechanical coupling due to the presence of a nonlinear optical crystal in an optical cavity. We propose a novel method to predict the influence of the photothermal effect by measuring the susceptibility of the optomechanical oscillator and identifying the net optical spring constant and photothermal absorption rate. Using this method, we succeeded in precisely estimating parameters related to even minor photothermal effects, which could not be measured using a previously developed method.
翻訳日:2023-01-20 09:05:35 公開日:2022-11-04
# Tierkreis: ハイブリッド量子古典コンピューティングのためのデータフローフレームワーク

Tierkreis: A Dataflow Framework for Hybrid Quantum-Classical Computing ( http://arxiv.org/abs/2211.02350v1 )

ライセンス: Link先を確認
Seyon Sivarajah, Lukas Heidemann, Alan Lawrence, and Ross Duncan(参考訳) 量子古典型ハイブリッドアルゴリズムのための高次データフローグラフプログラム表現とランタイムであるtierkreisを提案する。 システムの設計は、量子コンピュータのリモートな性質、クラウドと分散コンピューティングを含むハイブリッドアルゴリズムの必要性、そしてこれらのアルゴリズムの長期的性質によって動機付けられている。 グラフベースの表現は、デザイナがアルゴリズムを推論し視覚化する方法を反映し、自動並列性と非同期性を可能にする。 強い静的な型システムと高階のセマンティクスにより、プログラムの表現性と構成性が向上する。 フレキシブルなランタイムプロトコルにより、サードパーティの開発者は任意の言語や環境を使って機能を追加できる。 Tierkreisを使えば、量子ソフトウェア開発者は複雑なハイブリッドワークフローを簡単に構築、視覚化、検証、テスト、デバッグでき、すぐにクラウドやカスタム分散環境にデプロイできる。

We present Tierkreis, a higher-order dataflow graph program representation and runtime designed for compositional, quantum-classical hybrid algorithms. The design of the system is motivated by the remote nature of quantum computers, the need for hybrid algorithms to involve cloud and distributed computing, and the long-running nature of these algorithms. The graph-based representation reflects how designers reason about and visualise algorithms, and allows automatic parallelism and asynchronicity. A strong, static type system and higher-order semantics allow for high expressivity and compositionality in the program. The flexible runtime protocol enables third-party developers to add functionality using any language or environment. With Tierkreis, quantum software developers can easily build, visualise, verify, test, and debug complex hybrid workflows, and immediately deploy them to the cloud or a custom distributed environment.
翻訳日:2023-01-20 09:05:21 公開日:2022-11-04
# 変分量子アルゴリズムに基づく励起状態分子動力学シミュレーション

Excited-state molecular dynamics simulation based on variational quantum algorithms ( http://arxiv.org/abs/2211.02302v1 )

ライセンス: Link先を確認
Hirotoshi Hirai(参考訳) 本稿では,基底状態シミュレーションに匹敵する計算コストで変動量子アルゴリズムに基づく励起状態分子動力学シミュレーション法を提案する。 我々は、ハードウェア効率のアンサッツを用いた制限変動量子固有解法計算において、励起状態が準安定状態として得ることのできる特徴を利用する。 本法の有効性を示すため, H2およびCH2NH分子のS1励起状態に対して分子動力学シミュレーションを行った。 この結果は、s1状態における正確な断熱シミュレーションの結果と一致しており、ch2nh系を除くと、円錐交差を越え、提案手法が非断熱遷移を引き起こす。

We propose an excited-state molecular dynamics simulation method based on variational quantum algorithms at a computational cost comparable to that of ground-state simulations. We utilize the feature that excited states can be obtained as metastable states in the restricted variational quantum eigensolver calculation with a hardware-efficient ansatz. To demonstrate the effectiveness of the method, molecular dynamics simulations are performed for the S1 excited states of H2 and CH2NH molecules. The results are consistent with those of the exact adiabatic simulations in the S1 states, except for the CH2NH system, after crossing the conical intersection, where the proposed method causes a nonadiabatic transition.
翻訳日:2023-01-20 09:05:05 公開日:2022-11-04
# チュートリアル:Cavity Quantum Optomechanics

Tutorial: Cavity Quantum Optomechanics ( http://arxiv.org/abs/2211.02596v1 )

ライセンス: Link先を確認
Amarendra K. Sarma and Sampreet Kalita(参考訳) マクロなシステムで量子物理学を探求し、様々な技術応用のためにこれらのシステムを操作することは、過去10年ほどで激しい研究のトピックとなった。 この点において、空洞量子光学の分野は、最も急速に発展した研究分野の1つであることが判明した。 量子物理学における様々なオープンエンドの基本的な問題を研究するための多くの扉を開いた。 典型的なキャビティ光学系は2つの鏡で構成され、1つは固定され、もう1つは可動である。 これらのシステムは寸法がマイクロメートルまたはナノメートルである。 システムに発生する電磁放射は、可動ミラーの機械的運動に結合される可能性がある。 この光機械的カップリングは、量子の絡み合い、状態転移、スクイージングなどの全ての現象の根源である。 この短いチュートリアルでは、空洞量子光学の基礎概念について論じる。 このチュートリアルは、理論家と実験家の両方が、この非常に実りの多い研究分野の先進的な研究を読者に促すことを願っている。

Exploring quantum physics in macroscopic systems and manipulating these systems for various technological applications has been a topic of intense research in the last one decade or so. In this regard, the field of cavity quantum optomechanics turns out to be one of the most rapidly emerging area of research. It has opened many doors to study various open ended fundamental questions in quantum physics, apart from numerous possible applications. A typical cavity optomechanical system consists of two mirrors, one fixed while the other one is movable. These systems may be of micrometer or nano-meter in dimensions. The electromagnetic radiation incident on the system may get coupled to the mechanical motion of the movable mirror. This opto-mechanical coupling is the root of all phenomena such as quantum entanglement, state-transfer, squeezing and so on. In this short tutorial, basic concepts of cavity quantum optomechanics are discussed. We hope that this tutorial would motivate readers, both theorists and experimentalists, to take up advanced studies in this immensely fruitful area of research.
翻訳日:2023-01-20 08:59:08 公開日:2022-11-04
# ハミルトン量子生成逆ネットワーク

Hamiltonian Quantum Generative Adversarial Networks ( http://arxiv.org/abs/2211.02584v1 )

ライセンス: Link先を確認
Leeseok Kim, Seth Lloyd, Milad Marvian(参考訳) 2つの競合する量子最適制御を用いて未知の入力量子状態を生成することを学ぶために、ハミルトン量子生成適応ネットワーク(HQuGANs)を提案する。 このアルゴリズムのゲーム理論の枠組みは、高次元分布の学習における古典的生成的敵ネットワークの成功に触発されている。 量子最適制御アプローチは、アルゴリズムを短期ハードウェアの実験的な制約に自然に適応させるだけでなく、回路モデルの実装と比べて過パラメータ化による収束性の向上をもたらす可能性がある。 低帯域幅制御のような実験的な制約の下で, 単純な2体ハミルトニアンを用いて, 様々な多体量子状態が絡み合ったフレームワークの能力を数値的に示す。 量子コンピュータ上でhqugansを実装する計算コストを分析し、量子力学を学ぶためにフレームワークをどのように拡張できるかを示す。

We propose Hamiltonian Quantum Generative Adversarial Networks (HQuGANs), to learn to generate unknown input quantum states using two competing quantum optimal controls. The game-theoretic framework of the algorithm is inspired by the success of classical generative adversarial networks in learning high-dimensional distributions. The quantum optimal control approach not only makes the algorithm naturally adaptable to the experimental constraints of near-term hardware, but also has the potential to provide a better convergence due to overparameterization compared to the circuit model implementations. We numerically demonstrate the capabilities of the proposed framework to learn various highly entangled many-body quantum states, using simple two-body Hamiltonians and under experimentally relevant constraints such as low-bandwidth controls. We analyze the computational cost of implementing HQuGANs on quantum computers and show how the framework can be extended to learn quantum dynamics.
翻訳日:2023-01-20 08:58:51 公開日:2022-11-04
# 整数量子ホールレジームにおける位相ジョセフソン接合

Topological Josephson Junctions in the Integer Quantum Hall Regime ( http://arxiv.org/abs/2211.02575v1 )

ライセンス: Link先を確認
Gianmichele Blasi, G\'eraldine Haack, Vittorio Giovannetti, Fabio Taddei, Alessandro Braggio(参考訳) ロバストで可変な位相ジョセフソン接合(tjjs)は、異常なジョセフソン効果とトポロジカル量子計算応用を調査するための非常に望ましいプラットフォームである。 磁気障害やフォノンや他の電子との相互作用に敏感なハイブリッド超伝導2次元トポロジー絶縁体 (2DTI) プラットフォームでの実験実験が行われた。 本研究では,整数量子ホール(IQH)法則と超伝導体の物理を組み合わせることで,頑健で静電気的に調整可能なTJJを提案する。 我々は、対応するアンドレフ境界状態スペクトル、ジョセフソン電流、異常電流に関する分析的知見を提供する。 静電気ゲートを介して制御できる保護されたゼロエネルギー交差の存在を実証する。 この静電気的チューニング性は、任意の現実的なサンプルで起こりうる非理想的インタフェースや望ましくない反射を補償する直接的な利点がある。 IQH系におけるTJJはグラフェンやその他の2D材料で実現できた。 スケーラブルで堅牢なandreev-qubitプラットフォームや、効率的なフェーズバッテリにも特に適しています。

Robust and tunable topological Josephson junctions (TJJs) are highly desirable platforms for investigating the anomalous Josephson effect and topological quantum computation applications. Experimental demonstrations have been done in hybrid superconducting-two dimensional topological insulator (2DTI) platforms, sensitive to magnetic disorder and interactions with phonons and other electrons. In this work, we propose a robust and electrostatically tunable TJJ by combining the physics of the integer quantum Hall (IQH) regime and of superconductors. We provide analytical insights about the corresponding Andreev bound state spectrum, the Josephson current and the anomalous current. We demonstrate the existence of protected zero-energy crossings, that can be controlled through electrostatic external gates. This electrostatic tunability has a direct advantage to compensate for non-ideal interfaces and undesirable reflections that may occur in any realistic samples. TJJs in the IQH regime could be realized in graphene and other 2D materials. They are of particular relevance towards scalable and robust Andreev-qubit platforms, and also for efficient phase batteries.
翻訳日:2023-01-20 08:58:36 公開日:2022-11-04
# 量子擬符号に関する条約

Conventions for Quantum Pseudocode ( http://arxiv.org/abs/2211.02559v1 )

ライセンス: Link先を確認
E. Knill(参考訳) 量子擬似符号について考えるためのいくつかの規則が提案されている。 これらの規約は、量子アルゴリズムを最低レベルまで提示し、量子コンピュータのための量子ランダムアクセスマシン(qram)モデルと一致させるのに使うことができる。 原則として、量子疑似コードの形式バージョンは、従来の言語の将来の拡張に使用できる。

A few conventions for thinking about and writing quantum pseudocode are proposed. The conventions can be used for presenting any quantum algorithm down to the lowest level and are consistent with a quantum random access machine (QRAM) model for quantum computing. In principle a formal version of quantum pseudocode could be used in a future extension of a conventional language.
翻訳日:2023-01-20 08:57:50 公開日:2022-11-04
# 例外直交多項式とパラメトリック対称性を伴う(1+1)次元ディラック方程式の解

Solutions of (1+1)-dimensional Dirac equation associated with exceptional orthogonal polynomials and the parametric symmetry ( http://arxiv.org/abs/2211.02557v1 )

ライセンス: Link先を確認
Suman Banerjee, Rajesh Kumar Yadav, Avinash Khare, Nisha Kumari, Bhabani Prasad Mandal(参考訳) 我々は、半径振動子、三角スカーフ、双曲ポシュル・テラーポテンシャルに対応する有理拡張スカラーポテンシャルを持つ1+1$次元ディラック方程式を考察し、例外直交多項式の観点から解を得る。 さらに、三角スカーフや双曲型ポシュラーの場合、パラメトリック対称性の概念を用いて新しいディラックスカラーポテンシャルの族を生成し、それらの解は、従来の直交多項式と同様に、従来の方法で得られる。

We consider $1+1$-dimensional Dirac equation with rationally extended scalar potentials corresponding to the radial oscillator, the trigonometric Scarf and the hyperbolic Poschl-Teller potentials and obtain their solution in terms of exceptional orthogonal polynomials. Further, in the case of the trigonometric Scarf and the hyperbolic Poschl-Teller cases, new family of Dirac scalar potentials are generated using the idea of parametric symmetry and their solutions are obtained in terms of conventional as well as exceptional orthogonal polynomials.
翻訳日:2023-01-20 08:57:45 公開日:2022-11-04
# 自発的ロバスト性と補助的制御のない断熱性への近道

Shortcuts to Adiabaticity with Inherent Robustness and without Auxiliary Control ( http://arxiv.org/abs/2211.02543v1 )

ライセンス: Link先を確認
Yiyao Liu and Zhen-Yu Wang(参考訳) STA(Shortcut to adiabaticity)は、量子アダイバティックプロセスの最終状態の進化を実現するための高速な手法である。 我々は、元の断熱ハミルトニアンの断熱経路の点のみをサンプリングすることによって、新しい種類のSTAを構築するための一般理論を開発する。 従来の手法とは対照的に、我々の手法は追加の制御資源を必要とせず、固有の堅牢性を持ち、複雑なユニタリ変換を使用しない。 経路サンプリングに基づいて、結果のSTAプロトコルは単純であり、実装が困難な断熱経路の点を避けることができる。 この理論の応用として、新しいロバストな3レベル制御と、断熱量子コンピューティングモデルにおける信頼性と高速な基底状態進化によって、消散とノイズの強調の両方の効果を低減できることを実証する。 本理論は、一般量子系に対するロバストで高速な制御方法を設計するための新しい経路を提供する。

Shortcuts to adiabaticity (STA) are fast methods to realize the same final state evolution of quantum adiabatic process. We develop a general theory to construct a new kind of STA by solely sampling the points of the adiabatic path of the original adiabatic Hamiltonian. In contrast to previous methods, our approach does not require any additional control resources, has inherent robustness, and does not use any complicated unitary transformation. Based on path sampling, the resulting STA protocols are simple and can avoid points of adiabatic path that are challenging to implement. As applications of our theory, we demonstrate reduction of the effects of both dissipation and dephasing noise by a novel robust three-level control, as well as reliable and fast ground state evolution in an adiabatic quantum computing model. Our theory offers a new route to design robust and fast control methods for general quantum systems.
翻訳日:2023-01-20 08:57:33 公開日:2022-11-04
# 障害のあるモニターフリーフェルミオン

Disordered monitored free fermions ( http://arxiv.org/abs/2211.02534v1 )

ライセンス: Link先を確認
Marcin Szyniszewski, Oliver Lunt, Arijeet Pal(参考訳) ユニタリ進化における量子情報のスクランブルは、測定と局所化によって妨げられる。 どちらの効果も量子力学的波動関数のピンニングをもたらし、定常状態における絡み合いを抑制する。 監視された自由フェルミオンモデルにおいて、定常状態は、環境への結合による臨界対数から領域則絡み合い定常状態への絡み合い遷移を行う。 しかし、孤立したシステムでは、1次元の任意に弱い障害がアンダーソン局在に繋がる。 本研究では,連続監視対象の確率場における自由フェルミオン系について検討し,測定誘発位相と障害との非自明な相互作用を探究する。 有効中心電荷, 絡み合いエントロピー, 密度密度相関の慎重な解析により, 有限臨界障害強度まで共形対称性を持つ臨界相が障害摂動下で安定であることを示す。 有限障害および散逸的カップリングにおける遷移の普遍性クラスは、拡張相図全体のベレジンスキー=コステリッツ=トゥーレスと一致している。 さらに、アンダーソン局在に関与する破壊干渉は有限監視強度下で破壊され、定常軌道波動関数はパワーロー崩壊を示す。 以上の結果から, 臨界相は障害に対して堅牢であり, エリアロー相は弱散逸時のアンダーソン局在とは異なることが示唆された。 我々の研究は、量子ドットアレイやナノワイヤの電子を含む実験において、この興味深い相転移を探索し、電子の絡み合った状態の量子制御を可能にします。

Scrambling of quantum information in unitary evolution can be hindered due to measurements and localization. Both these effects lead to pinning of the quantum mechanical wavefunction resulting in suppression of entanglement in the steady state. In monitored free-fermionic models the steady state undergoes an entanglement transition from a critical logarithmically to area-law entangled steady state due to the coupling to an environment. However, in an isolated system arbitrarily weak disorder in one dimension leads to Anderson localization. We investigate a free-fermion system in a random field subject to continuous monitoring, which enables us to probe the non-trivial interplay between measurement-induced phases and disorder. Through the careful analysis of the effective central charge, entanglement entropy, and density-density correlations, we show that the critical phase with conformal symmetry is stable under disorder perturbations until a finite critical disorder strength. We find that the universality class of the transition at finite disorder and dissipative coupling is consistent with the Berezinskii-Kosterlitz-Thouless across the extended phase diagram. Furthermore, destructive interference responsible for Anderson localization is destroyed under finite monitoring strength and the steady state orbital wavefunction exhibits a power-law decay. Our results indicate that critical phase is robust to disorder and the area-law phase is distinct from Anderson localization at weak dissipation. Our work opens the avenue to probe this interesting phase transition in experiments involving electrons in quantum dot arrays and nanowires, and allow quantum control of entangled states of electrons.
翻訳日:2023-01-20 08:57:15 公開日:2022-11-04
# GRAPE法によるコヒーレントおよび非コヒーレント制御による2量子オープン量子系の状態生成の最適制御

Optimal control for state preparation in two-qubit open quantum systems driven by coherent and incoherent controls via GRAPE approach ( http://arxiv.org/abs/2211.02517v1 )

ライセンス: Link先を確認
Vadim Petruhanov and Alexander Pechen(参考訳) 本研究では,コヒーレントかつ非コヒーレントな時間依存制御によって駆動される2つの量子ビットのモデルを考える。 系の力学はゴリーニ=コサコフスキー=スダルシャン=リンドブラッドのマスター方程式によって制御され、コヒーレント制御はハミルトニアンに入り、非コヒーレント制御は(ラムシフトを介して)ハミルトニアンと散逸超作用素の両方に入る。 本研究では,コヒーレント制御と物理的に異なる2種類の相互作用を考察し,最終密度行列と与えられた目標密度行列の間のヒルベルト・シュミット距離の正方形を一定の目標時間で最小化する状態形成の最適制御問題を検討する。 物理的意味による一貫性のない制御は時間の非負の関数であり,目的の勾配に対する解析式を導出し,この勾配上昇パルス工学(grape)の問題に対する適応に基づく最適化手法を開発する。 最適化された制御の下で, フォン・ノイマンエントロピー, 純度, および1ビット還元密度行列の進化を研究し, ハミルトニアンにおけるコヒーレント制御との相互作用の2つのクラスに対する GRAPE 最適化の明らかに異なる挙動を観察した。

In this work, we consider a model of two qubits driven by coherent and incoherent time-dependent controls. The dynamics of the system is governed by a Gorini-Kossakowski-Sudarshan-Lindblad master equation, where coherent control enters into the Hamiltonian and incoherent control enters into both the Hamiltonian (via Lamb shift) and the dissipative superoperator. We consider two physically different classes of interaction with coherent control and study the optimal control problem of state preparation formulated as minimization of the Hilbert-Schmidt distance's square between the final density matrix and a given target density matrix at some fixed target time. Taking into account that incoherent control by its physical meaning is a non-negative function of time, we derive an analytical expression for the gradient of the objective and develop optimization approaches based on adaptation for this problem of GRadient Ascent Pulse Engineering (GRAPE). We study evolution of the von Neumann entropy, purity, and one-qubit reduced density matrices under optimized controls and observe a significantly different behavior of GRAPE optimization for the two classes of interaction with coherent control in the Hamiltonian.
翻訳日:2023-01-20 08:56:51 公開日:2022-11-04
# スピンボーソンモデルによる相互作用する2量子ビットダイナミクスの導出

Derivation of Interacting Two-Qubit Dynamics from Spin-Boson Model ( http://arxiv.org/abs/2211.02490v1 )

ライセンス: Link先を確認
Hiroaki Matsueda, Yukiya Ide, Sadamichi Maekawa(参考訳) 量子コンピュータの量子ビットダイナミクスを調べるため,スピン-ボソンモデルから2スピン状態の相互作用に対する減衰方程式を導出した。 合成演算子法に基づいてオープン量子系に対するカルデイラ・レゲット法を開発し、2スピン相関から生じる絡み合いのダイナミクスを捉えることができる。 二次元スピンダイナミクスの時間依存性に関する数値計算結果を示す。 総スピンの緩和は、磁性材料に対するランダウ・リフシッツ・ギルベルト方程式の量子バージョンによって説明される。 また、全スピンが完全に緩和された後も2スピン複合モードが振動し続けることも見いだした。 その結果,複合モードの存在による2スピン相関は散逸に対して安定であることがわかった。 相関が維持されるメカニズムを考察する。

We derive damping equations of motion for interacting two-spin states from a spin-boson model in order to examine qubit dynamics in quantum computers. On the basis of the composite operator method, we develop the Caldeira-Leggett approach for open quantum systems so that the entanglement dynamics originated from the two-spin correlation can be taken. We demonstrate numerical results for time dependence on the two-spin dynamics. We find that the relaxation of the total spin is described by a quantum version of the Landau-Lifshitz-Gilbert equation for magnetic materials. We also find that a two-spin composite mode keeps oscillation even after the total spin has been fully relaxed. We thus conclude that the two-spin correlation due to the presence of the composite mode is stable against dissipation. We consider the mechanism of why the correlation is maintained.
翻訳日:2023-01-20 08:56:21 公開日:2022-11-04
# 量子量列挙器とテンソルネットワーク

Quantum weight enumerators and tensor networks ( http://arxiv.org/abs/2211.02756v1 )

ライセンス: Link先を確認
ChunJun Cao and Brad Lackey(参考訳) 本稿では,テンソルネットワーク構造の解析における重み付き列挙子の利用,特に最近導入された量子レゴフレームワークについて検討する。 量子重み列挙子の概念をいわゆるテンソル列挙子に拡張し、テンソルネットワーク上のトレース演算がテンソル列挙子上のトレース演算と互換性があることを証明する。 これにより、テンソルネットワークメソッドによって構築されたような大きな符号の量子量列挙子をより効率的に計算することができる。 また、テンソル列挙子に対するMacWilliams恒等式の類似も提供する。

We examine the use of weight enumerators for analyzing tensor network constructions, and specifically the quantum lego framework recently introduced. We extend the notion of quantum weight enumerators to so-called tensor enumerators, and prove that the trace operation on tensor networks is compatible with a trace operation on tensor enumerators. This allows us to compute quantum weight enumerators of larger codes such as the ones constructed through tensor network methods more efficiently. We also provide an analogue of the MacWilliams identity for tensor enumerators.
翻訳日:2023-01-20 08:49:29 公開日:2022-11-04
# アナログ量子変分埋め込み分類器

An analog quantum variational embedding classifier ( http://arxiv.org/abs/2211.02748v1 )

ライセンス: Link先を確認
Rui Yang, Samuel Bosch, Bobak Kiani, Seth Lloyd, and Adrian Lupascu(参考訳) 量子機械学習は、人工知能に強力なアルゴリズムを提供する可能性がある。 量子機械学習における量子優位の追求は、活発な研究分野である。 現在のノイズの多い中間スケール量子(nisq)コンピュータでは、様々な量子古典ハイブリッドアルゴリズムが提案されている。 このようなハイブリッドアルゴリズムの1つは、古典的ニューラルネットワークとパラメータ化ゲートベースの量子回路からなるゲートベース変分埋め込み分類器である。 我々はアナログ量子コンピュータに基づく量子変分埋め込み分類器を提案し、制御信号は時間とともに連続的に変化する。 このアルゴリズムでは,古典的データは線形変換により,アナログ量子コンピュータの時間変化ハミルトニアンのパラメータに変換される。 非線形分類問題に必要な非線形性は、ハミルトニアンの制御パラメータに対する最終量子状態の非線形依存を通じて、アナログ量子コンピュータによって純粋に与えられる。 我々は,同心円やMNIST桁などの線形分離不能なデータセットに対して,二進分類と多進分類のアルゴリズムの有効性を示す数値シミュレーションを行った。 我々のアルゴリズムは古典線形分類器よりも優れている。 量子ビット数を増加させることで、分類器の性能を向上できることがわかりました。 本アルゴリズムは,現在の量子アニーラを用いた実用的な機械学習問題を解く可能性を示し,量子機械学習における量子アドバンテージを探求する上で有用である。

Quantum machine learning has the potential to provide powerful algorithms for artificial intelligence. The pursuit of quantum advantage in quantum machine learning is an active area of research. For current noisy, intermediate-scale quantum (NISQ) computers, various quantum-classical hybrid algorithms have been proposed. One such previously proposed hybrid algorithm is a gate-based variational embedding classifier, which is composed of a classical neural network and a parameterized gate-based quantum circuit. We propose a quantum variational embedding classifier based on an analog quantum computer, where control signals vary continuously in time: our particular focus is implementation using quantum annealers. In our algorithm, the classical data is transformed into the parameters of the time-varying Hamiltonian of the analog quantum computer by a linear transformation. The nonlinearity needed for a nonlinear classification problem is purely provided by the analog quantum computer, through the nonlinear dependence of the final quantum state on the control parameters of the Hamiltonian. We performed numerical simulations that demonstrate the effectiveness of our algorithm for performing binary and multi-class classification on linearly inseparable datasets such as concentric circles and MNIST digits. Our algorithm performs much better than classical linear classifiers. We find that the performance of our classifier can be increased by increasing the number of qubits. Our algorithm presents the possibility to use current quantum annealers for solving practical machine-learning problems and it could also be useful to explore quantum advantage in quantum machine learning.
翻訳日:2023-01-20 08:49:05 公開日:2022-11-04
# 量子ワーク容量

Quantum Work Capacitances ( http://arxiv.org/abs/2211.02685v1 )

ライセンス: Link先を確認
Salvatore Tirone, Raffaele Salvia, Stefano Chessa, Vittorio Giovannetti(参考訳) 電池の充電プロセスを高速化するために量子効果を利用する可能性は非常に研究されている。 これらのアイデアを動作デバイスに伝達するためには, 環境騒音に接する場合に, 量子電池素子の記憶相の安定性を評価することが重要である。 本研究では,同一かつ独立な要素(量子セルまたはqセル)の大規模なコレクションによって形成される量子電池モデルから有用なエネルギーを回収する上で,最大限の効率を評価できる一連の運用上よく定義されたメリットの数値(作業容量と最大漸近的な作業/エネルギー比)を導入することで,この問題を定式化する。 このような量の明示的な評価は、ノイズの強調と脱分極を通じてエネルギー貯蔵システムが進行する場合に示される。

The possibility of using quantum effects to speed up the charging processes of batteries have been vastly investigated. In order to traslate these ideas into working devices it is however crucial to assess the stability of the storage phase in the quantum battery elements when they are in contact with environmental noise. In this work we formalize this problem introducing a series of operationally well defined figures of merit (the work capacitances and the Maximal Asymptotic Work/Energy Ratios) which gauge the highest efficiency one can attain in recovering useful energy from quantum battery models that are formed by large collections of identical and independent elements (quantum cells or q-cells). Explicit evaluations of such quantities are presented for the case where the energy storing system undergoes through dephasing and depolarizing noise.
翻訳日:2023-01-20 08:48:20 公開日:2022-11-04
# スカラー湯川カップリングのディジタル量子シミュレーション:IBM Q上の相互作用クエンチによるダイナミクス

Digital quantum simulation of scalar Yukawa coupling: Dynamics following an interaction quench on IBM Q ( http://arxiv.org/abs/2211.02684v1 )

ライセンス: Link先を確認
Thierry N. Kaldenbach, Matthias Heller, Gernot Alber, and Vladimir M. Stojanovic(参考訳) Motivated by the dearth of studies pertaining to the digital quantum simulation of coupled fermion-boson systems and the revitalized interest in simulating models from medium- and high-energy physics, we investigate the nonequilibrium dynamics following a Yukawa-interaction quench on IBM Q. After adopting -- due to current quantum-hardware limitations -- a single-site (zero-dimensional) version of the scalar Yukawa-coupling model as our point of departure, we design low-depth quantum circuits that emulate its dynamics with up to three bosons. 特に、高度な回路最適化技術を用いて、1ボソンの場合、シミュレーション時間に関係なく2つのCNOTゲートしか持たない浅い(定数深度)回路を設計する回路圧縮を実演する。 このような圧縮が不可能な3ボソンのケースでは、1つのトロッターステップが8個のCNOTを含む回路を設計し、この数はジェネリック3量子ゲートの最大CNOTコストよりはるかに低い。 また,巡回セールスマン問題との類似性を用いて,より高いボソン数切断のシステムダイナミクスをエミュレートする量子回路のcnotコスト推定も提供する。 最後に, 1-および3-ボソンのケースに対する提案回路に基づいて, クエンチ後の任意の時間に, 期待するフェルミオン数とボソン数を評価することにより, いくつかの初期状態のシステムダイナミクスを定量化する。 従来のベンチマークで得られた正確な結果と良い一致を見出すことで、結果を検証した。

Motivated by the dearth of studies pertaining to the digital quantum simulation of coupled fermion-boson systems and the revitalized interest in simulating models from medium- and high-energy physics, we investigate the nonequilibrium dynamics following a Yukawa-interaction quench on IBM Q. After adopting -- due to current quantum-hardware limitations -- a single-site (zero-dimensional) version of the scalar Yukawa-coupling model as our point of departure, we design low-depth quantum circuits that emulate its dynamics with up to three bosons. In particular, using advanced circuit-optimization techniques, in the one-boson case we demonstrate circuit compression, i.e. design a shallow (constant-depth) circuit that contains only two CNOT gates, regardless of the total simulation time. In the three-boson case -- where such a compression is not possible -- we design a circuit in which one Trotter step entails 8 CNOTs, this number being far below the maximal CNOT-cost of a generic three-qubit gate. Using an analogy with the travelling salesman problem, we also provide a CNOT-cost estimate for quantum circuits emulating the system dynamics for higher boson-number truncations. Finally, based on the proposed circuits for one- and three-boson cases, we quantify the system dynamics for several different initial states by evaluating the expected fermion- and boson numbers at an arbitrary time after the quench. We validate our results by finding their good agreement with the exact ones obtained through classical benchmarking.
翻訳日:2023-01-20 08:48:04 公開日:2022-11-04
# 動的臨界現象の量子ノイズ分光

Quantum noise spectroscopy of dynamical critical phenomena ( http://arxiv.org/abs/2211.02663v1 )

ライセンス: Link先を確認
Francisco Machado, Eugene A. Demler, Norman Y. Yao, Shubhayu Chatterjee(参考訳) 物質の異なる相間の遷移は臨界点付近の揺らぎの性質によって特徴づけられる。 ノイズスペクトロスコピーは相転移の存在を診断できるだけでなく、その臨界性の基本的な性質も決定できることを示した。 特に、デコヒーレンスプロファイルのスケーリング崩壊を分析することによって、遷移の臨界指数を直接抽出し、その普遍性クラスを識別することができる。 本手法は自然に保存則の存在を捉え,古典相転移と量子相転移を区別する。 量子磁性の文脈において,提案手法は既存の手法を補完し,二次元磁性物質の尋問に最適化された新しいツールセットを提供する。

The transition between distinct phases of matter is characterized by the nature of fluctuations near the critical point. We demonstrate that noise spectroscopy can not only diagnose the presence of a phase transition, but can also determine fundamental properties of its criticality. In particular, by analyzing a scaling collapse of the decoherence profile, one can directly extract the critical exponents of the transition and identify its universality class. Our approach naturally captures the presence of conservation laws and distinguishes between classical and quantum phase transitions. In the context of quantum magnetism, our proposal complements existing techniques and provides a novel toolset optimized for interrogating two-dimensional magnetic materials.
翻訳日:2023-01-20 08:47:37 公開日:2022-11-04
# 非摂動過程の摂動的理解と量子化対古典化

Perturbative Understanding of Non-Perturbative Processes and Quantumization versus Classicalization ( http://arxiv.org/abs/2211.02618v1 )

ライセンス: Link先を確認
Gia Dvali and Lukas Eisemann(参考訳) 古典的背景の量子進化の研究のいくつかの例では、システムを半古典的に扱う価格で非摂動的手法に頼ることは避けられないと考えられている。 背景が多粒子状態として解決される完全量子摂動処理により,半古典的非摂動的な結果が回復し,それを超えることができることを示す。 2つのスカラーの理論において古典場による粒子生成を再現し、高多重性の散乱過程を用いてスカラーqedを再現する。 多粒子処理はまた、我々が量子化と呼ぶ単一過程がなぜ古典状態から量子状態へと指数関数的に抑制されるのかの透明な図を示し、一方反対の過程である古典化は、古典状態のミクロ状態の縮退が高ければ素早く行うことができる。 例えば、n$-graviton portrait of a black hole: ブラックホールは、高エネルギー粒子の衝突における2\to n$の古典化過程によって効率的に形成することができるが、崩壊した$n \to 2$による量子化は指数関数的に抑制される。

In some instances of study of quantum evolution of classical backgrounds it is considered inevitable to resort to non-perturbative methods at the price of treating the system semiclassically. We show that a fully quantum perturbative treatment, in which the background is resolved as a multi-particle state, recovers the semiclassical non-perturbative results and allows going beyond. We reproduce particle-creation by a classical field in a theory of two scalars as well as in scalar QED in terms of scattering processes of high multiplicity. The multi-particle treatment also gives a transparent picture of why a single-process transition from a classical to a quantum state, which we call quantumization, is exponentially suppressed, whereas the opposite process, classicalization, can take place swiftly if the microstate degeneracy of the classical state is high. An example is provided by the $N$-graviton portrait of a black hole: a black hole can form efficiently via a $2\to N$ classicalization process in the collision of high-energy particles but its quantumization via a decay $N \to 2$ is exponentially suppressed.
翻訳日:2023-01-20 08:47:22 公開日:2022-11-04
# MIP*=RE

MIP*=RE ( http://arxiv.org/abs/2001.04383v3 )

ライセンス: Link先を確認
Zhengfeng Ji, Anand Natarajan, Thomas Vidick, John Wright, Henry Yuen(参考訳) 古典的検証器によって決定できる言語のクラス MIP* が、複数の全能量子プロバーサ共有エンタングルメントと相互作用し、再帰的に可算な言語のクラス RE に等しいことを示す。 我々の証明は、(Natarajan and Vidick, FOCS 2018)の量子的低次テストと(Ji, et al., 2020)の古典的低次テストに基づいて、(Natarajan and Wright, FOCS 2019)の最近の発展を統合し、(Fitzsimons et al., STOC 2019)の再帰的圧縮フレームワークと組み合わせた。 我々の結果の直接的な副産物は、ハルティング問題から、2人プレイヤの非局所ゲームが1ドルまたは少なくとも1/2ドルの価値を絡めているかを決定する問題への効率的な還元が存在することである。 既知の接続を用いて、絡み合った値の不決定性はツィレルソンの問題に対する負の答えを意味する: 明示的な例を提供することで、量子テンソル積の相関の集合の閉包$C_{qa}$が、量子交換相関の集合$C_{qc}$に厳密に含まれていることを示す。 2012年の (fritz, rev. math. phys. 2012) と (junge et al., j. math. phys. 2011) の研究に続いて、この結果はフォン・ノイマン代数の理論からconnesの埋め込み予想を反論する。

We show that the class MIP* of languages that can be decided by a classical verifier interacting with multiple all-powerful quantum provers sharing entanglement is equal to the class RE of recursively enumerable languages. Our proof builds upon the quantum low-degree test of (Natarajan and Vidick, FOCS 2018) and the classical low-individual degree test of (Ji, et al., 2020) by integrating recent developments from (Natarajan and Wright, FOCS 2019) and combining them with the recursive compression framework of (Fitzsimons et al., STOC 2019). An immediate byproduct of our result is that there is an efficient reduction from the Halting Problem to the problem of deciding whether a two-player nonlocal game has entangled value $1$ or at most $1/2$. Using a known connection, undecidability of the entangled value implies a negative answer to Tsirelson's problem: we show, by providing an explicit example, that the closure $C_{qa}$ of the set of quantum tensor product correlations is strictly included in the set $C_{qc}$ of quantum commuting correlations. Following work of (Fritz, Rev. Math. Phys. 2012) and (Junge et al., J. Math. Phys. 2011) our results provide a refutation of Connes' embedding conjecture from the theory of von Neumann algebras.
翻訳日:2023-01-12 00:16:49 公開日:2022-11-04
# 大規模無線周波数広帯域信号検出と認識

Large Scale Radio Frequency Wideband Signal Detection & Recognition ( http://arxiv.org/abs/2211.10335v1 )

ライセンス: Link先を確認
Luke Boegner and Garrett Vanhoy and Phillip Vallance and Manbir Gulati and Dresden Feitzinger and Bradley Comar and Robert D. Miller(参考訳) 無線周波数(RF)領域への深層学習の適用は、関心の信号が検出され、広帯域キャプチャーから抽出された後、狭帯域信号分類のタスクに大きく集中している。 広帯域演算による広範な研究を促進するために,約200万個の信号を含む53種類の信号から550万個の合成合成サンプルからなるWBSig53(WBSig53)データセットを提案する。 我々は、WBSig53データセットのオープンソースでカスタマイズ可能な生成、拡張、処理のためのTorchSig信号処理機械学習ツールキットを拡張した。 我々は, wbsig53データセットを用いて, state of the art (sota) 畳み込みニューラルネットワークとトランスフォーマーを用いて実験を行う。 本研究では,入力データに含まれるすべての信号の存在,時間,周波数を検出するとともに,入力データに存在する全ての信号の存在,時間,周波数,変調ファミリーをネットワークが検出する信号認識タスクの性能について検討する。 これらのタスクに対する2つの主要なアプローチは、複雑な入力スペクトログラムで動作するセグメンテーションネットワークとオブジェクト検出ネットワークによって評価される。 最後に,ネットワークの平均精度,平均リコール,推論速度の観点から,様々なアプローチの比較分析を行った。

Applications of deep learning to the radio frequency (RF) domain have largely concentrated on the task of narrowband signal classification after the signals of interest have already been detected and extracted from a wideband capture. To encourage broader research with wideband operations, we introduce the WidebandSig53 (WBSig53) dataset which consists of 550 thousand synthetically-generated samples from 53 different signal classes containing approximately 2 million unique signals. We extend the TorchSig signal processing machine learning toolkit for open-source and customizable generation, augmentation, and processing of the WBSig53 dataset. We conduct experiments using state of the art (SoTA) convolutional neural networks and transformers with the WBSig53 dataset. We investigate the performance of signal detection tasks, i.e. detect the presence, time, and frequency of all signals present in the input data, as well as the performance of signal recognition tasks, where networks detect the presence, time, frequency, and modulation family of all signals present in the input data. Two main approaches to these tasks are evaluated with segmentation networks and object detection networks operating on complex input spectrograms. Finally, we conduct comparative analysis of the various approaches in terms of the networks' mean average precision, mean average recall, and the speed of inference.
翻訳日:2022-11-27 13:36:53 公開日:2022-11-04
# 構造的健康モニタリングのための深層学習 : 遺産構造への応用

Deep learning for structural health monitoring: An application to heritage structures ( http://arxiv.org/abs/2211.10351v1 )

ライセンス: Link先を確認
Fabio Carrara, Fabrizio Falchi, Maria Girardi, Nicola Messina, Cristina Padovani, Daniele Pellegrini(参考訳) 近年の数値手法, コンピュータパワー, 監視技術の進歩により, 地震環境騒音は古い建物の構造的挙動に関する貴重な情報を提供する。 人為的・環境的な情報源による振動の測定と、建物の動的識別と構造的健康モニタリングの使用により、地震学者、技術者、数学者、計算機科学者が関与する新たな分野が誕生した。 本研究では,最近のディープラーニング技術を用いて時系列予測を行い,ルッカのサンフレディアーノ・ベル・タワーで実施した長期監視活動中に記録された大規模データセットの異常を検証・検出する。 問題を教師なし異常検出タスクとしてフレーム化し,時間的融合トランスフォーマを訓練し,構造の正常なダイナミクスを学習する。 次に,予測周波数と観測周波数の差を見て異常を検出する。

Thanks to recent advancements in numerical methods, computer power, and monitoring technology, seismic ambient noise provides precious information about the structural behavior of old buildings. The measurement of the vibrations produced by anthropic and environmental sources and their use for dynamic identification and structural health monitoring of buildings initiated an emerging, cross-disciplinary field engaging seismologists, engineers, mathematicians, and computer scientists. In this work, we employ recent deep learning techniques for time-series forecasting to inspect and detect anomalies in the large dataset recorded during a long-term monitoring campaign conducted on the San Frediano bell tower in Lucca. We frame the problem as an unsupervised anomaly detection task and train a Temporal Fusion Transformer to learn the normal dynamics of the structure. We then detect the anomalies by looking at the differences between the predicted and observed frequencies.
翻訳日:2022-11-27 13:36:32 公開日:2022-11-04
# ドライ脳波電極とニューラルネットワークを用いた高速シングルトリアルオンラインERPを用いた脳-コンピュータインタフェースの実現に向けて : 実験的検討

Towards Fast Single-Trial Online ERP based Brain-Computer Interface using dry EEG electrodes and neural networks: a pilot study ( http://arxiv.org/abs/2211.10352v1 )

ライセンス: Link先を確認
Okba Bekhelifi, Nasr-Eddine Berrached(参考訳) イベント関連電位(erp)ベースの脳-コンピューターインタフェース(bci)の綴りを高速化するには、短時間で強い脳反応を誘発する必要があるが、そのような誘発電位の正確な分類は依然として困難であり、信号処理や機械学習技術に厳しい制約が課されている。 近年の刺激提示と深層学習の進歩は,これらのシステムの有効性を著しく向上させる有望な方向を示した。本研究では,乾燥電極の硬度設定における畳み込みニューラルネットワークと高速点滅単眼ERPベースのBCIを用いたカラー逆顔刺激と分類の組み合わせを提案する。 2人の被験者が90%の正確なシンボル検出バーを通過し、60ビット/分以上の転送速度を達成し、ERPベースのBCIの実用性を改善するためのアプローチの可能性を示した。

Speeding up the spelling in event-related potentials (ERP) based Brain-Computer Interfaces (BCI) requires eliciting strong brain responses in a short span of time, as much as the accurate classification of such evoked potentials remains challenging and imposes hard constraints for signal processing and machine learning techniques. Recent advances in stimulus presentation and deep learning showcased a promising direction in significantly improving the efficacy of those systems, in this study we propose the combination of colored inverted face stimulation with classification using convolutional neural networks in the hard settings of dry electrodes and fast flashing single-trial ERP-based BCI. The high online accuracy achieved, with two subjects passing the 90 percent correct symbol detection bar and a transfer rate above 60 bits per minute, demonstrates the approach potential in improving the practicality of ERP based BCIs.
翻訳日:2022-11-27 13:36:15 公開日:2022-11-04
# Tensor Data Platform: AI中心のデータベースシステムを目指して

The Tensor Data Platform: Towards an AI-centric Database System ( http://arxiv.org/abs/2211.02753v1 )

ライセンス: Link先を確認
Apurva Gandhi, Yuki Asada, Victor Fu, Advitya Gemawat, Lihao Zhang, Rathijit Sen, Carlo Curino, Jes\'us Camacho-Rodr\'iguez, Matteo Interlandi(参考訳) データベースエンジンは歴史的にデータ処理の多くの革新を吸収し、グラフデータ、XML、オブジェクト指向、テキストなどの処理に機能を追加してきた。 この論文では、AIでも同じことをする時が来たとしますが、ツイストで! 既存のアプローチでは、データベースを外部のMLツールと統合することでこれを実現しようとしていますが、本論文では、真にAI中心のデータベースを実現するには、DBMSエンジンのコアをリレーショナルからテンソル抽象化に移行する必要があります。 これにより、(1)画像、ビデオ、音声、テキストなどのマルチモーダルデータ処理をサポートし、(2)hwとランタイムにおけるイノベーションの長所を活用し、(3)自動微分を利用してタスクの実行を学習できる新しいタイプの「訓練可能な」クエリを可能にする。 上記のシナリオをサポートするため、私たちはTDPを紹介します。これは、従来の作業マッピングクエリをテンソルにマッピングするシステムです。 テンソルランタイムとの緊密な統合により、TDPは、マルチモーダルデータへのアクセスと自動微分を必要とする新しいシナリオの広範なカバレッジを提供することができる。

Database engines have historically absorbed many of the innovations in data processing, adding features to process graph data, XML, object oriented, and text among many others. In this paper, we make the case that it is time to do the same for AI -- but with a twist! While existing approaches have tried to achieve this by integrating databases with external ML tools, in this paper we claim that achieving a truly AI-centric database requires moving the DBMS engine, at its core, from a relational to a tensor abstraction. This allows us to: (1) support multi-modal data processing such as images, videos, audio, text as well as relational; (2) leverage the wellspring of innovation in HW and runtimes for tensor computation; and (3) exploit automatic differentiation to enable a novel class of "trainable" queries that can learn to perform a task. To support the above scenarios, we introduce TDP: a system that builds upon our prior work mapping relational queries to tensors. Thanks to a tighter integration with the tensor runtime, TDP is able to provide a broader coverage of new emerging scenarios requiring access to multi-modal data and automatic differentiation.
翻訳日:2022-11-27 13:25:16 公開日:2022-11-04
# BERT-Deep CNN: COVID-19ツイートの感情分析の最先端

BERT-Deep CNN: State-of-the-Art for Sentiment Analysis of COVID-19 Tweets ( http://arxiv.org/abs/2211.09733v1 )

ライセンス: Link先を確認
Javad Hassannataj Joloudari, Sadiq Hussain, Mohammad Ali Nematollahi, Rouhollah Bagheri, Fatemeh Fazl, Roohallah Alizadehsani, Reza Lashgari(参考訳) 情報の流れはソーシャルメディア技術の急速な発展によって加速されている。 コロナウイルス(COVID-19)の流行により、人口に大きな社会的・心理的影響を及ぼした。 新型コロナウイルスのパンデミックは、ソーシャルメディアプラットフォーム上で議論されている出来事の1つだ。 このパンデミックから社会を守るためには、ソーシャルメディア上で人々の感情を研究することが重要である。 その結果、ツイートのようなテキストの感情分析は依然として困難である。 感性分析は強力なテキスト分析ツールである。 非構造化データから意見や感情を自動的に検出し分析する。 幅広い情報源からのテキストを感情分析ツールで分析し、電子メール、調査、レビュー、ソーシャルメディア投稿、ウェブ記事など、それらから意味を抽出する。 感情を評価するために、自然言語処理(NLP)と機械学習技術を使用し、文やフレーズの実体、話題、テーマ、カテゴリに重みを割り当てる。 機械学習ツールは、テキスト中の感情の例を調べることによって、人間の介入なしに感情を検出する方法を学ぶ。 パンデミックの状況では、ソーシャルメディアのテキストを分析して感情的傾向を明らかにすることは、社会のニーズをよりよく理解し、将来のトレンドを予測するのに非常に役立ちます。 我々は,最先端のbertモデルと深層cnnモデルを用いて,ソーシャルメディアを通じて新型コロナウイルスのパンデミックに対する社会の認識を研究する。 感情分析における他の深層モデルよりもBERTモデルの方が優れていることは明らかであり,本論文で述べた様々な研究結果との比較から結論付けることができる。

The free flow of information has been accelerated by the rapid development of social media technology. There has been a significant social and psychological impact on the population due to the outbreak of Coronavirus disease (COVID-19). The COVID-19 pandemic is one of the current events being discussed on social media platforms. In order to safeguard societies from this pandemic, studying people's emotions on social media is crucial. As a result of their particular characteristics, sentiment analysis of texts like tweets remains challenging. Sentiment analysis is a powerful text analysis tool. It automatically detects and analyzes opinions and emotions from unstructured data. Texts from a wide range of sources are examined by a sentiment analysis tool, which extracts meaning from them, including emails, surveys, reviews, social media posts, and web articles. To evaluate sentiments, natural language processing (NLP) and machine learning techniques are used, which assign weights to entities, topics, themes, and categories in sentences or phrases. Machine learning tools learn how to detect sentiment without human intervention by examining examples of emotions in text. In a pandemic situation, analyzing social media texts to uncover sentimental trends can be very helpful in gaining a better understanding of society's needs and predicting future trends. We intend to study society's perception of the COVID-19 pandemic through social media using state-of-the-art BERT and Deep CNN models. The superiority of BERT models over other deep models in sentiment analysis is evident and can be concluded from the comparison of the various research studies mentioned in this article.
翻訳日:2022-11-20 13:52:08 公開日:2022-11-04
# 大規模金融ソーシャルネットワーク上での行動情報集約ネットワーク(BIAN)によるフラクレントユーザ検出

Fradulent User Detection Via Behavior Information Aggregation Network (BIAN) On Large-Scale Financial Social Network ( http://arxiv.org/abs/2211.06315v1 )

ライセンス: Link先を確認
Hanyi Hu, Long Zhang, Shuan Li, Zhi Liu, Yao Yang, Chongning Na(参考訳) 金融詐欺は毎年数十億ドルの損失を発生させるが、ソーシャルネットワークにおけるユーザープロフィールと行動を同時に考慮した不正検出の効率的なアプローチに欠ける。 ソーシャルネットワークはグラフ構造を形成し、ディープラーニングの有望な研究領域であるグラフニューラルネットワーク(GNN)は非ユークリッドグラフデータをシームレスに処理することができる。 金融詐欺検出においては、取引や貸付などのユーザプロファイルや行動、社会的接続性を解析することにより、犯罪者の態様を識別することができる。 現在、ほとんどのGNNは、隣人のエッジ属性(つまり振る舞い)が無視されるため、重要な隣人を選択することができない。 本稿では,ユーザ行動と他のユーザ機能を組み合わせた新たな行動情報集約ネットワーク(bian)を提案する。 Graph Attention Networks (GAT) や Graph Transformer Networks (GTN) といった近縁な「関係性」とは違って、近隣のエッジ属性分布、すなわち金融ソーシャルネットワークのユーザ行動に基づいて隣人を集約する。 実世界の大規模金融ソーシャルネットワークデータセットであるDGraphの実験結果は、BIANがAUROCの10.2%の利益を得たことを示している。

Financial frauds cause billions of losses annually and yet it lacks efficient approaches in detecting frauds considering user profile and their behaviors simultaneously in social network . A social network forms a graph structure whilst Graph neural networks (GNN), a promising research domain in Deep Learning, can seamlessly process non-Euclidean graph data . In financial fraud detection, the modus operandi of criminals can be identified by analyzing user profile and their behaviors such as transaction, loaning etc. as well as their social connectivity. Currently, most GNNs are incapable of selecting important neighbors since the neighbors' edge attributes (i.e., behaviors) are ignored. In this paper, we propose a novel behavior information aggregation network (BIAN) to combine the user behaviors with other user features. Different from its close "relatives" such as Graph Attention Networks (GAT) and Graph Transformer Networks (GTN), it aggregates neighbors based on neighboring edge attribute distribution, namely, user behaviors in financial social network. The experimental results on a real-world large-scale financial social network dataset, DGraph, show that BIAN obtains the 10.2% gain in AUROC comparing with the State-Of-The-Art models.
翻訳日:2022-11-20 13:51:44 公開日:2022-11-04
# リニアプログラミングのチュートリアルと実践:サプライチェーンと輸送ロジスティックスにおける最適化問題

Tutorial and Practice in Linear Programming: Optimization Problems in Supply Chain and Transport Logistics ( http://arxiv.org/abs/2211.07345v1 )

ライセンス: Link先を確認
Raj Bridgelall(参考訳) このチュートリアルは、リニアプログラミングの基礎と実践を理解しようとする学生と実践者のためのandragogical guideである。 実験は,サプライチェーン管理と輸送ロジスティクスにおける空間分析を重視して,古典的最適化問題の解法を示す。 すべてのエクササイズはPythonプログラムとそれを解決するために使用される最適化ライブラリを表示する。 第1章では線形プログラミングの重要な概念を紹介し、学生や実践者がそれぞれの最適化問題を設定するのを助ける新しい認知フレームワークに寄与する。 cognitive frameworkは、決定変数、制約、目的関数、変数境界を最適化ソフトウェアに直接適用するためのフォーマットで整理する。 第2章では,デリバリとサービス計画のロジスティックスの観点から,モビリティ最適化の問題(ネットワークにおける最短経路と最小コストツアー)を2つ紹介する。 第3章では,空間最適化の4つの問題(近距離カバレッジ,フローキャプチャ,ゾーンの不均一性,サービスカバレッジ)を紹介し,マップの最適化ソリューションを視覚化するワークフローに寄与する。 このワークフローは、自由地理情報システム(GIS)プログラムQGISとGeoDAを用いて、地図から決定変数を生成する。 第4章では,空間的ロジスティック問題(空間分布,フロー最大化,倉庫配置最適化)の3つのタイプを紹介し,ソフトウェアにおける認知的枠組みをスケールアップしてソリューションに到達する方法をデモする。 最終章では、学んだ教訓を要約し、学生や実践者がPhytonプログラムやGISワークフローを修正して、自身の最適化問題を解決し、結果を視覚化する方法についての洞察を提供する。

This tutorial is an andragogical guide for students and practitioners seeking to understand the fundamentals and practice of linear programming. The exercises demonstrate how to solve classical optimization problems with an emphasis on spatial analysis in supply chain management and transport logistics. All exercises display the Python programs and optimization libraries used to solve them. The first chapter introduces key concepts in linear programming and contributes a new cognitive framework to help students and practitioners set up each optimization problem. The cognitive framework organizes the decision variables, constraints, the objective function, and variable bounds in a format for direct application to optimization software. The second chapter introduces two types of mobility optimization problems (shortest path in a network and minimum cost tour) in the context of delivery and service planning logistics. The third chapter introduces four types of spatial optimization problems (neighborhood coverage, flow capturing, zone heterogeneity, service coverage) and contributes a workflow to visualize the optimized solutions in maps. The workflow creates decision variables from maps by using the free geographic information systems (GIS) programs QGIS and GeoDA. The fourth chapter introduces three types of spatial logistical problems (spatial distribution, flow maximization, warehouse location optimization) and demonstrates how to scale the cognitive framework in software to reach solutions. The final chapter summarizes lessons learned and provides insights about how students and practitioners can modify the Phyton programs and GIS workflows to solve their own optimization problem and visualize the results.
翻訳日:2022-11-20 13:51:21 公開日:2022-11-04
# 動作スコア埋め込み脳エンコーダネットワークによる安静状態fmriを用いたアルツハイマー病分類の改善

Behavior Score-Embedded Brain Encoder Network for Improved Classification of Alzheimer Disease Using Resting State fMRI ( http://arxiv.org/abs/2211.09735v1 )

ライセンス: Link先を確認
Wan-Ting Hsieh, Jeremy Lefort-Besnard, Hao-Chun Yang, Li-Wei Kuo, Chi-Chun Lee(参考訳) 認知症の発症を正確に検出する能力は、疾患の治療において重要である。 臨床的には、アルツハイマー病(AD)とミルド認知障害(MCI)の診断は、心理学的検査とポジトロン・エミッション・トモグラフィ(PET)や解剖学的MRI(MRI)などの脳画像の総合的な評価に基づいている。 本稿では,2つの異なるデータセットを用いた行動スコア埋め込み型エンコーダネットワーク(BSEN)を提案する。 BSENは、MiniMental State Examination (MMSE) と Clinical Dementia Rating (CDR) の行動スコアを用いて、対照的な損失を共同最適化した3次元畳み込み自己エンコーダ構造に基づいている。 提案するBSENを用いた分類は, 総合的認識精度59.44%(AD, MCI, およびHealthy Control)を達成し, 健康管理(HC)患者とAD患者の間で最も差別的な領域を抽出した。

The ability to accurately detect onset of dementia is important in the treatment of the disease. Clinically, the diagnosis of Alzheimer Disease (AD) and Mild Cognitive Impairment (MCI) patients are based on an integrated assessment of psychological tests and brain imaging such as positron emission tomography (PET) and anatomical magnetic resonance imaging (MRI). In this work using two different datasets, we propose a behavior score-embedded encoder network (BSEN) that integrates regularly adminstrated psychological tests information into the encoding procedure of representing subject's restingstate fMRI data for automatic classification tasks. BSEN is based on a 3D convolutional autoencoder structure with contrastive loss jointly optimized using behavior scores from MiniMental State Examination (MMSE) and Clinical Dementia Rating (CDR). Our proposed classification framework of using BSEN achieved an overall recognition accuracy of 59.44% (3-class classification: AD, MCI and Healthy Control), and we further extracted the most discriminative regions between healthy control (HC) and AD patients.
翻訳日:2022-11-20 13:49:17 公開日:2022-11-04
# logic explainedネットワークのテキスト分類への拡張

Extending Logic Explained Networks to Text Classification ( http://arxiv.org/abs/2211.09732v1 )

ライセンス: Link先を確認
Rishabh Jain, Gabriele Ciravegna, Pietro Barbiero, Francesco Giannini, Davide Buffelli, Pietro Lio(参考訳) 近年,論理記述型ニューラルネットワーク (LEN) は,その予測に論理的説明を与えるニューラルネットワークとして提案されている。 しかし、これらのモデルは視覚や表のデータにのみ適用されており、主にグローバルな説明の生成を好んでおり、地元のモデルはうるさくて冗長な傾向にある。 これらの理由から,入力語を摂動することで局所的な説明を改善するLENpを提案し,テキスト分類で検証する。 私たちの結果は i)LENpは、感度と忠実性の点でLIMEよりも優れた局所的説明を提供し、 (II)LIMEが提供する特徴評価よりも,論理的説明の方が有用で,ユーザフレンドリである。

Recently, Logic Explained Networks (LENs) have been proposed as explainable-by-design neural models providing logic explanations for their predictions. However, these models have only been applied to vision and tabular data, and they mostly favour the generation of global explanations, while local ones tend to be noisy and verbose. For these reasons, we propose LENp, improving local explanations by perturbing input words, and we test it on text classification. Our results show that (i) LENp provides better local explanations than LIME in terms of sensitivity and faithfulness, and (ii) logic explanations are more useful and user-friendly than feature scoring provided by LIME as attested by a human survey.
翻訳日:2022-11-20 13:42:39 公開日:2022-11-04
# 医療転写解析のための統合多言語モデル

Federated Multilingual Models for Medical Transcript Analysis ( http://arxiv.org/abs/2211.09722v1 )

ライセンス: Link先を確認
Andre Manoel, Mirian Hipolito Garcia, Tal Baumel, Shize Su, Jialei Chen, Dan Miller, Danny Karmon, Robert Sim, Dimitrios Dimitriadis(参考訳) フェデレーション学習(federated learning、fl)は、モデルトレーナーが複数の分散データソースにまたがってモデルをトレーニングすることで、より多くのデータサンプルにアクセスできるようにする、新しい機械学習アプローチである。 このようなトレーニングされたモデルは、単一のデータソースでトレーニングした場合にできること以上のパフォーマンスを実現することができる。 FLの約束の一部として、トレーニングデータはすべて中央に送信されず、機密データがローカルおよびプライベートのままであることを保証する。 これらの特徴により、FLは医療における大規模アプリケーションに完全に適合し、さまざまなコンプライアンス制約がデータの処理、処理、保存の方法を制限する。 フェデレーション学習の明らかなメリットにもかかわらず、ローカルデータ分布の多様性は重大な課題となり、多言語データプロバイダの場合、そのような課題はさらに顕著である。 本稿では,医療機関タグ付けなどの下流タスクの微調整に適した大規模多言語モデルを訓練するための連合学習システムを提案する。 我々の研究は、複数の高度に異質なデータプロバイダにまたがるトレーニングが可能な、最初のプロダクションスケールシステムのひとつであり、パブリックデータを使った中央トレーニングでは達成できないレベルの精度を実現しています。 最後に,局所的に実施したトレーニングステップによって,グローバルモデルのパフォーマンスをさらに向上できることを示す。

Federated Learning (FL) is a novel machine learning approach that allows the model trainer to access more data samples, by training the model across multiple decentralized data sources, while data access constraints are in place. Such trained models can achieve significantly higher performance beyond what can be done when trained on a single data source. As part of FL's promises, none of the training data is ever transmitted to any central location, ensuring that sensitive data remains local and private. These characteristics make FL perfectly suited for large-scale applications in healthcare, where a variety of compliance constraints restrict how data may be handled, processed, and stored. Despite the apparent benefits of federated learning, the heterogeneity in the local data distributions pose significant challenges, and such challenges are even more pronounced in the case of multilingual data providers. In this paper we present a federated learning system for training a large-scale multi-lingual model suitable for fine-tuning on downstream tasks such as medical entity tagging. Our work represents one of the first such production-scale systems, capable of training across multiple highly heterogeneous data providers, and achieving levels of accuracy that could not be otherwise achieved by using central training with public data. Finally, we show that the global model performance can be further improved by a training step performed locally.
翻訳日:2022-11-20 13:42:14 公開日:2022-11-04
# スタッタTTS:制御された合成とスタッタ音声の認識の改善

Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered Speech ( http://arxiv.org/abs/2211.09731v1 )

ライセンス: Link先を確認
Xin Zhang, Iv\'an Vall\'es-P\'erez, Andreas Stolcke, Chengzhu Yu, Jasha Droppo, Olabanji Shonibare, Roberto Barra-Chicote, Venkatesh Ravichandran(参考訳) シュターリング(stuttering)は、音声の自然な流れがブロック、繰り返し、音節、単語、句の延長によって中断される言語障害である。 既存の自動音声認識(asr)インタフェースの大多数は、おもに一致したトレーニングデータの欠如のため、スタッターとの発話に乏しい。 発声音声の合成は、このタイプの音声に対して、ASRを改善する機会を与える。 多様な発声音声を合成できるエンドツーエンドのニューラルテキスト・音声モデルであるStutter-TTSについて述べる。 本手法は,学習中に特定の発散特性を表すために,追加のトークンを原文に導入する簡易かつ効果的な韻律制御戦略を開発する。 ストッタートークンの位置を選択することで、stutter-ttsは合成された発話中にストッターが発生する場所を単語レベルで制御できる。 高精度でストッターイベントを合成できる(ストッタータイプによるf1スコアは 0.63 から 0.84 である)。 合成音声におけるasrモデルの微調整により, 流音発話における単語誤りを5.7%低減し, 最小の(<0.2%相対)分解のみが可能となった。

Stuttering is a speech disorder where the natural flow of speech is interrupted by blocks, repetitions or prolongations of syllables, words and phrases. The majority of existing automatic speech recognition (ASR) interfaces perform poorly on utterances with stutter, mainly due to lack of matched training data. Synthesis of speech with stutter thus presents an opportunity to improve ASR for this type of speech. We describe Stutter-TTS, an end-to-end neural text-to-speech model capable of synthesizing diverse types of stuttering utterances. We develop a simple, yet effective prosody-control strategy whereby additional tokens are introduced into source text during training to represent specific stuttering characteristics. By choosing the position of the stutter tokens, Stutter-TTS allows word-level control of where stuttering occurs in the synthesized utterance. We are able to synthesize stutter events with high accuracy (F1-scores between 0.63 and 0.84, depending on stutter type). By fine-tuning an ASR model on synthetic stuttered speech we are able to reduce word error by 5.7% relative on stuttered utterances, with only minor (<0.2% relative) degradation for fluent utterances.
翻訳日:2022-11-20 13:41:38 公開日:2022-11-04
# 領域一般化のための領域不変パラメータの学習

Learning to Learn Domain-invariant Parameters for Domain Generalization ( http://arxiv.org/abs/2211.04582v1 )

ライセンス: Link先を確認
Feng Hou, Yao Zhang, Yang Liu, Jin Yuan, Cheng Zhong, Yang Zhang, Zhongchao Shi, Jianping Fan, Zhiqiang He(参考訳) ドメインシフトのため、ディープニューラルネットワーク(DNN)は通常、未知のテストデータに対してうまく一般化できない。 ドメイン一般化(DG)は、ソースドメインからドメイン不変表現をキャプチャすることでこの問題を克服することを目的としている。 dnnの部分的パラメータのみがドメイン不変表現を抽出するために最適化されているという洞察に動機づけられたので、ドメイン不変パラメータをよく認識し強調的に更新できる一般的なモデルが期待できる。 本稿では,DDC(Domain Decoupling and Combination)とDIGB(Domain-invariance-Guided Backpropagation)の2つのモジュールを提案する。 2つのベンチマークの広範な実験により,提案手法は高い一般化能力を有する最先端性能を達成できた。

Due to domain shift, deep neural networks (DNNs) usually fail to generalize well on unknown test data in practice. Domain generalization (DG) aims to overcome this issue by capturing domain-invariant representations from source domains. Motivated by the insight that only partial parameters of DNNs are optimized to extract domain-invariant representations, we expect a general model that is capable of well perceiving and emphatically updating such domain-invariant parameters. In this paper, we propose two modules of Domain Decoupling and Combination (DDC) and Domain-invariance-guided Backpropagation (DIGB), which can encourage such general model to focus on the parameters that have a unified optimization direction between pairs of contrastive samples. Our extensive experiments on two benchmarks have demonstrated that our proposed method has achieved state-of-the-art performance with strong generalization capability.
翻訳日:2022-11-13 23:29:28 公開日:2022-11-04
# 動的閾値学習によるバイナリニューラルネットワークの強化

Boosting Binary Neural Networks via Dynamic Thresholds Learning ( http://arxiv.org/abs/2211.02292v1 )

ライセンス: Link先を確認
Jiehua Zhang, Xueyang Zhang, Zhuo Su, Zitong Yu, Yanghe Feng, Xin Lu, Matti Pietik\"ainen, Li Liu(参考訳) 軽量な深層畳み込みニューラルネットワーク(dcnns)と視覚トランスフォーマー(vits)の開発は、エッジデバイスに視覚モデルをデプロイするのに低い計算コストが不可欠であるため、視覚研究の焦点となっている。 近年,完全精度ニューラルネットワークの重み付けとアクティベーションのバイナライズにより,高計算効率のバイナリニューラルネットワーク(BNN)を探索している。 しかし、バイナライゼーションプロセスは、BNNとその完全精度バージョンとの間に大きな精度差をもたらす。 主な理由の1つは、シングルスレッドバイナライゼーションが活性化分布を利用できないため、事前定義された静的しきい値を持つ符号関数が二項化アーキテクチャの表現能力を制限することである。 この問題を解決するために,DySignと呼ばれる符号関数の明確なしきい値学習にチャネル情報の統計を導入し,入力分布に基づいて様々なしきい値を生成する。 我々のDySignは、情報損失を低減し、BNNの代表能力を高めるための簡単な方法であり、DCNNとViT(DyBCNNとDyBinaryCCT)の両方に柔軟に適用して、有望な性能向上を実現することができる。 広範な実験で示されるように DCNNでは、2つのバックボーン(MobileNetV1とResNet18)をベースとしたDyBCNNが、ImageNetデータセット上で71.2%と67.4%のトップ1精度を達成した。 ViTでは、DyBinaryCCTは、完全に二項化されたViTの畳み込み層の優位性を示し、ベースラインよりも約9%高いImageNetデータセット上で56.1%を達成する。

Developing lightweight Deep Convolutional Neural Networks (DCNNs) and Vision Transformers (ViTs) has become one of the focuses in vision research since the low computational cost is essential for deploying vision models on edge devices. Recently, researchers have explored highly computational efficient Binary Neural Networks (BNNs) by binarizing weights and activations of Full-precision Neural Networks. However, the binarization process leads to an enormous accuracy gap between BNN and its full-precision version. One of the primary reasons is that the Sign function with predefined or learned static thresholds limits the representation capacity of binarized architectures since single-threshold binarization fails to utilize activation distributions. To overcome this issue, we introduce the statistics of channel information into explicit thresholds learning for the Sign Function dubbed DySign to generate various thresholds based on input distribution. Our DySign is a straightforward method to reduce information loss and boost the representative capacity of BNNs, which can be flexibly applied to both DCNNs and ViTs (i.e., DyBCNN and DyBinaryCCT) to achieve promising performance improvement. As shown in our extensive experiments. For DCNNs, DyBCNNs based on two backbones (MobileNetV1 and ResNet18) achieve 71.2% and 67.4% top1-accuracy on ImageNet dataset, outperforming baselines by a large margin (i.e., 1.8% and 1.5% respectively). For ViTs, DyBinaryCCT presents the superiority of the convolutional embedding layer in fully binarized ViTs and achieves 56.1% on the ImageNet dataset, which is nearly 9% higher than the baseline.
翻訳日:2022-11-13 23:28:52 公開日:2022-11-04
# 逆境攻撃に頑健なフェアネス・アウェア・レグレッション

Fairness-aware Regression Robust to Adversarial Attacks ( http://arxiv.org/abs/2211.04449v1 )

ライセンス: Link先を確認
Yulu Jin and Lifeng Lai(参考訳) 本稿では,敵攻撃に対して堅牢な公平な機械学習アルゴリズムを設計する方法について,その疑問に答える第一歩を踏み出す。 ミニマックスフレームワークを用いて、慎重に設計された逆データポイントをデータセットに追加したり、データセットにランクワンアタックを実行することができる攻撃者の存在下で最適なパフォーマンスを達成するための、逆向きに堅牢なフェアレグレッションモデルを設計することを目指している。 提案した非滑らかな非凸非凹極小問題の解法により、最適対向と頑健なフェアネス認識回帰モデルを得る。 合成データと実世界のデータセットの両方において、提案手法は、予測精度とグループベースフェアネス尺度の両方において、他の公正な機械学習モデルよりも有毒なデータセットに対して優れた性能を示す。

In this paper, we take a first step towards answering the question of how to design fair machine learning algorithms that are robust to adversarial attacks. Using a minimax framework, we aim to design an adversarially robust fair regression model that achieves optimal performance in the presence of an attacker who is able to add a carefully designed adversarial data point to the dataset or perform a rank-one attack on the dataset. By solving the proposed nonsmooth nonconvex-nonconcave minimax problem, the optimal adversary as well as the robust fairness-aware regression model are obtained. For both synthetic data and real-world datasets, numerical results illustrate that the proposed adversarially robust fair models have better performance on poisoned datasets than other fair machine learning models in both prediction accuracy and group-based fairness measure.
翻訳日:2022-11-09 17:24:19 公開日:2022-11-04
# 音声認識用マルチブランクトランスデューサ

Multi-blank Transducers for Speech Recognition ( http://arxiv.org/abs/2211.03541v1 )

ライセンス: Link先を確認
Hainan Xu, Fei Jia, Somshubra Majumdar, Shinji Watanabe, Boris Ginsburg(参考訳) 本稿では,音声認識のためのRNN-Transducerモデル(RNN-T)を提案する。 標準RNN-Tでは、ブランクシンボルの出力は正確に1つの入力フレームを消費し、提案手法では2つ以上の入力フレームを消費する追加のブランクシンボルを導入する。 我々は,追加記号をビッグブランク,マルチブランクrnn-tと呼ぶ。 マルチブランクRNN-Tsを訓練するために,大きなブランクの排出を優先するために,新しいロジットアンダー正規化法を提案する。 複数の言語とデータセットに関する実験により、多言語RNN-T法は、英語のLibrispeechデータセットとドイツ語のMultilingual Librispeechデータセットのモデル推論に、それぞれ+90%/+139%以上の相対的なスピードアップをもたらすことを示した。 マルチブランクRNN-T法は、ASRの精度を一貫して改善する。 我々はNeMo(\url{https://github.com/NVIDIA/NeMo})ツールキットでメソッドの実装をリリースします。

This paper proposes a modification to RNN-Transducer (RNN-T) models for automatic speech recognition (ASR). In standard RNN-T, the emission of a blank symbol consumes exactly one input frame; in our proposed method, we introduce additional blank symbols, which consume two or more input frames when emitted. We refer to the added symbols as big blanks, and the method multi-blank RNN-T. For training multi-blank RNN-Ts, we propose a novel logit under-normalization method in order to prioritize emissions of big blanks. With experiments on multiple languages and datasets, we show that multi-blank RNN-T methods could bring relative speedups of over +90%/+139% to model inference for English Librispeech and German Multilingual Librispeech datasets, respectively. The multi-blank RNN-T method also improves ASR accuracy consistently. We will release our implementation of the method in the NeMo (\url{https://github.com/NVIDIA/NeMo}) toolkit.
翻訳日:2022-11-08 19:24:48 公開日:2022-11-04
# DADビジョン:分割随伴法による光電子共同設計型コンピュータビジョン

DAD vision: opto-electronic co-designed computer vision with division adjoint method ( http://arxiv.org/abs/2211.03576v1 )

ライセンス: Link先を確認
Zihan Zang, Haoqiang Wang, Yunpeng Xu(参考訳) コンピュータビジョンシステムの小型化と移動性は、計算負荷と光学レンズのサイズによって制限される。 本稿では,超薄型回折光学素子を用いて受動光畳み込みを実現することを提案する。 また, 隣接光電子共設計法も提案されている。 シミュレーション実験では、ニューラルネットワークの最初のいくつかの畳み込み層は、消費電力のないCIFAR-10データセットの分類タスクにおいて光学的畳み込みによって置き換えることができるが、同様の性能が得られる。

The miniaturization and mobility of computer vision systems are limited by the heavy computational burden and the size of optical lenses. Here, we propose to use a ultra-thin diffractive optical element to implement passive optical convolution. A division adjoint opto-electronic co-design method is also proposed. In our simulation experiments, the first few convolutional layers of the neural network can be replaced by optical convolution in a classification task on the CIFAR-10 dataset with no power consumption, while similar performance can be obtained.
翻訳日:2022-11-08 19:08:37 公開日:2022-11-04
# 階層的特徴融合を用いた音声基礎モデルからの資源効率向上学習

Resource-Efficient Transfer Learning From Speech Foundation Model Using Hierarchical Feature Fusion ( http://arxiv.org/abs/2211.02712v1 )

ライセンス: Link先を確認
Zhouyuan Huo, Khe Chai Sim, Bo Li, Dongseong Hwang, Tara N. Sainath, Trevor Strohman(参考訳) 音声基礎モデルの自己教師付き事前学習と教師付き微調整は、自動音声認識(asr)タスクにおいて印象的な品質改善を示した。 基礎モデルが非常に大きいため、多くのダウンストリームタスクに対して個別の基盤モデルを微調整することは高価である。 パラメータ効率のよい微調整法(例えばアダプタ、スパース更新法)は、新しいタスクに基礎モデルを適用するために小さなパラメータセットを更新する代替パラダイムを提供する。 しかし、これらの手法は、各ステップでニューラルネットワーク全体のバックプロパゲーションを必要とするため、高い計算メモリコストと遅いトレーニング速度に苦しんでいる。 本稿では,音声認識タスクにおける基礎モデルの異なる層における特徴量の性能を分析し,基礎モデルからの資源効率の高い伝達学習のための新しい階層的特徴融合手法を提案する。 実験の結果, 学習可能なパラメータ数が少なく, 計算メモリコストが低く, 学習速度が速い既存のアルゴリズムと比較して, 音声認識タスクの性能が向上することがわかった。 すべてのレイヤのアダプタと組み合わせることで、トレーニング可能なエンコーダパラメータの削減と、トレーニング速度の高速化によって、モデル全体の微調整と同等のパフォーマンスを実現することができる。

Self-supervised pre-training of a speech foundation model, followed by supervised fine-tuning, has shown impressive quality improvements on automatic speech recognition (ASR) tasks. Fine-tuning separate foundation models for many downstream tasks are expensive since the foundation model is usually very big. Parameter-efficient fine-tuning methods (e.g. adapter, sparse update methods) offer an alternative paradigm where a small set of parameters are updated to adapt the foundation model to new tasks. However, these methods still suffer from a high computational memory cost and slow training speed because they require backpropagation through the entire neural network at each step. In the paper, we analyze the performance of features at different layers of a foundation model on the speech recognition task and propose a novel hierarchical feature fusion method for resource-efficient transfer learning from speech foundation models. Experimental results show that the proposed method can achieve better performance on speech recognition task than existing algorithms with fewer number of trainable parameters, less computational memory cost and faster training speed. After combining with Adapters at all layers, the proposed method can achieve the same performance as fine-tuning the whole model with $97\%$ fewer trainable encoder parameters and $53\%$ faster training speed.
翻訳日:2022-11-08 19:08:03 公開日:2022-11-04
# SAMO:音声アンチスプーフィングのためのマルチセンターワンクラス学習

SAMO: Speaker Attractor Multi-Center One-Class Learning for Voice Anti-Spoofing ( http://arxiv.org/abs/2211.02718v1 )

ライセンス: Link先を確認
Siwen Ding, You Zhang, Zhiyao Duan(参考訳) 音声アンチスプーフィングシステムは、自動話者検証(ASV)システムにとって重要な補助装置である。 大きな課題は、高度な音声合成技術によって強化された目に見えない攻撃によって引き起こされる。 1クラス学習に関するこれまでの研究により,埋め込み空間におけるボナfide音声の圧縮により,攻撃を検知する一般化能力が向上した。 しかし、そのようなコンパクトさは話者の多様性を考慮しない。 そこで本研究では,複数の話者を引き付け,高次元埋め込み空間内のすべての話者からの強迫的攻撃を回避し,ボナ・フェイド音声をクラスタリングする話者誘引型一級学習(SAMO)を提案する。 学習のために,bona fide音声クラスタリングとbona fide/spoof分類の共最適化アルゴリズムを提案する。 提案手法は,話者のスプーフィングを無登録で実現するための戦略である。 提案システムは, ASVspoof2019 LA 評価セットにおいて, 等価誤差率 (EER) を相対的に38%向上させ, 既存の最先端システムよりも優れていた。

Voice anti-spoofing systems are crucial auxiliaries for automatic speaker verification (ASV) systems. A major challenge is caused by unseen attacks empowered by advanced speech synthesis technologies. Our previous research on one-class learning has improved the generalization ability to unseen attacks by compacting the bona fide speech in the embedding space. However, such compactness lacks consideration of the diversity of speakers. In this work, we propose speaker attractor multi-center one-class learning (SAMO), which clusters bona fide speech around a number of speaker attractors and pushes away spoofing attacks from all the attractors in a high-dimensional embedding space. For training, we propose an algorithm for the co-optimization of bona fide speech clustering and bona fide/spoof classification. For inference, we propose strategies to enable anti-spoofing for speakers without enrollment. Our proposed system outperforms existing state-of-the-art single systems with a relative improvement of 38% on equal error rate (EER) on the ASVspoof2019 LA evaluation set.
翻訳日:2022-11-08 19:07:40 公開日:2022-11-04
# 有限サンプルFDR制御ベイズ線形モデルにおける準最適多重検定

Near-optimal multiple testing in Bayesian linear models with finite-sample FDR control ( http://arxiv.org/abs/2211.02778v1 )

ライセンス: Link先を確認
Taejoo Ahn, Licong Lin, Song Mei(参考訳) 高次元変数選択問題では、統計学者はしばしば偽発見率(FDR)を制御する複数の試験手順を設計し、より関連する変数を同時に発見しようとする。 Knockoffsや条件付きランダム化テストのようなモデルX法は、既知の共変量分布の仮定の下で有限サンプルFDR制御の最初の目標を達成する。 しかし,これらの手法が発見数の最大化という2番目の目標を同時に達成できるかどうかは不明である。 実際、有限サンプルFDR制御によりより関連性の高い変数を発見する手順を設計することは、最も単純な線形モデルであっても、ほとんど明らかな問題である。 本論文では,等方共変量を持つ高次元ベイズ線形モデルにおける近似最適試験法を導出する。 提案手法は, モデル不特定性下においても, 有限サンプルから頻繁なFDRを確実に制御し, ベイズ線形モデルに従えば, 理論的にほぼ最適のパワーを達成できる, モデルX多重試験法であるPoEdCeを提案する。 PoEdCeには3つの重要な材料がある: 後期待、蒸留条件ランダム化試験(dCRT)、およびe-値を持つBenjamini-Hochberg法(eBH)。 poedce の最適性予想は、その漸近的正比例 (tpp) と偽発見比例 (fdp) のヒューリスティックな計算に基づいている。 さらに、事前が不明な場合には、実証的なPoEdCeのベイズ変種が、有限サンプルFDR制御を持ち、ほぼ最適パワーを達成することを示す。

In high dimensional variable selection problems, statisticians often seek to design multiple testing procedures controlling the false discovery rate (FDR) and simultaneously discovering more relevant variables. Model-X methods, such as Knockoffs and conditional randomization tests, achieve the first goal of finite-sample FDR control under the assumption of known covariates distribution. However, it is not clear whether these methods can concurrently achieve the second goal of maximizing the number of discoveries. In fact, designing procedures to discover more relevant variables with finite-sample FDR control is a largely open question, even in the arguably simplest linear models. In this paper, we derive near-optimal testing procedures in high dimensional Bayesian linear models with isotropic covariates. We propose a Model-X multiple testing procedure, PoEdCe, which provably controls the frequentist FDR from finite samples even under model misspecification, and conjecturally achieves near-optimal power when the data follow the Bayesian linear model with a known prior. PoEdCe has three important ingredients: Posterior Expectation, distilled Conditional randomization test (dCRT), and the Benjamini-Hochberg procedure with e-values (eBH). The optimality conjecture of PoEdCe is based on a heuristic calculation of its asymptotic true positive proportion (TPP) and false discovery proportion (FDP), which is supported by methods from statistical physics as well as extensive numerical simulations. Furthermore, when the prior is unknown, we show that an empirical Bayes variant of PoEdCe still has finite-sample FDR control and achieves near-optimal power.
翻訳日:2022-11-08 19:07:22 公開日:2022-11-04
# LightNorm:オンデバイスDNNトレーニングのための領域とエネルギー効率の良いバッチ正規化ハードウェア

LightNorm: Area and Energy-Efficient Batch Normalization Hardware for On-Device DNN Training ( http://arxiv.org/abs/2211.02686v1 )

ライセンス: Link先を確認
Seock-Hwan Noh, Junsang Park, Dahoon Park, Jahyun Koo, Jeik Choi, Jaeha Kung(参考訳) 初期段階のディープニューラルネットワーク(DNN)のトレーニングでは、畳み込みや線形層による中間機能の生成が実行時間の大半を占めていた。 したがって、畳み込み層や線形層の計算負荷を軽減するために広範な研究が行われている。 しかし、最近のモバイルフレンドリーなDNNでは、これらのレイヤの処理に関わる操作数が大幅に減少している。 その結果、バッチ正規化層などの他のレイヤの実行時間の比率が増加した。 そこで本研究では,バッチ正規化プロセスのランタイムオーバーヘッドを効率的に低減するために,バッチ正規化層の詳細な解析を行う。 徹底的な分析によってバックアップされ、非常に効率的なバッチ正規化であるLightNormとそのハードウェアモジュールを紹介します。 もっと詳しく言えば 3つの近似技術を融合させます i) ビット精度の低いもの 二 範囲バッチ正規化、及び iii) ブロック浮動小数点。 これらの近似手法は、中間特徴写像の統計を維持するだけでなく、オフチップメモリアクセスを最小限に抑えるためにも慎重に利用される。 提案したLightNormハードウェアを使用することで,トレーニング精度を損なうことなく,DNNトレーニング中にかなりの面積と省エネを実現することができる。 これにより、提案されたハードウェアは、オンデバイストレーニングの優れた候補となる。

When training early-stage deep neural networks (DNNs), generating intermediate features via convolution or linear layers occupied most of the execution time. Accordingly, extensive research has been done to reduce the computational burden of the convolution or linear layers. In recent mobile-friendly DNNs, however, the relative number of operations involved in processing these layers has significantly reduced. As a result, the proportion of the execution time of other layers, such as batch normalization layers, has increased. Thus, in this work, we conduct a detailed analysis of the batch normalization layer to efficiently reduce the runtime overhead in the batch normalization process. Backed up by the thorough analysis, we present an extremely efficient batch normalization, named LightNorm, and its associated hardware module. In more detail, we fuse three approximation techniques that are i) low bit-precision, ii) range batch normalization, and iii) block floating point. All these approximate techniques are carefully utilized not only to maintain the statistics of intermediate feature maps, but also to minimize the off-chip memory accesses. By using the proposed LightNorm hardware, we can achieve significant area and energy savings during the DNN training without hurting the training accuracy. This makes the proposed hardware a great candidate for the on-device training.
翻訳日:2022-11-08 18:51:43 公開日:2022-11-04
# オンライン学習と待ち時間付きバンド

Online Learning and Bandits with Queried Hints ( http://arxiv.org/abs/2211.02703v1 )

ライセンス: Link先を確認
Aditya Bhaskara, Sreenivas Gollapudi, Sungjin Im, Kostas Kollias, Kamesh Munagala(参考訳) 従来のオンライン学習と確率的マルチアーム・バンディット(MAB)問題を考えると、各ステップでオンラインポリシーが探索し、選択する前に少数の選択肢のうちどれがより良い報酬(または損失)を得られるかを見つけることができる。 このモデルでは, 後悔境界が古典的後悔境界よりも指数関数的に時間地平線に依存するアルゴリズムを導出する。 特に,オンライン線形および凸最適化のための時間に依存しない後悔の限界を達成するために,$k=2$ sufficesで探索することを示す。 同じ数のプローブは、独立腕が$o(\sqrt{nt})$から$o(n^2 \log t)$であり、ここで$n$は腕の数、$t$は地平線の長さである。 確率MABに対しては、プローブがプローブされたアームの報酬値を明らかにする強いモデルも検討し、この場合、$k=3$のプローブがパラメータ非依存の定数後悔を達成するために十分であることを示す。 このような後悔の限界は、プレイ後に完全なフィードバックをしても達成することができず、プレイ前に探索によって限定された『アドバイス』のパワーを誇示する。 また, ヒントが不完全であるような設定や, 腕の報酬が関連付けられる確率的mabへの拡張についても述べる。

We consider the classic online learning and stochastic multi-armed bandit (MAB) problems, when at each step, the online policy can probe and find out which of a small number ($k$) of choices has better reward (or loss) before making its choice. In this model, we derive algorithms whose regret bounds have exponentially better dependence on the time horizon compared to the classic regret bounds. In particular, we show that probing with $k=2$ suffices to achieve time-independent regret bounds for online linear and convex optimization. The same number of probes improve the regret bound of stochastic MAB with independent arms from $O(\sqrt{nT})$ to $O(n^2 \log T)$, where $n$ is the number of arms and $T$ is the horizon length. For stochastic MAB, we also consider a stronger model where a probe reveals the reward values of the probed arms, and show that in this case, $k=3$ probes suffice to achieve parameter-independent constant regret, $O(n^2)$. Such regret bounds cannot be achieved even with full feedback after the play, showcasing the power of limited ``advice'' via probing before making the play. We also present extensions to the setting where the hints can be imperfect, and to the case of stochastic MAB where the rewards of the arms can be correlated.
翻訳日:2022-11-08 18:51:26 公開日:2022-11-04
# 干ばつリポーターを用いたxgboostを用いた干ばつ影響の定量的評価

Quantitative Assessment of Drought Impacts Using XGBoost based on the Drought Impact Reporter ( http://arxiv.org/abs/2211.02768v1 )

ライセンス: Link先を確認
Beichen Zhang (1), Fatima K. Abu Salem (2), Michael J. Hayes (1), Tsegaye Tadesse (1) ((1) School Of Natural Resources, University of Nebraska-Lincoln, (2) Computer Science Department, American University of Beirut)(参考訳) 気候変動の下では、干ばつの発生頻度、強度、空間範囲が増加し、社会経済的コストが高くなる。 しかし, 気象指標と干ばつの影響との関係は, 複雑さとデータ不足のため, まだよく分かっていない。 本稿では,テキサス州のxgboost (extreme gradient model) に基づいて,多カテゴリーの干ばつの影響を予測し,典型的な干ばつ指標であるspi (standardized precipitation index) と,干ばつインパクトレポーター (dir) によるテキストベースの影響を関連付ける枠組みを提案する。 本研究の予備結果は, 農業, 火災, 社会と公衆衛生, 植物と野生生物, およびテキサス州の救済, 応答と制限に対する干ばつの影響を評価するための, 十分に訓練されたモデルの優れた性能を示した。 また、アメリカ合衆国で提案された枠組みで水気象指標を用いて干ばつの影響を評価できる可能性も提供し、追加情報を提供し、干ばつの影響の更新頻度を向上させることで、干ばつリスク管理を支援する。 シャプリー加法説明 (shap) による解釈結果から, xgboost の予測を導く規則は,spi 指標が干ばつの影響に果たす役割に関する専門知識に準拠していることが明らかとなった。

Under climate change, the increasing frequency, intensity, and spatial extent of drought events lead to higher socio-economic costs. However, the relationships between the hydro-meteorological indicators and drought impacts are not identified well yet because of the complexity and data scarcity. In this paper, we proposed a framework based on the extreme gradient model (XGBoost) for Texas to predict multi-category drought impacts and connected a typical drought indicator, Standardized Precipitation Index (SPI), to the text-based impacts from the Drought Impact Reporter (DIR). The preliminary results of this study showed an outstanding performance of the well-trained models to assess drought impacts on agriculture, fire, society & public health, plants & wildlife, as well as relief, response & restrictions in Texas. It also provided a possibility to appraise drought impacts using hydro-meteorological indicators with the proposed framework in the United States, which could help drought risk management by giving additional information and improving the updating frequency of drought impacts. Our interpretation results using the Shapley additive explanation (SHAP) interpretability technique revealed that the rules guiding the predictions of XGBoost comply with domain expertise knowledge around the role that SPI indicators play around drought impacts.
翻訳日:2022-11-08 18:50:57 公開日:2022-11-04
# CASA : カテゴリー別骨格動物再建

CASA: Category-agnostic Skeletal Animal Reconstruction ( http://arxiv.org/abs/2211.03568v1 )

ライセンス: Link先を確認
Yuefan Wu, Zeyuan Chen, Shaowei Liu, Zhongzheng Ren, Shenlong Wang(参考訳) 単眼映像から動物の骨格形状を復元することは長年の課題である。 一般的な動物再建法は、しばしば制御ポイント駆動のアニメーションモデルを採用し、骨格トポロジーを考慮せずに骨変換を個別に最適化し、不十分な形状と調音をもたらす。 対照的に、人間は未知の動物の調音構造を記憶の中の明瞭な特徴と関連付けることで容易に推測することができる。 この事実に触発されたcasaは,ビデオから形状への検索プロセスとニューラル・インバース・グラフィックス・フレームワークという2つの主要な構成要素からなる,カテゴリーに依存しない新しい骨格動物再構成手法である。 CASAは、まず、3Dキャラクタ資産銀行から調音形状を検索し、予め訓練された言語ビジョンモデルに従って、入力ビデオがレンダリングされた画像と高いスコアを得る。 CASAは取得した文字を逆グラフィックフレームワークに統合し、最適化を通じて形状変形、骨格構造、およびスキンウェイトを共同推論する。 形状再構成と調音に関するCASAの有効性を検証する実験。 さらに、結果の骨格アニメーション文字が再アニメーションに使用できることを示す。

Recovering the skeletal shape of an animal from a monocular video is a longstanding challenge. Prevailing animal reconstruction methods often adopt a control-point driven animation model and optimize bone transforms individually without considering skeletal topology, yielding unsatisfactory shape and articulation. In contrast, humans can easily infer the articulation structure of an unknown animal by associating it with a seen articulated character in their memory. Inspired by this fact, we present CASA, a novel Category-Agnostic Skeletal Animal reconstruction method consisting of two major components: a video-to-shape retrieval process and a neural inverse graphics framework. During inference, CASA first retrieves an articulated shape from a 3D character assets bank so that the input video scores highly with the rendered image, according to a pretrained language-vision model. CASA then integrates the retrieved character into an inverse graphics framework and jointly infers the shape deformation, skeleton structure, and skinning weights through optimization. Experiments validate the efficacy of CASA regarding shape reconstruction and articulation. We further demonstrate that the resulting skeletal-animated characters can be used for re-animation.
翻訳日:2022-11-08 18:31:30 公開日:2022-11-04
# 全チャネルおよびaiトランザクショナルデジタルサービス作成の標準化,自動化へのアプローチ

An approach to standardize, automate omni-channel and AI transactional digital service creation ( http://arxiv.org/abs/2211.03543v1 )

ライセンス: Link先を確認
Antoine Aamarcha, Martin Caussanel, Hadrien Lanneau, Kevin Mege, Florian Peyron(参考訳) 私たちの仕事は2つのカテゴリの技術の横断にあります。 一方、omnichannel digit servicesは、ユーザのニーズに最もシームレスな方法で対処している。 一方、低コードアプローチは、単純に複雑なソフトウェアアプリケーションを構築するのに役立ちます。 本稿では,DSUL(Digital Service Universal Language)を提案する。 デザイナーによる最小限の作業で、omnichannelサービスを構築することができる。 我々はDSULがどのように機能し、その技術状況に関するイノベーションを正確に記述する。 このフレームワークを評価するための様々な方法も検討する。

Our work is at the crossroads of two categories of technologies. On the one hand, omnichannel digit services, to address the needs of users in the most seamless way. On the other hand, low code approaches, to build simply even complex software applications. In this twofold context, we propose DSUL (Digital Service Universal Language). It allows to build omnichannel services with minimal work from their designers. We describe precisely how DSUL operates, and its innovation in regard to the state of the art. We also consider the various methods to evaluate this framework.
翻訳日:2022-11-08 18:25:50 公開日:2022-11-04
# 多視点知覚と3次元マルチオブジェクト追跡に基づく温室栽培におけるトマト全果実の自動局在化・再構成法の開発と評価

Development and evaluation of automated localization and reconstruction of all fruits on tomato plants in a greenhouse based on multi-view perception and 3D multi-object tracking ( http://arxiv.org/abs/2211.02760v1 )

ライセンス: Link先を確認
David Rapado Rincon, Eldert J. van Henten, Gert Kootstra(参考訳) ロボットがタスクを実行するためには,関連オブジェクトの正確な表現と位置決めが重要である。 関連するオブジェクトは環境やタスクによって異なるため、さまざまな環境やタスクで使用できる汎用表現の構築は容易ではない。 さらに、その複雑さと高いレベルのクラッタとオクルージョンのため、アグロフード環境でも別の課題が発生する。 本稿では,マルチビュー知覚と3次元マルチオブジェクト追跡を用いて,高度にオクルードなアグロフード環境における汎用表現を構築する手法を提案する。 我々の表現は検出対象ごとに部分的点クラウドを生成する検出アルゴリズムに基づいている。 検出されたオブジェクトは3dマルチオブジェクトトラッキングアルゴリズムに渡され、時間とともに表現を生成し更新する。 プロセス全体は10Hzの速度で実行される。 実世界のアグロフード環境における表現の精度について検討し, 高い閉塞度にもかかわらずトマトのトマトの表現と位置を把握できた。 トマトの総数を最大誤差5.8%で推定し、追跡精度71.47%でトマトを追跡することができた。 さらに,トラッキングメトリクスを用いた評価によって,果実の局所化と表現におけるエラーに対する深い洞察が得られることを示した。

Accurate representation and localization of relevant objects is important for robots to perform tasks. Building a generic representation that can be used across different environments and tasks is not easy, as the relevant objects vary depending on the environment and the task. Furthermore, another challenge arises in agro-food environments due to their complexity, and high levels of clutter and occlusions. In this paper, we present a method to build generic representations in highly occluded agro-food environments using multi-view perception and 3D multi-object tracking. Our representation is built upon a detection algorithm that generates a partial point cloud for each detected object. The detected objects are then passed to a 3D multi-object tracking algorithm that creates and updates the representation over time. The whole process is performed at a rate of 10 Hz. We evaluated the accuracy of the representation on a real-world agro-food environment, where it was able to successfully represent and locate tomatoes in tomato plants despite a high level of occlusion. We were able to estimate the total count of tomatoes with a maximum error of 5.08% and to track tomatoes with a tracking accuracy up to 71.47%. Additionally, we showed that an evaluation using tracking metrics gives more insight in the errors in localizing and representing the fruits.
翻訳日:2022-11-08 18:25:05 公開日:2022-11-04
# 多要素コストを考慮したベイズ最適化

Multi-Fidelity Cost-Aware Bayesian Optimization ( http://arxiv.org/abs/2211.02732v1 )

ライセンス: Link先を確認
Zahra Zanjani Foumani, Mehdi Shishehbor, Amin Yousefpour, and Ramin Bostanabad(参考訳) ベイズ最適化(BO)は、材料設計や薬物発見といった重要な応用にますます採用されている。 boの戦略は、高忠実度データのみに依存することを禁じ、代わりに安価な低忠実度データを提供する情報ソースのアンサンブルを使用することである。 この戦略の全体的な前提は、データを高忠実度なサンプルと関連付ける安価な低忠実なソースに問い合わせることによって、サンプリングコスト全体の削減である。 本稿では,効率,一貫性,堅牢性の観点から最先端技術を劇的に上回る多元的コスト認識型boフレームワークを提案する。 We demonstrate the advantages of our framework on analytic and engineering problems and argue that these benefits stem from our two main contributions: (1) we develop a novel acquisition function for multi-fidelity cost-aware BO that safeguards the convergence against the biases of low-fidelity data, and (2) we tailor a newly developed emulator for multi-fidelity BO which enables us to not only simultaneously learn from an ensemble of multi-fidelity datasets, but also identify the severely biased low-fidelity sources that should be excluded from BO.

Bayesian optimization (BO) is increasingly employed in critical applications such as materials design and drug discovery. An increasingly popular strategy in BO is to forgo the sole reliance on high-fidelity data and instead use an ensemble of information sources which provide inexpensive low-fidelity data. The overall premise of this strategy is to reduce the overall sampling costs by querying inexpensive low-fidelity sources whose data are correlated with high-fidelity samples. Here, we propose a multi-fidelity cost-aware BO framework that dramatically outperforms the state-of-the-art technologies in terms of efficiency, consistency, and robustness. We demonstrate the advantages of our framework on analytic and engineering problems and argue that these benefits stem from our two main contributions: (1) we develop a novel acquisition function for multi-fidelity cost-aware BO that safeguards the convergence against the biases of low-fidelity data, and (2) we tailor a newly developed emulator for multi-fidelity BO which enables us to not only simultaneously learn from an ensemble of multi-fidelity datasets, but also identify the severely biased low-fidelity sources that should be excluded from BO.
翻訳日:2022-11-08 18:14:20 公開日:2022-11-04
# リアルタイム計算計画を用いたマウスレベル戦略回避性能の実現

Achieving mouse-level strategic evasion performance using real-time computational planning ( http://arxiv.org/abs/2211.02700v1 )

ライセンス: Link先を確認
German Espinosa, Gabrielle E. Wink, Alexander T. Lai, Daniel A. Dombeck and Malcolm A. MacIver(参考訳) 計画とは、脳が評価可能な未来を想像し、実行する、並外れた能力である。 従来の計画モデルを使用して、コンピュータ科学者はある程度の成功でこの能力の再現を試みたが、最終的には繰り返し制限に直面している。 動物生態学が空間計画の価値をどのように支配するかに関するこれまでの理論的研究に基づいて,より効率的な生物学的に着想を得た計画アルゴリズムであるTLPPOを開発した。 このアルゴリズムは,捕食者-捕食者の相互作用に代表される部分観測可能性の状況下での計画法よりも,マウスレベルの捕食者回避性能を桁違いに低い計算で実現できる。 我々は,tlppoを用いたリアルタイムエージェントの性能と,ロボット捕食者の回避に携わるマウスのパフォーマンスを比較した。 これらの結果は、アルゴリズムのユーザと開発者の計画だけでなく、ロボットと動物との相互作用が複雑な行動の基礎を研究するための有用なアプローチを提供する神経科学の領域にも役立つと予測している。

Planning is an extraordinary ability in which the brain imagines and then enacts evaluated possible futures. Using traditional planning models, computer scientists have attempted to replicate this capacity with some level of success but ultimately face a reoccurring limitation: as the plan grows in steps, the number of different possible futures makes it intractable to determine the right sequence of actions to reach a goal state. Based on prior theoretical work on how the ecology of an animal governs the value of spatial planning, we developed a more efficient biologically-inspired planning algorithm, TLPPO. This algorithm allows us to achieve mouselevel predator evasion performance with orders of magnitude less computation than a widespread algorithm for planning in the situations of partial observability that typify predator-prey interactions. We compared the performance of a real-time agent using TLPPO against the performance of live mice, all tasked with evading a robot predator. We anticipate these results will be helpful to planning algorithm users and developers, as well as to areas of neuroscience where robot-animal interaction can provide a useful approach to studying the basis of complex behaviors.
翻訳日:2022-11-08 18:04:50 公開日:2022-11-04
# 過渡力学モデリングのためのnlpインスパイアトレーニング力学

NLP Inspired Training Mechanics For Modeling Transient Dynamics ( http://arxiv.org/abs/2211.02716v1 )

ライセンス: Link先を確認
Lalit Ghule, Rishikesh Ranade, Jay Pathak(参考訳) 近年、自然言語処理(NLP)のために開発された機械学習(ML)技術が、より良いコンピュータビジョンアルゴリズムの開発に浸透している。 本研究では,過渡的力学をシミュレーションするためのMLモデルの精度,堅牢性,一般化性を改善するために,このようなNLPに着想を得た手法を用いる。 本研究では,FNOやUNetなどのMLモデルの精度を50%以上向上させるとともに,教師の強制力とカリキュラムベーストレーニング機構を導入して,渦流をモデル化する。

In recent years, Machine learning (ML) techniques developed for Natural Language Processing (NLP) have permeated into developing better computer vision algorithms. In this work, we use such NLP-inspired techniques to improve the accuracy, robustness and generalizability of ML models for simulating transient dynamics. We introduce teacher forcing and curriculum learning based training mechanics to model vortical flows and show an enhancement in accuracy for ML models, such as FNO and UNet by more than 50%.
翻訳日:2022-11-08 17:48:01 公開日:2022-11-04
# ディープサーロゲートドッキング:グラフニューラルネットワークによる薬物発見の高速化

Deep Surrogate Docking: Accelerating Automated Drug Discovery with Graph Neural Networks ( http://arxiv.org/abs/2211.02720v1 )

ライセンス: Link先を確認
Ryien Hosseini, Filippo Simini, Austin Clyde, Arvind Ramanathan(参考訳) 望ましい性質のために分子をスクリーニングするプロセスは、薬物発見から材料設計まで、いくつかの応用において重要なステップである。 タンパク質リガンドドドドッキング(英: protein-ligand docking)は、特定のタンパク質標的と分子の結合親和性を推定する標準的なin-silicoスコア法である。 しかし、近年、テスト可能な仮想分子の数は急速に増加しており、これらの古典的なドッキングアルゴリズムは重要な計算ボトルネックを生み出している。 ドッキングプロセスを大幅に高速化するために,ディープラーニングに基づくサロゲートモデリングを適用するフレームワークであるDeep Surrogate Docking (DSD)を導入することで,この問題に対処する。 dsdは、いくつかの初期のサロゲートプリフィルタ技術の形式化として解釈でき、新しいメトリクスと実践的なトレーニングプラクティスを追加している。 具体的には、グラフニューラルネットワーク(GNN)が、古典的ドッキングアルゴリズムの高速かつ正確な推定手段として有効であることを示す。 さらに、既存の最先端GNNアーキテクチャよりも優れた性能を示す新しいGNNアーキテクチャFiLMv2を導入し、モデルがデータから無関係情報をより効率的にフィルタリングできるようにすることにより、より正確で安定した性能を実現する。 広範な実験と分析を通じて、dsdワークフローと filmv2 アーキテクチャが組み合わさって、サンプルドッキングタスクにおいて、分子スクリーニングにおける 9.496 倍のスピードアップと <3% のリコールエラー率を示した。 当社のオープンソースコードはhttps://github.com/ryienh/graph-dock.comで利用可能です。

The process of screening molecules for desirable properties is a key step in several applications, ranging from drug discovery to material design. During the process of drug discovery specifically, protein-ligand docking, or chemical docking, is a standard in-silico scoring technique that estimates the binding affinity of molecules with a specific protein target. Recently, however, as the number of virtual molecules available to test has rapidly grown, these classical docking algorithms have created a significant computational bottleneck. We address this problem by introducing Deep Surrogate Docking (DSD), a framework that applies deep learning-based surrogate modeling to accelerate the docking process substantially. DSD can be interpreted as a formalism of several earlier surrogate prefiltering techniques, adding novel metrics and practical training practices. Specifically, we show that graph neural networks (GNNs) can serve as fast and accurate estimators of classical docking algorithms. Additionally, we introduce FiLMv2, a novel GNN architecture which we show outperforms existing state-of-the-art GNN architectures, attaining more accurate and stable performance by allowing the model to filter out irrelevant information from data more efficiently. Through extensive experimentation and analysis, we show that the DSD workflow combined with the FiLMv2 architecture provides a 9.496x speedup in molecule screening with a <3% recall error rate on an example docking task. Our open-source code is available at https://github.com/ryienh/graph-dock.
翻訳日:2022-11-08 17:47:52 公開日:2022-11-04
# ゲームAIの多次元化に向けた多様性に基づく深層強化学習

Diversity-based Deep Reinforcement Learning Towards Multidimensional Difficulty for Fighting Game AI ( http://arxiv.org/abs/2211.02759v1 )

ライセンス: Link先を確認
Emily Halina, Matthew Guzdial(参考訳) 格闘ゲームでは、同じスキルレベルの個々のプレイヤーが、ゲームプレイを通じて異なる戦略を示すことが多い。 それにもかかわらず、対戦するAIエージェントの大多数は、難易度ごとに1つの戦略しか持っていない。 AIの対戦相手をより人間らしくするために、私たちは理想的には、複数の異なる戦略をそれぞれの難易度レベルで見たいと思っています。 本稿では,多様な戦略を利用する類似の難易度を持つエージェント群を生成するための多様性に基づく深層強化学習手法を提案する。 このアプローチは,多様性と性能の両面で,専門的かつ人為的な報酬関数で訓練されたベースラインを上回っている。

In fighting games, individual players of the same skill level often exhibit distinct strategies from one another through their gameplay. Despite this, the majority of AI agents for fighting games have only a single strategy for each "level" of difficulty. To make AI opponents more human-like, we'd ideally like to see multiple different strategies at each level of difficulty, a concept we refer to as "multidimensional" difficulty. In this paper, we introduce a diversity-based deep reinforcement learning approach for generating a set of agents of similar difficulty that utilize diverse strategies. We find this approach outperforms a baseline trained with specialized, human-authored reward functions in both diversity and performance.
翻訳日:2022-11-08 17:47:19 公開日:2022-11-04
# 指数関数測度をもつ指数関数ファミリー上のクラスタリング

Clustering above Exponential Families with Tempered Exponential Measures ( http://arxiv.org/abs/2211.02765v1 )

ライセンス: Link先を確認
Ehsan Amid, Richard Nock, Manfred Warmuth(参考訳) 指数関数ファミリーとのリンクにより、k$-meansクラスタリングは指数関数関数ファミリー内の分布とブレグマンダイバージェンス間のクラスタリング歪みを多種多様なデータに一般化できる。 指数族を超えて働くための枠組みは、公理化で彫られた人口最小化の頑丈さが欠如しているなど、道路ブロックを持ち上げるために重要である。 q$-指数関数ファミリーや変形した指数関数ファミリといった指数関数ファミリの現在の一般化は、目標達成に失敗している。 本稿では,指数関数列の新たな一般化を基礎として,指数関数列(TEM)を導入し,完全な枠組みを得るための新しい試みについて述べる。 TEMは$q$-指数族の最大エントロピー公理化の枠組みを維持しているが、測度を正規化する代わりに、共分布と呼ばれる双対を正規化する。 集団最小化法の改良や制御可能なロバスト性などのクラスタリングにおいて、単純な解析形式を保持する多くの興味深い性質が生じる。

The link with exponential families has allowed $k$-means clustering to be generalized to a wide variety of data generating distributions in exponential families and clustering distortions among Bregman divergences. Getting the framework to work above exponential families is important to lift roadblocks like the lack of robustness of some population minimizers carved in their axiomatization. Current generalisations of exponential families like $q$-exponential families or even deformed exponential families fail at achieving the goal. In this paper, we provide a new attempt at getting the complete framework, grounded in a new generalisation of exponential families that we introduce, tempered exponential measures (TEM). TEMs keep the maximum entropy axiomatization framework of $q$-exponential families, but instead of normalizing the measure, normalize a dual called a co-distribution. Numerous interesting properties arise for clustering such as improved and controllable robustness for population minimizers, that keep a simple analytic form.
翻訳日:2022-11-08 17:47:10 公開日:2022-11-04
# 異方性前景生成のためのコントラスト学習

Contrastive Learning for Diverse Disentangled Foreground Generation ( http://arxiv.org/abs/2211.02707v1 )

ライセンス: Link先を確認
Yuheng Li, Yijun Li, Jingwan Lu, Eli Shechtman, Yong Jae Lee, Krishna Kumar Singh(参考訳) 本稿では,様々な要因を明示的に制御した多種多様な前景生成手法を提案する。 既存の画像インパインティングに基づく前景生成法は、様々な結果を生成するのに苦労することが多く、ユーザが特定の要因を明示的に制御することは滅多にない。 同じマスキング入力に対して様々なフォアグラウンド結果を生成するために、潜在コードとの対比学習を利用する。 具体的には、2つの潜在コードのセットを定義し、1つは予め定義された因子(``known'')を制御し、もう1つは残りの因子(``unknown'')を制御する。 2つの集合からサンプリングされた潜伏符号は、共変核を共変調し、生成器を誘導して様々な結果を合成する。 実験により,本手法の多様性と生成制御性において,最先端技術よりも優れていることを示す。

We introduce a new method for diverse foreground generation with explicit control over various factors. Existing image inpainting based foreground generation methods often struggle to generate diverse results and rarely allow users to explicitly control specific factors of variation (e.g., varying the facial identity or expression for face inpainting results). We leverage contrastive learning with latent codes to generate diverse foreground results for the same masked input. Specifically, we define two sets of latent codes, where one controls a pre-defined factor (``known''), and the other controls the remaining factors (``unknown''). The sampled latent codes from the two sets jointly bi-modulate the convolution kernels to guide the generator to synthesize diverse results. Experiments demonstrate the superiority of our method over state-of-the-arts in result diversity and generation controllability.
翻訳日:2022-11-08 17:13:05 公開日:2022-11-04
# MalGrid:大規模マルウェアコーパスにおけるバイナリ機能の可視化

MalGrid: Visualization Of Binary Features In Large Malware Corpora ( http://arxiv.org/abs/2211.02696v1 )

ライセンス: Link先を確認
Tajuddin Manhar Mohammed, Lakshmanan Nataraj, Satish Chikkagoudar, Shivkumar Chandrasekaran, B.S. Manjunath(参考訳) マルウェアの数は絶えず増えている。 新しいマルウェアの多くは既存のマルウェアを改造したものだが、その数は圧倒的に多い。 本稿では,2次元(2次元)空間グリッド上で何百万ものマルウェアを視覚化し,ポイントにマッピングするシステムを提案する。 これにより、大規模なマルウェアデータセット内の関係を視覚化し、異なるマルウェアを素早く画面表示し、状況認識を提供するためのトリアージソリューションを開発することができる。 我々のアプローチはインタラクティブディスプレイ内の2つの可視化をリンクする。 最初の視点は、マルウェアのバイナリー特徴表現の次元の縮小に基づくサンプル間の類似性の空間的ポイントベース可視化である。 第2の空間グリッドベースのビューは、共有するバイナリベースの視覚表現の観点から、選択されたマルウェアサンプル間の類似点と相違点をよりよく理解します。 また, マルウェアデータに対するパッケージングの効果が, パッケージングアルゴリズムの複雑さと相関するケーススタディを提案する。

The number of malware is constantly on the rise. Though most new malware are modifications of existing ones, their sheer number is quite overwhelming. In this paper, we present a novel system to visualize and map millions of malware to points in a 2-dimensional (2D) spatial grid. This enables visualizing relationships within large malware datasets that can be used to develop triage solutions to screen different malware rapidly and provide situational awareness. Our approach links two visualizations within an interactive display. Our first view is a spatial point-based visualization of similarity among the samples based on a reduced dimensional projection of binary feature representations of malware. Our second spatial grid-based view provides a better insight into similarities and differences between selected malware samples in terms of the binary-based visual representations they share. We also provide a case study where the effect of packing on the malware data is correlated with the complexity of the packing algorithm.
翻訳日:2022-11-08 17:02:19 公開日:2022-11-04
# 1Cademy @ Causal News Corpus 2022: 社会・政治イベントデータの因果分類における自己学習の活用

1Cademy @ Causal News Corpus 2022: Leveraging Self-Training in Causality Classification of Socio-Political Event Data ( http://arxiv.org/abs/2211.02729v1 )

ライセンス: Link先を確認
Adam Nik, Ge Zhang, Xingran Chen, Mingyu Li, Jie Fu(参考訳) 本稿では,テキスト(ケース)ワークショップ@emnlp 2022における社会政治イベントの自動抽出の課題と応用について紹介する。 本稿では,教師-学生分類法に従う自己学習パイプラインを提案することで,事象因果検出のタスクにアプローチする。 より具体的には、最初は真のタスクデータに基づいて教師モデルを訓練し、その教師モデルを自己ラベルデータに使用して、最終タスク予測のために別の学生モデルのトレーニングに使用する。 自己学習過程における正または負の自己ラベル例の数の制限が分類性能に与える影響を検証した。 最終結果は、イベント因果配列分類のタスク内でテストされた全モデルおよび自己ラベル付きトレーニングセットに対して、自己学習を用いることで包括的なパフォーマンス改善が達成されることを示す。 その上、トレーニングで使用したポジティブ/ネガティブな例を制限しても、自己トレーニングのパフォーマンスは低下しないことがわかった。 私たちのコードはhttps://github.com/Gzhang-umich/1CademyTeamOfCASEで公開されています。

This paper details our participation in the Challenges and Applications of Automated Extraction of Socio-political Events from Text (CASE) workshop @ EMNLP 2022, where we take part in Subtask 1 of Shared Task 3. We approach the given task of event causality detection by proposing a self-training pipeline that follows a teacher-student classifier method. More specifically, we initially train a teacher model on the true, original task data, and use that teacher model to self-label data to be used in the training of a separate student model for the final task prediction. We test how restricting the number of positive or negative self-labeled examples in the self-training process affects classification performance. Our final results show that using self-training produces a comprehensive performance improvement across all models and self-labeled training sets tested within the task of event causality sequence classification. On top of that, we find that self-training performance did not diminish even when restricting either positive/negative examples used in training. Our code is be publicly available at https://github.com/Gzhang-umich/1CademyTeamOfCASE.
翻訳日:2022-11-08 16:35:58 公開日:2022-11-04
# ニューラルネットワークのトポロジーに関する敵対的ロバストネスの視点

An Adversarial Robustness Perspective on the Topology of Neural Networks ( http://arxiv.org/abs/2211.02675v1 )

ライセンス: Link先を確認
Morgane Goibert, Thomas Ricatte, Elvis Dohmatob(参考訳) 本稿では,ニューラルネットワーク(nns)トポロジーが逆ロバスト性に与える影響について検討する。 具体的には,入力がNNのすべての層を横切るときに発生するグラフについて検討し,そのグラフがクリーンかつ逆入力に対して異なることを示す。 クリーンな入力からのグラフはハイウェイエッジを中心により集中的であるのに対して、敵からのグラフはより拡散し、最適化されていないエッジを活用する。 様々なデータセットやアーキテクチャの実験を通して、最適化されていないエッジが敵の脆弱性の源であり、敵の入力を検出するために使用できることを示す。

In this paper, we investigate the impact of neural networks (NNs) topology on adversarial robustness. Specifically, we study the graph produced when an input traverses all the layers of a NN, and show that such graphs are different for clean and adversarial inputs. We find that graphs from clean inputs are more centralized around highway edges, whereas those from adversaries are more diffuse, leveraging under-optimized edges. Through experiments on a variety of datasets and architectures, we show that these under-optimized edges are a source of adversarial vulnerability and that they can be used to detect adversarial inputs.
翻訳日:2022-11-08 16:26:26 公開日:2022-11-04
# グラフに基づく深部生成モデルを用いたDe novo PROTAC設計

De novo PROTAC design using graph-based deep generative models ( http://arxiv.org/abs/2211.02660v1 )

ライセンス: Link先を確認
Divya Nori, Connor W. Coley, Roc\'io Mercado(参考訳) プロテオリシスTArgeting Chimeras(PROTACs)は、プロテアソームによる分解を印付け、関心タンパク質(POI)を分解する新たな治療法である。 近年の人工知能(ai)の発展は、深層生成モデルが望ましい性質を持つ分子のデ・ノボ設計を支援することを示唆しており、そのプロタック設計への応用はほとんど未定である。 空グラフから新しいプロタック構造を提案するためにグラフベースの生成モデルが利用できることを示す。 本モデルは,政策段階強化学習(rl)によりpoiの劣化を予測した大型分子(30~140重原子)の生成に導くことができる。 RL中のリワードは、各POIに対する分子の劣化ポテンシャルを予測する木代理モデルを用いて適用される。 本手法により, 予測劣化活性の高い化合物に対する生成モデルを導出する。 希少な公開データで訓練されているにもかかわらず、生成モデルは既知の分解物に見られるサブ構造を持つ分子を提案する。 微調整後、難解なpoiに対する予測活性は50%から80%以上まで上昇し、試料化合物の化学的有効性がほぼ完全なため、タンパク質分解のためのプロタク様分子の最適化に有望なアプローチであることが示唆された。

PROteolysis TArgeting Chimeras (PROTACs) are an emerging therapeutic modality for degrading a protein of interest (POI) by marking it for degradation by the proteasome. Recent developments in artificial intelligence (AI) suggest that deep generative models can assist with the de novo design of molecules with desired properties, and their application to PROTAC design remains largely unexplored. We show that a graph-based generative model can be used to propose novel PROTAC-like structures from empty graphs. Our model can be guided towards the generation of large molecules (30--140 heavy atoms) predicted to degrade a POI through policy-gradient reinforcement learning (RL). Rewards during RL are applied using a boosted tree surrogate model that predicts a molecule's degradation potential for each POI. Using this approach, we steer the generative model towards compounds with higher likelihoods of predicted degradation activity. Despite being trained on sparse public data, the generative model proposes molecules with substructures found in known degraders. After fine-tuning, predicted activity against a challenging POI increases from 50% to >80% with near-perfect chemical validity for sampled compounds, suggesting this is a promising approach for the optimization of large, PROTAC-like molecules for targeted protein degradation.
翻訳日:2022-11-08 16:18:06 公開日:2022-11-04
# エネルギー効率のよい加速度計を用いたクライミング経路のクラスタリング

Climbing Routes Clustering Using Energy-Efficient Accelerometers Attached to the Quickdraws ( http://arxiv.org/abs/2211.02680v1 )

ライセンス: Link先を確認
Sadaf Moaveninejad and Andrea Janes(参考訳) クライミングジムの課題の1つは、登山者がサービスを改善しインフラを最適に活用するために人気のあるルートを見つけることである。 この問題は登山者のプライバシーと利便性と体育館の費用の両方を保護しなければならない。 この目的のために,クライミングロープをボルトアンカーに接続するクイックドリューと呼ばれる壁に取り付けられたクライミング機器に取り付けられた加速度センサを用いて,データを収集するハードウェアプロトタイプを開発した。 対応するセンサはエネルギー効率が良いように構成されており、登山ジムで大量に使用した場合の交換費用や時間消費の面で実用的になる。 本稿では、ハードウェア仕様、超低電力モードでセンサが測定したデータ、異なるルートを登る際のデータのパターンを検出し、経路クラスタリングのための教師なしアプローチを開発する。

One of the challenges for climbing gyms is to find out popular routes for the climbers to improve their services and optimally use their infrastructure. This problem must be addressed preserving both the privacy and convenience of the climbers and the costs of the gyms. To this aim, a hardware prototype is developed to collect data using accelerometer sensors attached to a piece of climbing equipment mounted on the wall, called quickdraw, that connects the climbing rope to the bolt anchors. The corresponding sensors are configured to be energy-efficient, hence becoming practical in terms of expenses and time consumption for replacement when used in large quantities in a climbing gym. This paper describes hardware specifications, studies data measured by the sensors in ultra-low power mode, detect patterns in data during climbing different routes, and develops an unsupervised approach for route clustering.
翻訳日:2022-11-08 16:17:42 公開日:2022-11-04
# GLOBEMデータセット:時間的人間行動モデリング一般化のための多年データセット

GLOBEM Dataset: Multi-Year Datasets for Longitudinal Human Behavior Modeling Generalization ( http://arxiv.org/abs/2211.02733v1 )

ライセンス: Link先を確認
Xuhai Xu, Han Zhang, Yasaman Sefidgar, Yiyi Ren, Xin Liu, Woosuk Seo, Jennifer Brown, Kevin Kuehn, Mike Merrill, Paula Nurius, Shwetak Patel, Tim Althoff, Margaret E. Morris, Eve Riskin, Jennifer Mankoff, Anind K. Dey(参考訳) 近年の研究では、スマートフォンやウェアラブルが捉えた行動信号が縦方向の行動モデリングに有効であることを実証している。 しかし、アルゴリズム間の公正な比較のためのオープンなテストベッドとして機能する包括的な公開データセットがない。 さらに、先行研究は、これらのアルゴリズムのクロスデータセットの一般化性を測定することなく、単一集団のデータを用いたアルゴリズムを短時間で評価する。 我々は,モバイルおよびウェアラブルセンサから収集した700以上のユーザ年数と497のユニークなユーザデータと,幅広い幸福度指標を含む,最初の複数年間の受動的センシングデータセットを提案する。 我々のデータセットは、さまざまなユーザと年数にわたる行動モデリングアルゴリズムの一般化可能性の複数のデータセット間評価をサポートすることができる。 起点として,抑うつ検出タスクに関する18のアルゴリズムのベンチマーク結果を提供する。 以上の結果から,事前の抑うつ検出アルゴリズムとドメイン一般化手法の両方が潜在性を示すが,適切なクロスデータセット一般化を達成するためにはさらなる研究が必要であることが示唆された。 複数の年次データセットは、一般化可能な長手行動モデリングアルゴリズムを開発する際にMLコミュニティをサポートすることができると期待する。

Recent research has demonstrated the capability of behavior signals captured by smartphones and wearables for longitudinal behavior modeling. However, there is a lack of a comprehensive public dataset that serves as an open testbed for fair comparison among algorithms. Moreover, prior studies mainly evaluate algorithms using data from a single population within a short period, without measuring the cross-dataset generalizability of these algorithms. We present the first multi-year passive sensing datasets, containing over 700 user-years and 497 unique users' data collected from mobile and wearable sensors, together with a wide range of well-being metrics. Our datasets can support multiple cross-dataset evaluations of behavior modeling algorithms' generalizability across different users and years. As a starting point, we provide the benchmark results of 18 algorithms on the task of depression detection. Our results indicate that both prior depression detection algorithms and domain generalization techniques show potential but need further research to achieve adequate cross-dataset generalizability. We envision our multi-year datasets can support the ML community in developing generalizable longitudinal behavior modeling algorithms.
翻訳日:2022-11-08 16:17:28 公開日:2022-11-04
# 不確実性を考慮した公平なデータ駆動決定のための予測モデリング

Uncertainty-aware predictive modeling for fair data-driven decisions ( http://arxiv.org/abs/2211.02730v1 )

ライセンス: Link先を確認
Patrick Kaiser, Christoph Kern, David R\"ugamer(参考訳) 産業と学術の両方が、信頼できる責任ある機械学習(ML)システムの開発に大きく進歩している。 公平さや説明可能性といった重要な概念はよく扱われるが、システムの安全性は一般的に十分に考慮されていない。 データ駆動型意思決定システムを社会技術システムとして見ることにより、機械学習の文献における不確実性に注目し、フェアMLシステムが安全なMLシステムであることを示す。 分布回帰(distribution regression)を描くなどして、公平なモデルは不確実性を認識するモデルである必要があると仮定する。 公平な判断のために、安全なフェールオプションは、未知の分類を持つ個人に使用されるべきだと論じます。 我々は,標準mlモデルに対する複数の懸念に対処するモデリングフレームワークとして,半構造化深分布回帰を導入し,その利用を求職者のアルゴリズム的プロファイリングの実例で示す。

Both industry and academia have made considerable progress in developing trustworthy and responsible machine learning (ML) systems. While critical concepts like fairness and explainability are often addressed, the safety of systems is typically not sufficiently taken into account. By viewing data-driven decision systems as socio-technical systems, we draw on the uncertainty in ML literature to show how fairML systems can also be safeML systems. We posit that a fair model needs to be an uncertainty-aware model, e.g. by drawing on distributional regression. For fair decisions, we argue that a safe fail option should be used for individuals with uncertain categorization. We introduce semi-structured deep distributional regression as a modeling framework which addresses multiple concerns brought against standard ML models and show its use in a real-world example of algorithmic profiling of job seekers.
翻訳日:2022-11-08 16:02:47 公開日:2022-11-04
# GFlowNetと変分ベイズを用いた因果構造とメカニズムのベイズ的学習

Bayesian learning of Causal Structure and Mechanisms with GFlowNets and Variational Bayes ( http://arxiv.org/abs/2211.02763v1 )

ライセンス: Link先を確認
Mizu Nishikawa-Toomey, Tristan Deleu, Jithendaraa Subramanian, Yoshua Bengio, Laurent Charlin(参考訳) ベイズ因果構造学習は、有向非巡回グラフ(dag)上の後方分布と、親変数と子変数の関係を定義するメカニズムを学ぶことを目的としている。 ベイズ的アプローチをとることによって、因果モデルの不確かさを推論することができる。 モデルに対する不確実性をモデル化するという概念は、有限量の観測データしか与えられない場合、モデルが識別できないため、因果構造学習において特に重要である。 本稿では,変分ベイズを用いた因果モデルの構造とメカニズムを共同で学習する新しい手法を提案し,これを変分ベイズ-DAG-GFlowNet(VBG)と呼ぶ。 我々は,GFlowNetsを用いたベイズ的因果構造学習法を拡張し,構造上の後方分布だけでなく,線形ガウスモデルのパラメータも学習する。 シミュレーションデータを用いた結果から,非循環グラフのサンプル化の保証や非線形因果機構への一般化の柔軟性など,既存の手法よりもいくつかの利点があるが,vbgはdagやメカニズム上での後方のモデリングにおいて,いくつかのベースラインと競合していることが示唆された。

Bayesian causal structure learning aims to learn a posterior distribution over directed acyclic graphs (DAGs), and the mechanisms that define the relationship between parent and child variables. By taking a Bayesian approach, it is possible to reason about the uncertainty of the causal model. The notion of modelling the uncertainty over models is particularly crucial for causal structure learning since the model could be unidentifiable when given only a finite amount of observational data. In this paper, we introduce a novel method to jointly learn the structure and mechanisms of the causal model using Variational Bayes, which we call Variational Bayes-DAG-GFlowNet (VBG). We extend the method of Bayesian causal structure learning using GFlowNets to learn not only the posterior distribution over the structure, but also the parameters of a linear-Gaussian model. Our results on simulated data suggest that VBG is competitive against several baselines in modelling the posterior over DAGs and mechanisms, while offering several advantages over existing methods, including the guarantee to sample acyclic graphs, and the flexibility to generalize to non-linear causal mechanisms.
翻訳日:2022-11-08 16:02:33 公開日:2022-11-04
# 模倣学習の廃止

Deconfounded Imitation Learning ( http://arxiv.org/abs/2211.02667v1 )

ライセンス: Link先を確認
Risto Vuorio, Johann Brehmer, Hanno Ackermann, Daniel Dijkman, Taco Cohen, Pim de Haan(参考訳) 標準的な模倣学習は、専門家のデモ参加者が模倣エージェントと異なる感覚入力を持つ場合に失敗する。 これは、部分的可観測性が因果グラフに隠れた共同設立者を引き起こすためである。 共用模倣学習問題の領域を整理し、正しい模倣ポリシーを識別できるデータ要件の異なる3つの設定を同定する。 次に,仮説モデルと潜在条件ポリシーを併用した推論モデルを学習する擬似学習アルゴリズムを提案する。 テスト時にエージェントは、潜在性に関する信念の更新と、その信念の下で行動することとを交互に行う。 本稿では,このアルゴリズムが正しい介入方針に収束し,解決し,一定の仮定の下で漸近的に最適な模倣性能が得られることを示す。

Standard imitation learning can fail when the expert demonstrators have different sensory inputs than the imitating agent. This is because partial observability gives rise to hidden confounders in the causal graph. We break down the space of confounded imitation learning problems and identify three settings with different data requirements in which the correct imitation policy can be identified. We then introduce an algorithm for deconfounded imitation learning, which trains an inference model jointly with a latent-conditional policy. At test time, the agent alternates between updating its belief over the latent and acting under the belief. We show in theory and practice that this algorithm converges to the correct interventional policy, solves the confounding issue, and can under certain assumptions achieve an asymptotically optimal imitation performance.
翻訳日:2022-11-08 15:50:34 公開日:2022-11-04
# 大規模言語モデルのスケーラビリティ監視の進展測定

Measuring Progress on Scalable Oversight for Large Language Models ( http://arxiv.org/abs/2211.03540v1 )

ライセンス: Link先を確認
Samuel R. Bowman, Jeeyoon Hyun, Ethan Perez, Edwin Chen, Craig Pettit, Scott Heiner, Kamile Lukosuite, Amanda Askell, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Christopher Olah, Daniela Amodei, Dario Amodei, Dawn Drain, Dustin Li, Eli Tran-Johnson, Jackson Kernion, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Liane Lovitt, Nelson Elhage, Nicholas Schiefer, Nicholas Joseph, Noem\'i Mercado, Nova DasSarma, Robin Larson, Sam McCandlish, Sandipan Kundu, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Timothy Telleen-Lawton, Tom Brown, Tom Henighan, Tristan Hume, Yuntao Bai, Zac Hatfield-Dodds, Ben Mann, Jared Kaplan(参考訳) 安全で有用な汎用AIシステムを開発するためには、スケーラブルな監視を前進させる必要があります。 この問題に関する実証的な研究は、我々の能力を超えるシステムを持っていないため、簡単ではない。 本稿は, この問題を実証的に研究可能なものにする方法に着目し, この問題に対する考え方の1つについて論じる。 まず、人間専門家が成功するが、人間や現在の汎用AIシステムが失敗するタスクを選択することに焦点を当てた実験的な設計を提案する。 次に、この実験設計の重要な特徴を実証し、2つの質問応答タスク(MMLUと時間制限Qualities)でその実現可能性を示すための概念実証実験を示す。 これらのタスクにおいて、チャットを通じて信頼できない大言語モデルダイアログアシスタントと対話する人間の参加者は、スケーラブルな監視のための自明なベースライン戦略である。 これらの結果は、スケーラブルな監視が現在のモデルで研究し、大きな言語モデルが困難なタスクで人間を生産的に支援できるという最近の知見を裏付けるものである。

Developing safe and useful general-purpose AI systems will require us to make progress on scalable oversight: the problem of supervising systems that potentially outperform us on most skills relevant to the task at hand. Empirical work on this problem is not straightforward, since we do not yet have systems that broadly exceed our abilities. This paper discusses one of the major ways we think about this problem, with a focus on how to turn it into one that can be productively studied empirically. We first present an experimental design centered on choosing tasks for which human specialists succeed but unaided humans and current general AI systems fail. We then present a proof-of-concept experiment following meant to demonstrate a key feature of this experimental design and show its viability with two question-answering tasks: MMLU and time-limited QuALITY. On these tasks, we find that human participants who interact with an unreliable large-language-model dialog assistant through chat -- a trivial baseline strategy for scalable oversight -- substantially outperform both the model alone and their own unaided performance. These results are an encouraging sign that scalable oversight will be tractable to study with present models and bolster recent findings that large language models can productively assist humans with difficult tasks.
翻訳日:2022-11-08 15:44:11 公開日:2022-11-04
# WaveNets: Wavelet Channel Attention Networks

WaveNets: Wavelet Channel Attention Networks ( http://arxiv.org/abs/2211.02695v1 )

ライセンス: Link先を確認
Hadi Salman, Caleb Parks, Shi Yin Hong, Justin Zhan(参考訳) チャネルアテンションは、コンピュータビジョンの分野における効果的な技術としてスプリームを支配する。 しかし,SENetが提案するチャネルアテンションは,GAP(Global Average Pooling)を用いてチャネルをスカラーとして表現することで特徴学習における情報損失に悩まされる。 したがって、効果的なチャネルアテンション機構を設計するには、チャネル間依存性のモデリングにおける特徴保存のソリューションを見つける必要がある。 本研究では,チャネル表現問題の解法としてウェーブレット変換圧縮を利用する。 まず,従来のチャネルアテンションモジュールを備えた自動エンコーダモデルとしてウェーブレット変換をテストした。 次に、独立チャネル圧縮法としてウェーブレット変換をテストする。 大域平均プーリングは再帰近似ハールウェーブレット変換と同値であることが証明される。 この証明により、Wavelet圧縮を用いてチャネルアテンションを一般化し、WaveNetと命名する。 提案手法の実装は,既存のチャネルアテンション手法に数行のコードで組み込むことができる。 画像分類タスクにimagenetデータセットを用いた提案手法をテストする。 本手法は,ベースラインセネを上回り,最先端の結果を得る。 私たちのコード実装はhttps://github.com/hady1011/WaveNet-Cで公開されています。

Channel Attention reigns supreme as an effective technique in the field of computer vision. However, the proposed channel attention by SENet suffers from information loss in feature learning caused by the use of Global Average Pooling (GAP) to represent channels as scalars. Thus, designing effective channel attention mechanisms requires finding a solution to enhance features preservation in modeling channel inter-dependencies. In this work, we utilize Wavelet transform compression as a solution to the channel representation problem. We first test wavelet transform as an Auto-Encoder model equipped with conventional channel attention module. Next, we test wavelet transform as a standalone channel compression method. We prove that global average pooling is equivalent to the recursive approximate Haar wavelet transform. With this proof, we generalize channel attention using Wavelet compression and name it WaveNet. Implementation of our method can be embedded within existing channel attention methods with a couple of lines of code. We test our proposed method using ImageNet dataset for image classification task. Our method outperforms the baseline SENet, and achieves the state-of-the-art results. Our code implementation is publicly available at https://github.com/hady1011/WaveNet-C.
翻訳日:2022-11-08 15:35:37 公開日:2022-11-04
# 可視性解析による視覚制御系の閉ループ故障の発見

Discovering Closed-Loop Failures of Vision-Based Controllers via Reachability Analysis ( http://arxiv.org/abs/2211.02736v1 )

ライセンス: Link先を確認
Kaustav Chakraborty and Somil Bansal(参考訳) 機械学習駆動のイメージベースのコントローラーは、ロボットシステムが環境からの視覚フィードバックに基づいてインテリジェントなアクションを取ることができる。 これらのコントローラがシステム安全違反につながる可能性を理解することは、システムにとって安全クリティカルなアプリケーションとエンジニアリング修正安全対策を統合する上で重要である。 既存の手法では、シミュレーションベースのテスト(またはファルシフィケーション)を利用して、視覚ベースのコントローラの故障、すなわちクローズドループの安全違反につながる視覚入力を見つける。 しかし、これらの手法は、RGB画像のような高次元および複雑な視覚入力を含むシナリオには適していない。 本研究では,ハミルトン・ヤコビ(HJ)の到達可能性問題として,閉ループ型視覚障害の発見を論じる。 提案手法は,シミュレーションに基づく解析とHJリーチビリティ手法を融合して,システムの後方到達管(BRT)の近似,すなわち視覚制御系におけるシステムの安全でない状態の集合を計算する。 BRTを利用することで、システム状態とそれに対応する視覚的入力がクローズドループ障害につながることを、的確かつ体系的に見つけることができる。 これらの視覚入力はその後分析され、障害を引き起こした可能性のある入力特性を見つけることができる。 高次元視覚入力へのスケーラビリティに加えて、BRTの明示的な計算により、ランダムなシミュレーションによって露呈し難い非自明なシステム障害を捉えることができる。 我々は,RGB画像ベースニューラルネットワークコントローラを用いた2つのケーススタディを実演する。 (a)自律型屋内ナビゲーション、及び (b)自律型航空機タクシー

Machine learning driven image-based controllers allow robotic systems to take intelligent actions based on the visual feedback from their environment. Understanding when these controllers might lead to system safety violations is important for their integration in safety-critical applications and engineering corrective safety measures for the system. Existing methods leverage simulation-based testing (or falsification) to find the failures of vision-based controllers, i.e., the visual inputs that lead to closed-loop safety violations. However, these techniques do not scale well to the scenarios involving high-dimensional and complex visual inputs, such as RGB images. In this work, we cast the problem of finding closed-loop vision failures as a Hamilton-Jacobi (HJ) reachability problem. Our approach blends simulation-based analysis with HJ reachability methods to compute an approximation of the backward reachable tube (BRT) of the system, i.e., the set of unsafe states for the system under vision-based controllers. Utilizing the BRT, we can tractably and systematically find the system states and corresponding visual inputs that lead to closed-loop failures. These visual inputs can be subsequently analyzed to find the input characteristics that might have caused the failure. Besides its scalability to high-dimensional visual inputs, an explicit computation of BRT allows the proposed approach to capture non-trivial system failures that are difficult to expose via random simulations. We demonstrate our framework on two case studies involving an RGB image-based neural network controller for (a) autonomous indoor navigation, and (b) autonomous aircraft taxiing.
翻訳日:2022-11-08 15:16:44 公開日:2022-11-04
# 多言語モデルにおける圧縮の興味深い特性

Intriguing Properties of Compression on Multilingual Models ( http://arxiv.org/abs/2211.02738v1 )

ライセンス: Link先を確認
Kelechi Ogueji, Orevaoghene Ahia, Gbemileke Onilude, Sebastian Gehrmann, Sara Hooker and Julia Kreutzer(参考訳) 多言語モデルは、増大する言語に一般化するスケーリングに依存することが多い。 圧縮技術は、実世界のリソース制約とモデルサイズの成長の調整に広く依存しているが、圧縮は低リソース言語のモデルパフォーマンスに異なる影響を与える可能性がある。 したがって、スケール、多言語主義、圧縮のトレードオフを理解することが重要である。 本研究では,微調整における多言語事前学習言語モデルの分散化の影響を特徴付ける実験フレームワークを提案する。 このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。 従来の結果とは対照的に,圧縮は密度モデルよりもモデルロバスト性を向上させる可能性がある。 また,特定のスカラー化体制下では,低リソース言語の性能に不均等に影響を及ぼすのではなく,圧縮が有効である可能性が示唆された。

Multilingual models are often particularly dependent on scaling to generalize to a growing number of languages. Compression techniques are widely relied upon to reconcile the growth in model size with real world resource constraints, but compression can have a disparate effect on model performance for low-resource languages. It is thus crucial to understand the trade-offs between scale, multilingualism, and compression. In this work, we propose an experimental framework to characterize the impact of sparsifying multilingual pre-trained language models during fine-tuning. Applying this framework to mBERT named entity recognition models across 40 languages, we find that compression confers several intriguing and previously unknown generalization properties. In contrast to prior findings, we find that compression may improve model robustness over dense models. We additionally observe that under certain sparsification regimes compression may aid, rather than disproportionately impact the performance of low-resource languages.
翻訳日:2022-11-08 15:16:17 公開日:2022-11-04
# KGLM:リンク予測のための言語モデルにおける知識グラフ構造の統合

KGLM: Integrating Knowledge Graph Structure in Language Models for Link Prediction ( http://arxiv.org/abs/2211.02744v1 )

ライセンス: Link先を確認
Jason Youn and Ilias Tagkopoulos(参考訳) 複雑な関係を大規模に表現する知識グラフの能力は,知識表現,質問応答,不正検出,レコメンデーションシステムなど,さまざまなニーズに採用されている。 知識グラフは、しばしばそれらが表す情報に不完全であり、リンクや関係予測のような知識グラフの完成タスクを必要とする。 事前訓練された言語モデルと微調整された言語モデルはこれらのタスクにおいて有望であるが、これらのモデルは知識グラフに符号化された固有情報、すなわちエンティティと関係型を無視している。 本稿では、知識グラフ言語モデル(kglm)アーキテクチャを提案する。そこでは、異なるエンティティと関係型を区別することを学ぶ新しいエンティティ/関係埋め込み層を導入し、モデルが知識グラフの構造を学習できるようにする。 そこで本研究では,ナレッジグラフから抽出したトリプルを用いて,この追加組込み層を用いて言語モデルをさらに事前学習し,その後,ベンチマークデータセットにおけるリンク予測タスクの新たな最先端性能を設定する。

The ability of knowledge graphs to represent complex relationships at scale has led to their adoption for various needs including knowledge representation, question-answering, fraud detection, and recommendation systems. Knowledge graphs are often incomplete in the information they represent, necessitating the need for knowledge graph completion tasks, such as link and relation prediction. Pre-trained and fine-tuned language models have shown promise in these tasks although these models ignore the intrinsic information encoded in the knowledge graph, namely the entity and relation types. In this work, we propose the Knowledge Graph Language Model (KGLM) architecture, where we introduce a new entity/relation embedding layer that learns to differentiate distinctive entity and relation types, therefore allowing the model to learn the structure of the knowledge graph. In this work, we show that further pre-training the language models with this additional embedding layer using the triples extracted from the knowledge graph, followed by the standard fine-tuning phase sets a new state-of-the-art performance for the link prediction task on the benchmark datasets.
翻訳日:2022-11-08 15:16:00 公開日:2022-11-04
# 生涯自己適応を用いた学習型自己適応システムにおける適応空間のドリフト処理

Dealing with Drift of Adaptation Spaces in Learning-based Self-Adaptive Systems using Lifelong Self-Adaptation ( http://arxiv.org/abs/2211.02658v1 )

ライセンス: Link先を確認
Omid Gheibi and Danny Weyns(参考訳) 近年、機械学習(ML)は自己適応をサポートする一般的なアプローチとなっている。 MLは、不確実性とスケーラブルな意思決定の下での最新のランタイムモデルを維持するなど、自己適応におけるいくつかの問題に対処するために使用されてきた。 しかし、MLの利用には固有の課題が伴う。 本稿では,学習型自己適応システムにおいて特に重要な課題である適応空間のドリフトに着目した。 適応空間では、適応オプションの集合を参照し、自己適応システムは、適応オプションの推定品質特性に基づいて、所定のタイミングで適応を選択することができる。 適応空間のドリフトは不確実性から始まり、適応オプションの品質特性に影響を及ぼす。 このようなドリフトは、最終的に適応オプションが適応目標の初期セットを満たすことができず、システムの品質を劣化させたり、適応オプションが出現して適応目標が拡張されることを示唆する。 MLでは、そのようなシフトは、一般的なML技術が扱う問題のあるターゲットデータにおいて、新しいクラスの出現に対応する。 この問題に対処するために,生涯ML層を用いた学習に基づく自己適応システムを強化する,新たな自己適応手法を提案する。 このアプローチを生涯の自己適応と呼んでいる。 生涯ml層は、システムとその環境を追跡し、その知識と現在のタスクを関連付け、違いに基づいて新しいタスクを特定し、それに応じて自己適応システムの学習モデルを更新する。 人間の利害関係者は学習プロセスを支援し、学習と目標モデルを調整するために関与する。 本稿では、生涯にわたる自己適応のための再利用可能なアーキテクチャを提案し、自己適応の意思決定に影響を与える適応空間のドリフトに適用する。 DeltaIoTの例を使って,一連のシナリオに対するアプローチを検証する。

Recently, machine learning (ML) has become a popular approach to support self-adaptation. ML has been used to deal with several problems in self-adaptation, such as maintaining an up-to-date runtime model under uncertainty and scalable decision-making. Yet, exploiting ML comes with inherent challenges. In this paper, we focus on a particularly important challenge for learning-based self-adaptive systems: drift in adaptation spaces. With adaptation space we refer to the set of adaptation options a self-adaptive system can select from at a given time to adapt based on the estimated quality properties of the adaptation options. Drift of adaptation spaces originates from uncertainties, affecting the quality properties of the adaptation options. Such drift may imply that eventually no adaptation option can satisfy the initial set of the adaptation goals, deteriorating the quality of the system, or adaptation options may emerge that allow enhancing the adaptation goals. In ML, such shift corresponds to novel class appearance, a type of concept drift in target data that common ML techniques have problems dealing with. To tackle this problem, we present a novel approach to self-adaptation that enhances learning-based self-adaptive systems with a lifelong ML layer. We refer to this approach as lifelong self-adaptation. The lifelong ML layer tracks the system and its environment, associates this knowledge with the current tasks, identifies new tasks based on differences, and updates the learning models of the self-adaptive system accordingly. A human stakeholder may be involved to support the learning process and adjust the learning and goal models. We present a reusable architecture for lifelong self-adaptation and apply it to the case of drift of adaptation spaces that affects the decision-making in self-adaptation. We validate the approach for a series of scenarios using the DeltaIoT exemplar.
翻訳日:2022-11-08 15:09:26 公開日:2022-11-04
# MONAI:医療の深層学習のためのオープンソースのフレームワーク

MONAI: An open-source framework for deep learning in healthcare ( http://arxiv.org/abs/2211.02701v1 )

ライセンス: Link先を確認
M. Jorge Cardoso, Wenqi Li, Richard Brown, Nic Ma, Eric Kerfoot, Yiheng Wang, Benjamin Murrey, Andriy Myronenko, Can Zhao, Dong Yang, Vishwesh Nath, Yufan He, Ziyue Xu, Ali Hatamizadeh, Andriy Myronenko, Wentao Zhu, Yun Liu, Mingxin Zheng, Yucheng Tang, Isaac Yang, Michael Zephyr, Behrooz Hashemian, Sachidanand Alle, Mohammad Zalbagi Darestani, Charlie Budd, Marc Modat, Tom Vercauteren, Guotai Wang, Yiwen Li, Yipeng Hu, Yunguan Fu, Benjamin Gorman, Hans Johnson, Brad Genereaux, Barbaros S. Erdal, Vikash Gupta, Andres Diaz-Pinto, Andre Dourson, Lena Maier-Hein, Paul F. Jaeger, Michael Baumgartner, Jayashree Kalpathy-Cramer, Mona Flores, Justin Kirby, Lee A.D. Cooper, Holger R. Roth, Daguang Xu, David Bericat, Ralf Floca, S. Kevin Zhou, Haris Shuaib, Keyvan Farahani, Klaus H. Maier-Hein, Stephen Aylward, Prerna Dogra, Sebastien Ourselin, Andrew Feng(参考訳) 人工知能(AI)は科学のほとんどの領域に多大な影響を与えている。 医療におけるAIの応用は、人間の病気を検出し、診断し、診断し、介入する能力を改善する可能性がある。 aiモデルが臨床で使用されるためには、安全性、再現性、堅牢性が必要であり、基盤となるソフトウェアフレームワークは、処理される医療データの特異性(幾何学、生理学、物理学など)を認識しなければならない。 この研究は、医療におけるディープラーニングのための、フリーで、コミュニティが支援し、コンソーシアムが主導するPyTorchベースのフレームワークであるMONAIを紹介している。 MONAIは、医療データをサポートするためにPyTorchを拡張し、特にイメージングに焦点を当て、医療用AIモデルの開発とデプロイを効率化する目的固有のAIモデルアーキテクチャ、変換、ユーティリティを提供する。 monAIはソフトウェア開発のベストプラクティスに従い、使いやすく、堅牢で、文書化され、十分にテストされたソフトウェアフレームワークを提供する。 MONAIはPyTorchライブラリの単純で付加的で構成的なアプローチを保っている。 monAIは世界中の研究チーム、臨床チーム、産業チームから貢献を受けており、医療のほぼあらゆる側面にまたがる応用を追求している。

Artificial Intelligence (AI) is having a tremendous impact across most areas of science. Applications of AI in healthcare have the potential to improve our ability to detect, diagnose, prognose, and intervene on human disease. For AI models to be used clinically, they need to be made safe, reproducible and robust, and the underlying software framework must be aware of the particularities (e.g. geometry, physiology, physics) of medical data being processed. This work introduces MONAI, a freely available, community-supported, and consortium-led PyTorch-based framework for deep learning in healthcare. MONAI extends PyTorch to support medical data, with a particular focus on imaging, and provide purpose-specific AI model architectures, transformations and utilities that streamline the development and deployment of medical AI models. MONAI follows best practices for software-development, providing an easy-to-use, robust, well-documented, and well-tested software framework. MONAI preserves the simple, additive, and compositional approach of its underlying PyTorch libraries. MONAI is being used by and receiving contributions from research, clinical and industrial teams from around the world, who are pursuing applications spanning nearly every aspect of healthcare.
翻訳日:2022-11-08 15:06:56 公開日:2022-11-04
# 腎移植におけるHLA対応ネットワークの潜時空間モデル

A Latent Space Model for HLA Compatibility Networks in Kidney Transplantation ( http://arxiv.org/abs/2211.02234v1 )

ライセンス: Link先を確認
Zhipeng Huang and Kevin S. Xu(参考訳) 腎移植は末期腎疾患患者にとって好ましい治療法である。 腎移植が成功しても、移植不全と呼ばれる時間の経過とともに失敗するが、移植不全または移植生存時間(移植生存時間)は異なる受信者によって大きく異なる可能性がある。 移植の生存時間に影響を与える重要な生物学的要因は、ドナーと受容器のヒト白血球抗原(HLA)の適合性である。 我々は、ノードがドナーと受信者の異なるHLAを示すネットワークと、エッジウェイトが正あるいは負のHLAの互換性を示すネットワークを用いて、HLAの互換性をモデル化することを提案する。 ネットワークは間接的に観察され、エッジウェイトは直接観察するよりも移植結果から推定される。 間接的に観測された重み付きおよび符号付きネットワークに対する潜在空間モデルを提案する。 我々は,我々の潜伏空間モデルがHLA適合度をより正確に推定できるだけでなく,生存時間を予測する下流タスクの精度を向上させるために生存解析モデルにも組み込むことができることを示した。

Kidney transplantation is the preferred treatment for people suffering from end-stage renal disease. Successful kidney transplants still fail over time, known as graft failure; however, the time to graft failure, or graft survival time, can vary significantly between different recipients. A significant biological factor affecting graft survival times is the compatibility between the human leukocyte antigens (HLAs) of the donor and recipient. We propose to model HLA compatibility using a network, where the nodes denote different HLAs of the donor and recipient, and edge weights denote compatibilities of the HLAs, which can be positive or negative. The network is indirectly observed, as the edge weights are estimated from transplant outcomes rather than directly observed. We propose a latent space model for such indirectly-observed weighted and signed networks. We demonstrate that our latent space model can not only result in more accurate estimates of HLA compatibilities, but can also be incorporated into survival analysis models to improve accuracy for the downstream task of predicting graft survival times.
翻訳日:2022-11-07 17:47:03 公開日:2022-11-04
# 音楽ミキシングスタイルトランスファー:オーディオ効果の解消のためのコントラスト学習アプローチ

Music Mixing Style Transfer: A Contrastive Learning Approach to Disentangle Audio Effects ( http://arxiv.org/abs/2211.02247v1 )

ライセンス: Link先を確認
Junghyun Koo, Marco A. Martinez-Ramirez, Wei-Hsiang Liao, Stefan Uhlich, Kyogu Lee, Yuki Mitsufuji(参考訳) 入力されたマルチトラックのミキシングスタイルを参照歌のミキシングスタイルに変換するエンド・ツー・エンドのミキシングスタイル転送システムを提案する。 これは、参照音楽記録からオーディオ効果関連情報のみを抽出するコントラスト目的のエンコーダによって実現される。 我々のモデルはすべて、未処理のドライデータを取得するデータの不足を軽減する効果的なデータプリプロセッシング手法で、すでに処理済みの湿式マルチトラックデータセットから自己教師ありで訓練される。 音響効果のアンタングル化能力について提案したエンコーダを解析し、客観評価と主観評価の両面からスタイル伝達を混合する性能を検証した。 この結果から,提案システムは参照に近いマルチトラックオーディオの混合スタイルを変換するだけでなく,音源分離モデルを用いた混合スタイルの転送にも頑健であることを示す。

We propose an end-to-end music mixing style transfer system that converts the mixing style of an input multitrack to that of a reference song. This is achieved with an encoder pre-trained with a contrastive objective to extract only audio effects related information from a reference music recording. All our models are trained in a self-supervised manner from an already-processed wet multitrack dataset with an effective data preprocessing method that alleviates the data scarcity of obtaining unprocessed dry data. We analyze the proposed encoder for the disentanglement capability of audio effects and also validate its performance for mixing style transfer through both objective and subjective evaluations. From the results, we show the proposed system not only converts the mixing style of multitrack audio close to a reference but is also robust with mixture-wise style transfer upon using a music source separation model.
翻訳日:2022-11-07 17:46:46 公開日:2022-11-04
# 実時間目標音抽出

Real-Time Target Sound Extraction ( http://arxiv.org/abs/2211.02250v1 )

ライセンス: Link先を確認
Bandhav Veluri, Justin Chan, Malek Itani, Tuochao Chen, Takuya Yoshioka, Shyamnath Gollakota(参考訳) 実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。 そこで本研究では,エンコーダとして拡張因果畳み込み層,デコーダとしてトランスフォーマデコーダ層を有するエンコーダ・デコーダアーキテクチャである波形器を提案する。 このハイブリッドアーキテクチャは、大きな受容フィールドを計算効率良く処理するために拡張因果畳み込みを使用し、また、パフォーマンスのトランスフォーマーベースのアーキテクチャの恩恵を受ける。 評価の結果、SI-SNRiの2.2-3.3dB改善は、1.2-4倍のモデルサイズと1.5-2倍のランタイムを持つ。 オープンソースコードとデータセット:https://github.com/vb000/Waveformer

We present the first neural network model to achieve real-time and streaming target sound extraction. To accomplish this, we propose Waveformer, an encoder-decoder architecture with a stack of dilated causal convolution layers as the encoder, and a transformer decoder layer as the decoder. This hybrid architecture uses dilated causal convolutions for processing large receptive fields in a computationally efficient manner, while also benefiting from the performance transformer-based architectures provide. Our evaluations show as much as 2.2-3.3 dB improvement in SI-SNRi compared to the prior models for this task while having a 1.2-4x smaller model size and a 1.5-2x lower runtime. Open-source code and datasets: https://github.com/vb000/Waveformer
翻訳日:2022-11-07 17:46:29 公開日:2022-11-04
# 拡散に基づく生成的アプローチと識別的アプローチによる音声の復元

Analysing Diffusion-based Generative Approaches versus Discriminative Approaches for Speech Restoration ( http://arxiv.org/abs/2211.02397v1 )

ライセンス: Link先を確認
Jean-Marie Lemercier, Julius Richter, Simon Welker, Timo Gerkmann(参考訳) 拡散に基づく生成モデルは,近年,コンピュータビジョンと音声処理コミュニティに大きな影響を与えている。 データ生成タスク以外にも、音声強調や残響といったデータ復元タスクにも採用されている。 従来の識別モデルは、例えば音声強調のためにより強力であると主張されてきたが、生成拡散アプローチは近年、この性能ギャップをかなり狭めることが示されている。 本稿では,生成拡散モデルの性能と,異なる音声復元課題に対する識別的アプローチを体系的に比較する。 そこで本稿では,複雑な時間周波数領域における拡散に基づく音声強調に対するこれまでのコントリビューションをBandwith拡張のタスクに拡張する。 次に,識別的に訓練されたニューラルネットワークと,同じネットワークアーキテクチャの3つの復元タスク,すなわち音声のデノイジング,非残響,帯域幅拡張を比較した。 生成的アプローチは,全タスクにおける識別的アプローチよりも全世界的に優れており,デバーベーションや帯域幅拡張といった非付加的歪みモデルに対して最も優れたメリットがある。 コードとオーディオのサンプルはhttps://uhh.de/inf-sp-sgmsemultitaskで見ることができる。

Diffusion-based generative models have had a high impact on the computer vision and speech processing communities these past years. Besides data generation tasks, they have also been employed for data restoration tasks like speech enhancement and dereverberation. While discriminative models have traditionally been argued to be more powerful e.g. for speech enhancement, generative diffusion approaches have recently been shown to narrow this performance gap considerably. In this paper, we systematically compare the performance of generative diffusion models and discriminative approaches on different speech restoration tasks. For this, we extend our prior contributions on diffusion-based speech enhancement in the complex time-frequency domain to the task of bandwith extension. We then compare it to a discriminatively trained neural network with the same network architecture on three restoration tasks, namely speech denoising, dereverberation and bandwidth extension. We observe that the generative approach performs globally better than its discriminative counterpart on all tasks, with the strongest benefit for non-additive distortion models, like in dereverberation and bandwidth extension. Code and audio examples can be found online at https://uhh.de/inf-sp-sgmsemultitask
翻訳日:2022-11-07 17:46:13 公開日:2022-11-04
# 空間選択的深部非線形フィルタによる話者抽出

Spatially Selective Deep Non-linear Filters for Speaker Extraction ( http://arxiv.org/abs/2211.02420v1 )

ライセンス: Link先を確認
Kristina Tesch, Timo Gerkmann(参考訳) 複数の人が同時に話すシナリオにおいて、信号の空間的特性は、対象信号を抽出するための最も異なる特徴である。 本研究では,任意の目標方向に操舵可能な深部結合型空間スペクトル非線形フィルタの開発を行う。 そこで本研究では,目的方向に基づいてフィルタの繰り返し層の初期状態を設定する,シンプルで効果的な条件付け機構を提案する。 本手法はベースラインアプローチよりも効果的であり,性能コストを伴わずにフィルタの柔軟性を向上できることを示す。 得られた空間選択型非線形フィルタは任意の話者の音声分離にも利用でき、本論文で示すような高精度なマルチスピーカの局所化を可能にする。

In a scenario with multiple persons talking simultaneously, the spatial characteristics of the signals are the most distinct feature for extracting the target signal. In this work, we develop a deep joint spatial-spectral non-linear filter that can be steered in an arbitrary target direction. For this we propose a simple and effective conditioning mechanism, which sets the initial state of the filter's recurrent layers based on the target direction. We show that this scheme is more effective than the baseline approach and increases the flexibility of the filter at no performance cost. The resulting spatially selective non-linear filters can also be used for speech separation of an arbitrary number of speakers and enable very accurate multi-speaker localization as we demonstrate in this paper.
翻訳日:2022-11-07 17:45:57 公開日:2022-11-04
# CCATMos:非侵入的音声品質評価のための畳み込みコンテキスト対応変圧器ネットワーク

CCATMos: Convolutional Context-aware Transformer Network for Non-intrusive Speech Quality Assessment ( http://arxiv.org/abs/2211.02577v1 )

ライセンス: Link先を確認
Yuchen Liu, Li-Chia Yang, Alex Pawlicki, Marko Stamenovic(参考訳) 音声品質評価は、電話やオンライン会議など、多くの音声通信関連アプリケーションにおいて重要な要素である。 従来の侵入的音声品質評価は、正確な品質測定を提供するために、劣化した発話のクリーンな参照を必要とする。 この要件は、実際のシナリオでこれらのメソッドの使用性を制限する。 一方, 音声品質評価において, 非インタラクティブ主観的測定は「黄金標準」であり, 人間の聴き手は, 劣化した音声の質を本質的に容易に評価できる。 本稿では,人間のレーダの平均世論スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンドツーエンドモデル構造を提案する。 我々は,複数の言語と歪み型にまたがる3つのmosアノテートデータセットのモデルを評価し,その結果をconferencingspeech 2022 challengeに提出した。 実験の結果、CCATは、平均ピアソン相関係数(PCC)が0.530から0.697に増加し、平均RMSEが0.768から0.570に低下し、現在最先端の非侵襲的音声評価モデルと比較して有望なMOS予測を提供することがわかった。

Speech quality assessment has been a critical component in many voice communication related applications such as telephony and online conferencing. Traditional intrusive speech quality assessment requires the clean reference of the degraded utterance to provide an accurate quality measurement. This requirement limits the usability of these methods in real-world scenarios. On the other hand, non-intrusive subjective measurement is the ``golden standard" in evaluating speech quality as human listeners can intrinsically evaluate the quality of any degraded speech with ease. In this paper, we propose a novel end-to-end model structure called Convolutional Context-Aware Transformer (CCAT) network to predict the mean opinion score (MOS) of human raters. We evaluate our model on three MOS-annotated datasets spanning multiple languages and distortion types and submit our results to the ConferencingSpeech 2022 Challenge. Our experiments show that CCAT provides promising MOS predictions compared to current state-of-art non-intrusive speech assessment models with average Pearson correlation coefficient (PCC) increasing from 0.530 to 0.697 and average RMSE decreasing from 0.768 to 0.570 compared to the baseline model on the challenge evaluation test set.
翻訳日:2022-11-07 17:45:47 公開日:2022-11-04
# 確率過程におけるSTL要件のコンフォーマル定量モニタリング

Conformal Quantitative Predictive Monitoring of STL Requirements for Stochastic Processes ( http://arxiv.org/abs/2211.02375v1 )

ライセンス: Link先を確認
Francesca Cairoli, Nicola Paoletti, Luca Bortolussi(参考訳) 予測モニタリング(PM)の問題,すなわち,現在のシステム状態から所望のプロパティの満足度を実行時に予測する問題を考察する。 実行時の安全性保証とオンライン制御の関連性から、pmメソッドは、予測された違反に対するタイムリーな介入を可能にすると同時に、正確性保証を提供するために効率的である必要がある。 本稿では,STL(Signal Temporal Logic)で与えられる確率的プロセスとリッチな仕様をサポートする最初のPM手法である「textit{quantitative predictive monitoring (QPM)」を紹介する。 ある性質が$\phi$を満足するかどうかを予測する既存のPM手法とは異なり、QPMは$\phi$の量的(またはロバストな)STLセマンティクスを予測することで満足度を定量的に測定する。 qpmは計算に非常に効率的で確率的保証を伴う予測区間を導出し、その間隔はシステムの確率的進化に対するstlロバスト性値の任意の確率でカバーする。 そこで我々は,機械学習のアプローチを取り入れ,量子回帰の共形推論の最近の進歩を活用し,時間間隔を推定するために,実行時に高価なモンテカルロシミュレーションを避ける。 また,予測器の再トレーニングや保証を犠牲にすることなく,複合式を扱うための構成的手法でモニターを組み合わせる方法を示す。 複雑度が異なる4つの離散時間確率過程のベンチマークにおいて,QPMの有効性と拡張性を示す。

We consider the problem of predictive monitoring (PM), i.e., predicting at runtime the satisfaction of a desired property from the current system's state. Due to its relevance for runtime safety assurance and online control, PM methods need to be efficient to enable timely interventions against predicted violations, while providing correctness guarantees. We introduce \textit{quantitative predictive monitoring (QPM)}, the first PM method to support stochastic processes and rich specifications given in Signal Temporal Logic (STL). Unlike most of the existing PM techniques that predict whether or not some property $\phi$ is satisfied, QPM provides a quantitative measure of satisfaction by predicting the quantitative (aka robust) STL semantics of $\phi$. QPM derives prediction intervals that are highly efficient to compute and with probabilistic guarantees, in that the intervals cover with arbitrary probability the STL robustness values relative to the stochastic evolution of the system. To do so, we take a machine-learning approach and leverage recent advances in conformal inference for quantile regression, thereby avoiding expensive Monte-Carlo simulations at runtime to estimate the intervals. We also show how our monitors can be combined in a compositional manner to handle composite formulas, without retraining the predictors nor sacrificing the guarantees. We demonstrate the effectiveness and scalability of QPM over a benchmark of four discrete-time stochastic processes with varying degrees of complexity.
翻訳日:2022-11-07 17:45:04 公開日:2022-11-04
# 不確実性定量化による材料特性予測:ベンチマークによる検討

Materials Property Prediction with Uncertainty Quantification: A Benchmark Study ( http://arxiv.org/abs/2211.02235v1 )

ライセンス: Link先を確認
Daniel Varivoda and Rongzhi Dong and Sadman Sadeed Omee and Jianjun Hu(参考訳) 不確実性定量化(UQ)は、堅牢で汎用的な材料特性予測モデルの構築において重要性を高めている。 また、未知の領域から新しいトレーニングデータを取得することで、より優れたモデルをトレーニングするために、アクティブラーニングにも使用できる。 異なるタイプの不確実性ソースを考慮したUQ手法にはいくつかのカテゴリがある。 本稿では、グラフニューラルネットワークに基づく材料特性予測のためのUQ手法に関する総合評価を行い、エラー境界推定やアクティブラーニングにおける不確実性を真に反映しているかを評価する。 生成エネルギー, 吸着エネルギー, 総エネルギー, バンドギャップ特性を含む4つの結晶材料のデータセットに対する実験結果から, 不確実性推定のための一般的なアンサンブル法が材料特性予測におけるUQの最適選択ではないことが示された。 コミュニティの便宜上、すべてのソースコードとデータセットは \url{https://github.com/usccolumbia/materialsuq} で自由にアクセスできる。

Uncertainty quantification (UQ) has increasing importance in building robust high-performance and generalizable materials property prediction models. It can also be used in active learning to train better models by focusing on getting new training data from uncertain regions. There are several categories of UQ methods each considering different types of uncertainty sources. Here we conduct a comprehensive evaluation on the UQ methods for graph neural network based materials property prediction and evaluate how they truly reflect the uncertainty that we want in error bound estimation or active learning. Our experimental results over four crystal materials datasets (including formation energy, adsorption energy, total energy, and band gap properties) show that the popular ensemble methods for uncertainty estimation is NOT the best choice for UQ in materials property prediction. For the convenience of the community, all the source code and data sets can be accessed freely at \url{https://github.com/usccolumbia/materialsUQ}.
翻訳日:2022-11-07 17:39:54 公開日:2022-11-04
# 複数深層学習モデルを用いた大域的および局所的な波形表現のための地震波位相検出

Seismic-phase detection using multiple deep learning models for global and local representations of waveforms ( http://arxiv.org/abs/2211.02261v1 )

ライセンス: Link先を確認
Tomoki Tokuda and Hiromichi Nagao(参考訳) 地震の検出は地震学の基本的な前提条件であり、地震の予測や地殻・マントル構造の理解など様々な研究分野に寄与している。 近年の機械学習技術の進歩により,波形データから地震の自動検出が可能になった。 特に、この取り組みには様々な最先端のディープラーニング手法が適用されている。 本研究では,新しいフレームワークにおける標準畳み込みニューラルネットワークに基づく深層学習を用いた新しい位相検出手法を提案し,検証した。 提案手法の新規性は,大域的および局所的な波形表現のための明示的な学習戦略であり,その堅牢性と柔軟性を高める。 提案手法をモデル化する前に,データポイントを最適に分割した波形の多重クラスタリングにより,波形の局所表現を同定した。 この結果に基づいて、波形のグローバル表現と2つの局所表現を検討した。 その後、グローバルおよびローカル表現毎に異なる位相検出モデルを訓練した。 新しい波形では,各モデルの位相確率の積として全体の位相確率が評価された。 この局所表現に関する追加情報により、提案手法はノイズに頑健であり、テストデータに適用することで実証される。 さらに, 地震群データへの適用により, 他の深層学習法と比較して, 提案手法の堅牢性を示した。 最後に, 低周波地震に対する適用として, 局所モデルのみを再現することで, 低周波地震の検出に容易に適応できる提案手法の柔軟性を実証した。

The detection of earthquakes is a fundamental prerequisite for seismology and contributes to various research areas, such as forecasting earthquakes and understanding the crust/mantle structure. Recent advances in machine learning technologies have enabled the automatic detection of earthquakes from waveform data. In particular, various state-of-the-art deep-learning methods have been applied to this endeavour. In this study, we proposed and tested a novel phase detection method employing deep learning, which is based on a standard convolutional neural network in a new framework. The novelty of the proposed method is its separate explicit learning strategy for global and local representations of waveforms, which enhances its robustness and flexibility. Prior to modelling the proposed method, we identified local representations of the waveform by the multiple clustering of waveforms, in which the data points were optimally partitioned. Based on this result, we considered a global representation and two local representations of the waveform. Subsequently, different phase detection models were trained for each global and local representation. For a new waveform, the overall phase probability was evaluated as a product of the phase probabilities of each model. This additional information on local representations makes the proposed method robust to noise, which is demonstrated by its application to the test data. Furthermore, an application to seismic swarm data demonstrated the robust performance of the proposed method compared with those of other deep learning methods. Finally, in an application to low-frequency earthquakes, we demonstrated the flexibility of the proposed method, which is readily adaptable for the detection of low-frequency earthquakes by retraining only a local model.
翻訳日:2022-11-07 17:39:37 公開日:2022-11-04
# SDO/HMIとBBSOデータを用いたSOHO/MDIにおける太陽活動領域の光球ベクトル磁図生成のための深層学習手法

A Deep Learning Approach to Generating Photospheric Vector Magnetograms of Solar Active Regions for SOHO/MDI Using SDO/HMI and BBSO Data ( http://arxiv.org/abs/2211.02278v1 )

ライセンス: Link先を確認
Haodi Jiang, Qin Li, Zhihang Hu, Nian Liu, Yasser Abduallah, Ju Jing, Genwei Zhang, Yan Xu, Wynne Hsu, Jason T. L. Wang, Haimin Wang(参考訳) 太陽活動は通常、太陽磁場の進化によって引き起こされる。 太陽活動領域の光球ベクトル磁図から得られた磁場パラメータは、太陽フレアやコロナ質量放出などの爆発現象を分析し予測するために用いられてきた。 残念なことに、最新の太陽周期24は比較的弱く、大きなフレアはほとんどないが、2010年の打ち上げ以来、太陽ダイナミクス天文台(SDO)のHelioseismic and Magnetic Imager(HMI)を通して一貫した時系列ベクトル磁気グラムが利用可能になった唯一の太陽周期である。 本稿では、1996年から2010年までの太陽・太陽圏観測衛星(SOHO)に搭載されていたMichelson Doppler Imager(MDI)について検討する。 SOHO/MDIのデータアーカイブは、多くの大きなフレアを持つより活発な太陽周期23をカバーしている。 しかし、SOHO/MDIデータはLOS(Line-of-sight)磁気グラムしか持たない。 我々は、ビッグベア・ソーラー・オブザーバ(BBSO)が収集したH-α観測とともに、SDO/HMIによるLOSマグネティックグラム、Bx、Byから学習し、観測されたLOSデータを用いてベクトル成分BxとBy'を生成する、MagNetという新しい深層学習手法を提案する。 このようにして、ベクトル磁図の可用性を1996年から現在までの期間に拡大することができる。 実験の結果,提案手法の性能が向上した。 我々の知る限り、SDO/HMIとH-アルファデータを用いてSOHO/MDIのための太陽活動領域の光球ベクトル磁気グラムを生成するためにディープラーニングが使用されるのはこれが初めてである。

Solar activity is usually caused by the evolution of solar magnetic fields. Magnetic field parameters derived from photospheric vector magnetograms of solar active regions have been used to analyze and forecast eruptive events such as solar flares and coronal mass ejections. Unfortunately, the most recent solar cycle 24 was relatively weak with few large flares, though it is the only solar cycle in which consistent time-sequence vector magnetograms have been available through the Helioseismic and Magnetic Imager (HMI) on board the Solar Dynamics Observatory (SDO) since its launch in 2010. In this paper, we look into another major instrument, namely the Michelson Doppler Imager (MDI) on board the Solar and Heliospheric Observatory (SOHO) from 1996 to 2010. The data archive of SOHO/MDI covers more active solar cycle 23 with many large flares. However, SOHO/MDI data only has line-of-sight (LOS) magnetograms. We propose a new deep learning method, named MagNet, to learn from combined LOS magnetograms, Bx and By taken by SDO/HMI along with H-alpha observations collected by the Big Bear Solar Observatory (BBSO), and to generate vector components Bx' and By', which would form vector magnetograms with observed LOS data. In this way, we can expand the availability of vector magnetograms to the period from 1996 to present. Experimental results demonstrate the good performance of the proposed method. To our knowledge, this is the first time that deep learning has been used to generate photospheric vector magnetograms of solar active regions for SOHO/MDI using SDO/HMI and H-alpha data.
翻訳日:2022-11-07 17:39:16 公開日:2022-11-04
# ユーザ中心動的tfdd制御のための分散連帯強化学習

Decentralized Federated Reinforcement Learning for User-Centric Dynamic TFDD Control ( http://arxiv.org/abs/2211.02296v1 )

ライセンス: Link先を確認
Ziyan Yin, Zhe Wang, Jun Li, Ming Ding, Wen Chen, Shi Jin(参考訳) 動的および異種データトラフィックの爆発的な増加は、5gおよびモバイルネットワークを超えて大きな課題をもたらす。 ネットワーク容量と信頼性を向上させるため,基地局(BS)のアップリンクとダウンリンクの時間周波数リソースを適応的に割り当て,セル間干渉を緩和しながら非対称かつ不均一なトラフィック要求を満たす学習ベースの動的時間周波数分割二重化(D-TFDD)方式を提案する。 我々は,ユーザのパケット降下率制約下での長期予測総和率を最大化する分散部分可観測マルコフ決定プロセス (dec-pomdp) として問題を定式化する。 分散的な方法でグローバルリソースを協調的に最適化するために,フェデレートされたWolpertinger Deep Deterministic Policy gradient (FWDDPG)アルゴリズムという,連合強化学習(RL)アルゴリズムを提案する。 BSは、RLアルゴリズムを通じてローカルな時間周波数構成を決定し、分散化されたフェデレート学習フレームワークの下で、ローカルなRLモデルを隣人と交換することでグローバルなトレーニングを達成する。 具体的には、各BSの大規模離散的行動空間に対処するため、DDPGベースのアルゴリズムを用いて連続的な空間内での動作を生成し、Wolpertingerポリシーを用いて連続的な行動空間から離散的な行動空間への写像誤差を低減する。 シミュレーションの結果,提案アルゴリズムのシステム総和率に対するベンチマークアルゴリズムの優位性が示された。

The explosive growth of dynamic and heterogeneous data traffic brings great challenges for 5G and beyond mobile networks. To enhance the network capacity and reliability, we propose a learning-based dynamic time-frequency division duplexing (D-TFDD) scheme that adaptively allocates the uplink and downlink time-frequency resources of base stations (BSs) to meet the asymmetric and heterogeneous traffic demands while alleviating the inter-cell interference. We formulate the problem as a decentralized partially observable Markov decision process (Dec-POMDP) that maximizes the long-term expected sum rate under the users' packet dropping ratio constraints. In order to jointly optimize the global resources in a decentralized manner, we propose a federated reinforcement learning (RL) algorithm named federated Wolpertinger deep deterministic policy gradient (FWDDPG) algorithm. The BSs decide their local time-frequency configurations through RL algorithms and achieve global training via exchanging local RL models with their neighbors under a decentralized federated learning framework. Specifically, to deal with the large-scale discrete action space of each BS, we adopt a DDPG-based algorithm to generate actions in a continuous space, and then utilize Wolpertinger policy to reduce the mapping errors from continuous action space back to discrete action space. Simulation results demonstrate the superiority of our proposed algorithm to benchmark algorithms with respect to system sum rate.
翻訳日:2022-11-07 17:38:44 公開日:2022-11-04
# 神経リレーグス

Neural RELAGGS ( http://arxiv.org/abs/2211.02363v1 )

ライセンス: Link先を確認
Lukas Pensel and Stefan Kramer(参考訳) マルチリレーショナルデータベースは、今日の科学と産業における最も統合されたデータコレクションの基礎である。 しかし、ほとんどの学習とマイニングのアルゴリズムは命題形式でデータを表現する必要がある。 マルチリレーショナルデータセットを直接操作できる特殊な機械学習アルゴリズムは数多く存在するが、命題化アルゴリズムはマルチリレーショナルデータベースを命題データセットに変換するため、従来の機械学習とデータマイニングアルゴリズムを変更せずに適用することができる。 1つの顕著な命題化アルゴリズムは、ネストした集約によってデータを変換するKrogelとWrobelによるRELAGGSである。 そこで本研究では,学習可能な合成集約関数を元来の手法で用いた静的集約関数ではなく,学習可能な合成集約関数を用いる,relaggsの精神におけるニューラルネットワークに基づく新しいアルゴリズムを提案する。 このようにして、命題化を予測モデルと共同で訓練するか、あるいは学習されたアグレゲーションを他のアルゴリズムへの埋め込みとして使うことができる。 我々は,N-RELAGGSをRELAGGSや他の最先端アルゴリズムと比較することにより,予測性能の向上を示す。

Multi-relational databases are the basis of most consolidated data collections in science and industry today. Most learning and mining algorithms, however, require data to be represented in a propositional form. While there is a variety of specialized machine learning algorithms that can operate directly on multi-relational data sets, propositionalization algorithms transform multi-relational databases into propositional data sets, thereby allowing the application of traditional machine learning and data mining algorithms without their modification. One prominent propositionalization algorithm is RELAGGS by Krogel and Wrobel, which transforms the data by nested aggregations. We propose a new neural network based algorithm in the spirit of RELAGGS that employs trainable composite aggregate functions instead of the static aggregate functions used in the original approach. In this way, we can jointly train the propositionalization with the prediction model, or, alternatively, use the learned aggegrations as embeddings in other algorithms. We demonstrate the increased predictive performance by comparing N-RELAGGS with RELAGGS and multiple other state-of-the-art algorithms.
翻訳日:2022-11-07 17:38:18 公開日:2022-11-04
# 条件付き正規化流れとの相関

Decorrelation with conditional normalizing flows ( http://arxiv.org/abs/2211.02486v1 )

ライセンス: Link先を確認
Samuel Klein, Tobias Golling(参考訳) 多くの物理解析の感度は、信号イベントを優先的に選択する判別器を構築することで向上することができる。 このような判別薬は、保護された属性のセットと無関係である場合、より有用になる。 本稿では,保護属性を条件とした正規化フローを用いて,任意の判別値に対する相関表現を求めることができることを示す。 正規化フローが可逆であるので、得られた判別器の分離力は保護された属性の任意の固定値で変化する。 我々は,背景の質量分布にほとんど彫刻を生じさせない教師付きジェットタグを製作することで,我々のアプローチの有効性を実証する。

The sensitivity of many physics analyses can be enhanced by constructing discriminants that preferentially select signal events. Such discriminants become much more useful if they are uncorrelated with a set of protected attributes. In this paper we show a normalizing flow conditioned on the protected attributes can be used to find a decorrelated representation for any discriminant. As a normalizing flow is invertible the separation power of the resulting discriminant will be unchanged at any fixed value of the protected attributes. We demonstrate the efficacy of our approach by building supervised jet taggers that produce almost no sculpting in the mass distribution of the background.
翻訳日:2022-11-07 17:38:01 公開日:2022-11-04
# SPEAKER VGG CCT:話者埋め込みと視覚変換器を用いたクロスコーパス音声認識

SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker Embedding and Vision Transformers ( http://arxiv.org/abs/2211.02366v1 )

ライセンス: Link先を確認
A. Arezzo, S. Berretti(参考訳) 近年,音声認識 (SER) は, 音声信号からスペクトルへと変換し, 一般的な画像に事前学習された畳み込みニューラルネットワークを用いて分類し, スペクトルを微調整した。 本稿では、上述の一般的な考え方から始め、話者埋め込みと組み合わせたコンパクト畳み込み変換器(CCT)に基づくSERの新しい学習ソリューションを開発する。 CCTでは、ViT(Vision Transformers)の学習能力と、畳み込みによってできる限り大量のデータの必要性の低下が組み合わされる。 これは、通常大量のデータが利用できないSERにおいて重要である。 話者埋め込みにより、ネットワークは話者のアイデンティティ表現を抽出し、cctが分光図から抽出した特徴と自己照査機構によって統合される。 全体として、このソリューションは、トレーニングとテストデータセットを分離したクロスコーポレートシナリオで、有望な結果をリアルタイムで示すことができる。 文献ではほとんど使われていないクロスコーパス環境で、いくつかのベンチマークで実験が行われてきたが、その結果は最先端のネットワークアーキテクチャで得られたものと同等か優れている。 私たちのコードはhttps://github.com/JabuMlDev/Speaker-VGG-CCTで公開されています。

In recent years, Speech Emotion Recognition (SER) has been investigated mainly transforming the speech signal into spectrograms that are then classified using Convolutional Neural Networks pretrained on generic images and fine tuned with spectrograms. In this paper, we start from the general idea above and develop a new learning solution for SER, which is based on Compact Convolutional Transformers (CCTs) combined with a speaker embedding. With CCTs, the learning power of Vision Transformers (ViT) is combined with a diminished need for large volume of data as made possible by the convolution. This is important in SER, where large corpora of data are usually not available. The speaker embedding allows the network to extract an identity representation of the speaker, which is then integrated by means of a self-attention mechanism with the features that the CCT extracts from the spectrogram. Overall, the solution is capable of operating in real-time showing promising results in a cross-corpus scenario, where training and test datasets are kept separate. Experiments have been performed on several benchmarks in a cross-corpus setting as rarely used in the literature, with results that are comparable or superior to those obtained with state-of-the-art network architectures. Our code is available at https://github.com/JabuMlDev/Speaker-VGG-CCT.
翻訳日:2022-11-07 17:37:26 公開日:2022-11-04
# エージェント更新モデル

Agent-update Models ( http://arxiv.org/abs/2211.02452v1 )

ライセンス: Link先を確認
Shikha Singh, Kamal Lodaya and Deepak Khemani(参考訳) 動的てんかん論理(Van Ditmarsch et al., 2008)では、1つのアクションの異なるビューを記述するためにアクションモデル(Baltag and Moss, 2004; Baltag et al., 1998)を使うのが慣例である。 本稿では、エージェントの追加または削除のためにアクションモデルを拡張し、エージェント更新モデルと呼ぶ。 これは、バルタグとモス(2004年)、サカマ(2015年)、ヴァン・ディトマルシュ(2012年)によって研究されたいくつかの興味深い例をモデル化するために、いくつかの特定のエージェントだけが更新に関する情報を得るように選択的に行うことができる。 アクションモデルによるkripkeモデルの製品更新は、アクションの実行結果である変換されたkripkeモデルを記述するための省略された方法である。 これは新しい設定のエージェント更新モデルによってkripkeモデルのsum-product updateに拡張される。 エージェント更新モデルに基づく動的ドキサスティック論理は、引き続き健全で完全な証明システムを持つことを示す。 モデルチェックと妥当性の判断手順は単純である。

In dynamic epistemic logic (Van Ditmarsch et al., 2008) it is customary to use an action model (Baltag and Moss, 2004; Baltag et al., 1998) to describe different views of a single action. In this article, action models are extended to add or remove agents, we call these agent-update models. This can be done selectively so that only some specified agents get information of the update, which can be used to model several interesting examples such as private update and deception, studied earlier by Baltag and Moss (2004); Sakama (2015); Van Ditmarsch et al. (2012). The product update of a Kripke model by an action model is an abbreviated way of describing the transformed Kripke model which is the result of performing the action. This is extended to a sum-product update of a Kripke model by an agent-update model in the new setting. We show that dynamic doxastic logic with action modalities, now based on agent-update models, continues to have a sound and complete proof system. We have simple decision procedures for model checking and validity.
翻訳日:2022-11-07 17:31:03 公開日:2022-11-04
# ランダム森林を用いた時系列量子レグレッション

Time series quantile regression using random forests ( http://arxiv.org/abs/2211.02273v1 )

ライセンス: Link先を確認
Hiroshi Shiraishi, Tomoshige Nakamura, Ryotato Shibuki(参考訳) Atheyらによって提案された一般ランダムフォレスト(GRF)の適用について論じる。 (2019) - 時系列データに対する量子レグレッション。 我々は,時系列データに対するGRF整合性の理論的結果を抽出した。 特に主定理では、デイビスとニールセンの時系列データに対する一般的な仮定(2020年)とアテイとアルの木の仮定に基づいている。 (2019) は,tsqrf (time series quantile regression forests) 推定値が一貫していることを示す。 Davis と Nielsen (2020) も時系列データに対するランダムフォレスト (RF) を用いた推定問題について議論したが、GRF で処理された RF の構成手順は基本的には異なっており、理論的な証明を通じて異なる考え方が用いられている。 さらに, シミュレーションと実データ解析を行い, 時系列モデルを用いて条件量推定の精度を評価した。 Nikkei Stock Averageを用いた実データでは、ボラティリティの観点から、我々の推定値が他よりも敏感であることが示され、リスクの過小評価が防止される。

We discuss an application of Generalized Random Forests (GRF) proposed by Athey et al.(2019) to quantile regression for time series data. We extracted the theoretical results of the GRF consistency for i.i.d. data to time series data. In particular, in the main theorem, based only on the general assumptions for time series data in Davis and Nielsen (2020), and trees in Athey et al.(2019), we show that the tsQRF (time series Quantile Regression Forests) estimator is consistent. Davis and Nielsen (2020) also discussed the estimation problem using Random Forests (RF) for time series data, but the construction procedure of the RF treated by the GRF is essentially different, and different ideas are used throughout the theoretical proof. In addition, a simulation and real data analysis were conducted.In the simulation, the accuracy of the conditional quantile estimation was evaluated under time series models. In the real data using the Nikkei Stock Average, our estimator is demonstrated to be more sensitive than the others in terms of volatility, thus preventing underestimation of risk.
翻訳日:2022-11-07 17:30:42 公開日:2022-11-04
# 中性子ノイズ解析における逆不確かさ定量化のための多出力ガウス過程

Multi-output Gaussian processes for inverse uncertainty quantification in neutron noise analysis ( http://arxiv.org/abs/2211.02465v1 )

ライセンス: Link先を確認
Paul Lartaud, Philippe Humbert and Josselin Garnier(参考訳) 核分裂物質では、誘導核分裂によって生じる中性子の固有の多重度は、その検出統計に相関する。 中性子間の相関は、核分裂物質のいくつかの特性を遡ることができる。 中性子ノイズ分析として知られるこの技術は、核防護や廃棄物の識別に応用されている。 未知の繊維材料の非破壊検査方法を提供する。 これは、原因が結果の観察から推測される逆問題の一例である。 しかし、中性子相関測定は、基礎となる過程の確率的性質のため、しばしばうるさい。 これにより、測定が材料特性に強く依存するため、逆問題の解がより複雑になる。 材料特性のわずかな変化は、非常に異なる出力につながる可能性がある。 そのような逆問題には不備があると言われている。 不測な逆問題に対しては、逆不確実性定量化が重要である。 実際、データ中の一見低騒音は、材料特性の推定に強い不確実性をもたらす可能性がある。 さらに、中性子相関を記述するのによく使われる分析の枠組みは強い物理的仮定に依存しており、したがって本質的に偏りがある。 本稿では2つの目標について述べる。 まず、代理モデルを用いて中性子相関予測を改善し、それらの予測上の誤差を定量化する。 そして、残差モデルバイアスとともに測定誤差の影響を含む逆不確かさ定量化を行う。

In a fissile material, the inherent multiplicity of neutrons born through induced fissions leads to correlations in their detection statistics. The correlations between neutrons can be used to trace back some characteristics of the fissile material. This technique known as neutron noise analysis has applications in nuclear safeguards or waste identification. It provides a non-destructive examination method for an unknown fissile material. This is an example of an inverse problem where the cause is inferred from observations of the consequences. However, neutron correlation measurements are often noisy because of the stochastic nature of the underlying processes. This makes the resolution of the inverse problem more complex since the measurements are strongly dependent on the material characteristics. A minor change in the material properties can lead to very different outputs. Such an inverse problem is said to be ill-posed. For an ill-posed inverse problem the inverse uncertainty quantification is crucial. Indeed, seemingly low noise in the data can lead to strong uncertainties in the estimation of the material properties. Moreover, the analytical framework commonly used to describe neutron correlations relies on strong physical assumptions and is thus inherently biased. This paper addresses dual goals. Firstly, surrogate models are used to improve neutron correlations predictions and quantify the errors on those predictions. Then, the inverse uncertainty quantification is performed to include the impact of measurement error alongside the residual model bias.
翻訳日:2022-11-07 17:30:24 公開日:2022-11-04
# 異なるシミュレーションによるコンタクトリッチ操作タスクの学習ツール形態

Learning Tool Morphology for Contact-Rich Manipulation Tasks with Differentiable Simulation ( http://arxiv.org/abs/2211.02201v1 )

ライセンス: Link先を確認
Mengxi Li, Rika Antonova, Dorsa Sadigh, Jeannette Bohg(参考訳) 人間が接触の多い操作を行うとき、カスタマイズされたツールがしばしば必要であり、タスクを単純化する上で重要な役割を果たす。 例えば、私たちの日常生活では、ナイフ、フォーク、スプーンなどの食べ物を扱うためにさまざまな道具を使用します。 同様に、ロボット用にカスタマイズされたツールを使えば、さまざまなタスクをより簡単に実行できる。 本稿では,異なる物理シミュレータを応用して,コンタクトリッチな操作タスクのためのツール形態を自動学習するエンドツーエンドフレームワークを提案する。 以前の研究は、オブジェクト3dモデルの詳細な仕様、ポーズの把握、タスク記述を必要とする手作業で構築された事前設定を導入することでこの問題にアプローチした。 提案手法では,タスク性能に関する目的を定義し,タスクの変動をランダムにすることで,頑健な形態学の学習を可能にする。 この最適化は、連続的な学習問題としてキャストすることで実現可能である。 本手法は, ロープ巻き, 箱をひっくり返し, 豆をスクープに押すなど, 様々なシナリオにおいて, 新たなツールの設計手法の有効性を実証する。 また,本手法によって検出された形状が,実際のロボットの成功に役立つことを検証した。

When humans perform contact-rich manipulation tasks, customized tools are often necessary and play an important role in simplifying the task. For instance, in our daily life, we use various utensils for handling food, such as knives, forks and spoons. Similarly, customized tools for robots may enable them to more easily perform a variety of tasks. Here, we present an end-to-end framework to automatically learn tool morphology for contact-rich manipulation tasks by leveraging differentiable physics simulators. Previous work approached this problem by introducing manually constructed priors that required detailed specification of object 3D model, grasp pose and task description to facilitate the search or optimization. In our approach, we instead only need to define the objective with respect to the task performance and enable learning a robust morphology by randomizing the task variations. The optimization is made tractable by casting this as a continual learning problem. We demonstrate the effectiveness of our method for designing new tools in several scenarios such as winding ropes, flipping a box and pushing peas onto a scoop in simulation. We also validate that the shapes discovered by our method help real robots succeed in these scenarios.
翻訳日:2022-11-07 17:28:07 公開日:2022-11-04
# ISA-Net:PET-CT腫瘍セグメンテーションのための空間的注意ネットワークの改善

ISA-Net: Improved spatial attention network for PET-CT tumor segmentation ( http://arxiv.org/abs/2211.02256v1 )

ライセンス: Link先を確認
Zhengyong Huang, Sijuan Zou, Guoshuai Wang, Zixiang Chen, Hao Shen, Haiyan Wang, Na Zhang, Lu Zhang, Fan Yang, Haining Wangg, Dong Liang, Tianye Niu, Xiaohua Zhuc, Zhanli Hua(参考訳) 腫瘍分画の正確かつ自動化は臨床と放射線研究の両方において重要な役割を担っている。 現在、医学におけるセグメンテーションは、しばしば専門家によって手動で行われる。 マニュアルアノテーションは、これらの専門家の経験と知識に大きく依存している。 さらに、inter-intra-observerとinterobserverには多くのバリエーションがある。 そのため,腫瘍標的領域を自動的に分割する手法を開発することが重要である。 本稿では,PETの高感度とCTの正確な解剖情報を組み合わせた多モードポジトロンCT(PET-CT)に基づく深層学習セグメンテーション手法を提案する。 我々は,腫瘍検出におけるPETやCTの精度を高めるために,改良された空間注意ネットワーク(ISA-Net)を設計し,マルチスケールの畳み込み操作を用いて特徴情報を抽出し,腫瘍領域の位置情報をハイライトし,非腫瘍領域の位置情報を抑圧する。 さらに,本ネットワークは,符号化段階ではデュアルチャネル入力を使用し,復号段階では融合し,PETとCTの違いと相補性を利用することができる。 今回提案したISA-Net法を,軟部組織肉腫(STS)と頭頸部腫瘍(HECKTOR)の2つの臨床データセットで検証し,他の腫瘍セグメンテーション法と比較した。 DSCスコアはSTSデータセットで0.8378、HECKTORデータセットで0.8076であり、ISA-Net法はセグメンテーション性能が良く、より一般化されていることを示している。 結論: 本論文では, 異なるモードの差分と相補性を効果的に活用できるマルチモーダルな医用画像腫瘍セグメンテーションを基礎とする手法を提案する。 この方法は、適切な調整により、他のマルチモーダルデータやシングルモーダルデータにも適用することができる。

Achieving accurate and automated tumor segmentation plays an important role in both clinical practice and radiomics research. Segmentation in medicine is now often performed manually by experts, which is a laborious, expensive and error-prone task. Manual annotation relies heavily on the experience and knowledge of these experts. In addition, there is much intra- and interobserver variation. Therefore, it is of great significance to develop a method that can automatically segment tumor target regions. In this paper, we propose a deep learning segmentation method based on multimodal positron emission tomography-computed tomography (PET-CT), which combines the high sensitivity of PET and the precise anatomical information of CT. We design an improved spatial attention network(ISA-Net) to increase the accuracy of PET or CT in detecting tumors, which uses multi-scale convolution operation to extract feature information and can highlight the tumor region location information and suppress the non-tumor region location information. In addition, our network uses dual-channel inputs in the coding stage and fuses them in the decoding stage, which can take advantage of the differences and complementarities between PET and CT. We validated the proposed ISA-Net method on two clinical datasets, a soft tissue sarcoma(STS) and a head and neck tumor(HECKTOR) dataset, and compared with other attention methods for tumor segmentation. The DSC score of 0.8378 on STS dataset and 0.8076 on HECKTOR dataset show that ISA-Net method achieves better segmentation performance and has better generalization. Conclusions: The method proposed in this paper is based on multi-modal medical image tumor segmentation, which can effectively utilize the difference and complementarity of different modes. The method can also be applied to other multi-modal data or single-modal data by proper adjustment.
翻訳日:2022-11-07 17:21:31 公開日:2022-11-04
# マルチサイトデータを用いたプログレッシブ・オブ・ディーテールネットワークによる脳MRIセグメント化におけるスキャナー効果の抑制

Fighting the scanner effect in brain MRI segmentation with a progressive level-of-detail network trained on multi-site data ( http://arxiv.org/abs/2211.02400v1 )

ライセンス: Link先を確認
Michele Svanera, Mattia Savardi, Alberto Signoroni, Sergio Benini, Lars Muckli(参考訳) 人間の脳に関する多くの臨床研究や研究は、正確な構造的MRIセグメンテーションを必要とする。 従来のアトラスベースの手法は、任意の取得サイトのボリュームに適用できるが、最近のディープラーニングアルゴリズムは、トレーニングで利用される同じサイト(内部データ)のデータでテストした場合にのみ、非常に高い精度を保証している。 外部データ(例えば、見えない場所からの未確認ボリューム)で発生する性能劣化は、異なるMRスキャナーモデル、取得パラメータ、ユニークなアーチファクトによって誘導される強度分布のサイト間変動に起因する。 このサイト依存度を緩和するため,我々は,任意のサイトから脳データをセグメント化できるプログレッシブレベル・オブ・デテール(lod)を備えた3次元畳み込みニューラルネットワークlod-brainを提案する。 粗いネットワークレベルは、脳の構造とその位置を特定するのに有用なロバストな解剖学的前兆を学ぶ責任があり、より細かいレベルは、サイト固有の強度分布と解剖学的変異を扱うためにモデルを洗練する。 8歳から90歳までの人口から約160の買収サイトから約27,000 T1wのボリュームを,オープンリポジトリから収集した,前例のない豊富なデータセットでトレーニングすることで,サイト間の堅牢性を確保する。 広範なテストにより、lod-brainは、内部と外部のサイトのパフォーマンスに有意な差はなく、解剖学的変異に頑健な結果が得られることが示された。 そのポータビリティは、さまざまな医療機関、患者人口、画像技術メーカーにまたがる大規模アプリケーションへの道を開きます。 コード、モデル、デモはプロジェクトのWebサイトで公開されている。

Many clinical and research studies of the human brain require an accurate structural MRI segmentation. While traditional atlas-based methods can be applied to volumes from any acquisition site, recent deep learning algorithms ensure very high accuracy only when tested on data from the same sites exploited in training (i.e., internal data). The performance degradation experienced on external data (i.e., unseen volumes from unseen sites) is due to the inter-site variabilities in intensity distributions induced by different MR scanner models, acquisition parameters, and unique artefacts. To mitigate this site-dependency, often referred to as the scanner effect, we propose LOD-Brain, a 3D convolutional neural network with progressive levels-of-detail (LOD) able to segment brain data from any site. Coarser network levels are responsible to learn a robust anatomical prior useful for identifying brain structures and their locations, while finer levels refine the model to handle site-specific intensity distributions and anatomical variations. We ensure robustness across sites by training the model on an unprecedented rich dataset aggregating data from open repositories: almost 27,000 T1w volumes from around 160 acquisition sites, at 1.5 - 3T, from a population spanning from 8 to 90 years old. Extensive tests demonstrate that LOD-Brain produces state-of-the-art results, with no significant difference in performance between internal and external sites, and robust to challenging anatomical variations. Its portability opens the way for large scale application across different healthcare institutions, patient populations, and imaging technology manufacturers. Code, model, and demo are available at the project website.
翻訳日:2022-11-07 17:20:57 公開日:2022-11-04
# RCDPT:レーダーカメラ融合線量予測変換器

RCDPT: Radar-Camera fusion Dense Prediction Transformer ( http://arxiv.org/abs/2211.02432v1 )

ライセンス: Link先を確認
Chen-Chou Lo and Patrick Vandewalle(参考訳) 近年、トランスフォーマーネットワークは自然言語処理において従来のディープニューラルネットワークよりも優れており、畳み込みバックボーンに比べて多くのコンピュータビジョンタスクにおいて大きな可能性を示している。 オリジナルのトランスフォーマーでは、他のトークンから情報を集約するための指定ベクターとして読み出しトークンが使用される。 しかし、視覚トランスフォーマーにおける読み出しトークンの使用性能は限られている。 そこで本研究では,カメラ表現とレーダ表現を再構成し,レーダーデータを高密度予測トランスネットワークに統合する新しい融合手法を提案する。 リードアウトトークンを使用する代わりに、レーダー表現は単眼深度推定モデルに追加の深度情報を提供し、性能を向上させる。 高密度予測トランスフォーマーネットワークにおける付加的モダリティの統合に一般的に使用される異なる融合アプローチについてさらに検討する。 実験は、カメラ画像、ライダー、レーダーデータを含むnuScenesデータセット上で実施されている。 その結果,提案手法は一般的に用いられる融合戦略よりも優れた性能を示し,カメラ画像とレーダを融合する既存の畳み込み深度推定モデルより優れていることがわかった。

Recently, transformer networks have outperformed traditional deep neural networks in natural language processing and show a large potential in many computer vision tasks compared to convolutional backbones. In the original transformer, readout tokens are used as designated vectors for aggregating information from other tokens. However, the performance of using readout tokens in a vision transformer is limited. Therefore, we propose a novel fusion strategy to integrate radar data into a dense prediction transformer network by reassembling camera representations with radar representations. Instead of using readout tokens, radar representations contribute additional depth information to a monocular depth estimation model and improve performance. We further investigate different fusion approaches that are commonly used for integrating additional modality in a dense prediction transformer network. The experiments are conducted on the nuScenes dataset, which includes camera images, lidar, and radar data. The results show that our proposed method yields better performance than the commonly used fusion strategies and outperforms existing convolutional depth estimation models that fuse camera images and radar.
翻訳日:2022-11-07 17:20:28 公開日:2022-11-04
# PCQA-GRAPHPOINT: ポイントクラウド品質評価のためのディープベースグラフメトリクスの有効性

PCQA-GRAPHPOINT: Efficients Deep-Based Graph Metric For Point Cloud Quality Assessment ( http://arxiv.org/abs/2211.02459v1 )

ライセンス: Link先を確認
Marouane Tliba, Aladine Chetouani, Giuseppe Valenzise and Frederic Dufaux(参考訳) 没入型技術の出現とインタラクティブな幾何学形式への関心の高まりに続き、3Dポイント・クラウド(PC)は3D視覚情報を表示するための有望なソリューションであり、効果的な手段である。 没入型アプリケーションにおける他の課題に加えて、圧縮された3Dコンテンツの客観的および主観的な品質評価は、未解決の問題と研究分野に留まっている。 しかし、研究領域での努力の大部分は、点表現間の局所幾何学的構造を無視している。 本稿では,グラフニューラルネットワーク(gnn)を用いた局所的固有依存関係の学習により,ポイントクラウドの品質評価のための新しい効率的な客観的指標を導入することで,この限界を克服する。 提案手法の性能を評価するために,2つのよく知られたデータセットを用いた。 その結果,最先端のメトリクスと比較して,ソリューションの有効性と信頼性が示された。

Following the advent of immersive technologies and the increasing interest in representing interactive geometrical format, 3D Point Clouds (PC) have emerged as a promising solution and effective means to display 3D visual information. In addition to other challenges in immersive applications, objective and subjective quality assessments of compressed 3D content remain open problems and an area of research interest. Yet most of the efforts in the research area ignore the local geometrical structures between points representation. In this paper, we overcome this limitation by introducing a novel and efficient objective metric for Point Clouds Quality Assessment, by learning local intrinsic dependencies using Graph Neural Network (GNN). To evaluate the performance of our method, two well-known datasets have been used. The results demonstrate the effectiveness and reliability of our solution compared to state-of-the-art metrics.
翻訳日:2022-11-07 17:20:10 公開日:2022-11-04
# 小児集団に対する深部成体肺分画モデルの一般化 : 回顧的研究

Generalizability of Deep Adult Lung Segmentation Models to the Pediatric Population: A Retrospective Study ( http://arxiv.org/abs/2211.02475v1 )

ライセンス: Link先を確認
Sivaramakrishnan Rajaraman, Feng Yang, Ghada Zamzmi, Zhiyun Xue, and Sameer Antani(参考訳) 臨床診断支援システムにおいて,胸部X線(CXRs)の肺分画は心肺疾患の診断の特異性を改善する重要な前提条件である。 肺分画のための現在の深層学習モデル(dl)は、主に成人集団から放射線投射を捉えたcxrデータセットで訓練され、評価される。 しかし、幼児期から成人期にかけての発達段階において、肺の形状は著しく異なることが報告されている。 これは、成人人口に訓練されたモデルが小児の肺分画のために配備された場合に、肺分画性能に悪影響を及ぼす年齢関連データ領域シフトをもたらす可能性がある。 本研究の目的は,CXRモダリティ特異的体重初期化,積み重ね一般化,および積み重ね一般化モデルのアンサンブルからなる系統的組合せアプローチにより,深層肺分画モデルの小児集団への一般化性を分析し,パフォーマンスを向上させることである。 セグメンテーション性能を評価するために, マルチスケール構造類似度指標, ユニオン断面積, ディース測定値に加えて, 平均Lung Contour Distanceと平均Hashスコアからなる新しい評価指標を提案する。 組合せアプローチによるクロスドメイン一般化において有意な改善(p < 0.05)が見られた。 本研究は、他の医用画像モダリティおよび応用のためのディープセグメンテーションモデルのクロスドメイン一般化可能性を分析するパラダイムとして機能する可能性がある。

Lung segmentation in chest X-rays (CXRs) is an important prerequisite for improving the specificity of diagnoses of cardiopulmonary diseases in a clinical decision support system. Current deep learning (DL) models for lung segmentation are trained and evaluated on CXR datasets in which the radiographic projections are captured predominantly from the adult population. However, the shape of the lungs is reported to be significantly different for pediatrics across the developmental stages from infancy to adulthood. This might result in age-related data domain shifts that would adversely impact lung segmentation performance when the models trained on the adult population are deployed for pediatric lung segmentation. In this work, our goal is to analyze the generalizability of deep adult lung segmentation models to the pediatric population and improve performance through a systematic combinatorial approach consisting of CXR modality-specific weight initializations, stacked generalization, and an ensemble of the stacked generalization models. Novel evaluation metrics consisting of Mean Lung Contour Distance and Average Hash Score are proposed in addition to the Multi-scale Structural Similarity Index Measure, Intersection of Union, and Dice metrics to evaluate segmentation performance. We observed a significant improvement (p < 0.05) in cross-domain generalization through our combinatorial approach. This study could serve as a paradigm to analyze the cross-domain generalizability of deep segmentation models for other medical imaging modalities and applications.
翻訳日:2022-11-07 17:19:57 公開日:2022-11-04
# 昆虫画像データにおける生物学的要因の機械学習による課題

Machine Learning Challenges of Biological Factors in Insect Image Data ( http://arxiv.org/abs/2211.02537v1 )

ライセンス: Link先を確認
Nicholas Pellegrino, Zahra Gharaee and Paul Fieguth(参考訳) International Barcode of Life Consortiumが主導するBIOSCANプロジェクトは、世界規模での生物多様性の変化の研究を目指している。 プロジェクトの1つの構成要素は、すべての昆虫の種間相互作用と動学の研究である。 遺伝子組み換え昆虫に加えて、年間150万枚以上の画像が収集され、それぞれに分類が必要とされる。 大量の画像がやってくると、画像のラベル付けに専門家の分類学者だけに頼ることは不可能になるが、人工知能とコンピュータビジョン技術は、現実的な高スループットソリューションを提供するかもしれない。 バイオマスを決定するために昆虫を手動で測定することを含む追加のタスクは、退屈でコストがかかるままである。 ここでも、コンピュータービジョンは効率的で魅力的な代替手段を提供するかもしれない。 コンピュータビジョン法の使用はこれらの問題を解決する上では魅力的であるが、生物学的要因による重大な課題が存在する。 これらの課題は機械学習の文脈で定式化されている。

The BIOSCAN project, led by the International Barcode of Life Consortium, seeks to study changes in biodiversity on a global scale. One component of the project is focused on studying the species interaction and dynamics of all insects. In addition to genetically barcoding insects, over 1.5 million images per year will be collected, each needing taxonomic classification. With the immense volume of incoming images, relying solely on expert taxonomists to label the images would be impossible; however, artificial intelligence and computer vision technology may offer a viable high-throughput solution. Additional tasks including manually weighing individual insects to determine biomass, remain tedious and costly. Here again, computer vision may offer an efficient and compelling alternative. While the use of computer vision methods is appealing for addressing these problems, significant challenges resulting from biological factors present themselves. These challenges are formulated in the context of machine learning in this paper.
翻訳日:2022-11-07 17:19:31 公開日:2022-11-04
# ニューラルネットワークによるアンビソン信号のバイノーラルレンダリング

Binaural Rendering of Ambisonic Signals by Neural Networks ( http://arxiv.org/abs/2211.02301v1 )

ライセンス: Link先を確認
Yin Zhu, Qiuqiang Kong, Junjie Shi, Shilei Liu, Xuzhou Ye, Ju-chiang Wang, Junping Zhang(参考訳) ambisonic signalのバイノーラルレンダリングは、仮想現実と没入型メディアに広く関心を寄せている。 従来の方法は手動で計測される頭部伝達関数(HRTF)を必要とすることが多い。 この問題に対処するために,ペアのアンビソン型バイナリデータセットを収集し,エンドツーエンドでディープラーニングフレームワークを提案する。 実験の結果、ニューラルネットワークは従来の客観的指標よりも優れており、同等の主観的指標が得られることがわかった。 提案するフレームワークを検証するために,入力特徴,モデル構造,出力特徴,損失関数の異なる設定を実験的に検討した。 提案システムは,3.83,3.58,3.87,3.58の品質,音色,局在,浸漬寸法の7.32とMOSのSDRを実現する。

Binaural rendering of ambisonic signals is of broad interest to virtual reality and immersive media. Conventional methods often require manually measured Head-Related Transfer Functions (HRTFs). To address this issue, we collect a paired ambisonic-binaural dataset and propose a deep learning framework in an end-to-end manner. Experimental results show that neural networks outperform the conventional method in objective metrics and achieve comparable subjective metrics. To validate the proposed framework, we experimentally explore different settings of the input features, model structures, output features, and loss functions. Our proposed system achieves an SDR of 7.32 and MOSs of 3.83, 3.58, 3.87, 3.58 in quality, timbre, localization, and immersion dimensions.
翻訳日:2022-11-07 17:19:02 公開日:2022-11-04
# プロセス拡散を伴う連続関数としての時間データのモデリング

Modeling Temporal Data as Continuous Functions with Process Diffusion ( http://arxiv.org/abs/2211.02590v1 )

ライセンス: Link先を確認
Marin Bilo\v{s}, Kashif Rasul, Anderson Schneider, Yuriy Nevmyvaka, Stephan G\"unnemann(参考訳) 時系列のような時間データは、しばしば不規則な間隔で観測されるが、これは既存の機械学習手法にとって難しい設定である。 この問題に対処するため、我々はそのようなデータを根底にある連続関数のサンプルとみなす。 次に, 生成関数の連続性を保ちながら, 事前定義された確率過程からノイズを付加する拡散に基づく生成モデルを定義する。 ニューラルネットワークは、このプロセスを逆転するように訓練され、学習した分布から新しい実現をサンプリングできる。 我々は,適切な確率過程をノイズ源として定義し,プロセスに新しい聴覚モデルとスコアマッチングモデルを導入する。 さらに,この手法を多変量確率予測およびインプテーションタスクに適用する方法を示す。 広範な実験により,本手法が従来の合成および実世界のデータセットよりも優れていることを示す。

Temporal data like time series are often observed at irregular intervals which is a challenging setting for existing machine learning methods. To tackle this problem, we view such data as samples from some underlying continuous function. We then define a diffusion-based generative model that adds noise from a predefined stochastic process while preserving the continuity of the resulting underlying function. A neural network is trained to reverse this process which allows us to sample new realizations from the learned distribution. We define suitable stochastic processes as noise sources and introduce novel denoising and score-matching models on processes. Further, we show how to apply this approach to the multivariate probabilistic forecasting and imputation tasks. Through our extensive experiments, we demonstrate that our method outperforms previous models on synthetic and real-world datasets.
翻訳日:2022-11-07 17:13:15 公開日:2022-11-04
# リンク予測タスクのための複雑ネットワークにおけるクラスタ構造の役割の再検討

Rethinking the positive role of cluster structure in complex networks for link prediction tasks ( http://arxiv.org/abs/2211.02396v1 )

ライセンス: Link先を確認
Shanfan Zhang and Wenjiao Zhang and Zhan Bu(参考訳) クラスタリングは、ネットワーク分析における基本的な問題であり、ネットワーク内の2つのノードがリンクを持つ可能性が高いかどうかを予測するのに対して、グラフ内の他のノードとそれらを分離する。 両者の定義は、クラスタリングが正確なリンク予測タスクを取得する上でポジティブな役割を果たすことを自然に決定する。 しかし研究者たちは長い間、このポジティブな関係を損なうための不適切な方法を無視してきた。 本稿では,非指向グラフと有向グラフの両方において,クラスタ構造を直接利用してノード間の接続を可能な限り正確に取得することを目的とした,簡便かつ効率的なクラスタリング駆動リンク予測フレームワーク(clusterlp)を構築する。 具体的には,類似した表現ベクトルと非指向グラフのクラスタ傾向を持つノード間のリンクを確立するのが容易であり,一方,有向グラフのノードは表現ベクトルと類似したノードを指さし易く,自身のクラスタに大きな影響を与えることができることを示す。 本稿では,無向グラフと有向グラフに対するClusterLPの実装をカスタマイズし,リンク予測タスクにおける複数の実世界のネットワークを用いた実験結果から,我々のモデルが既存のベースラインモデルと非常に競合することを示した。 ClusterLPのコード実装とベースラインはhttps://github.com/ZINUX1998/ClusterLPで公開されている。

Clustering is a fundamental problem in network analysis that finds closely connected groups of nodes and separates them from other nodes in the graph, while link prediction is to predict whether two nodes in a network are likely to have a link. The definition of both naturally determines that clustering must play a positive role in obtaining accurate link prediction tasks. Yet researchers have long ignored or used inappropriate ways to undermine this positive relationship. In this article, We construct a simple but efficient clustering-driven link prediction framework(ClusterLP), with the goal of directly exploiting the cluster structures to obtain connections between nodes as accurately as possible in both undirected graphs and directed graphs. Specifically, we propose that it is easier to establish links between nodes with similar representation vectors and cluster tendencies in undirected graphs, while nodes in a directed graphs can more easily point to nodes similar to their representation vectors and have greater influence in their own cluster. We customized the implementation of ClusterLP for undirected and directed graphs, respectively, and the experimental results using multiple real-world networks on the link prediction task showed that our models is highly competitive with existing baseline models. The code implementation of ClusterLP and baselines we use are available at https://github.com/ZINUX1998/ClusterLP.
翻訳日:2022-11-07 17:12:10 公開日:2022-11-04
# 創発的量子通信

Emergent Quantized Communication ( http://arxiv.org/abs/2211.02412v1 )

ライセンス: Link先を確認
Boaz Carmeli, Ron Meir, Yonatan Belinkov(参考訳) 創発的コミュニケーションの分野は、情報交換を必要とするタスクを解く人工エージェントから生まれるコミュニケーションの特徴を理解することを目的としている。 離散メッセージによるコミュニケーションは、科学的・応用的な理由から望ましい特徴であると考えられている。 しかし、離散的なコミュニケーションを伴うマルチエージェントシステムのトレーニングは簡単ではなく、強化学習アルゴリズムか、Gumbel-softmaxのような連続近似を用いて離散性の要求を緩和する必要がある。 これら2つのソリューションは、完全な通信に比べてパフォーマンスが劣る。 本研究では,メッセージの量子化という離散的通信を実現するための代替手法を提案する。 メッセージ量子化を使用することで、モデルエンドツーエンドのトレーニングが可能になり、複数のセットアップで優れたパフォーマンスを実現します。 さらに、量子化は連続的な通信から離散的な通信へガムを実行する自然なフレームワークである。 したがって、深層学習時代におけるマルチエージェントコミュニケーションの幅広い視野の基盤となる。

The field of emergent communication aims to understand the characteristics of communication as it emerges from artificial agents solving tasks that require information exchange. Communication with discrete messages is considered a desired characteristic, for both scientific and applied reasons. However, training a multi-agent system with discrete communication is not straightforward, requiring either reinforcement learning algorithms or relaxing the discreteness requirement via a continuous approximation such as the Gumbel-softmax. Both these solutions result in poor performance compared to fully continuous communication. In this work, we propose an alternative approach to achieve discrete communication -- quantization of communicated messages. Using message quantization allows us to train the model end-to-end, achieving superior performance in multiple setups. Moreover, quantization is a natural framework that runs the gamut from continuous to discrete communication. Thus, it sets the ground for a broader view of multi-agent communication in the deep learning era.
翻訳日:2022-11-07 17:11:47 公開日:2022-11-04
# 道路条件の違いを考慮した制動制御のためのデータ駆動すべり推定手法

A Data-Driven Slip Estimation Approach for Effective Braking Control under Varying Road Conditions ( http://arxiv.org/abs/2211.02558v1 )

ライセンス: Link先を確認
F. Crocetti, G. Costante, M.L. Fravolini, P. Valigi(参考訳) ロボットプラットフォームのためのブレーキ制御システム(例えば、補助車や自律走行車、航空機、ドローン)の性能は、操縦中に経験した路面摩擦に深く影響されている。 したがって、高精度な推定アルゴリズムの有効性は、高度な制御スキームの開発において重要である。 本稿では,推定問題に焦点をあてる。 特に,多層ニューラルネットワークに基づく新しい推定アルゴリズムを提案する。 トレーニングは、広く使われている摩擦モデルから派生した合成データセットに基づいている。 提案アルゴリズムのオープンループ性能は,いくつかのシミュレーションシナリオで評価されている。 さらに、最適スリップをセットポイントとして推定する閉ループシナリオをテストするために、異なる制御スキームが使用される。 実験結果とモデルベースラインとの比較により,提案手法が最適スリップ推定に有効であることが示された。

The performances of braking control systems for robotic platforms, e.g., assisted and autonomous vehicles, airplanes and drones, are deeply influenced by the road-tire friction experienced during the maneuver. Therefore, the availability of accurate estimation algorithms is of major importance in the development of advanced control schemes. The focus of this paper is on the estimation problem. In particular, a novel estimation algorithm is proposed, based on a multi-layer neural network. The training is based on a synthetic data set, derived from a widely used friction model. The open loop performances of the proposed algorithm are evaluated in a number of simulated scenarios. Moreover, different control schemes are used to test the closed loop scenario, where the estimated optimal slip is used as the set-point. The experimental results and the comparison with a model based baseline show that the proposed approach can provide an effective best slip estimation.
翻訳日:2022-11-07 17:11:34 公開日:2022-11-04
# 自己教師付き音声モデルに対する一括圧縮

Once-for-All Sequence Compression for Self-Supervised Speech Models ( http://arxiv.org/abs/2211.02332v1 )

ライセンス: Link先を確認
Hsuan-Jui Chen, Yen Meng, Hung-yi Lee(参考訳) 時間軸に沿ったシーケンス長は、しばしば自己教師付き音声モデルの計算コストの主要な要因である。 計算コストを下げるためのシーケンス長を削減する作業が提案されている。 しかし、異なるダウンストリームタスクはシーケンス圧縮の許容度が異なるため、固定圧縮率を生成するモデルは全てのタスクに適合しない可能性がある。 本稿では,連続的な圧縮率をサポートする自己教師あり音声モデルのための1回限りの(ofa)シーケンス圧縮フレームワークを提案する。 このフレームワークは様々なタスクで評価され、スムーズな性能と効率のトレードオフを持つ固定圧縮率の変動に比べて限界劣化を示す。 さらに,適応圧縮率学習を探求し,グリッド探索を必要とせず,タスク固有の推奨フレーム周期を選択できることを示す。

The sequence length along the time axis is often the dominant factor of the computational cost of self-supervised speech models. Works have been proposed to reduce the sequence length for lowering the computational cost. However, different downstream tasks have different tolerance of sequence compressing, so a model that produces a fixed compressing rate may not fit all tasks. In this work, we introduce a once-for-all (OFA) sequence compression framework for self-supervised speech models that supports a continuous range of compressing rates. The framework is evaluated on various tasks, showing marginal degradation compared to the fixed compressing rate variants with a smooth performance-efficiency trade-off. We further explore adaptive compressing rate learning, demonstrating the ability to select task-specific preferred frame periods without needing a grid search.
翻訳日:2022-11-07 17:10:58 公開日:2022-11-04
# エンドツーエンド音声認識のためのシーケンストランスデューサの最小レイテンシトレーニング

Minimum Latency Training of Sequence Transducers for Streaming End-to-End Speech Recognition ( http://arxiv.org/abs/2211.02333v1 )

ライセンス: Link先を確認
Yusuke Shinohara and Shinji Watanabe(参考訳) RNN-TやConformer-Tのようなシーケンストランスデューサは、特にレイテンシと精度の両方が重要であるストリーミングシナリオにおいて、エンドツーエンド音声認識の最も有望なモデルの一つである。 アライメント制限トレーニングやFastEmitといった様々な手法がレイテンシ低減のために研究されているが、レイテンシ低減は精度の大幅な低下を伴うことが多い。 従来のどの手法も明示的にモデル化せず、遅延を低減できないため、この亜最適性能が引き起こされる可能性がある。 本稿では,シーケンストランスデューサモデルの遅延を明示的にモデル化し,低減するための新しいトレーニング手法を提案する。 まず、格子上の各対角線における予測レイテンシを定義し、その勾配をフォワードバックワードアルゴリズムで効率的に計算できることを示す。 そして、この予測レイテンシでトランスデューサ損失を増大させ、レイテンシと精度の最適なトレードオフを実現する。 WSJデータセットの実験結果から,提案した最小遅延トレーニングにより,WER劣化率0.7%の220msから27msに短縮し,従来のアライメント制限トレーニング(110ms)とFastEmit(67ms)の手法より優れていた。

Sequence transducers, such as the RNN-T and the Conformer-T, are one of the most promising models of end-to-end speech recognition, especially in streaming scenarios where both latency and accuracy are important. Although various methods, such as alignment-restricted training and FastEmit, have been studied to reduce the latency, latency reduction is often accompanied with a significant degradation in accuracy. We argue that this suboptimal performance might be caused because none of the prior methods explicitly model and reduce the latency. In this paper, we propose a new training method to explicitly model and reduce the latency of sequence transducer models. First, we define the expected latency at each diagonal line on the lattice, and show that its gradient can be computed efficiently within the forward-backward algorithm. Then we augment the transducer loss with this expected latency, so that an optimal trade-off between latency and accuracy is achieved. Experimental results on the WSJ dataset show that the proposed minimum latency training reduces the latency of causal Conformer-T from 220 ms to 27 ms within a WER degradation of 0.7%, and outperforms conventional alignment-restricted training (110 ms) and FastEmit (67 ms) methods.
翻訳日:2022-11-07 17:10:47 公開日:2022-11-04
# SMAuC - The Scientific Multi-Authorship Corpus

SMAuC -- The Scientific Multi-Authorship Corpus ( http://arxiv.org/abs/2211.02477v1 )

ライセンス: Link先を確認
Philipp Sauer, Janek Bevendorff, Lukas Gienapp, Wolfgang Kircheis, Erik K\"orner, Benno Stein, Martin Potthast(参考訳) 毎日増え続ける新しい出版物によって、科学的な執筆は、シングル著者とマルチ著者の両方の文書の著者シップ分析の興味深い領域となっている。 残念なことに、既存のコーパスのほとんどは科学領域の材料や必要なメタデータを欠いている。 そこで,本稿ではsmaucについて述べる。smaucは論文執筆における著者シップ分析に特化した,メタデータに富むコーパスである。 様々な科学分野から300万冊以上の出版物があるSMAuCは、これまでで最大の公開出版物である。 人文科学や自然科学から多種多様な科学的テキストと、独特で不明瞭な著者IDを含む、豊富でキュレートされたメタデータを組み合わせる。 我々はSMAuCが科学分野における著作者分析の分野に大きく貢献することを期待している。

With an ever-growing number of new publications each day, scientific writing poses an interesting domain for authorship analysis of both single-author and multi-author documents. Unfortunately, most existing corpora lack either material from the science domain or the required metadata. Hence, we present SMAuC, a new metadata-rich corpus designed specifically for authorship analysis in scientific writing. With more than three million publications from various scientific disciplines, SMAuC is the largest openly available corpus for authorship analysis to date. It combines a wide and diverse range of scientific texts from the humanities and natural sciences with rich and curated metadata, including unique and carefully disambiguated author IDs. We hope SMAuC will contribute significantly to advancing the field of authorship analysis in the science domain.
翻訳日:2022-11-07 17:03:58 公開日:2022-11-04
# 異種記憶を用いたグラフベースアプリケーションオブジェクトのランク付け学習

Learning to Rank Graph-based Application Objects on Heterogeneous Memories ( http://arxiv.org/abs/2211.02195v1 )

ライセンス: Link先を確認
Diego Moura, Vinicius Petrucci and Daniel Mosse(参考訳) 永続メモリ(PMEM)はNon-Volatile Memory(NVM)としても知られ、DRAMと比較して密度が高く1ビットあたりのコストも低い。 主な欠点は、一般的にDRAMよりも遅いことである。 一方、DRAMはコストとエネルギー消費のためにスケーラビリティに問題がある。 PMEMはまもなく、コンピュータシステム内のDRAMと共存するでしょうが、最大の課題は、どのデータをそれぞれのメモリに割り当てるかを知ることです。 本稿では,Intel Optane DC Persistent Memory を用いてアプリケーションの性能に最も影響を与えるアプリケーションオブジェクトの識別と特徴付けを行う手法について述べる。 作業の最初の部分では、アプリケーションオブジェクトのプロファイリングと分析を自動化するツールを開発しました。 第2部では、大規模グラフベースのアプリケーションの中で最も重要なオブジェクトを予測する機械学習モデルを構築します。 以上の結果から,分離した機能を使うことは,慎重に選択した機能セットを使用するのと同等の利点をもたらさないことが示された。 予測モデルを用いてデータ配置を行うことで,LLCミスインジケータに基づくベースラインのアプローチと比較して,実行時間の劣化を平均12\%(平均)と30\%(最大)に低減することができる。

Persistent Memory (PMEM), also known as Non-Volatile Memory (NVM), can deliver higher density and lower cost per bit when compared with DRAM. Its main drawback is that it is typically slower than DRAM. On the other hand, DRAM has scalability problems due to its cost and energy consumption. Soon, PMEM will likely coexist with DRAM in computer systems but the biggest challenge is to know which data to allocate on each type of memory. This paper describes a methodology for identifying and characterizing application objects that have the most influence on the application's performance using Intel Optane DC Persistent Memory. In the first part of our work, we built a tool that automates the profiling and analysis of application objects. In the second part, we build a machine learning model to predict the most critical object within large-scale graph-based applications. Our results show that using isolated features does not bring the same benefit compared to using a carefully chosen set of features. By performing data placement using our predictive model, we can reduce the execution time degradation by 12\% (average) and 30\% (max) when compared to the baseline's approach based on LLC misses indicator.
翻訳日:2022-11-07 17:02:28 公開日:2022-11-04
# 通信制約下における分散線形バンディット

Distributed Linear Bandits under Communication Constraints ( http://arxiv.org/abs/2211.02212v1 )

ライセンス: Link先を確認
Sudeep Salgia, Qing Zhao(参考訳) 我々は,M$エージェントが協力して学習し,すべてのエージェントが犯した累積的後悔を最小化する分散線形帯域を考える。 情報交換は中央サーバによって容易であり、アップリンクとダウンリンクの両方の通信は、チャネルの使用毎に送信可能な情報量を制限する固定容量のチャネル上で実行される。 我々は後悔とコミュニケーションのトレードオフを調査する 一 サブリニア後悔の順序を達成するための必要な通信(ビットの点で)に関する情報理論の下限を確立すること。 (ii)情報理論上の下限によって指示される通信の最小次数を用いて、集中学習によって提供される最小の劣線形後悔順序を達成する効率的なアルゴリズムの開発。 疎線形帯域に対して,提案アルゴリズムの変種は,問題の空間性を活用することにより,より良い後悔とコミュニケーションのトレードオフをもたらすことを示す。

We consider distributed linear bandits where $M$ agents learn collaboratively to minimize the overall cumulative regret incurred by all agents. Information exchange is facilitated by a central server, and both the uplink and downlink communications are carried over channels with fixed capacity, which limits the amount of information that can be transmitted in each use of the channels. We investigate the regret-communication trade-off by (i) establishing information-theoretic lower bounds on the required communications (in terms of bits) for achieving a sublinear regret order; (ii) developing an efficient algorithm that achieves the minimum sublinear regret order offered by centralized learning using the minimum order of communications dictated by the information-theoretic lower bounds. For sparse linear bandits, we show a variant of the proposed algorithm offers better regret-communication trade-off by leveraging the sparsity of the problem.
翻訳日:2022-11-07 17:02:10 公開日:2022-11-04
# 強化学習におけるモデルベース一般化の利点

The Benefits of Model-Based Generalization in Reinforcement Learning ( http://arxiv.org/abs/2211.02222v1 )

ライセンス: Link先を確認
Kenny Young, Aditya Ramesh, Louis Kirsch, J\"urgen Schmidhuber(参考訳) モデルベース強化学習(RL)は、エージェントが大量の想像上の経験を合成できるようにすることで、サンプル効率を向上させる可能性があると広く信じられている。 経験リプレイ(ER)は, 深部RLの安定性と効率向上に極めて有効であることが証明された, 単純なモデルであると考えられる。 原則として、学習されたパラメトリックモデルは、実体験から一般化し、付加可能な経験でデータセットを増強することで、ERを改善することができる。 しかし、経験的に成功したアルゴリズムに関わる多くの設計上の選択のため、その利点が実際にどこから来ているかを確立することは非常に困難である。 ここでは,学習モデルが生成したデータの有用性について,理論的かつ実証的な知見を提供する。 まず、中間ステップとしてモデルを学習することで、ベルマン方程式を用いてデータから直接値関数を学習するよりも、可能な値関数の集合を狭めることができるという一般的な定理を提供する。 第2に、ニューラルネットワーク関数近似を用いたより具体的な環境で、同様の効果がどのように起こるかを実証的に示す。 最後に,コンビネート複雑環境におけるオンラインrlにおけるモデルベース学習のメリットを示すとともに,学習モデルの一般化を可能にするファクタード構造を提案する。 これらの実験では,ERに対して学習モデルが生成した経験を可能な限り分離するために,他の要因の制御に注意する。

Model-Based Reinforcement Learning (RL) is widely believed to have the potential to improve sample efficiency by allowing an agent to synthesize large amounts of imagined experience. Experience Replay (ER) can be considered a simple kind of model, which has proved extremely effective at improving the stability and efficiency of deep RL. In principle, a learned parametric model could improve on ER by generalizing from real experience to augment the dataset with additional plausible experience. However, owing to the many design choices involved in empirically successful algorithms, it can be very hard to establish where the benefits are actually coming from. Here, we provide theoretical and empirical insight into when, and how, we can expect data generated by a learned model to be useful. First, we provide a general theorem motivating how learning a model as an intermediate step can narrow down the set of possible value functions more than learning a value function directly from data using the Bellman equation. Second, we provide an illustrative example showing empirically how a similar effect occurs in a more concrete setting with neural network function approximation. Finally, we provide extensive experiments showing the benefit of model-based learning for online RL in environments with combinatorial complexity, but factored structure that allows a learned model to generalize. In these experiments, we take care to control for other factors in order to isolate, insofar as possible, the benefit of using experience generated by a learned model relative to ER alone.
翻訳日:2022-11-07 17:01:56 公開日:2022-11-04
# 流れの流れ:最大近似による任意分布間の流れの正規化の訓練

Flows for Flows: Training Normalizing Flows Between Arbitrary Distributions with Maximum Likelihood Estimation ( http://arxiv.org/abs/2211.02487v1 )

ライセンス: Link先を確認
Samuel Klein, John Andrew Raine, Tobias Golling(参考訳) 正規化フローは、既知の密度を持つ基底分布と、トラクタブルヤコビアンを持つ微分同相から構成される。 正規化流れの基底密度は異なる正規化流れによってパラメータ化することができ、任意の分布の間で写像を見つけることができる。 この手法の有用性を実証・検討し,条件付き正規化流の場合には特に興味深いことを示し,正規化流を用いて構築される写像に最適輸送制約を導入する。

Normalizing flows are constructed from a base distribution with a known density and a diffeomorphism with a tractable Jacobian. The base density of a normalizing flow can be parameterised by a different normalizing flow, thus allowing maps to be found between arbitrary distributions. We demonstrate and explore the utility of this approach and show it is particularly interesting in the case of conditional normalizing flows and for introducing optimal transport constraints on maps that are constructed using normalizing flows.
翻訳日:2022-11-07 17:01:33 公開日:2022-11-04
# WeisfeilerとLeman Go Hyperbolic: ノード表現を保存する遠隔学習

Weisfeiler and Leman go Hyperbolic: Learning Distance Preserving Node Representations ( http://arxiv.org/abs/2211.02501v1 )

ライセンス: Link先を確認
Giannis Nikolentzos, Michail Chatzianastasis, Michalis Vazirgiannis(参考訳) 近年、グラフニューラルネットワーク(GNN)が、グラフ上の機械学習問題を解決するための有望なツールとして登場した。 ほとんどのGNNは、メッセージパッシングニューラルネットワーク(MPNN)のファミリーのメンバーである。 これらのモデルとweisfeiler-leman (wl) test of isomorphism(グラフの広いクラスに対する同型をうまくテストできるアルゴリズム)の間には密接な関係がある。 近年,GNNの表現力の測定に焦点が当てられている。 例えば、標準MPNNは、非同型グラフの区別に関して、WLと同じくらい強力であることが示されている。 しかし、これらの研究は、学習タスクにおいて最も重要なノード/グラフ間の距離を無視している。 本稿では,WLアルゴリズムが生成する階層に基づくノード間の距離関数を定義し,ノード間の距離を保存する表現を学習するモデルを提案する。 新興階層は木に対応するため、これらの表現を学ぶため、双曲型ニューラルネットワークの分野における最近の進歩を活かす。 標準ノードおよびグラフ分類データセットにおける提案モデルの評価を行い,最先端モデルと競合する性能を実現する。

In recent years, graph neural networks (GNNs) have emerged as a promising tool for solving machine learning problems on graphs. Most GNNs are members of the family of message passing neural networks (MPNNs). There is a close connection between these models and the Weisfeiler-Leman (WL) test of isomorphism, an algorithm that can successfully test isomorphism for a broad class of graphs. Recently, much research has focused on measuring the expressive power of GNNs. For instance, it has been shown that standard MPNNs are at most as powerful as WL in terms of distinguishing non-isomorphic graphs. However, these studies have largely ignored the distances between the representations of nodes/graphs which are of paramount importance for learning tasks. In this paper, we define a distance function between nodes which is based on the hierarchy produced by the WL algorithm, and propose a model that learns representations which preserve those distances between nodes. Since the emerging hierarchy corresponds to a tree, to learn these representations, we capitalize on recent advances in the field of hyperbolic neural networks. We empirically evaluate the proposed model on standard node and graph classification datasets where it achieves competitive performance with state-of-the-art models.
翻訳日:2022-11-07 17:01:24 公開日:2022-11-04
# 相互情報正規化アサインメントによる教師なし視覚表現学習

Unsupervised Visual Representation Learning via Mutual Information Regularized Assignment ( http://arxiv.org/abs/2211.02284v1 )

ライセンス: Link先を確認
Dong Hoon Lee, Sungik Choi, Hyunwoo Kim, Sae-Young Chung(参考訳) 本稿では,情報の最大化にインスパイアされた教師なし表現学習のための擬似ラベルアルゴリズムであるMIRAを提案する。 オンライン擬似ラベルを最適化問題として定式化し、与えられたモデル確率に近づきながらラベルとデータ間の相互情報を最大化する擬似ラベルを求める。 固定点反復法を導出し,その最適解への収束を証明する。 ベースラインとは対照的に、MIRAと擬似ラベル予測を組み合わせることで、余分なトレーニング技術やサンプリング戦略、等分制約などの人工的制約を組み込むことなく、単純で効果的なクラスタリングベースの表現学習が可能になる。 MIRAが学んだ表現は、比較的小さな訓練エポックで、線形/k-NN評価や転送学習など、さまざまな下流タスクにおける最先端のパフォーマンスを達成する。 特に400エポックでresnet-50アーキテクチャを用いたimagenetデータセットに適用すると、75.6%の線形評価精度が得られる。

This paper proposes Mutual Information Regularized Assignment (MIRA), a pseudo-labeling algorithm for unsupervised representation learning inspired by information maximization. We formulate online pseudo-labeling as an optimization problem to find pseudo-labels that maximize the mutual information between the label and data while being close to a given model probability. We derive a fixed-point iteration method and prove its convergence to the optimal solution. In contrast to baselines, MIRA combined with pseudo-label prediction enables a simple yet effective clustering-based representation learning without incorporating extra training techniques or artificial constraints such as sampling strategy, equipartition constraints, etc. With relatively small training epochs, representation learned by MIRA achieves state-of-the-art performance on various downstream tasks, including the linear/k-NN evaluation and transfer learning. Especially, with only 400 epochs, our method applied to ImageNet dataset with ResNet-50 architecture achieves 75.6% linear evaluation accuracy.
翻訳日:2022-11-07 16:55:43 公開日:2022-11-04
# GARNet:グローバルなマルチビュー3D再構成ネットワークとコストパフォーマンストレードオフ

GARNet: Global-Aware Multi-View 3D Reconstruction Network and the Cost-Performance Tradeoff ( http://arxiv.org/abs/2211.02299v1 )

ライセンス: Link先を確認
Zhenwei Zhu, Liying Yang, Xuxin Lin, Chaohao Jiang, Ning Li, Lin Yang, Yanyan Liang(参考訳) 深層学習技術は多視点3D再構成タスクにおいて大きな進歩を遂げた。 現在、ほとんどの主流のソリューションは、2Dエンコーダと3Dデコーダのネットワークを基本構造として組み込むことで、オブジェクトのビューと形状のマッピングを確立している。 それらのうち、注意に基づく融合の手法は、他の方法よりも良く、より安定しているが、それでも明らかな欠点がある。統合の重み付けを予測する際の各視点の強い独立性は、グローバルな状態への適応の欠如につながる。 本稿では,各分枝とグローバルの相関関係を構築し,重み付け推論の包括的基礎を提供するグローバルアウェア・アテンションベース・フュージョン手法を提案する。 ネットワークの能力を高めるために, 形状全体を監視する新しい損失関数を導入し, 注意に基づく融合により, 全ての再構築者に効果的に適応できる動的2段階訓練戦略を提案する。 ShapeNetの実験では、パラメータの量は同じタイプのアルゴリズムであるPix2Vox++よりもはるかに少ないが、既存のSOTAメソッドよりも優れていることが確認された。 さらに,多様性を最大化することに基づくビューリダクション手法を提案し,大入力量と計算コストの制限に対して,より優れた性能を実現するためのモデルのコストパフォーマンストレードオフについて考察する。

Deep learning technology has made great progress in multi-view 3D reconstruction tasks. At present, most mainstream solutions establish the mapping between views and shape of an object by assembling the networks of 2D encoder and 3D decoder as the basic structure while they adopt different approaches to obtain aggregation of features from several views. Among them, the methods using attention-based fusion perform better and more stable than the others, however, they still have an obvious shortcoming -- the strong independence of each view during predicting the weights for merging leads to a lack of adaption of the global state. In this paper, we propose a global-aware attention-based fusion approach that builds the correlation between each branch and the global to provide a comprehensive foundation for weights inference. In order to enhance the ability of the network, we introduce a novel loss function to supervise the shape overall and propose a dynamic two-stage training strategy that can effectively adapt to all reconstructors with attention-based fusion. Experiments on ShapeNet verify that our method outperforms existing SOTA methods while the amount of parameters is far less than the same type of algorithm, Pix2Vox++. Furthermore, we propose a view-reduction method based on maximizing diversity and discuss the cost-performance tradeoff of our model to achieve a better performance when facing heavy input amount and limited computational cost.
翻訳日:2022-11-07 16:55:28 公開日:2022-11-04
# 少数ショットセグメンテーションにおけるマルチスケール非ノベルセグメンテーションの除去

Elimination of Non-Novel Segments at Multi-Scale for Few-Shot Segmentation ( http://arxiv.org/abs/2211.02300v1 )

ライセンス: Link先を確認
Alper Kayaba\c{s}{\i}, G\"ulin T\"ufekci, \.Ilkay Ulusoy(参考訳) Few-shot segmentationは、トレーニング中に未確認のクラスからクエリイメージをセグメント化する一般化モデルを考案することを目的としている。 前作で言及された2つのドメイン固有の問題、すなわち空間的不一貫性と見掛けられるクラスに対するバイアスが存在する。 提案手法は,従来の問題を考慮すると,マルチスケールのクエリ機能マップとサポート機能マップを比較して,スケールに依存しないものにする。 後者の問題に対する解決策として、ベースラーナーと呼ばれる教師付きモデルが利用可能なクラス上で訓練され、そのクラスに属するピクセルを正確に識別する。 したがって、後続のメタ学習者は、メタ学習者とベース学習者とを協調するアンサンブル学習モデルの助けを借りて、見知らぬクラスに属する領域を捨てる機会を得る。 PASCAL-5iとCOCO-20iの両方のデータセット上で、これらの2つの重要な問題に同時に対処し、最先端のパフォーマンスを達成する。

Few-shot segmentation aims to devise a generalizing model that segments query images from unseen classes during training with the guidance of a few support images whose class tally with the class of the query. There exist two domain-specific problems mentioned in the previous works, namely spatial inconsistency and bias towards seen classes. Taking the former problem into account, our method compares the support feature map with the query feature map at multi scales to become scale-agnostic. As a solution to the latter problem, a supervised model, called as base learner, is trained on available classes to accurately identify pixels belonging to seen classes. Hence, subsequent meta learner has a chance to discard areas belonging to seen classes with the help of an ensemble learning model that coordinates meta learner with the base learner. We simultaneously address these two vital problems for the first time and achieve state-of-the-art performances on both PASCAL-5i and COCO-20i datasets.
翻訳日:2022-11-07 16:55:05 公開日:2022-11-04
# クロスドメイン移動物体混合による領域適応ビデオ意味セマンティクス

Domain Adaptive Video Semantic Segmentation via Cross-Domain Moving Object Mixing ( http://arxiv.org/abs/2211.02307v1 )

ライセンス: Link先を確認
Kyusik Cho, Suhyeon Lee, Hongje Seong and Euntai Kim(参考訳) ドメイン適応のために訓練されたネットワークは、容易に変換できるクラスに偏りがちである。 対象ドメインの基底真理ラベルはトレーニング中に使用できないため、バイアス問題は歪んだ予測につながり、転送の難しいクラスを予測するのを忘れてしまう。 この問題に対処するため,我々は,ソースドメインの動画クリップ内で,転送の難しいクラスを含む複数のオブジェクトをカットして,ターゲットドメインの動画クリップに貼り付けるクロスドメイン移動オブジェクト混合(cmom)を提案する。 画像レベルのドメイン適応とは異なり、時間的コンテキストは2つの異なるビデオで動くオブジェクトを混ぜるために維持されるべきである。 そこで我々はcmomを連続する映像フレームと混合するように設計し,非現実的な動きが起こらないようにした。 さらに、ターゲット領域の特徴識別性を高めるために、時間的コンテキストによる特徴調整(FATC)を提案する。 fatcは、基底真理ラベルでトレーニングされた堅牢なソースドメイン機能を利用して、信頼できない予測を時間的コンセンサスでフィルタリングすることで、教師なしの方法で識別対象ドメイン機能を学ぶ。 提案手法の有効性を広範囲な実験により実証する。 特に、我々のモデルはVIPERからCityscapes-Seqベンチマークで53.81%mIoU、SynTHIA-SeqからCityscapes-Seqベンチマークで56.31%mIoUに達し、最先端の手法をはるかに上回っている。

The network trained for domain adaptation is prone to bias toward the easy-to-transfer classes. Since the ground truth label on the target domain is unavailable during training, the bias problem leads to skewed predictions, forgetting to predict hard-to-transfer classes. To address this problem, we propose Cross-domain Moving Object Mixing (CMOM) that cuts several objects, including hard-to-transfer classes, in the source domain video clip and pastes them into the target domain video clip. Unlike image-level domain adaptation, the temporal context should be maintained to mix moving objects in two different videos. Therefore, we design CMOM to mix with consecutive video frames, so that unrealistic movements are not occurring. We additionally propose Feature Alignment with Temporal Context (FATC) to enhance target domain feature discriminability. FATC exploits the robust source domain features, which are trained with ground truth labels, to learn discriminative target domain features in an unsupervised manner by filtering unreliable predictions with temporal consensus. We demonstrate the effectiveness of the proposed approaches through extensive experiments. In particular, our model reaches mIoU of 53.81% on VIPER to Cityscapes-Seq benchmark and mIoU of 56.31% on SYNTHIA-Seq to Cityscapes-Seq benchmark, surpassing the state-of-the-art methods by large margins.
翻訳日:2022-11-07 16:54:48 公開日:2022-11-04
# OSIC:新しいワンステップ画像キャプチャー

OSIC: A New One-Stage Image Captioner Coined ( http://arxiv.org/abs/2211.02321v1 )

ライセンス: Link先を確認
Bo Wang, Zhao Zhang, Mingbo Zhao, Xiaojie Jin, Mingliang Xu, Meng Wang(参考訳) 主流画像キャプションモデルは、通常2段階のキャプション、すなわち事前訓練された検出器によってオブジェクトの特徴を計算し、それらを言語モデルに入力してテキスト記述を生成する。 しかし、このような操作は、検出タスクにおけるオブジェクトの特徴が最適以下であり、その後のテキスト生成に必要な情報をすべて提供できないため、タスクベースの情報ギャップを生じさせる。 さらに、オブジェクト機能は、通常、入力画像の局所的な詳細を失う最後のレイヤ機能で表現される。 本稿では,入力画像を直接記述文に変換する動的多視点学習を備えた,新しい一段階画像キャプション(osic)を提案する。 これにより、タスクベースの情報ギャップを大幅に低減することができる。 リッチな特徴を得るために,多レベル特徴の計算にswinトランスを使用し,それらを新しい動的多眼埋め込みモジュールに供給し,入力画像のグローバル構造と局所テクスチャの両方を利用する。 キャプション用エンコーダのグローバルなモデリングを強化するため,埋め込み特徴の相互作用を非局所的にモデル化する2次元精製モジュールを提案する。 最後に、OSICは画像キャプションタスクを改善するために、リッチで有用な情報を得ることができる。 ベンチマークMS-COCOデータセットの大規模な比較により,本手法の優れた性能が確認された。

Mainstream image caption models are usually two-stage captioners, i.e., calculating object features by pre-trained detector, and feeding them into a language model to generate text descriptions. However, such an operation will cause a task-based information gap to decrease the performance, since the object features in detection task are suboptimal representation and cannot provide all necessary information for subsequent text generation. Besides, object features are usually represented by the last layer features that lose the local details of input images. In this paper, we propose a novel One-Stage Image Captioner (OSIC) with dynamic multi-sight learning, which directly transforms input image into descriptive sentences in one stage. As a result, the task-based information gap can be greatly reduced. To obtain rich features, we use the Swin Transformer to calculate multi-level features, and then feed them into a novel dynamic multi-sight embedding module to exploit both global structure and local texture of input images. To enhance the global modeling of encoder for caption, we propose a new dual-dimensional refining module to non-locally model the interaction of the embedded features. Finally, OSIC can obtain rich and useful information to improve the image caption task. Extensive comparisons on benchmark MS-COCO dataset verified the superior performance of our method.
翻訳日:2022-11-07 16:54:21 公開日:2022-11-04
# UV R-CNN: 安定かつ高効率な人文推定

UV R-CNN: Stable and Efficient Dense Human Pose Estimation ( http://arxiv.org/abs/2211.02337v1 )

ライセンス: Link先を確認
Wenhe Jia, Yilin Zhou, Xuhan Zhu, Mengjie Hu, Chun Liu, Qing Song(参考訳) 高密度ポーズ推定は、rgb画像から人体の3d面に人間のピクセルをマッピングすることを目的とした、インスタンスレベルの人間分析のための高密度な3d予測タスクである。 表面位置回帰が多すぎるため、他の領域ベースのヒューマンインスタンス分析タスクと比較して、トレーニングプロセスは崩壊しやすいように思われる。 既存の高密度ポーズ推定モデルの損失定式化を解析することにより、トレーニングの進捗を安定させるためにDense Points}損失という新しいポイント回帰損失関数を導入し、マルチタスクの損失を処理するための新たなバランス付き損失重み付け戦略を提案する。 以上より,UV R-CNNという新しいアーキテクチャを提案する。 他のタスクからの補助的な監督や外部知識がなければ、UV R-CNNは65.0%$AP_{gps}$と66.1%$AP_{gpsm}$をResNet-50-FPN機能抽出器でDensePose-COの検証サブセットで達成し、最先端のヒトのポーズ推定方法と競合する多くの複雑な問題に対処できる。

Dense pose estimation is a dense 3D prediction task for instance-level human analysis, aiming to map human pixels from an RGB image to a 3D surface of the human body. Due to a large amount of surface point regression, the training process appears to be easy to collapse compared to other region-based human instance analyzing tasks. By analyzing the loss formulation of the existing dense pose estimation model, we introduce a novel point regression loss function, named Dense Points} loss to stable the training progress, and a new balanced loss weighting strategy to handle the multi-task losses. With the above novelties, we propose a brand new architecture, named UV R-CNN. Without auxiliary supervision and external knowledge from other tasks, UV R-CNN can handle many complicated issues in dense pose model training progress, achieving 65.0% $AP_{gps}$ and 66.1% $AP_{gpsm}$ on the DensePose-COCO validation subset with ResNet-50-FPN feature extractor, competitive among the state-of-the-art dense human pose estimation methods.
翻訳日:2022-11-07 16:53:59 公開日:2022-11-04
# PP-YOLOE-R:効率的なアンカーフリー回転物体検出器

PP-YOLOE-R: An Efficient Anchor-Free Rotated Object Detector ( http://arxiv.org/abs/2211.02386v1 )

ライセンス: Link先を確認
Xinxin Wang, Guanzhong Wang, Qingqing Dang, Yi Liu, Xiaoguang Hu, Dianhai Yu(参考訳) 任意指向物体検出は、空中画像やシーンテキストを含む視覚シーンの基本課題である。 本稿では,PP-YOLOEに基づく効率的なアンカーフリー回転物体検出器PP-YOLOE-Rを提案する。 PP-YOLOE-Rでは,限界余剰パラメータと計算コストによる検出精度の向上のために,有用なトリックの袋を導入している。 その結果、PP-YOLOE-R-l と PP-YOLOE-R-x はそれぞれ 78.14 と 78.28 mAP をDOTA 1.0 データセット上で達成した。 マルチスケールの訓練と試験により、PP-YOLOE-R-lとPP-YOLOE-R-xはさらに精度を80.02と80.73mAPに改善した。 この場合、PP-YOLOE-R-xはすべてのアンカーフリー手法を超え、最先端のアンカーベース2段階モデルとの競合性能を示す。 さらに、PP-YOLOE-Rは展開に適しており、PP-YOLOE-R-s/m/l/xはRTX 2080 Ti上でそれぞれ69.8/55.1/48.3/37.1 FPSに達する。 ソースコードと事前学習されたモデルはhttps://github.com/paddlepaddle/paddledetectionで入手できる。

Arbitrary-oriented object detection is a fundamental task in visual scenes involving aerial images and scene text. In this report, we present PP-YOLOE-R, an efficient anchor-free rotated object detector based on PP-YOLOE. We introduce a bag of useful tricks in PP-YOLOE-R to improve detection precision with marginal extra parameters and computational cost. As a result, PP-YOLOE-R-l and PP-YOLOE-R-x achieve 78.14 and 78.28 mAP respectively on DOTA 1.0 dataset with single-scale training and testing, which outperform almost all other rotated object detectors. With multi-scale training and testing, PP-YOLOE-R-l and PP-YOLOE-R-x further improve the detection precision to 80.02 and 80.73 mAP. In this case, PP-YOLOE-R-x surpasses all anchor-free methods and demonstrates competitive performance to state-of-the-art anchor-based two-stage models. Further, PP-YOLOE-R is deployment friendly and PP-YOLOE-R-s/m/l/x can reach 69.8/55.1/48.3/37.1 FPS respectively on RTX 2080 Ti with TensorRT and FP16-precision. Source code and pre-trained models are available at https://github.com/PaddlePaddle/PaddleDetection, which is powered by https://github.com/PaddlePaddle/Paddle.
翻訳日:2022-11-07 16:53:34 公開日:2022-11-04
# Patch DCT vs LeNet

Patch DCT vs LeNet ( http://arxiv.org/abs/2211.02392v1 )

ライセンス: Link先を確認
David Sinclair(参考訳) 本稿では,画像パッチのdct(discrete cosine transform)出力であるnnの性能を,mnist手書き文字を分類するためのレネットと比較する。 DCTの根底にある基底関数は、Visual Transformerの学習した基底関数のいくつかに類似しているが、適用は桁違い高速である。

This paper compares the performance of a NN taking the output of a DCT (Discrete Cosine Transform) of an image patch with leNet for classifying MNIST hand written digits. The basis functions underlying the DCT bear a passing resemblance to some of the learned basis function of the Visual Transformer but are an order of magnitude faster to apply.
翻訳日:2022-11-07 16:53:04 公開日:2022-11-04
# 非凸および非局所正規化を有するテンソルロバストPCA

Tensor Robust PCA with Nonconvex and Nonlocal Regularization ( http://arxiv.org/abs/2211.02404v1 )

ライセンス: Link先を確認
Xiaoyu Geng, Qiang Guo, Shuaixiong Hui and Caiming Zhang(参考訳) テンソルロバスト主成分分析(TRPCA)は、テンソル特異値を等しく縮小することでテンソルランクの凸代理を最小限に抑える、低ランクテンソルリカバリのための有望な方法である。 しかし、現実世界の視覚データでは、小さな特異値よりも大きな特異値の方が有意な情報を表す。 本稿では、テンソル調整可能な対数ノルムに基づく非凸TRPCA(N-TRPCA)モデルを提案する。 TRPCAとは異なり、我々のN-TRPCAは小さな特異値をより小さくし、大きな特異値を小さくすることができる。 さらに、TRPCAはデータテンソル全体が低いランクであると仮定する。 この仮定は、自然の視覚データにはほとんど満足せず、ノイズの多い画像やビデオからエッジやテクスチャの詳細を復元するTRPCAの能力を制限している。 この目的のために、非局所的な自己相似性をN-TRPCAに統合し、さらに非凸かつ非局所的なTRPCA(NN-TRPCA)モデルを開発する。 具体的には、同様の非局所パッチはテンソルとしてグループ化され、その後 N-TRPCA によって各群テンソルが復元される。 1つのグループのパッチは高い相関関係にあるため、全ての群テンソルは強い低ランク特性を持ち、回復性能が向上する。 実験の結果,提案したNN-TRPCAは視覚的データ回復において既存のTRPCA法よりも優れていた。 デモコードはhttps://github.com/qguo2010/NN-TRPCA.comで公開されている。

Tensor robust principal component analysis (TRPCA) is a promising way for low-rank tensor recovery, which minimizes the convex surrogate of tensor rank by shrinking each tensor singular values equally. However, for real-world visual data, large singular values represent more signifiant information than small singular values. In this paper, we propose a nonconvex TRPCA (N-TRPCA) model based on the tensor adjustable logarithmic norm. Unlike TRPCA, our N-TRPCA can adaptively shrink small singular values more and shrink large singular values less. In addition, TRPCA assumes that the whole data tensor is of low rank. This assumption is hardly satisfied in practice for natural visual data, restricting the capability of TRPCA to recover the edges and texture details from noisy images and videos. To this end, we integrate nonlocal self-similarity into N-TRPCA, and further develop a nonconvex and nonlocal TRPCA (NN-TRPCA) model. Specifically, similar nonlocal patches are grouped as a tensor and then each group tensor is recovered by our N-TRPCA. Since the patches in one group are highly correlated, all group tensors have strong low-rank property, leading to an improvement of recovery performance. Experimental results demonstrate that the proposed NN-TRPCA outperforms some existing TRPCA methods in visual data recovery. The demo code is available at https://github.com/qguo2010/NN-TRPCA.
翻訳日:2022-11-07 16:52:59 公開日:2022-11-04
# 大腸内視鏡におけるFCN系ポリプセグメンテーションの転写学習の再考

Rethinking the transfer learning for FCN based polyp segmentation in colonoscopy ( http://arxiv.org/abs/2211.02416v1 )

ライセンス: Link先を確認
Yan Wen, Lei Zhang, Xiangli Meng and Xujiong Ye(参考訳) 光反射のような内在的なフレーム形成アーチファクトを持つ大腸内視鏡フレームの複雑な性質とポリプタイプ/サップの多様性に加えて、一般に利用可能なポリプセグメンテーショントレーニングデータセットは制限され、小さく、不均衡である。 この場合、深層ニューラルネットワークを用いた自動ポリプセグメンテーションは、小さなデータセットでのトレーニングが過剰なため、未解決の課題である。 我々は,セグメンテーション (fcn) と分類 (cnn) を結合する簡易かつ効果的なポリプセグメンテーションパイプラインを提案する。 学習の過剰さを緩和する濃密な視覚タスクと粗い視覚タスク間の相互作用的重み伝達の効果を見出した。 そして、セグメンテーションパイプライン内で新しいトレーニングスキームを設計する動機になります。 本手法は,CVC-EndoSceneStillおよびKvasir-SEGデータセットを用いて評価する。 4.34%と5.70%のポリp-iou改善を達成し, エンドセンシング法とkvasir-seg法をそれぞれ比較した。

Besides the complex nature of colonoscopy frames with intrinsic frame formation artefacts such as light reflections and the diversity of polyp types/shapes, the publicly available polyp segmentation training datasets are limited, small and imbalanced. In this case, the automated polyp segmentation using a deep neural network remains an open challenge due to the overfitting of training on small datasets. We proposed a simple yet effective polyp segmentation pipeline that couples the segmentation (FCN) and classification (CNN) tasks. We find the effectiveness of interactive weight transfer between dense and coarse vision tasks that mitigates the overfitting in learning. And It motivates us to design a new training scheme within our segmentation pipeline. Our method is evaluated on CVC-EndoSceneStill and Kvasir-SEG datasets. It achieves 4.34% and 5.70% Polyp-IoU improvements compared to the state-of-the-art methods on the EndoSceneStill and Kvasir-SEG datasets, respectively.
翻訳日:2022-11-07 16:52:32 公開日:2022-11-04
# 強誘電体トンネル接合を用いた積分火炎ニューロン

A Ferroelectric Tunnel Junction-based Integrate-and-Fire Neuron ( http://arxiv.org/abs/2211.02598v1 )

ライセンス: Link先を確認
Paolo Gibertini, Luca Fehlings, Suzanne Lancaster, Quang Duong, Thomas Mikolajick, Catherine Dubourdieu, Stefan Slesazeck, Erika Covi, Veeresh Deshpande(参考訳) イベントベースのニューロモルフィックシステムは、人工ニューロンとシナプスを使用してスパイクの形でデータを非同期に処理することで、低消費電力のソリューションを提供する。 強誘電体トンネル接合(FTJ)は超低消費電力メモリデバイスであり、これらのシステムに統合するのに適している。 本稿では,エッジコンピューティングのための次世代ニューロモルフィックネットワークの基本構築ブロックを構成するハイブリッドFTJ-CMOS積分ファイアニューロンを提案する。 FTJ装置のスイッチングを調整し、電気的に調整可能なニューラルダイナミクスを実証する。

Event-based neuromorphic systems provide a low-power solution by using artificial neurons and synapses to process data asynchronously in the form of spikes. Ferroelectric Tunnel Junctions (FTJs) are ultra low-power memory devices and are well-suited to be integrated in these systems. Here, we present a hybrid FTJ-CMOS Integrate-and-Fire neuron which constitutes a fundamental building block for new-generation neuromorphic networks for edge computing. We demonstrate electrically tunable neural dynamics achievable by tuning the switching of the FTJ device.
翻訳日:2022-11-07 16:46:07 公開日:2022-11-04
# コスト制約チャンネルプルーニングのためのソフトマスキング

Soft Masking for Cost-Constrained Channel Pruning ( http://arxiv.org/abs/2211.02206v1 )

ライセンス: Link先を確認
Ryan Humble, Maying Shen, Jorge Albericio Latorre, Eric Darve1, Jose M. Alvarez(参考訳) 構造化チャネルプルーニングは、現代のハードウェア上での畳み込みニューラルネットワーク(CNN)の推論時間を著しく加速し、ネットワーク精度が比較的低いことが示されている。 最近の研究はトレーニング中にこれらのチャネルを永久的にゼロにしており、特にネットワークの分断が増加するにつれて最終精度が著しく低下している。 本稿では,コスト制約付きチャネル・プルーニング(SMCP)のためのソフト・マスキングを提案し,同時に目標コスト制約に向かってプルーニングしながら,プルーニングされたチャネルを適応的にネットワークに戻すことを可能にする。 入力チャネルを除去する観点から重みとチャネルプルーニングをソフトマスクで再パラメータ化することにより、以前のプルーニングチャネルへの勾配更新を可能にし、チャネルを後でネットワークに戻す機会を与える。 次に、グローバルリソース割り当て問題として入力チャネルプルーニングを定式化する。 提案手法は,ImageNet分類とPASCAL VOC検出データセットの両方において,従来よりも優れている。

Structured channel pruning has been shown to significantly accelerate inference time for convolution neural networks (CNNs) on modern hardware, with a relatively minor loss of network accuracy. Recent works permanently zero these channels during training, which we observe to significantly hamper final accuracy, particularly as the fraction of the network being pruned increases. We propose Soft Masking for cost-constrained Channel Pruning (SMCP) to allow pruned channels to adaptively return to the network while simultaneously pruning towards a target cost constraint. By adding a soft mask re-parameterization of the weights and channel pruning from the perspective of removing input channels, we allow gradient updates to previously pruned channels and the opportunity for the channels to later return to the network. We then formulate input channel pruning as a global resource allocation problem. Our method outperforms prior works on both the ImageNet classification and PASCAL VOC detection datasets.
翻訳日:2022-11-07 16:44:00 公開日:2022-11-04
# SSDA-YOLO:クロスドメインオブジェクト検出のための半教師付きドメイン適応YOLO

SSDA-YOLO: Semi-supervised Domain Adaptive YOLO for Cross-Domain Object Detection ( http://arxiv.org/abs/2211.02213v1 )

ライセンス: Link先を確認
Huayi Zhou, Fei Jiang, Hongtao Lu(参考訳) ドメイン適応オブジェクト検出(DAOD)は、ドメイン間差による転送性能劣化を軽減することを目的としている。 しかし、既存のdaod法は計算集約型2段階検出器が支配しており、産業用途では最初の選択肢ではない。 本稿では,コンパクトな1段検出器YOLOv5をドメイン適応と組み合わせることで,クロスドメイン検出性能を向上させるための半教師付きドメイン適応YOLO(SSDA-YOLO)を提案する。 具体的には、知識蒸留フレームワークを平均教師モデルに適応させ、未ラベル対象ドメインのインスタンスレベルの特徴を得る学生モデルを支援する。 また,画像レベルの差異を改善するために,異なる領域の擬似画像をクロスジェネレートするためにシーンスタイル転送を利用する。 さらに、ドメイン間の予測をさらに整合させるため、直感的な整合性損失が提案されている。 提案したSSDA-YOLOをPascalVOC, Clipart1k, Cityscapes, Foggy Cityscapesなどの公開ベンチマークで評価した。 さらに,その一般化を検証するために,様々な教室から収集したあくび検出データセットの実験を行った。 その結果,daodタスクにおける提案手法の大幅な改善が示された。 私たちのコードは \url{https://github.com/hnuzhy/SSDA-YOLO} で利用可能です。

Domain adaptive object detection (DAOD) aims to alleviate transfer performance degradation caused by the cross-domain discrepancy. However, most existing DAOD methods are dominated by computationally intensive two-stage detectors, which are not the first choice for industrial applications. In this paper, we propose a novel semi-supervised domain adaptive YOLO (SSDA-YOLO) based method to improve cross-domain detection performance by integrating the compact one-stage detector YOLOv5 with domain adaptation. Specifically, we adapt the knowledge distillation framework with the Mean Teacher model to assist the student model in obtaining instance-level features of the unlabeled target domain. We also utilize the scene style transfer to cross-generate pseudo images in different domains for remedying image-level differences. In addition, an intuitive consistency loss is proposed to further align cross-domain predictions. We evaluate our proposed SSDA-YOLO on public benchmarks including PascalVOC, Clipart1k, Cityscapes, and Foggy Cityscapes. Moreover, to verify its generalization, we conduct experiments on yawning detection datasets collected from various classrooms. The results show considerable improvements of our method in these DAOD tasks. Our code is available on \url{https://github.com/hnuzhy/SSDA-YOLO}.
翻訳日:2022-11-07 16:43:44 公開日:2022-11-04
# 視覚言語モデルのためのプロンプトチューニングにおけるオーバーフィッティングの理解と緩和

Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models ( http://arxiv.org/abs/2211.02219v1 )

ライセンス: Link先を確認
Chengcheng Ma, Yang Liu, Jiankang Deng, LingXi Xie, Weiming Dong, Changsheng Xu(参考訳) CLIPのような事前訓練された視覚言語モデル(VLM)は、適切なテキストプロンプトを持つ下流視覚タスクにおいて、素晴らしい一般化能力を示している。 手動でプロンプトを設計する代わりに、タスク固有のトレーニングデータを使用して連続的なプロンプトを学ぶために、コンテキスト最適化(CoOp)が最近提案されている。 ダウンストリームタスクのパフォーマンス改善にもかかわらず、いくつかの研究は、coopが2つの側面で過剰適合の問題に苦しんでいると報告している。 (i)まず、基礎クラスのテスト精度が向上し、その後、トレーニング中に悪化する。 (ii)新規クラスの試験精度は低下傾向にある。 しかし、既存の研究はこれらの過剰フィット問題を効果的に理解し緩和することはできない。 本稿ではまず,勾配流の解析によりオーバーフィッティングの原因を考察する。 比較実験により、coopは初期および後期のトレーニング段階においてそれぞれ一般化可能な特徴と散発的な特徴を好み、不適合現象と過剰フィット現象をもたらすことが明らかとなった。 そこで本研究では, 初期勾配流固有ベクトルが作用する低ランク部分空間にバックプロパゲーションの勾配を投影するサブスペース・プロンプト・チューニング(subpt)を提案し, オーバーフィッティング問題を解消することに成功した。 さらに,新しい特徴学習者(nfl)とcoopを組み合わせることで,学習したプロンプトの一般化能力を,画像学習データによらず,学習セットを超えた新たなカテゴリに拡張する。 11の分類データセットに対する大規模な実験により、SubPT+NFLはCoOpのパフォーマンスを継続的に向上し、最先端のアプローチであるCoCoOpよりも優れています。 オープンボキャブラリオブジェクト検出やゼロショットセマンティックセグメンテーションなど,より困難な視覚下流タスクの実験も提案手法の有効性を検証する。 コードはhttps://tinyurl.com/mpe64f89.comにある。

Pre-trained Vision-Language Models (VLMs) such as CLIP have shown impressive generalization capability in downstream vision tasks with appropriate text prompts. Instead of designing prompts manually, Context Optimization (CoOp) has been recently proposed to learn continuous prompts using task-specific training data. Despite the performance improvements on downstream tasks, several studies have reported that CoOp suffers from the overfitting issue in two aspects: (i) the test accuracy on base classes first gets better and then gets worse during training; (ii) the test accuracy on novel classes keeps decreasing. However, none of the existing studies can understand and mitigate such overfitting problem effectively. In this paper, we first explore the cause of overfitting by analyzing the gradient flow. Comparative experiments reveal that CoOp favors generalizable and spurious features in the early and later training stages respectively, leading to the non-overfitting and overfitting phenomenon. Given those observations, we propose Subspace Prompt Tuning (SubPT) to project the gradients in back-propagation onto the low-rank subspace spanned by the early-stage gradient flow eigenvectors during the entire training process, and successfully eliminate the overfitting problem. Besides, we equip CoOp with Novel Feature Learner (NFL) to enhance the generalization ability of the learned prompts onto novel categories beyond the training set, needless of image training data. Extensive experiments on 11 classification datasets demonstrate that SubPT+NFL consistently boost the performance of CoOp and outperform the state-of-the-art approach CoCoOp. Experiments on more challenging vision downstream tasks including open-vocabulary object detection and zero-shot semantic segmentation also verify the effectiveness of the proposed method. Codes can be found at https://tinyurl.com/mpe64f89.
翻訳日:2022-11-07 16:43:24 公開日:2022-11-04
# 深層学習による微小レンズ調査における小惑星検出に向けて

Towards Asteroid Detection in Microlensing Surveys with Deep Learning ( http://arxiv.org/abs/2211.02239v1 )

ライセンス: Link先を確認
Preeti Cowan, Ian A. Bond, Napoleon H. Reyes(参考訳) 小惑星は、ほとんどの天文学的な調査では確認不可能な部分である。 長年にわたり、高いケイデンスマイクロレンズ調査は数テラバイトのデータを収集し、主に銀河バルジとマゼラン雲をスキャンしてマイクロレンズ化を行い、科学的なデータマイニングの機会の宝庫となった。 特に、多くの小惑星が選択された画像の視覚検査によって観測されている。 本稿ではMOAプロジェクトによって収集されたマイクロレンズデータから小惑星の回収と発見のための新しい深層学習ソリューションを提案する。 小惑星のトラックレットは、ある夜の全ての観測とこれらのトラックレットを組み合わせることで、データセットの構造を明らかにすることができる。 既知の小惑星はこれらの複合画像内で同定され、教師付き学習に必要なラベル付きデータセットの作成に使用された。 いくつかのカスタムCNNモデルは小惑星の軌跡を識別するために開発された。 モデルアンサンブルは、予測のばらつきを減らし、一般化誤差を改善するために使われ、97.67%のリコールを達成した。 さらに、YOLOv4物体検出器は小惑星の軌道子の位置決めを訓練し、平均精度は90.97%に達した。 これらの訓練されたネットワークは16年間のMOAアーカイブデータに適用され、この調査で観測された既知の小惑星と未知の小惑星の両方を見つける。 開発された手法は他の調査で小惑星の回収と発見に利用できる。

Asteroids are an indelible part of most astronomical surveys though only a few surveys are dedicated to their detection. Over the years, high cadence microlensing surveys have amassed several terabytes of data while scanning primarily the Galactic Bulge and Magellanic Clouds for microlensing events and thus provide a treasure trove of opportunities for scientific data mining. In particular, numerous asteroids have been observed by visual inspection of selected images. This paper presents novel deep learning-based solutions for the recovery and discovery of asteroids in the microlensing data gathered by the MOA project. Asteroid tracklets can be clearly seen by combining all the observations on a given night and these tracklets inform the structure of the dataset. Known asteroids were identified within these composite images and used for creating the labelled datasets required for supervised learning. Several custom CNN models were developed to identify images with asteroid tracklets. Model ensembling was then employed to reduce the variance in the predictions as well as to improve the generalisation error, achieving a recall of 97.67%. Furthermore, the YOLOv4 object detector was trained to localize asteroid tracklets, achieving a mean Average Precision (mAP) of 90.97%. These trained networks will be applied to 16 years of MOA archival data to find both known and unknown asteroids that have been observed by the survey over the years. The methodologies developed can be adapted for use by other surveys for asteroid recovery and discovery.
翻訳日:2022-11-07 16:37:28 公開日:2022-11-04
# ピアースワイズ2サンプルT-テストによる医用画像の高分解能境界検出

High-Resolution Boundary Detection for Medical Image Segmentation with Piece-Wise Two-Sample T-Test Augmented Loss ( http://arxiv.org/abs/2211.02419v1 )

ライセンス: Link先を確認
Yucong Lin, Jinhua Su, Yuhang Li, Yuhao Wei, Hanchao Yan, Saining Zhang, Jiaan Luo, Danni Ai, Hong Song, Jingfan Fan, Tianyu Fu, Deqiang Xiao, Feifei Wang, Jue Hou, Jian Yang(参考訳) 深層学習手法は医療画像のセグメンテーションの急速な進歩に大きく貢献しており、その品質は損失関数の適切な設計に依存している。 クロスエントロピーやサイコロ損失などの一般的な損失関数は境界検出に不足しており、自動診断や手順のような高解像度下流アプリケーションを制限する。 境界情報を反映して境界検出を強化する新しい損失関数を開発した。 分類境界に沿ったセグメンテーション領域と背景領域の対比は、自然に画素上の不均一性を引き起こすため、このような不均質性に対する統計的テストと混同される2つのサンプルt-test augmented (pta) 損失を提案する。 t-test成分を含まないベンチマーク損失と比較して,PTA損失の境界検出能力が向上したことを示す。

Deep learning methods have contributed substantially to the rapid advancement of medical image segmentation, the quality of which relies on the suitable design of loss functions. Popular loss functions, including the cross-entropy and dice losses, often fall short of boundary detection, thereby limiting high-resolution downstream applications such as automated diagnoses and procedures. We developed a novel loss function that is tailored to reflect the boundary information to enhance the boundary detection. As the contrast between segmentation and background regions along the classification boundary naturally induces heterogeneity over the pixels, we propose the piece-wise two-sample t-test augmented (PTA) loss that is infused with the statistical test for such heterogeneity. We demonstrate the improved boundary detection power of the PTA loss compared to benchmark losses without a t-test component.
翻訳日:2022-11-07 16:37:04 公開日:2022-11-04
# 変形可能な形状の自動分類

Automatic classification of deformable shapes ( http://arxiv.org/abs/2211.02530v1 )

ライセンス: Link先を確認
Hossein Dabirian and Radmir Sultamuratov and James Herring and Carlos El Tallawi and William Zoghbi and Andreas Mang and Robert Azencott(参考訳) {\mathcal{d}$ を滑らかな 3d-surfaces のデータセットとし、disjointクラス $\mathit{cl}_j$, $j= 1, \ldots, k$ に分割する。 多数のペアに対して最適化されたディフェノフィック登録を施す方法を示す: $s,s' \in \mathcal{d}$ は、$\mathcal{d}$ の自動分類を実装する記述的特徴ベクトルを提供し、$\mathbb{r}^3$ における剛的動きによって不変な分類器を生成する。 自動分類の精度を高めるために、最小クラス $\mathit{CL}_j$ をペア $S,S' \in \mathit{CL}_j$ 間の滑らかな曲面の微分型補間により拡張する。 また、滑らかな微分同相のランダムフロー$F_t:\mathbb{R}^3 \to \mathbb{R}^3$により、曲面の小さな乱摂動を$S\in \mathit{CL}_j$で実装する。 最後に, 離散化僧帽弁表面の心臓病データベース上で, 自動分類法をテストする。

Let $\mathcal{D}$ be a dataset of smooth 3D-surfaces, partitioned into disjoint classes $\mathit{CL}_j$, $j= 1, \ldots, k$. We show how optimized diffeomorphic registration applied to large numbers of pairs $S,S' \in \mathcal{D}$ can provide descriptive feature vectors to implement automatic classification on $\mathcal{D}$, and generate classifiers invariant by rigid motions in $\mathbb{R}^3$. To enhance accuracy of automatic classification, we enrich the smallest classes $\mathit{CL}_j$ by diffeomorphic interpolation of smooth surfaces between pairs $S,S' \in \mathit{CL}_j$. We also implement small random perturbations of surfaces $S\in \mathit{CL}_j$ by random flows of smooth diffeomorphisms $F_t:\mathbb{R}^3 \to \mathbb{R}^3$. Finally, we test our automatic classification methods on a cardiology data base of discretized mitral valve surfaces.
翻訳日:2022-11-07 16:36:49 公開日:2022-11-04
# マルチモーダルイデオロギー予測と解析のためのトリプルトマージン物体による後期核融合

Late Fusion with Triplet Margin Objective for Multimodal Ideology Prediction and Analysis ( http://arxiv.org/abs/2211.02269v1 )

ライセンス: Link先を確認
Changyuan Qiu, Winston Wu, Xinliang Frederick Zhang, Lu Wang(参考訳) イデオロギー予測に関する以前の研究は、主にテキストや画像のような単一のモダリティに焦点を当てていた。 そこで本研究では,政治内容とテキスト画像の組み合わせから,二元的あるいは五元的イデオロギー的傾きをモデルが予測するマルチモーダルイデオロギー予測の課題を紹介する。 われわれはまず5つの大規模なデータセットを英語の文書と画像と共に収集し、そのイデオロギー的傾向を捉えた。 我々は、ニュース記事の詳細な分析を行い、政治的スペクトルにおける画像の内容と使用法の違いを明らかにする。 さらに,様々なモデル成分に対する目標前訓練目標の有効性を実証し,広範囲な実験とアブレーション実験を行った。 私たちの最高のパフォーマンスモデルである、マルチモーダルコンテンツに対する3倍の目標をプリトレーニングした遅延フュージョンアーキテクチャは、最先端のテキストのみのモデルをほぼ4%、プリトレーニングなしの強力なマルチモーダルベースラインを3%以上上回っています。

Prior work on ideology prediction has largely focused on single modalities, i.e., text or images. In this work, we introduce the task of multimodal ideology prediction, where a model predicts binary or five-point scale ideological leanings, given a text-image pair with political content. We first collect five new large-scale datasets with English documents and images along with their ideological leanings, covering news articles from a wide range of US mainstream media and social media posts from Reddit and Twitter. We conduct in-depth analyses of news articles and reveal differences in image content and usage across the political spectrum. Furthermore, we perform extensive experiments and ablation studies, demonstrating the effectiveness of targeted pretraining objectives on different model components. Our best-performing model, a late-fusion architecture pretrained with a triplet objective over multimodal content, outperforms the state-of-the-art text-only model by almost 4% and a strong multimodal baseline with no pretraining by over 3%.
翻訳日:2022-11-07 16:35:41 公開日:2022-11-04
# MultiWOZ-DF -- MultiWOZデータセットのデータフロー実装

MultiWOZ-DF -- A Dataflow implementation of the MultiWOZ dataset ( http://arxiv.org/abs/2211.02303v1 )

ライセンス: Link先を確認
Joram Meron, Victor Guimar\~aes(参考訳) Semantic Machines (SM)は、ユーザ要求、データ、対話履歴を階層的に表現するために計算グラフを使用して対話モデリングにデータフロー(DF)パラダイムを導入した(Semantic Machines et al. 2020)。 その論文の主な焦点は、smcalflowデータセット(現時点では唯一の"ネイティブ"dfアノテーション付きデータセット)であったが、彼らはまた、一般的に使用されるマルチウォズデータセット(budzianowski et al. 2018)をdfフォーマットに変換する実験の結果も報告した。 本稿では,マルチウォズデータセットのためのdfを用いた実験を拡張し,さらに実験的なセットアップについて検討する。 ここで報告した実験を再現するためのコードと指示がリリースされた。 本論文の貢献は次のとおりである。 1) MultiWOZダイアログの実行が可能なDF実装。 2)MultiWOZのDFフォーマットへの変換のいくつかのバージョンが提示される。 3) 状態一致と翻訳精度に関する実験結果。

Semantic Machines (SM) have introduced the use of the dataflow (DF) paradigm to dialogue modelling, using computational graphs to hierarchically represent user requests, data, and the dialogue history [Semantic Machines et al. 2020]. Although the main focus of that paper was the SMCalFlow dataset (to date, the only dataset with "native" DF annotations), they also reported some results of an experiment using a transformed version of the commonly used MultiWOZ dataset [Budzianowski et al. 2018] into a DF format. In this paper, we expand the experiments using DF for the MultiWOZ dataset, exploring some additional experimental set-ups. The code and instructions to reproduce the experiments reported here have been released. The contributions of this paper are: 1.) A DF implementation capable of executing MultiWOZ dialogues; 2.) Several versions of conversion of MultiWOZ into a DF format are presented; 3.) Experimental results on state match and translation accuracy.
翻訳日:2022-11-07 16:35:21 公開日:2022-11-04
# CLSE:言語学的に重要なエンティティのコーパス

CLSE: Corpus of Linguistically Significant Entities ( http://arxiv.org/abs/2211.02423v1 )

ライセンス: Link先を確認
Aleksandr Chuklin, Justin Zhao, Mihir Kale(参考訳) 自然言語生成(NLG)の最大の課題の1つは、名前付きエンティティの適切な処理である。 名前付きエンティティは、誤った前置詞、間違った記事ハンドリング、誤ったエンティティの反転といった文法上のミスの一般的なソースである。 言語表現を分解しなければ、任意に選択された議論値の小さなセットを評価する場合や、英語のような言語的に単純な言語からロシア語のような言語的に複雑な言語にデータセットを翻訳する場合に、このような誤りは過小評価されることが多い。 しかし、いくつかのアプリケーションでは、広範囲に正確な文法的正しさが不可欠である。 言語学的に多様なNLGデータセットの作成を可能にするため,言語学者が注釈を付けた言語学的意義のコーパス(CLSE)を作成した。 コーパスには34の言語が含まれており、航空券売機からビデオゲームまで様々な用途をサポートする74のセマンティックタイプをカバーしている。 CLSEの1つの可能性を示すために、SGD-CLSEのSchema-Guided Dialog Datasetの拡張版を作成する。 CLSEの実体と少数の人間の翻訳を用いて、言語的に代表されるNLG評価ベンチマークを、フランス語(高資源)、マラティー語(低資源)、ロシア語(高屈折言語)の3言語で作成する。 ニューラルネットワーク,テンプレートベース,ハイブリッドnlgシステムの品質基準を確立し,それぞれのアプローチの長所と短所について論じる。

One of the biggest challenges of natural language generation (NLG) is the proper handling of named entities. Named entities are a common source of grammar mistakes such as wrong prepositions, wrong article handling, or incorrect entity inflection. Without factoring linguistic representation, such errors are often underrepresented when evaluating on a small set of arbitrarily picked argument values, or when translating a dataset from a linguistically simpler language, like English, to a linguistically complex language, like Russian. However, for some applications, broadly precise grammatical correctness is critical -- native speakers may find entity-related grammar errors silly, jarring, or even offensive. To enable the creation of more linguistically diverse NLG datasets, we release a Corpus of Linguistically Significant Entities (CLSE) annotated by linguist experts. The corpus includes 34 languages and covers 74 different semantic types to support various applications from airline ticketing to video games. To demonstrate one possible use of CLSE, we produce an augmented version of the Schema-Guided Dialog Dataset, SGD-CLSE. Using the CLSE's entities and a small number of human translations, we create a linguistically representative NLG evaluation benchmark in three languages: French (high-resource), Marathi (low-resource), and Russian (highly inflected language). We establish quality baselines for neural, template-based, and hybrid NLG systems and discuss the strengths and weaknesses of each approach.
翻訳日:2022-11-07 16:35:04 公開日:2022-11-04
# Slovenian Biographical Lexiconにおける短縮術の適応

Dealing with Abbreviations in the Slovenian Biographical Lexicon ( http://arxiv.org/abs/2211.02429v1 )

ライセンス: Link先を確認
Angel Daza, Antske Fokkens, Toma\v{z} Erjavec(参考訳) 省略は、トークン化や語彙外エラーを引き起こすため、NLPシステムにとって大きな課題となる。 テキストの読みやすさを損なうこともでき、特に参照された書籍では広く使われている。 システムのロバストが低くなる低リソース設定では、略称が特に問題となる。 本稿では,テキスト中のドメイン固有の省略値の高密度化に起因する問題に対処する新しい手法を提案する。 本手法をスロベニアの伝記辞書に適用し,新たに開発された51枚のスロベニアの伝記の金標準データセット上で評価する。 略語識別法は,一般のアドホック解,特に見当たらない略語識別において有意に優れている。 また,認識された略語を文脈で拡張する手法の提案と提案を行った。

Abbreviations present a significant challenge for NLP systems because they cause tokenization and out-of-vocabulary errors. They can also make the text less readable, especially in reference printed books, where they are extensively used. Abbreviations are especially problematic in low-resource settings, where systems are less robust to begin with. In this paper, we propose a new method for addressing the problems caused by a high density of domain-specific abbreviations in a text. We apply this method to the case of a Slovenian biographical lexicon and evaluate it on a newly developed gold-standard dataset of 51 Slovenian biographies. Our abbreviation identification method performs significantly better than commonly used ad-hoc solutions, especially at identifying unseen abbreviations. We also propose and present the results of a method for expanding the identified abbreviations in context.
翻訳日:2022-11-07 16:34:35 公開日:2022-11-04
# 連続プロンプトチューニングに基づくEコマースエンティティタイピングのためのテキストエンターメントモデル

Continuous Prompt Tuning Based Textual Entailment Model for E-commerce Entity Typing ( http://arxiv.org/abs/2211.02483v1 )

ライセンス: Link先を確認
Yibo Wang, Congying Xia, Guan Wang, Philip Yu(参考訳) 電子商取引の爆発は、製品タイトルのエンティティタイピングのような製品タイトルの処理と分析の必要性を引き起こしている。 しかし、電子商取引における急速な活動は、一般的なエンティティタイピングによって解決が難しい新しいエンティティの出現に繋がった。 さらに、eコマースにおける製品タイトルは、一般的なドメインのテキストデータとは全く異なる言語スタイルを持つ。 本稿では,eコマースドメインにおける製品タイトルの新しいエンティティの扱いと,製品タイトルの特殊言語スタイルの問題に対処するため,eコマースエンティティタイピングのための連続的なプロンプトチューニングに基づく仮説と融合埋め込みを用いたテキストエンターメントモデルを提案する。 まず、訓練中に存在しない新しいエンティティを扱うために、エンティティ型付けタスクをテキスト型付け問題に再構成する。 第2に、連続的なプロンプト・チューニング手法を用いて、手動設計なしでより優れたテキスト・エンターテイメント仮説を生成可能なテキスト・エンターテイメント仮説を自動生成するモデルを設計する。 第3に,BERT 埋め込みと CharacterBERT 埋め込みを2層 MLP 分類器で組み合わせることで,eコマースにおける製品タイトルの言語スタイルが一般ドメインと異なるという問題を解決する。 それぞれの貢献の効果を分析するために,エンティティ型付けと文内包モデルの性能を比較し,連続的なプロンプトチューニングと融合埋め込みに関するアブレーション研究を行う。 また、連続的プロンプトチューニングにおける異なるプロンプトテンプレート初期化の影響を評価する。 提案モデルでは,ベースラインのBERTエンティティタイピングモデルと比較して平均F1スコアが約2%向上することを示した。

The explosion of e-commerce has caused the need for processing and analysis of product titles, like entity typing in product titles. However, the rapid activity in e-commerce has led to the rapid emergence of new entities, which is difficult to be solved by general entity typing. Besides, product titles in e-commerce have very different language styles from text data in general domain. In order to handle new entities in product titles and address the special language styles problem of product titles in e-commerce domain, we propose our textual entailment model with continuous prompt tuning based hypotheses and fusion embeddings for e-commerce entity typing. First, we reformulate the entity typing task into a textual entailment problem to handle new entities that are not present during training. Second, we design a model to automatically generate textual entailment hypotheses using a continuous prompt tuning method, which can generate better textual entailment hypotheses without manual design. Third, we utilize the fusion embeddings of BERT embedding and CharacterBERT embedding with a two-layer MLP classifier to solve the problem that the language styles of product titles in e-commerce are different from that of general domain. To analyze the effect of each contribution, we compare the performance of entity typing and textual entailment model, and conduct ablation studies on continuous prompt tuning and fusion embeddings. We also evaluate the impact of different prompt template initialization for the continuous prompt tuning. We show our proposed model improves the average F1 score by around 2% compared to the baseline BERT entity typing model.
翻訳日:2022-11-07 16:34:22 公開日:2022-11-04
# 名前付きエンティティ認識モデルにおける意図しない記憶とタイミング攻撃

Unintended Memorization and Timing Attacks in Named Entity Recognition Models ( http://arxiv.org/abs/2211.02245v1 )

ライセンス: Link先を確認
Rana Salal Ali and Benjamin Zi Hao Zhao and Hassan Jameel Asghar and Tham Nguyen and Ian David Wood and Dali Kaafar(参考訳) 名前付きエンティティ認識モデル(NER)は、文書中の名前付きエンティティ(個人、場所、その他の情報)を識別するために広く使われている。 機械学習ベースのNERモデルは、データ共有のためにテキストを再実行するために機密情報の自動的かつスケーラブルな識別を必要とするプライバシーに敏感なアプリケーションに、ますます適用されている。 本稿では,ユーザ文書中の機密情報を識別するためのブラックボックスサービスとしてNERモデルが利用可能である場合について検討し,これらのモデルがトレーニングデータセットのメンバシップ推定に脆弱であることを示す。 spaCyから事前訓練されたNERモデルを更新し、これらのモデルに対する2つの異なるメンバシップ攻撃を示す。 私たちの最初の攻撃は、nnが脆弱な現象であるnerの基盤となるニューラルネットワークの意図しない記憶に乗じる。 第2の攻撃は、トレーニングデータから構築された語彙を維持するNERモデルをターゲットに、タイミング側チャネルを利用する。 学習データセット内の単語の異なる機能パスは、前例のない単語とは対照的に、実行時間に測定可能な違いがあることを示す。 トレーニングサンプルの登録状況が明らかになった場合、例えばテキストのリアクションでは、検出および削除されるセンシティブな単語やフレーズがトレーニングデータセットで検出されるリスクがある。 我々の実験評価は、パスワードと健康データの両方のリアクションを含み、セキュリティリスクとプライバシ/規制の問題の両方を提示する。 これは1つのフレーズだけを暗記する結果によって悪化する。 私たちはテキストの再アクションユースケースに対する最初の攻撃で70%のAUCを達成しました。 また、99.23%のAUCでタイミング攻撃が圧倒的に成功した。 最後に,メンバシップ推論攻撃のプライバシとセキュリティへの影響を踏まえ,nerモデルの安全な利用を実現するための,潜在的な緩和アプローチについて論じる。

Named entity recognition models (NER), are widely used for identifying named entities (e.g., individuals, locations, and other information) in text documents. Machine learning based NER models are increasingly being applied in privacy-sensitive applications that need automatic and scalable identification of sensitive information to redact text for data sharing. In this paper, we study the setting when NER models are available as a black-box service for identifying sensitive information in user documents and show that these models are vulnerable to membership inference on their training datasets. With updated pre-trained NER models from spaCy, we demonstrate two distinct membership attacks on these models. Our first attack capitalizes on unintended memorization in the NER's underlying neural network, a phenomenon NNs are known to be vulnerable to. Our second attack leverages a timing side-channel to target NER models that maintain vocabularies constructed from the training data. We show that different functional paths of words within the training dataset in contrast to words not previously seen have measurable differences in execution time. Revealing membership status of training samples has clear privacy implications, e.g., in text redaction, sensitive words or phrases to be found and removed, are at risk of being detected in the training dataset. Our experimental evaluation includes the redaction of both password and health data, presenting both security risks and privacy/regulatory issues. This is exacerbated by results that show memorization with only a single phrase. We achieved 70% AUC in our first attack on a text redaction use-case. We also show overwhelming success in the timing attack with 99.23% AUC. Finally we discuss potential mitigation approaches to realize the safe use of NER models in light of the privacy and security implications of membership inference attacks.
翻訳日:2022-11-07 16:28:06 公開日:2022-11-04
# 地理空間システムのための汎用ニューラルネットワークアーキテクチャ

A General Purpose Neural Architecture for Geospatial Systems ( http://arxiv.org/abs/2211.02348v1 )

ライセンス: Link先を確認
Nasim Rahaman and Martin Weiss and Frederik Tr\"auble and Francesco Locatello and Alexandre Lacoste and Yoshua Bengio and Chris Pal and Li Erran Li and Bernhard Sch\"olkopf(参考訳) 地理空間情報システム(Geospatial Information Systems)は、研究者や人道支援・災害対応(HADR)実践者が様々な重要な応用を支援するために利用している。 しかし、これらのアクター間の協調は、地理空間データモダリティ(例えば、様々な解像度のマルチスペクトル画像、時系列、気象データ)とタスクの多様性(例えば、人間の活動指標の回帰や森林火災の検出)の異種性のために困難である。 本稿では,多量の非標識地球観測データを自己教師付きで事前学習した,地理空間的インダクティブバイアスを持つ汎用ニューラルネットワーク(gpna)の構築に向けたロードマップを提案する。 このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。 ロードマップの第1段階では、さまざまな地理空間データのモダリティを処理可能なアーキテクチャをインスタンス化し、国連の持続可能な開発目標に関連するタスクにおいて、ドメイン固有のアーキテクチャと競合するパフォーマンスを達成できることを実証します。

Geospatial Information Systems are used by researchers and Humanitarian Assistance and Disaster Response (HADR) practitioners to support a wide variety of important applications. However, collaboration between these actors is difficult due to the heterogeneous nature of geospatial data modalities (e.g., multi-spectral images of various resolutions, timeseries, weather data) and diversity of tasks (e.g., regression of human activity indicators or detecting forest fires). In this work, we present a roadmap towards the construction of a general-purpose neural architecture (GPNA) with a geospatial inductive bias, pre-trained on large amounts of unlabelled earth observation data in a self-supervised manner. We envision how such a model may facilitate cooperation between members of the community. We show preliminary results on the first step of the roadmap, where we instantiate an architecture that can process a wide variety of geospatial data modalities and demonstrate that it can achieve competitive performance with domain-specific architectures on tasks relating to the U.N.'s Sustainable Development Goals.
翻訳日:2022-11-07 16:27:40 公開日:2022-11-04
# 深層学習による対向的ロバスト性向上と感性障害・非分散攻撃

Improving Adversarial Robustness to Sensitivity and Invariance Attacks with Deep Metric Learning ( http://arxiv.org/abs/2211.02468v1 )

ライセンス: Link先を確認
Anaelia Ovalle, Evan Czyzycki, Cho-Jui Hsieh(参考訳) 故意に作られた敵のサンプルは、ディープニューラルネットワークの弱点を効果的に活用している。 敵対的ロバストネスの標準的な方法は、対応するモデル出力が変化するようにサンプルを最小に摂動させることで作られるサンプルに対して防御する枠組みを仮定する。 これらの感度攻撃は、タスク非関連の特徴に対するモデルの感度を利用する。 別の形態の反対サンプルは、関連する特徴の重要性を過小評価するモデルを利用する不変攻撃によって作成することができる。 以前の文献では、厳密なl_p境界防御において、両方の攻撃タイプに対する防御のトレードオフが示されている。 ユークリッド距離の測度を超えた2種類の攻撃に対するロバスト性を促進するため、最適輸送問題として対向正規化をフレーム化するために計量学習を用いる。 予備結果は,不変摂動の正則化により,不変性と感度の両防御性が向上することを示す。

Intentionally crafted adversarial samples have effectively exploited weaknesses in deep neural networks. A standard method in adversarial robustness assumes a framework to defend against samples crafted by minimally perturbing a sample such that its corresponding model output changes. These sensitivity attacks exploit the model's sensitivity toward task-irrelevant features. Another form of adversarial sample can be crafted via invariance attacks, which exploit the model underestimating the importance of relevant features. Previous literature has indicated a tradeoff in defending against both attack types within a strictly L_p bounded defense. To promote robustness toward both types of attacks beyond Euclidean distance metrics, we use metric learning to frame adversarial regularization as an optimal transport problem. Our preliminary results indicate that regularizing over invariant perturbations in our framework improves both invariant and sensitivity defense.
翻訳日:2022-11-07 16:27:22 公開日:2022-11-04
# 融合型マルチモーダル分類器のクロスモーダルコンテンツ希釈に対するロバスト性

Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content Dilutions ( http://arxiv.org/abs/2211.02646v1 )

ライセンス: Link先を確認
Gaurav Verma, Vishwa Vinay, Ryan A. Rossi, Srijan Kumar(参考訳) マルチモーダル学習は、多種多様な社会的タスクにおける応用を見出すにつれ、その堅牢性の研究が重要となる。 既存の研究は、ベンチマークタスクの不可避なバリエーションに対して、視覚と言語モデルの堅牢性を理解することに重点を置いている。 本研究では,多モード分類器のクロスモーダル希釈に対する堅牢性について検討する。 我々は,マルチモーダル(画像+テキスト)入力が与えられ,さらに希釈テキストを生成するモデルを開発した。 (a)画像及び既存のテキストとの関連性及び話題的コヒーレンスを維持し、 (b)原文に付加すると、マルチモーダル入力の誤分類につながる。 危機的人道主義と感性検出タスクの実験により,我々のモデルが生み出す希釈の存在下で,タスク固有の融合型マルチモーダル分類器の性能は,それぞれ23.3%,22.5%低下することがわかった。 複数の基準と人的評価とのメートル法に基づく比較は、我々の希釈がより関連性と局所的コヒーレンスを示し、同時にマルチモーダル分類器の脆性を示すのにより効果的であることを示している。 我々の研究は、特に人間に面した社会的な応用において、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらに研究し、奨励することを目的としている。 コードやその他のリソースはhttps://claws-lab.github.io/multimodal-robustness/で入手できる。

As multimodal learning finds applications in a wide variety of high-stakes societal tasks, investigating their robustness becomes important. Existing work has focused on understanding the robustness of vision-and-language models to imperceptible variations on benchmark tasks. In this work, we investigate the robustness of multimodal classifiers to cross-modal dilutions - a plausible variation. We develop a model that, given a multimodal (image + text) input, generates additional dilution text that (a) maintains relevance and topical coherence with the image and existing text, and (b) when added to the original text, leads to misclassification of the multimodal input. Via experiments on Crisis Humanitarianism and Sentiment Detection tasks, we find that the performance of task-specific fusion-based multimodal classifiers drops by 23.3% and 22.5%, respectively, in the presence of dilutions generated by our model. Metric-based comparisons with several baselines and human evaluations indicate that our dilutions show higher relevance and topical coherence, while simultaneously being more effective at demonstrating the brittleness of the multimodal classifiers. Our work aims to highlight and encourage further research on the robustness of deep multimodal models to realistic variations, especially in human-facing societal applications. The code and other resources are available at https://claws-lab.github.io/multimodal-robustness/.
翻訳日:2022-11-07 16:27:06 公開日:2022-11-04
# 適応最適化は局所ニューラルネットワーク幾何にどのように影響するか?

How Does Adaptive Optimization Impact Local Neural Network Geometry? ( http://arxiv.org/abs/2211.02254v1 )

ライセンス: Link先を確認
Kaiqi Jiang, Dhruv Malik, Yuanzhi Li(参考訳) 適応最適化法はバニラ勾配法と比較して優れた収束を達成することがよく知られている。 従来の最適化の視点、特に凸最適化は、バニラ勾配スキームとは異なり、適応アルゴリズムは損失関数の大域幾何学に適応して二階法の振舞いを模倣する、という主張により、この改善性能を説明する。 我々は、ニューラルネットワーク最適化の文脈では、この伝統的な視点は不十分であると主張する。 代わりに、我々は局所的な軌道解析を提唱する。 一般化最適化アルゴリズム OPT を用いて生成した反復トラジェクトリに対して,本手法で評価した損失 Hessian の条件数に類似した統計値である $R^{\text{OPT}}_{\text{med}}$ を導入する。 広範な実験を通して、Adamのような適応的な手法は、$R^{\text{Adam}}_{\text{med}}$が小さい領域への軌道に偏りがあることを示し、より高速な収束を期待できる。 対照的に、SGDのようなバニラ勾配法は、$R^{\text{SGD}}_{\text{med}}$が比較的大きい領域への軌道をバイアスする。 これらの経験的観測を理論的結果と補完し、この現象を2層線形ネットワークの簡易な設定で証明する。 我々は,従来の知識とは異なる適応的手法の成功の新たな説明の必要性の証拠として,本研究の知見を考察する。

Adaptive optimization methods are well known to achieve superior convergence relative to vanilla gradient methods. The traditional viewpoint in optimization, particularly in convex optimization, explains this improved performance by arguing that, unlike vanilla gradient schemes, adaptive algorithms mimic the behavior of a second-order method by adapting to the global geometry of the loss function. We argue that in the context of neural network optimization, this traditional viewpoint is insufficient. Instead, we advocate for a local trajectory analysis. For iterate trajectories produced by running a generic optimization algorithm OPT, we introduce $R^{\text{OPT}}_{\text{med}}$, a statistic that is analogous to the condition number of the loss Hessian evaluated at the iterates. Through extensive experiments, we show that adaptive methods such as Adam bias the trajectories towards regions where $R^{\text{Adam}}_{\text{med}}$ is small, where one might expect faster convergence. By contrast, vanilla gradient methods like SGD bias the trajectories towards regions where $R^{\text{SGD}}_{\text{med}}$ is comparatively large. We complement these empirical observations with a theoretical result that provably demonstrates this phenomenon in the simplified setting of a two-layer linear network. We view our findings as evidence for the need of a new explanation of the success of adaptive methods, one that is different than the conventional wisdom.
翻訳日:2022-11-07 16:26:42 公開日:2022-11-04
# スパースガウスプロセスハイパーパラメータ:最適化か統合か?

Sparse Gaussian Process Hyperparameters: Optimize or Integrate? ( http://arxiv.org/abs/2211.02476v1 )

ライセンス: Link先を確認
Vidhi Lalchand, Wessel P. Bruinsma, David R. Burt, Carl E. Rasmussen(参考訳) 核関数とそのハイパーパラメータは、ガウスの散文(rasmussen and williams, 2006)におけるモデル選択の中心的な選択肢である。 通常、カーネルのハイパーパラメータは、タイプIIの最大可能性 (ML-II) と呼ばれるアプローチを最大化することで選択される。 しかし、ML-IIはハイパーパラメータの不確かさを考慮せず、これは非常に偏りのある推定と予測の不確かさの過小評価につながることが知られている。 GPの完全ベイズ的特徴付けを利用する著作はいくつかあるが、スパースGPのパラダイムに対してそのようなアプローチを提案するものは比較的少ない。 本研究では,titsias(2009)の変分誘導点の枠組みにおいて,mcmcを後方のハイパーパラメータからサンプル化する疎ガウス過程回帰アルゴリズムを提案する。 この研究は Hensman et al. (2015b) と密接に関連しているが、誘導点を標本化する必要が生じるため、ガウス確率の場合のサンプリング効率は大幅に向上する。 本手法を文献の自然ベースラインと確率的変分gps(svgps)を比較し,広範な計算解析を行った。

The kernel function and its hyperparameters are the central model selection choice in a Gaussian proces (Rasmussen and Williams, 2006). Typically, the hyperparameters of the kernel are chosen by maximising the marginal likelihood, an approach known as Type-II maximum likelihood (ML-II). However, ML-II does not account for hyperparameter uncertainty, and it is well-known that this can lead to severely biased estimates and an underestimation of predictive uncertainty. While there are several works which employ a fully Bayesian characterisation of GPs, relatively few propose such approaches for the sparse GPs paradigm. In this work we propose an algorithm for sparse Gaussian process regression which leverages MCMC to sample from the hyperparameter posterior within the variational inducing point framework of Titsias (2009). This work is closely related to Hensman et al. (2015b) but side-steps the need to sample the inducing points, thereby significantly improving sampling efficiency in the Gaussian likelihood case. We compare this scheme against natural baselines in literature along with stochastic variational GPs (SVGPs) along with an extensive computational analysis.
翻訳日:2022-11-07 16:26:16 公開日:2022-11-04
# 排他的相互検証のための濃度不等式

Concentration inequalities for leave-one-out cross validation ( http://arxiv.org/abs/2211.02478v1 )

ライセンス: Link先を確認
Benny Avelin and Lauri Viitasaari(参考訳) 本稿では,一般のフレームワークに濃度境界を設けることで,残余のクロスバリデーションが健全な手順であることを証明するのに,推定器の安定性が十分であることを示す。 特に、損失または推定子に対するリプシッツ連続性仮定を超える濃度境界を提供する。 結果を得るためには,対数ソボレフ不等式を満たす分布を持つ確率変数に依存し,分布の相対的に豊かなクラスを提供する。 本稿では, 線形回帰, カーネル密度推定, 安定化カーネル回帰などの安定化/切り離された推定器など, 興味深い例について考察する。

In this article we prove that estimator stability is enough to show that leave-one-out cross validation is a sound procedure, by providing concentration bounds in a general framework. In particular, we provide concentration bounds beyond Lipschitz continuity assumptions on the loss or on the estimator. In order to obtain our results, we rely on random variables with distribution satisfying the logarithmic Sobolev inequality, providing us a relatively rich class of distributions. We illustrate our method by considering several interesting examples, including linear regression, kernel density estimation, and stabilized / truncated estimators such as stabilized kernel regression.
翻訳日:2022-11-07 16:25:56 公開日:2022-11-04
# scikit-fda: 関数データ解析のためのpythonパッケージ

scikit-fda: A Python Package for Functional Data Analysis ( http://arxiv.org/abs/2211.02566v1 )

ライセンス: Link先を確認
Carlos Ramos-Carre\~no, Jos\'e Luis Torrecilla, Miguel Carbajo-Berrocal, Pablo Marcos, Alberto Su\'arez(参考訳) scikit-fdaライブラリは、関数データ分析(FDA)用のPythonパッケージである。 機能データの表現、前処理、探索分析のための包括的なツールセットを提供する。 このライブラリはPythonの科学エコシステム上に構築され、統合されている。 特に、scikit-learnアプリケーションプログラミングインターフェースに準拠しており、パイプライン、モデル選択、ハイパーパラメータチューニングなど、このパッケージが提供する機械学習の機能を活用している。 scikit-fdaパッケージは3つのClause BSDライセンスの下でフリーでオープンソースソフトウェアとしてリリースされており、FDAコミュニティからのコントリビューションも受け付けている。 ライブラリの広範なドキュメントには、ステップバイステップのチュートリアルと詳細な使用例が含まれている。

The library scikit-fda is a Python package for Functional Data Analysis (FDA). It provides a comprehensive set of tools for representation, preprocessing, and exploratory analysis of functional data. The library is built upon and integrated in Python's scientific ecosystem. In particular, it conforms to the scikit-learn application programming interface so as to take advantage of the functionality for machine learning provided by this package: pipelines, model selection, and hyperparameter tuning, among others. The scikit-fda package has been released as free and open-source software under a 3-Clause BSD license and is open to contributions from the FDA community. The library's extensive documentation includes step-by-step tutorials and detailed examples of use.
翻訳日:2022-11-07 16:25:45 公開日:2022-11-04
# 音声強調のための自己教師付き学習

Self-Supervised Learning for Speech Enhancement through Synthesis ( http://arxiv.org/abs/2211.02542v1 )

ライセンス: Link先を確認
Bryce Irvin, Marko Stamenovic, Mikolaj Kegler, Li-Chia Yang(参考訳) 現代の音声強調(SE)ネットワークは通常、時間周波数マスキング、潜時表現マスキング、識別信号予測によるノイズ抑圧を実装している。 対照的に、いくつかの最近の研究は生成音声合成によってseを探索しており、システムの出力は本質的に損失のある特徴の削除ステップの後、神経ボコーダによって合成される。 本稿では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。 我々は、自己教師付き学習(SSL)音声モデルからの豊かな表現を活用して、関連する特徴を発見する。 15の潜在的なSSLフロントエンドの候補検索を行い、その後、最高のSSL設定でボコーダを逆さまにトレーニングします。 さらに,10msのレイテンシと最小限のパフォーマンス低下で,ストリーミングオーディオ上で動作可能な因果バージョンを示す。 最後に,客観的評価と主観的聴取の両方を行い,本システムが客観的指標を改善し,既存のseモデルを主観的に上回ることを示す。

Modern speech enhancement (SE) networks typically implement noise suppression through time-frequency masking, latent representation masking, or discriminative signal prediction. In contrast, some recent works explore SE via generative speech synthesis, where the system's output is synthesized by a neural vocoder after an inherently lossy feature-denoising step. In this paper, we propose a denoising vocoder (DeVo) approach, where a vocoder accepts noisy representations and learns to directly synthesize clean speech. We leverage rich representations from self-supervised learning (SSL) speech models to discover relevant features. We conduct a candidate search across 15 potential SSL front-ends and subsequently train our vocoder adversarially with the best SSL configuration. Additionally, we demonstrate a causal version capable of running on streaming audio with 10ms latency and minimal performance degradation. Finally, we conduct both objective evaluations and subjective listening studies to show our system improves objective metrics and outperforms an existing state-of-the-art SE model subjectively.
翻訳日:2022-11-07 16:25:35 公開日:2022-11-04
# ディープラーニングアーキテクチャを用いた多言語名称認識とインテント分類

Multilingual Name Entity Recognition and Intent Classification Employing Deep Learning Architectures ( http://arxiv.org/abs/2211.02415v1 )

ライセンス: Link先を確認
Sofia Rizou, Antonia Paflioti, Angelos Theofilatos, Athena Vakali, George Sarigiannidis and Konstantinos Ch. Chatzisavvas(参考訳) 名前付きエンティティ認識とインテント分類は自然言語処理の分野における最も重要なサブフィールドの一つである。 最近の研究は、これらの2つのタスクが抱える問題に取り組むために、より速く、より洗練され、効率的なモデルの開発に繋がる。 本研究では,双方向長期短期ネットワークとトランスフォーマーネットワークという,2種類の深層学習ネットワークの有効性について検討する。 モデルは英語とギリシャ語のATISベンチマークデータセットでトレーニングされ、テストされた。 本研究の目的は,両言語における2つのネットワーク群の比較研究を行い,実験結果を示すことである。 現在の最先端のモデルであるこのモデルは印象的な結果をもたらし、高い性能を達成した。

Named Entity Recognition and Intent Classification are among the most important subfields of the field of Natural Language Processing. Recent research has lead to the development of faster, more sophisticated and efficient models to tackle the problems posed by those two tasks. In this work we explore the effectiveness of two separate families of Deep Learning networks for those tasks: Bidirectional Long Short-Term networks and Transformer-based networks. The models were trained and tested on the ATIS benchmark dataset for both English and Greek languages. The purpose of this paper is to present a comparative study of the two groups of networks for both languages and showcase the results of our experiments. The models, being the current state-of-the-art, yielded impressive results and achieved high performance.
翻訳日:2022-11-07 16:19:08 公開日:2022-11-04
# 機能的脳ネットワークマッピングのための空間-時間的畳み込み注意

Spatial-Temporal Convolutional Attention for Mapping Functional Brain Networks ( http://arxiv.org/abs/2211.02315v1 )

ライセンス: Link先を確認
Yiheng Liu, Enjie Ge, Ning Qiang, Tianming Liu, Bao Ge(参考訳) 機能的磁気共鳴イメージング(fMRI)と深層学習を用いて機能的脳神経ネットワーク(FBN)を探索し、多くの研究者を惹きつけている。 しかし、これらの研究のほとんどは、依然として情報源とボクセル信号の時間的相関と、脳機能のダイナミクスに関する研究の欠如に基づいている。 ボリュームの広域な局所相関により、空間的注意(sa)を用いて空間領域内でfbnを自己教師ありで直接生成することができ、得られたfbnは古典的手法に比べてテンプレートとの空間的類似度が高い。 そこで我々はスライディングウインドウを用いて動的FBNを発見するための新しい空間時間畳み込み注意(STCA)モデルを提案した。 提案手法の性能を評価するため,HCP-restデータセットに対するアプローチを評価する。 結果は、STCAが人間の脳をよりよく理解するための新しいアプローチを提供するダイナミックな方法でFBNを発見するのに使えることを示唆している。

Using functional magnetic resonance imaging (fMRI) and deep learning to explore functional brain networks (FBNs) has attracted many researchers. However, most of these studies are still based on the temporal correlation between the sources and voxel signals, and lack of researches on the dynamics of brain function. Due to the widespread local correlations in the volumes, FBNs can be generated directly in the spatial domain in a self-supervised manner by using spatial-wise attention (SA), and the resulting FBNs has a higher spatial similarity with templates compared to the classical method. Therefore, we proposed a novel Spatial-Temporal Convolutional Attention (STCA) model to discover the dynamic FBNs by using the sliding windows. To validate the performance of the proposed method, we evaluate the approach on HCP-rest dataset. The results indicate that STCA can be used to discover FBNs in a dynamic way which provide a novel approach to better understand human brain.
翻訳日:2022-11-07 16:18:58 公開日:2022-11-04
# より優れたパレートフロント探索のための協調多目的進化アルゴリズム 取引システムへの応用

Collaborative Multiobjective Evolutionary Algorithms in search of better Pareto Fronts. An application to trading systems ( http://arxiv.org/abs/2211.02451v1 )

ライセンス: Link先を確認
Francisco J. Soltero and Pablo Fern\'andez-Blanco and J. Ignacio Hidalgo(参考訳) 技術的な指標は、様々な数学的公式を金融時系列の価格に応用してデータセットのグラフィック表現を使用する。 これらの公式は、必ずしも値が知られておらず、それが動作する市場、時間窓のサイズなど、多くの要因に依存する一連のルールとパラメータで構成されている。 本稿では,時系列データの解析に用いるパラメータのリアルタイム最適化について述べる。 特に,技術指標および財務指標のパラメータを最適化し,グルコース時系列などの他の応用を提案する。 複数の多目的進化アルゴリズム(MOEA)の組み合わせを提案する。 他のアプローチとは異なり、本論文では、グローバルなPareto集合の構築に協力して、異なるMOEAの集合を適用する。 金融問題の解決策は最小限のリスクで高いリターンを求める。 最適化プロセスは連続しており、投資時間間隔と同じ周波数で実行される。 この技術は、異なるMOEAで同時に得られる非支配的解の応用を可能にする。 実験結果から,この手法は日常業務においても,一般的なBuy \& Hold戦略や他の多目的戦略のリターンを増大させることが示された。

Technical indicators use graphic representations of data sets by applying various mathematical formulas to financial time series of prices. These formulas comprise a set of rules and parameters whose values are not necessarily known and depend on many factors: the market in which it operates, the size of the time window, and others. This paper focuses on the real-time optimization of the parameters applied for analyzing time series of data. In particular, we optimize the parameters of technical and financial indicators and propose other applications, such as glucose time series. We propose the combination of several Multi-objective Evolutionary Algorithms (MOEAs). Unlike other approaches, this paper applies a set of different MOEAs, collaborating to construct a global Pareto Set of solutions. Solutions for financial problems seek high returns with minimal risk. The optimization process is continuous and occurs at the same frequency as the investment time interval. This technique permits the application of non-dominated solutions obtained with different MOEAs simultaneously. Experimental results show that this technique increases the returns of the commonly used Buy \& Hold strategy and other multi-objective strategies, even for daily operations.
翻訳日:2022-11-07 16:18:33 公開日:2022-11-04
# 残留スキル政策:ロボットのための強化学習のための適応型スキルベースアクションスペースの学習

Residual Skill Policies: Learning an Adaptable Skill-based Action Space for Reinforcement Learning for Robotics ( http://arxiv.org/abs/2211.02231v1 )

ライセンス: Link先を確認
Krishan Rana, Ming Xu, Brendan Tidd, Michael Milford and Niko S\"underhauf(参考訳) スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。 スキルは通常、専門家によるデモンストレーションから抽出され、高いレベルのRLエージェントによるアクションとしてサンプルできる潜在空間に埋め込まれる。 しかし、このスキル空間は広く、すべてのスキルが与えられたロボットの状態に関係しているわけではないため、探索が困難である。 さらに、下流RLエージェントは、スキル空間を構築するために使用されるものと構造的に類似したタスクを学習することに限定される。 まず, 条件付き生成モデルを用いて, 先行経験に基づいて, 与えられた状態に関連するスキルのみをサンプリングする, ハイレベルエージェントを直接バイアスする技術空間の探索を高速化する手法を提案する。 次に、下流のRLエージェントが目に見えないタスクに適応できるように、細粒度スキル適応のための低レベル残留ポリシーを提案する。 最後に、スキルスペースの構築に使用されるものと異なる4つの困難な操作タスクにまたがって、我々のアプローチを検証する。 コードとビデオはプロジェクトのWebサイトで公開されている。

Skill-based reinforcement learning (RL) has emerged as a promising strategy to leverage prior knowledge for accelerated robot learning. Skills are typically extracted from expert demonstrations and are embedded into a latent space from which they can be sampled as actions by a high-level RL agent. However, this skill space is expansive, and not all skills are relevant for a given robot state, making exploration difficult. Furthermore, the downstream RL agent is limited to learning structurally similar tasks to those used to construct the skill space. We firstly propose accelerating exploration in the skill space using state-conditioned generative models to directly bias the high-level agent towards only sampling skills relevant to a given state based on prior experience. Next, we propose a low-level residual policy for fine-grained skill adaptation enabling downstream RL agents to adapt to unseen task variations. Finally, we validate our approach across four challenging manipulation tasks that differ from those used to build the skill space, demonstrating our ability to learn across task variations while significantly accelerating exploration, outperforming prior works. Code and videos are available on our project website: https://krishanrana.github.io/reskill.
翻訳日:2022-11-07 16:16:27 公開日:2022-11-04
# ASRのためのバイアス付き自己教師型学習

Biased Self-supervised learning for ASR ( http://arxiv.org/abs/2211.02536v1 )

ライセンス: Link先を確認
Florian L. Kreyssig, Yangyang Shi, Jinxi Guo, Leda Sari, Abdelrahman Mohamed, Philip C. Woodland(参考訳) マスク付き予測事前学習(MPPT)による自己教師型学習は,様々な音声処理タスクにおいて顕著な性能を示した。 本稿では,特定のタスクに対して自己指導型学習をバイアスする手法を提案する。 中心となるアイデアは、ターゲットシーケンスを得るために使用されるモデルをわずかに微調整することである。 これにより、パフォーマンスが向上し、トレーニング速度が大幅に向上する。 さらに,マスク付きフレームとアンマスク付きフレームのMPPT損失を計算することで,低フットプリントのストリーミングモデルを効果的に訓練できるMPPTの変種を提案する。 これらの手法は,ラベル付きデータとして100時間,非ラベル付きデータとして860時間を提供するLibrispeech corpus上での自動音声認識のために評価される。 バイアスドトレーニングは、250k更新後の未バイアストレーニングを15.5%、100k更新後の23.8%で上回る。 ストリーミングモデルの場合、事前学習のアプローチは単語エラー率を44.1%削減する。

Self-supervised learning via masked prediction pre-training (MPPT) has shown impressive performance on a range of speech-processing tasks. This paper proposes a method to bias self-supervised learning towards a specific task. The core idea is to slightly finetune the model that is used to obtain the target sequence. This leads to better performance and a substantial increase in training speed. Furthermore, this paper proposes a variant of MPPT that allows low-footprint streaming models to be trained effectively by computing the MPPT loss on masked and unmasked frames. These approaches are evaluated for automatic speech recognition on the Librispeech corpus, where 100 hours of data served as the labelled data and 860 hours as the unlabelled data. The biased training outperforms the unbiased training by 15.5% after 250k updates and 23.8% after 100k updates on test-other. For the streaming models, the pre-training approach yields a reduction in word error rate of 44.1%.
翻訳日:2022-11-07 16:09:54 公開日:2022-11-04
# 弱ラベルを用いたスケーラブル能動学習のための適応アルゴリズムの改良

Improved Adaptive Algorithm for Scalable Active Learning with Weak Labeler ( http://arxiv.org/abs/2211.02233v1 )

ライセンス: Link先を確認
Yifang Chen, Karthik Sankararaman, Alessandro Lazaric, Matteo Pirotta, Dmytro Karamshuk, Qifan Wang, Karishma Mandyam, Sinong Wang, Han Fang(参考訳) 強力なラベルつきと弱いラベルつきのアクティブラーニングは、コストがかかるが正確なラベルつきと、弱いラベルつきによって提供される不正確だが安価な予測の両方にアクセスできる実践的な環境だと考えている。 我々は、この問題をストリーミング環境で研究し、そこでは決定は \textit{online} で行わなければならない。 我々は,低品質の弱いラベラーをロバストに活用し,所望の精度を維持しつつクエリの複雑さを低減できる,新しいアルゴリズムテンプレートであるweak labeler active cover(wl-ac)を設計した。 弱いラベルを持つ事前能動的学習アルゴリズムは、弱いラベルと強いラベルのどこが異なるかを予測する差分分類器を学習するが、これは差分分類器の実現可能性の強い仮定を必要とする(Zhang and Chaudhuri, 2015)。 WL-AC はこの \textit{realizability} 仮定を回避し、ランダムな破損した弱いラベルや高次元の差分分類器群 (\textit{e.} Deep Neural nets) のような多くの実世界のシナリオに適用できる。 さらにWL-ACは、弱いラベルをフルに活用することで品質の評価を巧みに切り離し、弱いラベルを活用できるようなアクティブな学習戦略に変換することができる。 このテンプレートのインスタンス化により,a-prioriの精度を知らずに,任意の弱いラベラーに対して最適なクエリ複雑性を実現する。 本稿では,大規模モデル (\textit{e.g}) に対して効率的に実装可能な WL-AC テンプレートのインスタンス化を提案する。 ラベル数を大幅に削減し,受動的学習と同じ精度を維持しながら,破損したMNISTデータセット上での有効性を示す。

Active learning with strong and weak labelers considers a practical setting where we have access to both costly but accurate strong labelers and inaccurate but cheap predictions provided by weak labelers. We study this problem in the streaming setting, where decisions must be taken \textit{online}. We design a novel algorithmic template, Weak Labeler Active Cover (WL-AC), that is able to robustly leverage the lower quality weak labelers to reduce the query complexity while retaining the desired level of accuracy. Prior active learning algorithms with access to weak labelers learn a difference classifier which predicts where the weak labels differ from strong labelers; this requires the strong assumption of realizability of the difference classifier (Zhang and Chaudhuri,2015). WL-AC bypasses this \textit{realizability} assumption and thus is applicable to many real-world scenarios such as random corrupted weak labels and high dimensional family of difference classifiers (\textit{e.g.,} deep neural nets). Moreover, WL-AC cleverly trades off evaluating the quality with full exploitation of weak labelers, which allows to convert any active learning strategy to one that can leverage weak labelers. We provide an instantiation of this template that achieves the optimal query complexity for any given weak labeler, without knowing its accuracy a-priori. Empirically, we propose an instantiation of the WL-AC template that can be efficiently implemented for large-scale models (\textit{e.g}., deep neural nets) and show its effectiveness on the corrupted-MNIST dataset by significantly reducing the number of labels while keeping the same accuracy as in passive learning.
翻訳日:2022-11-07 16:08:58 公開日:2022-11-04
# インパクト学習: 特徴の影響と競合から学ぶ方法

Impact Learning: A Learning Method from Features Impact and Competition ( http://arxiv.org/abs/2211.02263v1 )

ライセンス: Link先を確認
Nusrat Jahan Prottasha, Saydul Akbar Murad, Abu Jafar Md Muzahid, Masud Rana, Md Kowsher, Apurba Adhikary, Sujit Biswas, Anupam Kumar Bairagi(参考訳) 機械学習は、データと経験に基づいて自動的に改善できるコンピュータアルゴリズムの研究である。 機械学習アルゴリズムは、トレーニングデータと呼ばれるサンプルデータからモデルを構築し、明示的にプログラムされることなく予測や判断を行う。 様々なよく知られた機械学習アルゴリズムが、データ分析のためのコンピュータ科学の分野で開発されている。 本稿では,インパクト学習と呼ばれる新しい機械学習アルゴリズムを提案する。 インパクト学習は教師付き学習アルゴリズムであり、分類問題と回帰問題の両方で統合することができる。 さらに、競争データの分析においてその優位性を示すことができる。 このアルゴリズムは競争状況から学び、競争は自律的な特徴の影響から生じる。 自然増進の内在的な速度(RNI)によるハイライトの影響によって調製される。 さらに,従来の機械学習アルゴリズムにおけるインパクト学習の頻度も明らかにする。

Machine learning is the study of computer algorithms that can automatically improve based on data and experience. Machine learning algorithms build a model from sample data, called training data, to make predictions or judgments without being explicitly programmed to do so. A variety of wellknown machine learning algorithms have been developed for use in the field of computer science to analyze data. This paper introduced a new machine learning algorithm called impact learning. Impact learning is a supervised learning algorithm that can be consolidated in both classification and regression problems. It can furthermore manifest its superiority in analyzing competitive data. This algorithm is remarkable for learning from the competitive situation and the competition comes from the effects of autonomous features. It is prepared by the impacts of the highlights from the intrinsic rate of natural increase (RNI). We, moreover, manifest the prevalence of the impact learning over the conventional machine learning algorithm.
翻訳日:2022-11-07 16:08:28 公開日:2022-11-04
# 深い森林のためのFPGAを用いた効率的な加速器

An Efficient FPGA-based Accelerator for Deep Forest ( http://arxiv.org/abs/2211.02281v1 )

ライセンス: Link先を確認
Mingyu Zhu, Jiapeng Luo, Wendong Mao, Zhongfeng Wang(参考訳) Deep Forest(ディープフォレスト)は、予測精度の高い機械学習アルゴリズムである。 ディープニューラルネットワークと比較して、deep forestはほとんど乗算操作がなく、小さなデータセットでパフォーマンスが向上している。 しかし、深い構造と森林量のため、大量の計算とメモリ消費に悩まされている。 本稿では、FPGA上でDeep Forestを実装する最初の試みであるディープフォレストモデルに対して、効率的なハードウェアアクセラレータを提案する。 まず、予測速度を改善するために、繊細なノード演算ユニット(NCU)を設計する。 第二に、分類過程におけるノード計算の不均衡の問題を軽減するため、NCUに基づく効率的なアーキテクチャと適応型データフローを提案する。 さらに、この設計で最適化されたストレージ方式により、ハードウェア利用率と電力効率も向上する。 提案した設計はFPGAボードであるIntel Stratix V上で実装され、ADULTとFace Mask Detectionの2つの典型的なデータセットで評価される。 実験結果から,40コアの高速x86 CPUに比べて40倍の高速化を実現可能であることがわかった。

Deep Forest is a prominent machine learning algorithm known for its high accuracy in forecasting. Compared with deep neural networks, Deep Forest has almost no multiplication operations and has better performance on small datasets. However, due to the deep structure and large forest quantity, it suffers from large amounts of calculation and memory consumption. In this paper, an efficient hardware accelerator is proposed for deep forest models, which is also the first work to implement Deep Forest on FPGA. Firstly, a delicate node computing unit (NCU) is designed to improve inference speed. Secondly, based on NCU, an efficient architecture and an adaptive dataflow are proposed, in order to alleviate the problem of node computing imbalance in the classification process. Moreover, an optimized storage scheme in this design also improves hardware utilization and power efficiency. The proposed design is implemented on an FPGA board, Intel Stratix V, and it is evaluated by two typical datasets, ADULT and Face Mask Detection. The experimental results show that the proposed design can achieve around 40x speedup compared to that on a 40 cores high performance x86 CPU.
翻訳日:2022-11-07 16:08:17 公開日:2022-11-04
# 潜在変数ガウス過程モデルに対する完全ベイズ推定

Fully Bayesian inference for latent variable Gaussian process models ( http://arxiv.org/abs/2211.02218v1 )

ライセンス: Link先を確認
Suraj Yerramilli, Akshay Iyer, Wei Chen, Daniel W. Apley(参考訳) 実際の工学と科学の応用は、しばしば1つ以上の定性的な入力を含む。 しかし、標準ガウス過程(GP)は、定性的入力を直接対応できない。 最近導入された潜伏変数ガウス過程(LVGP)は、まず各定性的因子を下層の潜伏変数(LV)にマッピングし、次にこれらのLV上の標準GP共分散関数を使用することによってこの問題を克服する。 lvsは他のgpハイパーパラメータと同様に最大確率推定によって推定され、予測式に挿入される。 しかし、このプラグインアプローチは、特に限られたトレーニングデータにおいて重要なLVの推定の不確実性を考慮していない。 本研究では,LVGPモデルに対する完全ベイズ的アプローチを開発し,LVによる定性的入力の効果を可視化する。 また、LVGPハイパーパラメータに対するLVGPのスケールアップとベイズ推定の完全な近似も開発した。 いくつかの工学モデルと材料設計応用について,プラグイン推論と完全ベイズ推論を比較した数値的研究を行った。 従来の標準GPモデリングでは,完全ベイズ処理が限定的な改善をもたらすという結論が得られたが,LVGPモデリングでは,プラグインアプローチによる予測精度と不確かさの定量化が大幅に改善されている。

Real engineering and scientific applications often involve one or more qualitative inputs. Standard Gaussian processes (GPs), however, cannot directly accommodate qualitative inputs. The recently introduced latent variable Gaussian process (LVGP) overcomes this issue by first mapping each qualitative factor to underlying latent variables (LVs), and then uses any standard GP covariance function over these LVs. The LVs are estimated similarly to the other GP hyperparameters through maximum likelihood estimation, and then plugged into the prediction expressions. However, this plug-in approach will not account for uncertainty in estimation of the LVs, which can be significant especially with limited training data. In this work, we develop a fully Bayesian approach for the LVGP model and for visualizing the effects of the qualitative inputs via their LVs. We also develop approximations for scaling up LVGPs and fully Bayesian inference for the LVGP hyperparameters. We conduct numerical studies comparing plug-in inference against fully Bayesian inference over a few engineering models and material design applications. In contrast to previous studies on standard GP modeling that have largely concluded that a fully Bayesian treatment offers limited improvements, our results show that for LVGP modeling it offers significant improvements in prediction accuracy and uncertainty quantification over the plug-in approach.
翻訳日:2022-11-07 16:07:47 公開日:2022-11-04
# ブラックボックスコアセット変分推論

Black-box Coreset Variational Inference ( http://arxiv.org/abs/2211.02377v1 )

ライセンス: Link先を確認
Dionysis Manousakas, Hippolyt Ritter, Theofanis Karaletsos(参考訳) coreset法の最近の進歩は、代表的なデータポイントの選択がベイズ推論のために大量のデータを置き換え、関連する統計情報を保存し、その後のダウンストリームタスクを著しく加速できることを示している。 既存の変分コアセットの構成は、観測されたデータポイントのサブセットを選択するか、観測された空間で近似推論と最適化を共同で行うか、ガウス過程における点法に類似している。 これまでのところ、どちらのアプローチも汎用モデルのための目的を評価するための複雑さによって制限されており、推論とテストを通じてコアセット上で通常難解な後方からサンプルを生成する必要がある。 本研究では,これらの制約を克服し,ベイズニューラルネットワークなどの難解モデルへの変分コアセットの原則適用を可能にする,コアセットのブラックボックス変分推論フレームワークを提案する。 本手法を教師あり学習問題に適用し,データ要約と推論のための文献における既存手法と比較する。

Recent advances in coreset methods have shown that a selection of representative datapoints can replace massive volumes of data for Bayesian inference, preserving the relevant statistical information and significantly accelerating subsequent downstream tasks. Existing variational coreset constructions rely on either selecting subsets of the observed datapoints, or jointly performing approximate inference and optimizing pseudodata in the observed space akin to inducing points methods in Gaussian Processes. So far, both approaches are limited by complexities in evaluating their objectives for general purpose models, and require generating samples from a typically intractable posterior over the coreset throughout inference and testing. In this work, we present a black-box variational inference framework for coresets that overcomes these constraints and enables principled application of variational coresets to intractable models, such as Bayesian neural networks. We apply our techniques to supervised learning problems, and compare them with existing approaches in the literature for data summarization and inference.
翻訳日:2022-11-07 16:07:25 公開日:2022-11-04
# 効率的な変数選択によるk$近辺学習の予測性能の向上

Improving the Predictive Performances of $k$ Nearest Neighbors Learning by Efficient Variable Selection ( http://arxiv.org/abs/2211.02600v1 )

ライセンス: Link先を確認
Eddie Pei and Ernest Fokoue(参考訳) 本稿では, 予測変数の効率的な前方選択により, 近辺の$k$の予測性能が大幅に向上したことを示す。 シミュレーションデータと実世界データの両方から,本手法が段階的選択下で性能低下モデルに繰り返しアプローチすることを示す。

This paper computationally demonstrates a sharp improvement in predictive performance for $k$ nearest neighbors thanks to an efficient forward selection of the predictor variables. We show both simulated and real-world data that this novel repeatedly approaches outperformance regression models under stepwise selection
翻訳日:2022-11-07 16:07:08 公開日:2022-11-04
# 数学的表現のオンラインジェスチャー認識のためのトランスフォーマーアーキテクチャ

A Transformer Architecture for Online Gesture Recognition of Mathematical Expressions ( http://arxiv.org/abs/2211.02643v1 )

ライセンス: Link先を確認
Mirco Ramo and Gu\'enol\'e C.M. Silvestre(参考訳) Transformerアーキテクチャは、グリフストロークに対応するオンラインの手書きジェスチャーから式木を構築するためのエンドツーエンドモデルとして強力なフレームワークを提供する。 特に、アテンションメカニズムは、正確な数学的表現木に正しくデコードされた潜在表現を生成する表現の基本的な構文をエンコードし、学習し、強制するためにうまく利用された。 エンコーダは初めて、時空間のデータトークンを供給され、無限に大きな語彙を形成し、オンラインジェスチャー認識以上の応用を見出す。 オンライン手書きジェスチャーの新しい教師付きデータセットは、汎用手書き認識タスクのトレーニングモデルに提供され、出力表現木の構文的正しさを評価するための新しい指標が提案される。 エッジ推論に適した小型トランスフォーマーモデルを平均正規化Levenshtein精度94%でトレーニングし,94%の予測で有効なRPN木表現が得られた。

The Transformer architecture is shown to provide a powerful framework as an end-to-end model for building expression trees from online handwritten gestures corresponding to glyph strokes. In particular, the attention mechanism was successfully used to encode, learn and enforce the underlying syntax of expressions creating latent representations that are correctly decoded to the exact mathematical expression tree, providing robustness to ablated inputs and unseen glyphs. For the first time, the encoder is fed with spatio-temporal data tokens potentially forming an infinitely large vocabulary, which finds applications beyond that of online gesture recognition. A new supervised dataset of online handwriting gestures is provided for training models on generic handwriting recognition tasks and a new metric is proposed for the evaluation of the syntactic correctness of the output expression trees. A small Transformer model suitable for edge inference was successfully trained to an average normalised Levenshtein accuracy of 94%, resulting in valid postfix RPN tree representation for 94% of predictions.
翻訳日:2022-11-07 16:01:40 公開日:2022-11-04
# 量子リカレントニューラルネットワークによる貯留層計算

Reservoir Computing via Quantum Recurrent Neural Networks ( http://arxiv.org/abs/2211.02612v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, Daniel Fry, Amol Deshmukh, Vladimir Rastunkov, Charlee Stefanski(参考訳) 近年の量子コンピューティングと機械学習の発展により、量子機械学習の学際研究が進められている。 シーケンシャルモデリングは、高い科学的、商業的価値を持つ重要なタスクである。 既存のvqcまたはqnnベースの手法では、多くの量子回路パラメータの勾配に基づく最適化を行うためにかなりの計算資源を必要とする。 主な欠点は、このような量子勾配計算には大量の回路評価が必要であり、現在の短期量子ハードウェアとシミュレーションソフトウェアの課題となっている。 本研究では,古典的RNN,LSTM,GRUに基づく量子リカレントニューラルネットワーク(QRNN-RC)に貯水池計算(RC)フレームワークを適用し,逐次モデリングにアプローチする。 このRCアプローチの主な考え方は、ランダムに初期化された重みを持つQRNNが力学系として扱われ、最終古典的線形層のみが訓練されることである。 数値シミュレーションにより、QRNN-RCは、複数の関数近似および時系列予測タスクに対して、完全に訓練されたQRNNモデルに匹敵する結果が得られることが示された。 QRNNトレーニングの複雑さは大幅に減少するため、提案したモデルは特に高速に訓練される。 この研究では、対応する古典的RNNベースのRC実装と比較し、ほとんどの場合、トレーニングエポックを少なくすることで量子バージョンがより速く学習できることを示します。 提案手法は,ノイズの多い中間規模量子(NISQ)コンピュータにおいて重要な設計上の考慮事項である,より優れた量子ハードウェア効率を持つ逐次モデリングに量子ニューラルネットワークを利用する新たな可能性を示す。

Recent developments in quantum computing and machine learning have propelled the interdisciplinary study of quantum machine learning. Sequential modeling is an important task with high scientific and commercial value. Existing VQC or QNN-based methods require significant computational resources to perform the gradient-based optimization of a larger number of quantum circuit parameters. The major drawback is that such quantum gradient calculation requires a large amount of circuit evaluation, posing challenges in current near-term quantum hardware and simulation software. In this work, we approach sequential modeling by applying a reservoir computing (RC) framework to quantum recurrent neural networks (QRNN-RC) that are based on classical RNN, LSTM and GRU. The main idea to this RC approach is that the QRNN with randomly initialized weights is treated as a dynamical system and only the final classical linear layer is trained. Our numerical simulations show that the QRNN-RC can reach results comparable to fully trained QRNN models for several function approximation and time series prediction tasks. Since the QRNN training complexity is significantly reduced, the proposed model trains notably faster. In this work we also compare to corresponding classical RNN-based RC implementations and show that the quantum version learns faster by requiring fewer training epochs in most cases. Our results demonstrate a new possibility to utilize quantum neural network for sequential modeling with greater quantum hardware efficiency, an important design consideration for noisy intermediate-scale quantum (NISQ) computers.
翻訳日:2022-11-07 16:01:21 公開日:2022-11-04
# bert for long documents: 自動icd符号化のケーススタディ

BERT for Long Documents: A Case Study of Automated ICD Coding ( http://arxiv.org/abs/2211.02519v1 )

ライセンス: Link先を確認
Arash Afkanpour, Shabir Adeel, Hansenclever Bassani, Arkady Epshteyn, Hongbo Fan, Isaac Jones, Mahan Malihi, Adrian Nauth, Raj Sinha, Sanjana Woonna, Shiva Zamani, Elli Kanal, Mikhail Fomitchev, Donny Cheung(参考訳) トランスフォーマーモデルは多くのNLP問題で大きな成功を収めた。 しかし、icd符号化の自動化に関する以前の研究は、これらのモデルはcnnベースのモデルのような以前のソリューションを上回ってはいないと結論づけた。 本稿では,この結論に挑戦する。 本稿では,BERTなどの既存の変換器モデルを用いて,長文の処理をシンプルかつスケーラブルに行う方法を提案する。 本手法は,icd符号化においてトランスフォーマーモデルで報告された従来の結果を大幅に改善し,cnnベースの手法よりも優れることを示す。

Transformer models have achieved great success across many NLP problems. However, previous studies in automated ICD coding concluded that these models fail to outperform some of the earlier solutions such as CNN-based models. In this paper we challenge this conclusion. We present a simple and scalable method to process long text with the existing transformer models such as BERT. We show that this method significantly improves the previous results reported for transformer models in ICD coding, and is able to outperform one of the prominent CNN-based methods.
翻訳日:2022-11-07 15:59:21 公開日:2022-11-04
# テキスト分類作業における事前学習言語モデル(PLM)に対するSVMの比較

A Comparison of SVM against Pre-trained Language Models (PLMs) for Text Classification Tasks ( http://arxiv.org/abs/2211.02563v1 )

ライセンス: Link先を確認
Yasmen Wahba, Nazim Madhavji, John Steinbacher(参考訳) 事前学習された言語モデル(PLM)の出現は、テキスト分類を含む多くの自然言語処理(NLP)タスクで大きな成功を収めている。 これらのモデルを使用する場合、最小限から不要な機能エンジニアリングのため、plmはあらゆるnlpタスクのデファクト選択となっている。 しかし、ドメイン固有のコーパス(例えば、財務、法律、産業)では、特定のタスクのための事前訓練されたモデルを微調整することで、パフォーマンスの向上が示されている。 本稿では,3つのパブリックドメインフリーデータセットとドメイン固有語を含む実世界のデータセットに対する4つの異なるPLMの性能を,TFIDFベクトル化テキストを用いた単純なSVM線形分類器と比較する。 4つのデータセットの実験結果から, PLMは細調整でも線形SVM分類器よりも大きな利得は得られないことがわかった。 したがって、テキスト分類タスクでは、従来のSVMと注意深い機能エンジニアリングが、PLMよりも安価で優れたパフォーマンスを証明できることを推奨する。

The emergence of pre-trained language models (PLMs) has shown great success in many Natural Language Processing (NLP) tasks including text classification. Due to the minimal to no feature engineering required when using these models, PLMs are becoming the de facto choice for any NLP task. However, for domain-specific corpora (e.g., financial, legal, and industrial), fine-tuning a pre-trained model for a specific task has shown to provide a performance improvement. In this paper, we compare the performance of four different PLMs on three public domain-free datasets and a real-world dataset containing domain-specific words, against a simple SVM linear classifier with TFIDF vectorized text. The experimental results on the four datasets show that using PLMs, even fine-tuned, do not provide significant gain over the linear SVM classifier. Hence, we recommend that for text classification tasks, traditional SVM along with careful feature engineering can pro-vide a cheaper and superior performance than PLMs.
翻訳日:2022-11-07 15:59:11 公開日:2022-11-04
# ラベル変動の「問題」--データ・モデリング・評価における根拠真理について

The 'Problem' of Human Label Variation: On Ground Truth in Data, Modeling and Evaluation ( http://arxiv.org/abs/2211.02570v1 )

ライセンス: Link先を確認
Barbara Plank(参考訳) 人間のラベル付けのバリエーションは、しばしばノイズと見なされる。 機械学習(ML)のアノテーションプロジェクトは、データ品質の最大化と機械学習メトリクスの最適化と最大化を前提として、人間のラベルの変動を最小限にすることを目的としている。 しかし、この慣行は根拠となる真理が存在すると仮定し、不一致、注釈における主観性、あるいは複数の妥当な答えによって、ラベル付けに真の人間のバリエーションが存在することを無視する。 本稿では,人間のラベル変動に対するこの大きなオープンな問題は持続的であり,この分野を前進させるためにはより注意が必要であると論じる。 これは、人間のラベルの変化がMLパイプラインのすべてのステージ、すなわちデータ、モデリング、評価に影響を与えるためである。 しかし、これらすべての次元を共同で検討する研究はほとんどなく、既存の研究は断片化されている。 これまでに提案してきたヒトラベル変異の概念の相違、未集約ラベルを用いた公開データセットのレポジトリの提供、これまで提案されてきたアプローチの描写、ギャップの特定、今後の提案などについて検討した。 データセットがますます利用可能になるにつれて、この‘問題’に対する総合的な見解が、基本的な新しい方向性を考案するための戦略に関するオープンな議論につながることを期待しています。

Human variation in labeling is often considered noise. Annotation projects for machine learning (ML) aim at minimizing human label variation, with the assumption to maximize data quality and in turn optimize and maximize machine learning metrics. However, this conventional practice assumes that there exists a ground truth, and neglects that there exists genuine human variation in labeling due to disagreement, subjectivity in annotation or multiple plausible answers. In this position paper, we argue that this big open problem of human label variation persists and critically needs more attention to move our field forward. This is because human label variation impacts all stages of the ML pipeline: data, modeling and evaluation. However, few works consider all of these dimensions jointly; and existing research is fragmented. We reconcile different previously proposed notions of human label variation, provide a repository of publicly-available datasets with un-aggregated labels, depict approaches proposed so far, identify gaps and suggest ways forward. As datasets are becoming increasingly available, we hope that this synthesized view on the 'problem' will lead to an open discussion on possible strategies to devise fundamentally new directions.
翻訳日:2022-11-07 15:58:54 公開日:2022-11-04
# 完全ゼロショット機能を有する弱教師付きマルチリンガル音声モデル

A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability ( http://arxiv.org/abs/2211.02499v1 )

ライセンス: Link先を確認
Jian Xue, Peidong Wang, Jinyu Li, Eric Sun(参考訳) 本稿では,複数の言語を対象言語のテキストに書き起こし,翻訳可能なストリーム多言語音声モデル(SM2)の構築について紹介する。 SM2のバックボーンはTransformer Transducerで、高いストリーミング機能を備えている。 SM2モデルは、人間のラベル付き音声翻訳(ST)データの代わりに、音声認識コーパスの転写を機械翻訳サービスに変換して生成した弱い教師付きデータを用いて訓練される。 25の言語から35万時間分の匿名化音声トレーニングデータが得られたsm2モデルは、最近人気の大規模非ストリーミング音声モデルと同等あるいはそれ以上の品質を達成している。 より重要なことは、sm2が新しいターゲット言語に拡張する際に真にゼロショット機能を持っていることを示し、トレーニング中に見られない{source-speech, target-text}ペアに対して高品質なst結果をもたらす。

In this paper, we introduce our work of building a Streaming Multilingual Speech Model (SM2), which can transcribe or translate multiple spoken languages into texts of the target language. The backbone of SM2 is Transformer Transducer, which has high streaming capability. Instead of human labeled speech translation (ST) data, SM2 models are trained using weakly supervised data generated by converting the transcriptions in speech recognition corpora with a machine translation service. With 351 thousand hours of anonymized speech training data from 25 languages, SM2 models achieve comparable or even better ST quality than some recent popular large-scale non-streaming speech models. More importantly, we show that SM2 has the truly zero-shot capability when expanding to new target languages, yielding high quality ST results for {source-speech, target-text} pairs that are not seen during training.
翻訳日:2022-11-07 15:58:34 公開日:2022-11-04
# rickrolling the artist: テキスト誘導画像生成モデルに目に見えないバックドアを注入する

Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided Image Generation Models ( http://arxiv.org/abs/2211.02408v1 )

ライセンス: Link先を確認
Lukas Struppek, Dominik Hintersdorf, Kristian Kersting(参考訳) 現在、テキストと画像の合成は研究者や一般大衆の間では非常に人気があるが、これらのモデルの安全性は無視されている。 多くのテキスト誘導画像生成モデルは、事前訓練された外部ソースからのテキストエンコーダに依存しており、ユーザーは検索されたモデルが約束通りに振る舞うと信じている。 残念ながら、そうではないかもしれない。 我々は,テキスト誘導生成モデルに対するバックドア攻撃を導入し,テキストエンコーダが大きな改ざんリスクをもたらすことを示した。 我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。 その後、プロンプトに1つの非ラテン文字を挿入することで、敵はモデルをトリガーして、事前に定義された属性を持つイメージか、隠れた潜在的に有害な記述に従うイメージを生成することができる。 安定拡散に対する攻撃の有効性を実証的に実証し、単一のバックドアの注入に要する時間は2分未満であることを強調した。 このアプローチを攻撃としてのみ表現するだけでなく、ヌードや暴力といった特定の概念に関連するフレーズをエンコーダに忘れさせ、画像生成をより安全にするのに役立つ。

While text-to-image synthesis currently enjoys great popularity among researchers and the general public, the security of these models has been neglected so far. Many text-guided image generation models rely on pre-trained text encoders from external sources, and their users trust that the retrieved models will behave as promised. Unfortunately, this might not be the case. We introduce backdoor attacks against text-guided generative models and demonstrate that their text encoders pose a major tampering risk. Our attacks only slightly alter an encoder so that no suspicious model behavior is apparent for image generations with clean prompts. By then inserting a single non-Latin character into the prompt, the adversary can trigger the model to either generate images with pre-defined attributes or images following a hidden, potentially malicious description. We empirically demonstrate the high effectiveness of our attacks on Stable Diffusion and highlight that the injection process of a single backdoor takes less than two minutes. Besides phrasing our approach solely as an attack, it can also force an encoder to forget phrases related to certain concepts, such as nudity or violence, and help to make image generation safer.
翻訳日:2022-11-07 15:52:52 公開日:2022-11-04
# 画像を用いた機械学習におけるデータセットドリフト制御のためのデータモデル

Data Models for Dataset Drift Controls in Machine Learning With Images ( http://arxiv.org/abs/2211.02578v1 )

ライセンス: Link先を確認
Luis Oala, Marco Aversa, Gabriel Nobis, Kurt Willis, Yoan Neuenschwander, Mich\`ele Buck, Christian Matek, Jerome Extermann, Enrico Pomarico, Wojciech Samek, Roderick Murray-Smith, Christoph Clausen, Bruno Sanguinetti(参考訳) カメラ画像は機械学習研究においてユビキタスである。 また、医療や環境調査にまたがる重要なサービスの提供においても中心的な役割を担っている。 しかし、これらの領域における機械学習モデルの適用は、堅牢性に関する懸念から制限されている。 主な障害モードは、トレーニングデータとデプロイメントデータの違いによるパフォーマンス低下である。 このようなデータセットドリフトに対する機械学習モデルのロバスト性を検証する方法は存在するが、既存のアプローチでは、関心のある主要な対象であるデータに対する明示的なモデルは考慮されていない。 これにより、物理的に忠実なドリフトテストケースの作成や、マシンラーニングモデルのデプロイ時に避けるべきデータモデルの仕様の提供が困難になる。 本研究では,機械学習のロバスト性検証と物理光学を組み合わせることで,これらの欠点を克服できることを示す。 画像データセットのドリフトに関連する性能リスクの制御において,生センサデータと識別可能なデータモデルが果たす役割について検討する。 結果は3つの応用に抽出される。 まず、ドリフト合成により、物理的に忠実なドリフトテストケースを生成できる。 実験の結果, モデル性能の低下率は, ポストホック増量試験の10倍から4倍程度であった。 第二に、タスクとデータモデル間の勾配接続は、機械学習モデルのデプロイ中に避けるべきパフォーマンスに敏感なデータモデルを特定するために使用できるドリフト検査を可能にする。 第3に、ドリフト調整はドリフト面における処理調整の可能性を開く。 これは、検証精度の最大20%のマージンで分類器トレーニングのスピードアップと安定化につながる可能性がある。 オープンコードとデータセットにアクセスするガイドは、https://github.com/aiaudit-org/raw2logitで入手できる。

Camera images are ubiquitous in machine learning research. They also play a central role in the delivery of important services spanning medicine and environmental surveying. However, the application of machine learning models in these domains has been limited because of robustness concerns. A primary failure mode are performance drops due to differences between the training and deployment data. While there are methods to prospectively validate the robustness of machine learning models to such dataset drifts, existing approaches do not account for explicit models of the primary object of interest: the data. This makes it difficult to create physically faithful drift test cases or to provide specifications of data models that should be avoided when deploying a machine learning model. In this study, we demonstrate how these shortcomings can be overcome by pairing machine learning robustness validation with physical optics. We examine the role raw sensor data and differentiable data models can play in controlling performance risks related to image dataset drift. The findings are distilled into three applications. First, drift synthesis enables the controlled generation of physically faithful drift test cases. The experiments presented here show that the average decrease in model performance is ten to four times less severe than under post-hoc augmentation testing. Second, the gradient connection between task and data models allows for drift forensics that can be used to specify performance-sensitive data models which should be avoided during deployment of a machine learning model. Third, drift adjustment opens up the possibility for processing adjustments in the face of drift. This can lead to speed up and stabilization of classifier training at a margin of up to 20% in validation accuracy. A guide to access the open code and datasets is available at https://github.com/aiaudit-org/raw2logit.
翻訳日:2022-11-07 15:51:55 公開日:2022-11-04
# 連続学習の解決に関する理論的研究

A Theoretical Study on Solving Continual Learning ( http://arxiv.org/abs/2211.02633v1 )

ライセンス: Link先を確認
Gyuhak Kim, Changnan Xiao, Tatsuya Konishi, Zixuan Ke, Bing Liu(参考訳) 連続学習(CL)は、一連のタスクを段階的に学習する。 一般的なcl設定は、クラスインクリメンタル学習(cil)とタスクインクリメンタル学習(til)の2つだ。 CLの大きな課題は破滅的忘れ(CF)である。 TILのCFを効果的に克服する多くのテクニックがすでに提供されているが、CILは非常に難しい。 これまでのところ、CIL問題の解法に関する原則的なガイダンスを提供するための理論的研究はほとんど行われていない。 本論文はこのような研究を行う。 まず、cil問題は、確率的に、inside-task prediction (wp) と task-id prediction (tp) の2つのサブproblemに分解できることを示す。 さらに、TPはCILとOODを繋ぐOOD(out-of-distribution)検出と相関していることを証明している。 本研究の重要な結論は、WP と TP と OOD の検出が CIL アルゴリズムによって明示的に、あるいは暗黙的に定義されているかどうかにかかわらず、優れた WP と TP と OOD 検出は、優れた CIL 性能に十分必要であるということである。 加えて、TILは単にWPである。 理論的な結果に基づいて新しいCIL法も設計され、CILとTILの両方の設定において強いベースラインを大きなマージンで上回る。

Continual learning (CL) learns a sequence of tasks incrementally. There are two popular CL settings, class incremental learning (CIL) and task incremental learning (TIL). A major challenge of CL is catastrophic forgetting (CF). While a number of techniques are already available to effectively overcome CF for TIL, CIL remains to be highly challenging. So far, little theoretical study has been done to provide a principled guidance on how to solve the CIL problem. This paper performs such a study. It first shows that probabilistically, the CIL problem can be decomposed into two sub-problems: Within-task Prediction (WP) and Task-id Prediction (TP). It further proves that TP is correlated with out-of-distribution (OOD) detection, which connects CIL and OOD detection. The key conclusion of this study is that regardless of whether WP and TP or OOD detection are defined explicitly or implicitly by a CIL algorithm, good WP and good TP or OOD detection are necessary and sufficient for good CIL performances. Additionally, TIL is simply WP. Based on the theoretical result, new CIL methods are also designed, which outperform strong baselines in both CIL and TIL settings by a large margin.
翻訳日:2022-11-07 15:51:32 公開日:2022-11-04
# 3次元分子グラフのための幾何完全パーセプトロンネットワーク

Geometry-Complete Perceptron Networks for 3D Molecular Graphs ( http://arxiv.org/abs/2211.02504v1 )

ライセンス: Link先を確認
Alex Morehead, Jianlin Cheng(参考訳) 幾何学的深層学習の分野は、革新的で強力なグラフニューラルネットワークアーキテクチャの開発に大きな影響を与えた。 コンピュータビジョンや計算生物学のような分野は、そのような方法論の進歩から大きな恩恵を受けており、タンパク質構造予測や設計といった科学分野において画期的な進歩をもたらした。 本研究では3次元グラフ表現学習用に設計された新しい幾何完全SE(3)等価グラフニューラルネットワークであるGCPNetを紹介する。 我々は,タンパク質-リガンド結合親和性予測,タンパク質構造ランキング,ニュートン多体システムモデリングという,3つの異なる幾何学的タスクのために設計された6つの独立したデータセットに対して,本手法の最先端性と表現性を示す。 この結果から,GCPNetは下流予測タスクのための3次元グラフ内の複雑な幾何学的および物理的相互作用を捉えるための,強力で汎用的な手法であることが示唆された。 新しいモデルをトレーニングしたり、結果を再現するためのソースコード、データ、インストラクションは、githubから無料で利用できます。

The field of geometric deep learning has had a profound impact on the development of innovative and powerful graph neural network architectures. Disciplines such as computer vision and computational biology have benefited significantly from such methodological advances, which has led to breakthroughs in scientific domains such as protein structure prediction and design. In this work, we introduce GCPNet, a new geometry-complete, SE(3)-equivariant graph neural network designed for 3D graph representation learning. We demonstrate the state-of-the-art utility and expressiveness of our method on six independent datasets designed for three distinct geometric tasks: protein-ligand binding affinity prediction, protein structure ranking, and Newtonian many-body systems modeling. Our results suggest that GCPNet is a powerful, general method for capturing complex geometric and physical interactions within 3D graphs for downstream prediction tasks. The source code, data, and instructions to train new models or reproduce our results are freely available on GitHub.
翻訳日:2022-11-07 15:51:08 公開日:2022-11-04
# GoRela: ビューポイント不変モーション予測のためのGo相対性

GoRela: Go Relative for Viewpoint-Invariant Motion Forecasting ( http://arxiv.org/abs/2211.02545v1 )

ライセンス: Link先を確認
Alexander Cui, Sergio Casas, Kelvin Wong, Simon Suo, Raquel Urtasun(参考訳) 運動予測のタスクは、自動運転車(SDV)が安全な操作を計画できることに不可欠である。 この目標に向けて、現代のアプローチでは、正確な予測を生成するために、地図、エージェントの過去の軌道、それらの相互作用について推論する。 主なアプローチは、それぞれのターゲットエージェントの参照フレームにマップや他のエージェントをエンコードすることであった。 しかし、エージェント毎に推論を実行する必要があるため、マルチエージェント予測には計算コストがかかる。 スケーリングの課題に取り組むため、これまでのソリューションは、すべてのエージェントとマップを共有座標フレーム(例えばSDVフレーム)にエンコードすることであった。 しかし、これはサンプル非効率であり、ドメインシフトに弱い(例:SDVが珍しい状態を訪れたとき)。 そこで本研究では,すべてのエージェントとマップに対して,精度や一般化を犠牲にすることなく効率的な共有符号化を提案する。 この目的に向けて,ペアワイズ相対位置符号化を利用して,異種空間グラフにおけるエージェントとマップ要素の幾何学的関係を表現する。 このパラメータ化により、シーン視点に不変であり、オフラインで計算されたマップ埋め込みを再利用することでオンライン計算を節約できる。 我々のデコーダは視点非依存であり、レーングラフ上でエージェント目標を予測し、多様かつコンテキスト対応のマルチモーダル予測を可能にする。 本研究では,都市argoverse 2ベンチマークおよび新しい高速道路データセットにおける提案手法の有効性を実証する。

The task of motion forecasting is critical for self-driving vehicles (SDVs) to be able to plan a safe maneuver. Towards this goal, modern approaches reason about the map, the agents' past trajectories and their interactions in order to produce accurate forecasts. The predominant approach has been to encode the map and other agents in the reference frame of each target agent. However, this approach is computationally expensive for multi-agent prediction as inference needs to be run for each agent. To tackle the scaling challenge, the solution thus far has been to encode all agents and the map in a shared coordinate frame (e.g., the SDV frame). However, this is sample inefficient and vulnerable to domain shift (e.g., when the SDV visits uncommon states). In contrast, in this paper, we propose an efficient shared encoding for all agents and the map without sacrificing accuracy or generalization. Towards this goal, we leverage pair-wise relative positional encodings to represent geometric relationships between the agents and the map elements in a heterogeneous spatial graph. This parameterization allows us to be invariant to scene viewpoint, and save online computation by re-using map embeddings computed offline. Our decoder is also viewpoint agnostic, predicting agent goals on the lane graph to enable diverse and context-aware multimodal prediction. We demonstrate the effectiveness of our approach on the urban Argoverse 2 benchmark as well as a novel highway dataset.
翻訳日:2022-11-07 15:50:51 公開日:2022-11-04
# 神経振動誘発勾配マスキングによる逆防御

Adversarial Defense via Neural Oscillation inspired Gradient Masking ( http://arxiv.org/abs/2211.02223v1 )

ライセンス: Link先を確認
Chunming Jiang, Yilei Zhang(参考訳) スパイクニューラルネットワーク(SNN)は、低消費電力、低レイテンシ、生物学的妥当性のために大きな注目を集めている。 低消費電力の脳にインスパイアされたコンピューティングのためのニューロモルフィックデバイスに広くデプロイされているため、セキュリティ問題はますます重要になっている。 しかしながら、ディープニューラルネットワーク(DNN)と比較して、SNNは現在、敵の攻撃に対する特別に設計された防御方法を欠いている。 神経膜電位発振に触発され,snsの安全性を高めるためにバイオインスパイア発振機構を組み込んだ新しい神経モデルを提案する。 実験の結果,ニューラル発振ニューロンを持つSNNは, LIFニューロンを持つ通常のSNNに比べて, アーキテクチャやデータセットに対する抵抗性が高いことがわかった。 さらに,元のトレーニング勾配を隠蔽し,攻撃者を「フェイク」ニューロンの勾配に混乱させて不正な対向サンプルを生成することで,モデルの勾配を変化させる防衛手法を提案する。 提案手法は,DNNの対人訓練法に比べて,防御効果が同等で,計算コストもはるかに少ない単段階攻撃と反復攻撃の両方に効果的に抵抗できることを示す。 我々の知る限りでは、これはSNN上の代理勾配をマスキングすることで敵防衛を確立する最初の作品である。

Spiking neural networks (SNNs) attract great attention due to their low power consumption, low latency, and biological plausibility. As they are widely deployed in neuromorphic devices for low-power brain-inspired computing, security issues become increasingly important. However, compared to deep neural networks (DNNs), SNNs currently lack specifically designed defense methods against adversarial attacks. Inspired by neural membrane potential oscillation, we propose a novel neural model that incorporates the bio-inspired oscillation mechanism to enhance the security of SNNs. Our experiments show that SNNs with neural oscillation neurons have better resistance to adversarial attacks than ordinary SNNs with LIF neurons on kinds of architectures and datasets. Furthermore, we propose a defense method that changes model's gradients by replacing the form of oscillation, which hides the original training gradients and confuses the attacker into using gradients of 'fake' neurons to generate invalid adversarial samples. Our experiments suggest that the proposed defense method can effectively resist both single-step and iterative attacks with comparable defense effectiveness and much less computational costs than adversarial training methods on DNNs. To the best of our knowledge, this is the first work that establishes adversarial defense through masking surrogate gradients on SNNs.
翻訳日:2022-11-07 15:50:28 公開日:2022-11-04
# Mikoチーム: ALQAC 2022における法的質問に対するディープラーニングアプローチ

Miko Team: Deep Learning Approach for Legal Question Answering in ALQAC 2022 ( http://arxiv.org/abs/2211.02200v1 )

ライセンス: Link先を確認
Hieu Nguyen Van, Dat Nguyen, Phuong Minh Nguyen and Minh Le Nguyen(参考訳) 本稿では,ALQAC 2022(Automated Legal Question Answering Competition)において,法務文書検索や法務質問応答タスクを含む法務文書処理のための効率的な深層学習手法を紹介する。 この競合では、第1のタスクで1\textsuperscript{st}、第2のタスクで3\textsuperscript{rd}を得る。 本手法は,XLM-RoBERTaモデルに基づいて,大量の未ラベルコーパスから事前学習を行い,タスクの微調整を行う。 実験の結果,本手法は限定ラベル付きデータを用いた法的な検索情報処理に有効であることがわかった。 また、この手法は低リソース言語における他の情報検索タスクにも適用できる。

We introduce efficient deep learning-based methods for legal document processing including Legal Document Retrieval and Legal Question Answering tasks in the Automated Legal Question Answering Competition (ALQAC 2022). In this competition, we achieve 1\textsuperscript{st} place in the first task and 3\textsuperscript{rd} place in the second task. Our method is based on the XLM-RoBERTa model that is pre-trained from a large amount of unlabeled corpus before fine-tuning to the specific tasks. The experimental results showed that our method works well in legal retrieval information tasks with limited labeled data. Besides, this method can be applied to other information retrieval tasks in low-resource languages.
翻訳日:2022-11-07 15:49:45 公開日:2022-11-04
# 事前学習モデルに基づく漢詩の生成

Generation of Chinese classical poetry based on pre-trained model ( http://arxiv.org/abs/2211.02541v1 )

ライセンス: Link先を確認
Ziyao Wang, Lujin Guan, Guanyu Liu(参考訳) 人工知能が人間のような能力のある古典詩を創出できるかどうかを検証するために,事前学習モデルに基づく漢詩生成の研究を提案する。 本稿では,主にbart などの事前学習モデルを用いて,fs2text と rr2text を用いて韻律的詩文,さらには特定のスタイル詩文を生成する手法を提案し,ユーザの文章意図が,生成した詩文の関連性を徐々に低下させる問題を解く。 モデルの結果をテストするため、著者らは古代の詩人を選定し、BARTの詩的モデル作品と組み合わせて、一連のAI詩チューリング問題を開発し、詩人や詩作家のグループによってレビューされた。 600人以上の参加者がおり、最終結果は、高いレベルの詩愛好家がAI活動と人間の活動を区別できないことを示し、これは著者の作業方法が人間の活動と大きく異なるものではないことを示している。 著者が研究した詩文生成のモデルは、先進的な学者と区別できない作品を一般化している。 現代中国の詩人の数は500万に達した。 しかし、現代中国の詩人の多くは幼少期から言語能力や技能に欠けていた。 しかし、多くの現代詩人は創造的なインスピレーションがなく、作者のモデルは彼らを助けることができる。 単語やフレーズを選択するとこのモデルを見ることができ、すでに持っている詩に基づいて作品を書くことができ、独自の詩を書くこともできる。 詩の重要性は、作者の考えや考察にある。 AIの詩がどんなに良いかは問題ではありません。 重要なのは、人々が彼らを見てインスピレーションを与えることです。

In order to test whether artificial intelligence can create qualified classical poetry like humans, the author proposes a study of Chinese classical poetry generation based on a pre-trained model. This paper mainly tries to use BART and other pre training models, proposes FS2TEXT and RR2TEXT to generate metrical poetry text and even specific style poetry text, and solves the problem that the user's writing intention gradually reduces the relevance of the generated poetry text. In order to test the model's results, the authors selected ancient poets, by combining it with BART's poetic model work, developed a set of AI poetry Turing problems, it was reviewed by a group of poets and poetry writing researchers. There were more than 600 participants, and the final results showed that, high-level poetry lovers can't distinguish between AI activity and human activity, this indicates that the author's working methods are not significantly different from human activities. The model of poetry generation studied by the author generalizes works that cannot be distinguished from those of advanced scholars. The number of modern Chinese poets has reached 5 million. However, many modern Chinese poets lack language ability and skills as a result of their childhood learning. However, many modern poets have no creative inspiration, and the author's model can help them. They can look at this model when they choose words and phrases and they can write works based on the poems they already have, and they can write their own poems. The importance of poetry lies in the author's thoughts and reflections. It doesn't matter how good AI poetry is. The only thing that matters is for people to see and inspire them.
翻訳日:2022-11-07 15:49:33 公開日:2022-11-04
# スペクトル規則化:シーケンスモデリングのための誘導バイアス

Spectral Regularization: an Inductive Bias for Sequence Modeling ( http://arxiv.org/abs/2211.02255v1 )

ライセンス: Link先を確認
Kaiwen Hou and Guillaume Rabusseau(参考訳) 学習タスクにおける様々な正規化形態は、単純さの異なる概念を追求する。 本稿では,チョムスキー階層で定義された単純さの直感的な概念に基づいて,一意の帰納バイアスをシーケンスモデリングに付加するスペクトル正則化手法を提案する。 ハンケル行列と正規文法の基本的な関係から、ハンケル行列のトレースノルム、そのランクの最も密接な凸緩和をスペクトル正規化器として用いることを提案する。 ハンケル行列が双無限であるという事実に対処するために、そのトレースノルムに対する不偏確率推定器を提案する。 最終的に,スペクトル正規化の潜在的利点を示し,確率的推定器を検証した,富田文法の実験結果を示す。

Various forms of regularization in learning tasks strive for different notions of simplicity. This paper presents a spectral regularization technique, which attaches a unique inductive bias to sequence modeling based on an intuitive concept of simplicity defined in the Chomsky hierarchy. From fundamental connections between Hankel matrices and regular grammars, we propose to use the trace norm of the Hankel matrix, the tightest convex relaxation of its rank, as the spectral regularizer. To cope with the fact that the Hankel matrix is bi-infinite, we propose an unbiased stochastic estimator for its trace norm. Ultimately, we demonstrate experimental results on Tomita grammars, which exhibit the potential benefits of spectral regularization and validate the proposed stochastic estimator.
翻訳日:2022-11-07 15:43:25 公開日:2022-11-04
# 強化学習のための神経進化における品質多様性アルゴリズムのベンチマーク

Benchmarking Quality-Diversity Algorithms on Neuroevolution for Reinforcement Learning ( http://arxiv.org/abs/2211.02193v1 )

ライセンス: Link先を確認
Manon Flageat, Bryan Lim, Luca Grillotti, Maxime Allard, Sim\'on C. Smith, Antoine Cully(参考訳) 本稿では,ロボット制御のための強化学習領域における深部神経進化のための品質多様性ベンチマークスイートを提案する。 このスイートにはタスクの定義、環境、振る舞い記述子、フィットネスが含まれている。 我々は、ディープニューラルネットワークによって制御されるタスクとエージェントの複雑さに基づいて、異なるベンチマークを指定する。 このベンチマークでは、カバレッジ、qd-score、maximum fitness、アーカイブプロファイルメトリックなど、標準的な品質多様性指標を使用して、カバレッジとフィットネスの関係を定量化している。 また,同じ測定値の修正版を導入することにより,環境確率性に関して解のロバスト性を定量化する方法について述べる。 当社のベンチマークは,コミュニティが調査結果を比較し,改善するための貴重なツールだと思います。 ソースコードはオンラインで入手できる。 https://github.com/adaptive-intelligent-robotics/QDax

We present a Quality-Diversity benchmark suite for Deep Neuroevolution in Reinforcement Learning domains for robot control. The suite includes the definition of tasks, environments, behavioral descriptors, and fitness. We specify different benchmarks based on the complexity of both the task and the agent controlled by a deep neural network. The benchmark uses standard Quality-Diversity metrics, including coverage, QD-score, maximum fitness, and an archive profile metric to quantify the relation between coverage and fitness. We also present how to quantify the robustness of the solutions with respect to environmental stochasticity by introducing corrected versions of the same metrics. We believe that our benchmark is a valuable tool for the community to compare and improve their findings. The source code is available online: https://github.com/adaptive-intelligent-robotics/QDax
翻訳日:2022-11-07 15:43:14 公開日:2022-11-04
# マルチモーダル抽象要約におけるファクティリティの評価と改善

Evaluating and Improving Factuality in Multimodal Abstractive Summarization ( http://arxiv.org/abs/2211.02580v1 )

ライセンス: Link先を確認
David Wan and Mohit Bansal(参考訳) 抽象文書要約の事実性を評価するための現在の指標は、人間の判断と高い相関性を持つが、それらは視覚的モダリティを考慮せず、視覚的・言語的要約には不十分である。 CLIPScoreとBERTScoreの単純な重み付け組み合わせであるCLIPBERTScoreを提案する。 次に、マルチモーダルな事実性指標の質を評価するためのメタ評価ベンチマークが欠如していることから、文書や画像に対する事実性の人的判断を収集する。 ゼロショット設定におけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性を実現し、既存のマルチモーダル要約指標を上回り、タスクごとに微調整された強力なマルチモーダル事実度指標と競合することを示す。 筆者らは,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を4つの実測値評価ベンチマークで検証した。 最後に, 訓練中に注目すべき重要な画像を選択すること, マルチモーダル要約生成の事実性を改善するための強化学習の報奨として, w.r.t自動評価と人間評価の2つの実践的下流応用を実証する。 私たちのデータとコードはhttps://github.com/meetdavidwan/faithful-multimodal-summで公開されています。

Current metrics for evaluating factuality for abstractive document summarization have achieved high correlations with human judgment, but they do not account for the vision modality and thus are not adequate for vision-and-language summarization. We propose CLIPBERTScore, a simple weighted combination of CLIPScore and BERTScore to leverage the robustness and strong factuality detection performance between image-summary and document-summary, respectively. Next, due to the lack of meta-evaluation benchmarks to evaluate the quality of multimodal factuality metrics, we collect human judgments of factuality with respect to documents and images. We show that this simple combination of two metrics in the zero-shot setting achieves higher correlations than existing factuality metrics for document summarization, outperforms an existing multimodal summarization metric, and performs competitively with strong multimodal factuality metrics specifically fine-tuned for the task. Our thorough analysis demonstrates the robustness and high correlation of CLIPBERTScore and its components on four factuality metric-evaluation benchmarks. Finally, we demonstrate two practical downstream applications of our CLIPBERTScore metric: for selecting important images to focus on during training, and as a reward for reinforcement learning to improve factuality of multimodal summary generation w.r.t automatic and human evaluation. Our data and code are publicly available at https://github.com/meetdavidwan/faithful-multimodal-summ
翻訳日:2022-11-07 15:43:03 公開日:2022-11-04
# 弱教師付き顧客行動データを含む変圧器型代替レコメンデーションモデル

A Transformer-Based Substitute Recommendation Model Incorporating Weakly Supervised Customer Behavior Data ( http://arxiv.org/abs/2211.02533v1 )

ライセンス: Link先を確認
Wenting Ye, Hongfei Yang, Shuai Zhao, Haoyang Fang, Xingjian Shi, Naveen Neppalli(参考訳) 代用品ベースのレコメンデーションは、顧客に対するより良い代替手段を提供するために、Eコマースで広く使われている。 しかし、既存の研究は通常、co-viewやview-but-purchase-anotherといった顧客の行動信号を使用して代替関係を捉える。 直感的な音質にもかかわらず、このようなアプローチは製品の機能や特性を無視する可能性がある。 本稿では,製品名記述をモデル入力として,製品機能を考慮した言語マッチング問題に代用レコメンデーションを適用する。 生産データから得られた信号を非ノイズ化するための新しい変換法を考案する。 さらに,工学的視点から多言語サポートについて考察する。 提案するエンド・ツー・エンドのトランスフォーマーモデルは,オフライン実験とオンライン実験の両方で成功をおさめている。 提案モデルは,6言語11のマーケットプレースを対象に,大規模なeコマースwebサイトに展開されている。 提案モデルでは,オンラインA/B実験により,収益が19%増加することを示した。

The substitute-based recommendation is widely used in E-commerce to provide better alternatives to customers. However, existing research typically uses the customer behavior signals like co-view and view-but-purchase-another to capture the substitute relationship. Despite its intuitive soundness, we find that such an approach might ignore the functionality and characteristics of products. In this paper, we adapt substitute recommendation into language matching problem by taking product title description as model input to consider product functionality. We design a new transformation method to de-noise the signals derived from production data. In addition, we consider multilingual support from the engineering point of view. Our proposed end-to-end transformer-based model achieves both successes from offline and online experiments. The proposed model has been deployed in a large-scale E-commerce website for 11 marketplaces in 6 languages. Our proposed model is demonstrated to increase revenue by 19% based on an online A/B experiment.
翻訳日:2022-11-07 15:42:07 公開日:2022-11-04
# 自律学習者への道

The Path to Autonomous Learners ( http://arxiv.org/abs/2211.02403v1 )

ライセンス: Link先を確認
Hanna Abi Akl(参考訳) 本稿では,知的システムによるドメイン知識獲得を実現するための理論的アプローチを提案する。 本稿では,知識グラフデータベースを用いて概念,記憶,理由の上位オントロジーという形で,入力知識の最小化から始めて,論理ニューラルネットワークを通じて新たな情報を学ぶハイブリッドモデルを提案する。 我々は、新しいデータを扱う際に、このアーキテクチャの振る舞いを研究し、最終システムは現在の知識を豊かにし、新しいドメインに拡張できることを示す。

In this paper, we present a new theoretical approach for enabling domain knowledge acquisition by intelligent systems. We introduce a hybrid model that starts with minimal input knowledge in the form of an upper ontology of concepts, stores and reasons over this knowledge through a knowledge graph database and learns new information through a Logic Neural Network. We study the behavior of this architecture when handling new data and show that the final system is capable of enriching its current knowledge as well as extending it to new domains.
翻訳日:2022-11-07 15:41:53 公開日:2022-11-04
# ログはネットワークタイプを予測する

Logits are predictive of network type ( http://arxiv.org/abs/2211.02272v1 )

ライセンス: Link先を確認
Ali Borji(参考訳) 我々は,どのディープネットワークが与えられたロジットベクトルを精度良く生成したかを予測することができることを示す。 データセット上で多数のネットワークを利用し、ランダムな重みや事前訓練された重みで初期化し、微調整されたネットワークも利用します。 次に、分類器がトレーニングされたデータセットのロジットベクトルに基づいてトレーニングされ、ロジットベクトルを生成されたネットワークインデックスにマッピングする。 次に、分類器はデータセットのテストセットで評価される。 ランダムに初期化されたネットワークでは結果が良くなり、事前訓練されたネットワークや微調整されたネットワークにも一般化される。 非正規化ロジットは正規化ロジットよりも分類精度が高い。 同一ネットワークに分類器を適用する場合,重みのセットが異なる場合,転送がほとんどないことがわかった。 ディープネットワークとそれらが不確実性をエンコードする方法をよりよく理解するために、いくつかのアプリケーション(例えば、ある種類のネットワークに対する敵の攻撃を調整するなど)で有用であると予測する。 コードはhttps://github.com/aliborji/logitsで入手できる。

We show that it is possible to predict which deep network has generated a given logit vector with accuracy well above chance. We utilize a number of networks on a dataset, initialized with random weights or pretrained weights, as well as fine-tuned networks. A classifier is then trained on the logit vectors of the trained set of this dataset to map the logit vector to the network index that has generated it. The classifier is then evaluated on the test set of the dataset. Results are better with randomly initialized networks, but also generalize to pretrained networks as well as fine-tuned ones. Classification accuracy is higher using unnormalized logits than normalized ones. We find that there is little transfer when applying a classifier to the same networks but with different sets of weights. In addition to help better understand deep networks and the way they encode uncertainty, we anticipate our finding to be useful in some applications (e.g. tailoring an adversarial attack for a certain type of network). Code is available at https://github.com/aliborji/logits.
翻訳日:2022-11-07 15:40:55 公開日:2022-11-04
# SelecMix: 対訳 ペアサンプリングによるバイアス付き学習

SelecMix: Debiased Learning by Contradicting-pair Sampling ( http://arxiv.org/abs/2211.02291v1 )

ライセンス: Link先を確認
Inwoo Hwang, Sangjun Lee, Yunhyeok Kwak, Seong Joon Oh, Damien Teney, Jin-Hwa Kim, Byoung-Tak Zhang(参考訳) ERM(経験的リスク最小化)でトレーニングされたニューラルネットワークは、意図しない決定規則を学習することがある。 ネットワークがそのような特徴を学習することを防止するため、最近の手法では、スプリアス相関を示す例(例えばバイアス整合例)がマイノリティとなり、他方がバイアス競合例が一般的になるようなトレーニングデータを強化している。 しかしながら、これらのアプローチは生成モデルや異種表現に依存するため、実世界データへのトレーニングやスケールが難しい場合もあります。 本研究では,トレーニング例の凸コンビネーションを生成する一般的な拡張であるmixupに基づく代替案を提案する。 我々の手法はSelecMixと呼ばれ、矛盾する例のペアにミックスアップを適用する。 (i)同一のラベルであるが異質なバイアスのある特徴、又は (ii)異なるラベルであるが、類似のバイアスがある。 このようなペアを特定するには、未知のバイアスのある特徴に対する例を比較する必要がある。 このために,偏りのある特徴を訓練中に優先的に学習するという,一般的なヒューリスティックと相補的なコントラストモデルを用いる。 標準ベンチマークにおける実験は、特にラベルノイズがバイアス競合例の同定を複雑にしている場合に、この手法の有効性を示す。

Neural networks trained with ERM (empirical risk minimization) sometimes learn unintended decision rules, in particular when their training data is biased, i.e., when training labels are strongly correlated with undesirable features. To prevent a network from learning such features, recent methods augment training data such that examples displaying spurious correlations (i.e., bias-aligned examples) become a minority, whereas the other, bias-conflicting examples become prevalent. However, these approaches are sometimes difficult to train and scale to real-world data because they rely on generative models or disentangled representations. We propose an alternative based on mixup, a popular augmentation that creates convex combinations of training examples. Our method, coined SelecMix, applies mixup to contradicting pairs of examples, defined as showing either (i) the same label but dissimilar biased features, or (ii) different labels but similar biased features. Identifying such pairs requires comparing examples with respect to unknown biased features. For this, we utilize an auxiliary contrastive model with the popular heuristic that biased features are learned preferentially during training. Experiments on standard benchmarks demonstrate the effectiveness of the method, in particular when label noise complicates the identification of bias-conflicting examples.
翻訳日:2022-11-07 15:40:39 公開日:2022-11-04
# 胸部異常分類訓練のための潜在拡散モデルを用いた匿名胸部x線画像の生成

Generation of Anonymous Chest Radiographs Using Latent Diffusion Models for Training Thoracic Abnormality Classification Systems ( http://arxiv.org/abs/2211.01323v2 )

ライセンス: Link先を確認
Kai Packh\"auser, Lukas Folle, Florian Thamm, Andreas Maier(参考訳) 胸部X線データセットの大規模利用は、胸部異常の検出と分類において、優れたディープラーニングベースのアルゴリズムを開発するための要件である。 しかし、胸部X線写真における生体認証は、患者の再同定のリスクのため、研究目的のためにそのようなデータの公開共有を妨げる。 この問題に対処するため、合成データ生成は医療画像の匿名化のためのソリューションを提供する。 本研究は, 潜在拡散モデルを用いて高品質クラス条件画像の匿名胸部x線データセットを合成する。 本稿では,画像生成過程における生体情報の非移動性を保証するプライバシエンハンシングサンプリング戦略を提案する。 胸部異常分類タスクにおいて、生成された画像の品質と排他的トレーニングデータとして機能する可能性を評価する。 実分類器と比較すると,受信機動作特性曲線下の領域における性能差は3.5%であった。

The availability of large-scale chest X-ray datasets is a requirement for developing well-performing deep learning-based algorithms in thoracic abnormality detection and classification. However, biometric identifiers in chest radiographs hinder the public sharing of such data for research purposes due to the risk of patient re-identification. To counteract this issue, synthetic data generation offers a solution for anonymizing medical images. This work employs a latent diffusion model to synthesize an anonymous chest X-ray dataset of high-quality class-conditional images. We propose a privacy-enhancing sampling strategy to ensure the non-transference of biometric information during the image generation process. The quality of the generated images and the feasibility of serving as exclusive training data are evaluated on a thoracic abnormality classification task. Compared to a real classifier, we achieve competitive results with a performance gap of only 3.5% in the area under the receiver operating characteristic curve.
翻訳日:2022-11-07 13:32:15 公開日:2022-11-04
# 低予測リスク領域におけるニューラルマシン翻訳の連続学習

Continual Learning of Neural Machine Translation within Low Forgetting Risk Regions ( http://arxiv.org/abs/2211.01542v2 )

ライセンス: Link先を確認
Shuhao Gu, Bojie Hu, Yang Feng(参考訳) 本稿では,従来のトレーニングデータにアクセスしたり,モデル分離を導入することなく,大規模事前学習型ニューラルマシン翻訳モデルの連続学習を検討する。 補助的損失を伴う多目的学習を行う広範に使用される正規化ベース手法は, 誤評価問題に苦しめられ, 従来課題と新しい課題のバランスが常に良好に保たれていない。 そこで本研究では,実損失の局所的特徴に基づく2段階学習手法を提案する。 まず、パラメータが更新されると、モデルが前のタスクのパフォーマンスを維持できるリスク領域を低く探索し、破滅的な忘れの問題を避ける。 そして、新しいタスクに適合するように、新しいトレーニングデータだけで、この領域内でモデルを継続的にトレーニングできます。 具体的には,モデル出力に対する損失の曲率とパラメータの影響を基準として,忘れられるリスク領域を探索する2つの手法を提案する。 我々はドメイン適応とより困難な言語適応タスクについて実験を行い、実験の結果、複数の強力なベースラインと比較して、この手法が大幅に改善できることが示されている。

This paper considers continual learning of large-scale pretrained neural machine translation model without accessing the previous training data or introducing model separation. We argue that the widely used regularization-based methods, which perform multi-objective learning with an auxiliary loss, suffer from the misestimate problem and cannot always achieve a good balance between the previous and new tasks. To solve the problem, we propose a two-stage training method based on the local features of the real loss. We first search low forgetting risk regions, where the model can retain the performance on the previous task as the parameters are updated, to avoid the catastrophic forgetting problem. Then we can continually train the model within this region only with the new training data to fit the new task. Specifically, we propose two methods to search the low forgetting risk regions, which are based on the curvature of loss and the impacts of the parameters on the model output, respectively. We conduct experiments on domain adaptation and more challenging language adaptation tasks, and the experimental results show that our method can achieve significant improvements compared with several strong baselines.
翻訳日:2022-11-07 13:31:26 公開日:2022-11-04
# SufrinNet: 暗闇の中でのステレオ画像強調のための十分なクロスビューインタラクションを目指して

SufrinNet: Toward Sufficient Cross-View Interaction for Stereo Image Enhancement in The Dark ( http://arxiv.org/abs/2211.00859v2 )

ライセンス: Link先を確認
Huan Zheng, Zhao Zhang, Jicong Fan, Richang Hong, Yi Yang, Shuicheng Yan(参考訳) 低照度ステレオ画像強調(LLSIE)は、暗黒環境で撮影された視覚的に不快なステレオ画像の品質を高めるための比較的新しいタスクである。 これまでのところ、ディープ・ルシーに関する研究は、特定の困難な問題、すなわち、その課題は十分に解決されておらず、現在の方法は明らかに2つの不足に苦しめられている。 1) 相互観の相互作用が不十分である。 2) 視点内学習における長距離依存の欠如。 そこで,本稿では,新しいLLSIEモデルであるC\underline{r}oss-View \underline{In}teraction Network (SufrinNet)を提案する。 具体的には、ビュー間の情報交換を強化するのに十分なビュー間相互作用モジュール(SIIM)を提案する。 SIIMは、異なるスケールでの相互参照相関を発見できるだけでなく、横断的な情報相互作用も探索する。 さらに、ビュー内特徴抽出のための空間チャネル情報マイニングブロック(SIMB)を提案し、その利点は2つある。 1つは空間的長距離関係を構築するための長距離依存性キャプチャであり、もう1つはチャネル次元における情報フローを強化する拡張チャネル情報改善である。 Flickr1024, KITTI 2012, KITTI 2015およびミドルベリーデータセットの大規模な実験により, 本手法は照明調整やディテールリカバリの精度が向上し, 他の手法と比較してSOTA性能が向上することが示された。 私たちのコード、データセット、モデルは公開されます。

Low-light stereo image enhancement (LLSIE) is a relatively new task to enhance the quality of visually unpleasant stereo images captured in dark conditions. So far, very few studies on deep LLSIE have been explored due to certain challenging issues, i.e., the task has not been well addressed, and current methods clearly suffer from two shortages: 1) insufficient cross-view interaction; 2) lacking long-range dependency for intra-view learning. In this paper, we therefore propose a novel LLSIE model, termed \underline{Suf}ficient C\underline{r}oss-View \underline{In}teraction Network (SufrinNet). To be specific, we present sufficient inter-view interaction module (SIIM) to enhance the information exchange across views. SIIM not only discovers the cross-view correlations at different scales, but also explores the cross-scale information interaction. Besides, we present a spatial-channel information mining block (SIMB) for intra-view feature extraction, and the benefits are twofold. One is the long-range dependency capture to build spatial long-range relationship, and the other is expanded channel information refinement that enhances information flow in channel dimension. Extensive experiments on Flickr1024, KITTI 2012, KITTI 2015 and Middlebury datasets show that our method obtains better illumination adjustment and detail recovery, and achieves SOTA performance compared to other related methods. Our codes, datasets and models will be publicly available.
翻訳日:2022-11-07 13:31:08 公開日:2022-11-04
# 動的グラフ学習を改善するための時間認識ランダムウォーク拡散

Time-aware Random Walk Diffusion to Improve Dynamic Graph Learning ( http://arxiv.org/abs/2211.01214v3 )

ライセンス: Link先を確認
Jong-whi Lee, Jinhong Jung(参考訳) 動的グラフニューラルネットワークの性能向上のために、動的グラフをどのように拡張するか? グラフ拡張は、GNNベースのモデルの学習性能を高めるために広く利用されている。 しかし、既存のアプローチのほとんどは、グラフを変換して入力された静的グラフ内の空間構造を強化するだけであり、時間的局所性(例えば、最近のエッジは、以前のものよりも影響が強く、動的グラフの強化には依然として困難である。 本研究では,グラフスナップショットの離散時間列として表される動的グラフの拡散に基づく新しい手法であるTiaRa(Time-aware Random Walk Diffusion)を提案する。 この目的のために,まず,時間的,時間的,時間的,時間的,時間的局所的なスコアをサーファーが歩けるように,時間的なランダムウォーク近接を設計する。 次に,時間認識されたランダムウォークに基づいて拡散行列を導出し,空間的および時間的局所性が拡張された隣接行列となることを示す。 広範な実験を通じて、TiaRaは与えられた動的グラフを効果的に拡張し、様々なグラフデータセットやタスクに対する動的GNNモデルを大幅に改善することを示した。

How can we augment a dynamic graph for improving the performance of dynamic graph neural networks? Graph augmentation has been widely utilized to boost the learning performance of GNN-based models. However, most existing approaches only enhance spatial structure within an input static graph by transforming the graph, and do not consider dynamics caused by time such as temporal locality, i.e., recent edges are more influential than earlier ones, which remains challenging for dynamic graph augmentation. In this work, we propose TiaRa (Time-aware Random Walk Diffusion), a novel diffusion-based method for augmenting a dynamic graph represented as a discrete-time sequence of graph snapshots. For this purpose, we first design a time-aware random walk proximity so that a surfer can walk along the time dimension as well as edges, resulting in spatially and temporally localized scores. We then derive our diffusion matrices based on the time-aware random walk, and show they become enhanced adjacency matrices that both spatial and temporal localities are augmented. Throughout extensive experiments, we demonstrate that TiaRa effectively augments a given dynamic graph, and leads to significant improvements in dynamic GNN models for various graph datasets and tasks.
翻訳日:2022-11-07 13:30:41 公開日:2022-11-04
# 繰り返し可能なランダム置換集合

Repeatable Random Permutation Set ( http://arxiv.org/abs/2211.01676v2 )

ライセンス: Link先を確認
Wenran Yang and Yong Deng(参考訳) 最近提案されたRandom Permutation Set (RPS) は、可能なすべての置換をトラバースすることで、強力な情報表現を可能にする。 しかし、実生活では極めて一般的であるが、RSSではアイテムの反復は許されない。 この問題に対処するために、アイテムの反復を考慮した繰り返し乱数置換セット(\rm R^2PS$)を提案する。 左右の接合和の組合せ規則を提案し, 一貫性, 擬似マット効果, 結合性などの特性について検討した。 これらの特性に基づいて、決定支援システムアプリケーションをシミュレートし、$\rm R^2PS$の有効性を示す。

Random permutation set (RPS), as a recently proposed theory, enables powerful information representation by traversing all possible permutations. However, the repetition of items is not allowed in RPS while it is quite common in real life. To address this issue, we propose repeatable random permutation set ($\rm R^2PS$) which takes the repetition of items into consideration. The right and left junctional sum combination rules are proposed and their properties including consistency, pseudo-Matthew effect and associativity are researched. Based on these properties, a decision support system application is simulated to show the effectiveness of $\rm R^2PS$.
翻訳日:2022-11-07 13:30:19 公開日:2022-11-04
# 30秒心電図による心不全入院リスクの解釈可能推定

Interpretable estimation of the risk of heart failure hospitalization from a 30-second electrocardiogram ( http://arxiv.org/abs/2211.00819v2 )

ライセンス: Link先を確認
Sergio Gonz\'alez, Wan-Ting Hsieh, Davide Burba, Trista Pei-Chun Chen, Chun-Li Wang, Victor Chien-Chia Wu, Shang-Hung Chang(参考訳) 医療におけるサバイバルモデリングは、説明可能な統計モデルに依存しているが、基礎となる仮定はしばしば単純化され、したがって非現実的である。 機械学習モデルは、より複雑な関係を推定し、より正確な予測につながるが、解釈できない。 本研究は,30秒の単心電図信号で心不全の入院を推定できることを示唆する。 機械学習アプローチを使用することで、予測能力が向上するだけでなく、臨床的に意味のある解釈も得られる。 我々は,eXtreme Gradient BoostingAccelerated failure time Modelをトレーニングし,SHapley Additive exPlanations値を利用して各特徴が予測に与える影響を説明する。 本モデルでは,6,573人を対象に,1年で0.828,1年で0.853,2年で0.858と一致した。 これらの結果から,心電図に基づく迅速検査は,高リスク個人を標的とし治療するのに重要である可能性が示唆された。

Survival modeling in healthcare relies on explainable statistical models; yet, their underlying assumptions are often simplistic and, thus, unrealistic. Machine learning models can estimate more complex relationships and lead to more accurate predictions, but are non-interpretable. This study shows it is possible to estimate hospitalization for congestive heart failure by a 30 seconds single-lead electrocardiogram signal. Using a machine learning approach not only results in greater predictive power but also provides clinically meaningful interpretations. We train an eXtreme Gradient Boosting accelerated failure time model and exploit SHapley Additive exPlanations values to explain the effect of each feature on predictions. Our model achieved a concordance index of 0.828 and an area under the curve of 0.853 at one year and 0.858 at two years on a held-out test set of 6,573 patients. These results show that a rapid test based on an electrocardiogram could be crucial in targeting and treating high-risk individuals.
翻訳日:2022-11-07 13:30:09 公開日:2022-11-04
# textcraft: テキストから高度で多様な形状のゼロショット生成

TextCraft: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Text ( http://arxiv.org/abs/2211.01427v2 )

ライセンス: Link先を確認
Aditya Sanghi, Rao Fu, Vivian Liu, Karl Willis, Hooman Shayani, Amir Hosein Khasahmadi, Srinath Sridhar, Daniel Ritchie(参考訳) 言語は、私たちの周りの3D世界を記述する主要な手段の1つです。 テキスト対2d画像合成では急速に進歩しているが、テキスト対3d画像合成における同様の進歩は、ペア(テキスト、形状)データの欠如によって妨げられている。 さらに、既存のテキストから形状への生成法は、形状の多様性と忠実性に制限がある。 トレーニング用の(テキスト, 形状)ペアを必要とせずに, 高忠実で多様な3次元形状を生成することによって, これらの制約に対処するTextCraftを導入する。 テキストクラフトは、CLIPを使用して、まず低次元の潜在空間を生成し、次に高解像度にアップスケーリングすることで、生成した形状の忠実度を向上させることで、これを実現している。 形状の多様性を向上させるために,CLIPにより誘導される画像テキスト埋め込み空間に条件付き双方向変換器を用いてモデル化した離散潜在空間を用いる。 さらに,精度・多様性のトレードオフをさらに改善した分類器フリーガイダンスの新たな変種を提案する。 最後に,textcraftが最先端のベースラインを上回ることを示す広範な実験を行う。

Language is one of the primary means by which we describe the 3D world around us. While rapid progress has been made in text-to-2D-image synthesis, similar progress in text-to-3D-shape synthesis has been hindered by the lack of paired (text, shape) data. Moreover, extant methods for text-to-shape generation have limited shape diversity and fidelity. We introduce TextCraft, a method to address these limitations by producing high-fidelity and diverse 3D shapes without the need for (text, shape) pairs for training. TextCraft achieves this by using CLIP and using a multi-resolution approach by first generating in a low-dimensional latent space and then upscaling to a higher resolution, improving the fidelity of the generated shape. To improve shape diversity, we use a discrete latent space which is modelled using a bidirectional transformer conditioned on the interchangeable image-text embedding space induced by CLIP. Moreover, we present a novel variant of classifier-free guidance, which further improves the accuracy-diversity trade-off. Finally, we perform extensive experiments that demonstrate that TextCraft outperforms state-of-the-art baselines.
翻訳日:2022-11-07 13:23:47 公開日:2022-11-04
# 安定拡散による合成画像データセットの評価

Evaluating a Synthetic Image Dataset Generated with Stable Diffusion ( http://arxiv.org/abs/2211.01777v2 )

ライセンス: Link先を確認
Andreas St\"ockl(参考訳) 我々は,Wordnet分類とそれを含む概念の定義を用いて,「安定拡散」画像生成モデルを用いて合成画像を生成する。 この合成画像データベースは、機械学習アプリケーションにおけるデータ拡張のためのトレーニングデータとして使用することができ、安定拡散モデルの能力を調べるために使用される。 解析によれば、安定拡散は多数の概念に対して正しい画像を生成することができるが、同時に様々な表現も生成できる。 結果は,検討したテスト概念と,非常に具体的な概念を持つ問題によって差異を示す。 これらの評価は視覚変換器モデルを用いて画像分類を行った。

We generate synthetic images with the "Stable Diffusion" image generation model using the Wordnet taxonomy and the definitions of concepts it contains. This synthetic image database can be used as training data for data augmentation in machine learning applications, and it is used to investigate the capabilities of the Stable Diffusion model. Analyses show that Stable Diffusion can produce correct images for a large number of concepts, but also a large variety of different representations. The results show differences depending on the test concepts considered and problems with very specific concepts. These evaluations were performed using a vision transformer model for image classification.
翻訳日:2022-11-07 13:23:29 公開日:2022-11-04
# 人工ニューラルネットワークにおける粗粒構造探索

Exploring explicit coarse-grained structure in artificial neural networks ( http://arxiv.org/abs/2211.01779v2 )

ライセンス: Link先を確認
Xi-Ci Yang, Z. Y. Xie, Xiao-Tao Yang(参考訳) 本稿では,ニューラルネットワークの階層的粗粒度構造を用いて,性能を劣化させることなく解釈性を向上させることを提案する。 その考えは2つの状況に適用された。 ひとつはTaylorNetと呼ばれるニューラルネットワークで、入力データから出力結果への一般的なマッピングを、魔法の非線形アクティベーションに頼ることなく、直接テイラー級数の観点から近似することを目的としている。 もうひとつはデータ蒸留のための新しいセットアップで、入力データセットのマルチレベル抽象化を実行し、元のデータセットの関連する特徴を持つ新しいデータを生成し、分類のリファレンスとして使用することができる。 どちらの場合も、粗粒構造はネットワークを単純化し、解釈可能性と効率性の両方を改善する上で重要な役割を果たす。 この妥当性はMNISTとCIFAR-10データセットで実証されている。 さらなる改善といくつかのオープン質問も議論されている。

We propose to employ the hierarchical coarse-grained structure in the artificial neural networks explicitly to improve the interpretability without degrading performance. The idea has been applied in two situations. One is a neural network called TaylorNet, which aims to approximate the general mapping from input data to output result in terms of Taylor series directly, without resorting to any magic nonlinear activations. The other is a new setup for data distillation, which can perform multi-level abstraction of the input dataset and generate new data that possesses the relevant features of the original dataset and can be used as references for classification. In both cases, the coarse-grained structure plays an important role in simplifying the network and improving both the interpretability and efficiency. The validity has been demonstrated on MNIST and CIFAR-10 datasets. Further improvement and some open questions related are also discussed.
翻訳日:2022-11-07 13:23:21 公開日:2022-11-04
# 連合型多変量統計プロセス制御(FedMSPC)を目指して

Towards federated multivariate statistical process control (FedMSPC) ( http://arxiv.org/abs/2211.01645v2 )

ライセンス: Link先を確認
Du Nguyen Duy, David Gabauer, Ramin Nikzad-Langerodi(参考訳) 線形(生産-使用-処分)から循環型経済への移行は、現在の最先端情報通信技術に重大な課題をもたらす。 特に、バリューチェーンに沿って生成された(リアルタイム)データから、材料、プロセス、製品ストリームに関する統合された高レベルなビューを導出することは、いくつかの理由から難しい。 プライバシ上の懸念から、入力材料、プロセスパラメータ、およびバリューチェーンに沿った重要なパフォーマンス指標間の相互関係をキャプチャする統合プロセスモデルの構築が不可能になるからです。 本稿では,フェデレート主成分分析(PCA)とSecure Multiparty Computationに基づく,プライバシ保護・フェデレーション型多変量統計プロセス制御(FedMSPC)フレームワークを提案する。 提案手法はSECOMとST-AWFDの2つの産業ベンチマークデータセットで検証した。 実験により,提案手法の故障検出能力は,標準の単方向(複数方向)PCAと比較して優れていることが示された。 さらに,バリューチェーン内の各データホルダにプライバシ保存障害診断を提供し,セキュアなデータ共有とフェデレーションプロセスモデリングのメリットを生かすためのフレームワークの可能性を示す。

The ongoing transition from a linear (produce-use-dispose) to a circular economy poses significant challenges to current state-of-the-art information and communication technologies. In particular, the derivation of integrated, high-level views on material, process, and product streams from (real-time) data produced along value chains is challenging for several reasons. Most importantly, sufficiently rich data is often available yet not shared across company borders because of privacy concerns which make it impossible to build integrated process models that capture the interrelations between input materials, process parameters, and key performance indicators along value chains. In the current contribution, we propose a privacy-preserving, federated multivariate statistical process control (FedMSPC) framework based on Federated Principal Component Analysis (PCA) and Secure Multiparty Computation to foster the incentive for closer collaboration of stakeholders along value chains. We tested our approach on two industrial benchmark data sets - SECOM and ST-AWFD. Our empirical results demonstrate the superior fault detection capability of the proposed approach compared to standard, single-party (multiway) PCA. Furthermore, we showcase the possibility of our framework to provide privacy-preserving fault diagnosis to each data holder in the value chain to underpin the benefits of secure data sharing and federated process modeling.
翻訳日:2022-11-07 13:23:06 公開日:2022-11-04