このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221027となっている論文です。

PDF登録状況(公開日: 20221027)

TitleAuthorsAbstract論文公表日・翻訳日
# 光通信における複合PMD PDL効果の数学的記述と誘導障害の最小化について

On the mathematical description of combined PMD PDL effects in optical communications and how their induced impairments can be minimized ( http://arxiv.org/abs/2209.07855v3 )

ライセンス: Link先を確認
Carlos L. Janer(参考訳) 本稿では,光ファイバーにおける偏光モード分散と偏光依存損失(複合PMD-PDL効果または障害)の組み合わせによる正しい数学的枠組みが,拡張ローレンツ群の既約スピノル表現であることを示す。 pmd-pdl効果はスピン1/2質量粒子に作用するローレンツ変換と形式的に同一であることが示されている。 制限ローレンツ群には2つの異なる既約スピノル表現が存在するため、PMD-PDL効果の記述に関係のある2種類の偏極状態(SOP)が存在する必要がある。 一方を他方に変換できる光学過程は、光学位相共役(optical phase conjugation)として識別される。 光位相共役はローレンツ群表現論における時間反転作用素と同じ役割を果たす。 PMD-PDL誘発障害を著しく低減する手法である,これらのアイデアの実用的かつ極めて重要な例を示す。 この技術は、組み合わせたPMD-PDL障害のPDL部分を、非常にシンプルで簡単な方法でキャンセルすることができる。

In this paper it is shown that the correct mathematical framework of combined polarization mode dispersion and polarization dependent losses (combined PMD-PDL effects or impairments) in optical fibers is the irreducible spinor representation of the extended Lorentz Group. Combined PMD-PDL effects are shown to be formally identical to Lorentz Transformations acting on spin 1/2 zero mass particles. Since there are two different irreducible spinor representations of the restricted Lorentz Group, there must also exist two kinds of states of polarizations (SOPs) that are relevant in the description of PMD-PDL effects. The optical process that allows to convert one kind into the other is identified as optical phase conjugation. Optical phase conjugation plays the same role as the time inversion operator in the Lorentz Group representation theory. A practical and extremely important example of utility of these ideas, a technique that significantly reduces the PMD-PDL induced impairments, is presented. This technique allows to cancel the PDL part of the combined PMD-PDL impairments in a very simple and straightforward way.
翻訳日:2023-01-30 11:49:15 公開日:2022-10-27
# DARTWARSプロジェクトのためのKITWPAの開発

Progress in the development of a KITWPA for the DARTWARS project ( http://arxiv.org/abs/2208.10101v2 )

ライセンス: Link先を確認
M. Borghesi, C. Barone, S. Capelli, G. Carapella, A. P. Caricato, I. Carusotto, A. Cian, D. Di Gioacchino, E. Enrico, P. Falferi, L. Fasolo, M. Faverzani, E. Ferri, G. Filatrella, C. Gatti, A. Giachero, D. Giubertoni, V. Granata, A. Greco, C. Guarcello, D. Labranca, A. Leo, C. Ligi, G. Maccarrone, F. Mantegazzini, B. Margesin, G. Maruccio, C. Mauro, R. Mezzena, A. G. Monteduro, A. Nucciotti, L. Oberto, L. Origo, S. Pagano, V. Pierro, L. Piersanti, M. Rajteri, A. Rettaroli, S. Rizzato, A. Vinante, M. Zannoni(参考訳) DARTWARS(Detector Array Readout with Traveling Wave AmplifieRS)は、低温検出器とキュービットリードアウト(Cバンド)のための高性能で革新的なTWPAの開発を目的とした3年間のプロジェクトである。 実用的な開発は、ジョセフソン接合(twjpa)に基づくものと、高抵抗超伝導体(kitwpa)の動的インダクタンスに基づく2つの異なる有望なアプローチに従う。 本稿では,dartwarsコラボレーションがkitwpaの最初の実働プロトタイプを作成するための進歩について述べる。

DARTWARS (Detector Array Readout with Traveling Wave AmplifieRS) is a three years project that aims to develop high-performing innovative Traveling Wave Parametric Amplifiers (TWPAs) for low temperature detectors and qubit readout (C-band). The practical development follows two different promising approaches, one based on the Josephson junctions (TWJPA) and the other one based on the kinetic inductance of a high-resistivity superconductor (KITWPA). This paper presents the advancements made by the DARTWARS collaboration to produce a first working prototype of a KITWPA.
翻訳日:2023-01-30 05:09:51 公開日:2022-10-27
# 2次元における相互作用フロッケ系に対するバルク・バウンダリー対応

Bulk-boundary correspondence for interacting Floquet systems in two dimensions ( http://arxiv.org/abs/2209.03975v2 )

ライセンス: Link先を確認
Carolyn Zhang and Michael Levin(参考訳) 本稿では,2次元の空間的相互作用を持つ多体局所フロッケ系に対して,バルクおよびエッジ不変量を求める手法を提案する。 この方法は、フローと呼ばれる一般的な数学的対象に基づいている。 この方法の適用例として、対称性のないフロケット系や$U(1)$対称性を持つ系のバルク不変量を導出する。 また、既知の単粒子および多体不変量の新しい定式化も導出する。 対称性のないボソニック系の場合、我々の不変量は、有理値のGNVW指数 $\frac{p}{q}$ のバルクとなる。

We present a method for deriving bulk and edge invariants for interacting, many-body localized Floquet systems in two spatial dimensions. This method is based on a general mathematical object which we call a flow. As an application of our method, we derive bulk invariants for Floquet systems without symmetry, as well as for systems with $U(1)$ symmetry. We also derive new formulations of previously known single-particle and many-body invariants. For bosonic systems without symmetry, our invariant gives a bulk counterpart of the rational-valued GNVW index $\frac{p}{q}$ quantifying transport of quantum information along the edge.
翻訳日:2023-01-27 07:44:54 公開日:2022-10-27
# 実世界・小・高次元データセットのための量子転送学習

Quantum Transfer Learning for Real-World, Small, and High-Dimensional Datasets ( http://arxiv.org/abs/2209.07799v3 )

ライセンス: Link先を確認
Soronzonbold Otgonbaatar, Gottfried Schwarz, Mihai Datcu, and Dieter Kranzlm\"uller(参考訳) 量子機械学習(QML)ネットワークは、従来の深層学習(DL)技術よりも教師付きデータセット(衛星画像など)を局所的な有効次元を通じて表現力によって分類する際の計算的(または量子的)優位性を約束する。 しかし、約束された量子的優位性にかかわらず、主な課題は2つある。 1) 現在利用可能な量子ビット(量子ビット)は数が非常に少ないが、現実のデータセットは数百の高次元要素(すなわち特徴)によって特徴づけられる。 さらに、現実世界の高次元データセットを限られた数キュービットに埋め込むための単一の統一的なアプローチは存在しない。 2) 実世界のデータセットは複雑なQMLネットワークをトレーニングするには小さすぎる。 したがって、実世界、小規模、高次元のデータセット上でのQMLネットワークのベンチマークと検証の2つの課題に取り組むために、我々は、マルチキュービットQMLネットワークと非常に深い畳み込みネットワーク(VGG16アーキテクチャを含む)からなる量子トランスファー学習を用いて、どんな小さな高次元のデータセットからも情報的特徴を抽出する。 我々は,マルチキュービットQMLネットワークとして,データ再ロード層を伴わない実振幅および強絡N層QMLネットワークを用い,その局所有効次元を用いてその表現力を評価する。 数値計算の結果, 強絡N層QMLネットワークは実振幅QMLネットワークよりも局所的な有効次元が低く, 分類が難しい3クラスラベリング問題よりも優れていることがわかった。 さらに、量子転送学習は、実世界、小規模、高次元のデータセット上でのQMLネットワークのベンチマークと検証の2つの課題に取り組むのに役立つ。

Quantum machine learning (QML) networks promise to have some computational (or quantum) advantage for classifying supervised datasets (e.g., satellite images) over some conventional deep learning (DL) techniques due to their expressive power via their local effective dimension. There are, however, two main challenges regardless of the promised quantum advantage: 1) Currently available quantum bits (qubits) are very small in number, while real-world datasets are characterized by hundreds of high-dimensional elements (i.e., features). Additionally, there is not a single unified approach for embedding real-world high-dimensional datasets in a limited number of qubits. 2) Some real-world datasets are too small for training intricate QML networks. Hence, to tackle these two challenges for benchmarking and validating QML networks on real-world, small, and high-dimensional datasets in one-go, we employ quantum transfer learning composed of a multi-qubit QML network, and a very deep convolutional network (a with VGG16 architecture) extracting informative features from any small, high-dimensional dataset. We use real-amplitude and strongly-entangling N-layer QML networks with and without data re-uploading layers as a multi-qubit QML network, and evaluate their expressive power quantified by using their local effective dimension; the lower the local effective dimension of a QML network, the better its performance on unseen data. Our numerical results show that the strongly-entangling N-layer QML network has a lower local effective dimension than the real-amplitude QML network and outperforms it on the hard-to-classify three-class labelling problem. In addition, quantum transfer learning helps tackle the two challenges mentioned above for benchmarking and validating QML networks on real-world, small, and high-dimensional datasets.
翻訳日:2023-01-26 09:45:44 公開日:2022-10-27
# 分離可能な状態の最適化に基づく量子ワッサースタイン距離

Quantum Wasserstein distance based on an optimization over separable states ( http://arxiv.org/abs/2209.09925v2 )

ライセンス: Link先を確認
G\'eza T\'oth, J\'ozsef Pitrik(参考訳) 量子ワッサーシュタイン距離を定義し、この最適化は一般に二部分量子状態よりも二部分量子状態上で行われ、その性質を調べる。 驚いたことに、その自己距離は量子フィッシャー情報と関連している。 量子ワッサーシュタイン距離が量子絡みの検出基準にどのように関係しているかを論じる。 我々は、量子waserstein距離から得られる分散様の量を、量子状態上の最小化を最大化に置き換えることで定義する。 我々は、結果を一般化された量子フィッシャー情報のファミリーに拡張する。

We define the quantum Wasserstein distance such that the optimization is carried out over bipartite separable states rather than bipartite quantum states in general, and examine its properties. Surprisingly, we find that its self-distance is related to the quantum Fisher information. We discuss how the quantum Wasserstein distance introduced is connected to criteria detecting quantum entanglement. We define variance-like quantities that can be obtained from the quantum Wasserstein distance by replacing the minimization over quantum states by a maximization. We extend our results to a family of generalized quantum Fisher information.
翻訳日:2023-01-25 23:11:15 公開日:2022-10-27
# 二次元相互作用不規則フェルミオンの力学に関する半古典的境界

Semiclassical bounds on dynamics of two-dimensional interacting disordered fermions ( http://arxiv.org/abs/2209.15062v2 )

ライセンス: Link先を確認
{\L}ukasz Iwanek, Marcin Mierzejewski, Anatoli Polkovnikov, Dries Sels, Adam S. Sajna(参考訳) truncated Wigner approximation (TWA) を用いて、潜在的な障害を伴うスピンレスフェルミオンと相互作用する2次元格子系のクエンチダイナミクスを研究する。 まず、半古典力学は一般に完全な量子力学よりも早く緩和することを示す。 この結果は,半古典力学と完全対角化と一次元鎖のランチョス伝播を比較して得られる。 次に, 大規模格子を模擬するTWA機能を活用し, 緩和速度が実験システムの寸法依存性にどのように依存するかを検討する。 強無秩序な1次元系と2次元系が一次元鎖に対して最近確立された過渡的対数的時間緩和を示すことを示す。 このような緩和は、強い障害における悪名高い1/f$-noiseに相当する。

Using the truncated Wigner approximation (TWA) we study quench dynamics of two-dimensional lattice systems consisting of interacting spinless fermions with potential disorder. First, we demonstrate that the semiclassical dynamics generally relaxes faster than the full quantum dynamics. We obtain this result by comparing the semiclassical dynamics with exact diagonalization and Lanczos propagation of one-dimensional chains. Next, exploiting the TWA capabilities of simulating large lattices, we investigate how the relaxation rates depend on the dimensionality of the studied system. We show that strongly disordered one-dimensional and two-dimensional systems exhibit a transient, logarithmic-in-time relaxation, which was recently established for one-dimensional chains. Such relaxation corresponds to the infamous $1/f$-noise at strong disorder.
翻訳日:2023-01-24 10:05:47 公開日:2022-10-27
# 二重双極子ボース-アインシュタイン凝縮体中の液滴アレイ

Droplet Arrays in Doubly-Dipolar Bose-Einstein condensates ( http://arxiv.org/abs/2210.01093v2 )

ライセンス: Link先を確認
Ratheejit Ghosh, Chinmayee Mishra, Luis Santos and Rejish Nath(参考訳) 二重双極子粒子のガスは、磁気と電気の両方の双極子モーメントを持ち、興味深い新しい可能性をもたらす。 二重双極子相互作用, 量子安定化, および外部閉じ込めの相互作用は, 二重双極子凝縮体中の超固体および非コヒーレント液滴アレイの豊富な基底状態物理学をもたらすことを示す。 本研究では,超固体遷移やパンケーキ液滴の超固体配列の実現など,量子液滴と液滴超固体をエンジニアリングする新たな可能性を明らかにする。

Gases of doubly-dipolar particles, with both magnetic and electric dipole moments, offer intriguing novel possibilities. We show that the interplay between doubly-dipolar interactions, quantum stabilization, and external confinement results in a rich ground-state physics of supersolids and incoherent droplet arrays in doubly-dipolar condensates. Our study reveals novel possibilities for engineering quantum droplets and droplet supersolids, including supersolid-supersolid transitions and the realization of supersolid arrays of pancake droplets.
翻訳日:2023-01-24 00:37:40 公開日:2022-10-27
# 運動量搬送単モード量子化場に対するオープン2バンドシステムの応答

Response of open two-band systems to a momentum-carrying single-mode quantized field ( http://arxiv.org/abs/2210.11230v2 )

ライセンス: Link先を確認
Xue Han, Kang Xue, X. X. Yi(参考訳) 新しい量子状態として、トポロジカル絶縁体は凝縮物質と物質科学の焦点となっている。 トポロジカル絶縁体のオープンシステム研究は多くの研究者の関心を喚起した。 近年、新しい量子効果の予測や発見、新しい物質のトポロジカルな性質の応用など、多くの側面、特に実験的な側面が急速に発展してきたが、理論的な研究はわずかに難しい。 本稿では,運動量担持単モード場によるトポロジカル絶縁体の応答について検討する。 調整可能な光子運動量を持つ単一モード光電場を付加した後、系の基底状態を解決する。 具体的には, ホールコンダクタンスの解析解を閉系と比較すると, 余分な補正項が存在し, ホールコンダクタンスをチャーン数あるいはチャーン数の重み付け和で表すことができないことを示す。 さらに, トポロジカルな性質を解析し, 図解を用いて異なる事例の結果から考察した。 このように、トポロジカル相の相転移点は環境に対して堅牢であり、系は依然としてトポロジカル相転移を有する。 実験によって実現または制御されることが期待されており、この観測は凝縮物質物理学や量子統計物理学の応用と拡張に寄与する可能性がある。

As a new quantum state, topological insulators have become the focus of condensed matter and material science. The open system research of topological insulators has aroused the interest of many researchers. Recently, many aspects, especially experimental aspects, have been developed rapidly, such as prediction and discovery of many novel quantum effects and applications of topological properties of new materials, but the theoretical research is slightly tough. In this paper, we study the response of topological insulator driven by momentum-carrying single-mode field. We solve the ground state of the system after the addition of a single mode light field with adjustable photon momentum. Specifically, We show that from the analytical solution of hall conductance compared with the closed system, there is an extra correction term, and hall conductance can no longer be expressed in terms of the chern number or the weighted sum of the chern number. Furthermore, the topological properties are analyzed and discussed through the results of different instance with their illustration. Such as, the phase transition point of topological phase is robust to the environment, and the system still has topological phase transition. It is expected to be realized or controlled by experiments, and our observations may contribute to its application and extension in condensed matter physics and quantum statistical physics.
翻訳日:2023-01-22 04:11:08 公開日:2022-10-27
# 近似量子ランダムアクセスメモリアーキテクチャ

Approximate Quantum Random Access Memory Architectures ( http://arxiv.org/abs/2210.14804v2 )

ライセンス: Link先を確認
Koustubh Phalak, Junde Li and Swaroop Ghosh(参考訳) 量子超越性(Quantum supremacy)は、よく知られた量子アルゴリズムを用いた多くのアプリケーションにおいて、量子形式におけるデータの可用性に依存する。 量子ランダムアクセスメモリ(QRAM)は、古典的ランダムアクセスメモリ(RAM)に相当するもので、この要件を満たす。 しかし、既存のQRAM提案では、クォート技術または/またはアクセスの問題が必要となる。 本稿では、アドレス線を入力とし、これらのアドレス線内の対応するデータを出力として出力する近似パラメトリック量子回路(pqc)ベースのqramを提案する。 提案するPQCベースのQRAMの2つの応用として、バイナリデータのストレージと機械学習データセットのストレージを分類する。

Quantum supremacy in many applications using well-known quantum algorithms rely on availability of data in quantum format. Quantum Random Access Memory (QRAM), an equivalent of classical Random Access Memory (RAM), fulfills this requirement. However, the existing QRAM proposals either require qutrit technology and/or incur access challenges. We propose an approximate Parametric Quantum Circuit (PQC) based QRAM which takes address lines as input and gives out the corresponding data in these address lines as the output. We present two applications of the proposed PQC-based QRAM namely, storage of binary data and storage of machine learning (ML) dataset for classification.
翻訳日:2023-01-21 18:26:49 公開日:2022-10-27
# 位相雑音下における量子前処理の性能

Performance of Quantum Preprocessing under Phase Noise ( http://arxiv.org/abs/2210.14008v2 )

ライセンス: Link先を確認
Zuhra Amiri, Boulat A. Bash, Janis N\"otzel(参考訳) 光ファイバー伝送システムは、今日の通信ネットワークのバックボーンを形成し、将来のネットワークにとっても非常に重要である。 光ファイバの顕著なノイズ効果は、カー効果によって誘導される位相雑音である。 この効果は、これらのネットワークのデータ伝送容量を制限し、受信機に高い処理負荷を発生させる。 同時に、量子情報処理技術はより効率的な解を提供するが、サイズ、消費電力、ノイズ耐性の点で非効率であると考えられている。 本稿では,全光ジョイント検出受信機の概念について検討する。 本研究では,kerr効果による高レベル雑音下でも,プリプロセッサとして使用する場合のバウレート向上に寄与することを示す。

Optical fiber transmission systems form the backbone of today's communication networks and will be of high importance for future networks as well. Among the prominent noise effects in optical fiber is phase noise, which is induced by the Kerr effect. This effect limits the data transmission capacity of these networks and incurs high processing load on the receiver. At the same time, quantum information processing techniques offer more efficient solutions but are believed to be inefficient in terms of size, power consumption and resistance to noise. Here we investigate the concept of an all-optical joint detection receiver. We show how it contributes to enabling higher baud-rates for optical transmission systems when used as a pre-processor, even under high levels of noise induced by the Kerr effect.
翻訳日:2023-01-21 16:06:24 公開日:2022-10-27
# 長期励起エネルギー移動ダイナミクス予測のための統計的および機械学習手法

Statistical and machine learning approaches for prediction of long-time excitation energy transfer dynamics ( http://arxiv.org/abs/2210.14160v2 )

ライセンス: Link先を確認
Kimara Naicker, Ilya Sinayskiy, Francesco Petruccione(参考訳) 開量子系の力学の解法の一つに、階層的な運動方程式(HEOM)がある。 数値的精度は高いが、この方法は膨大な計算資源を必要とする。 ここでの目標は、sarima、catboost、prophet、convolutional、recurrentニューラルネットワークなどのモデルがこの要件をバイパスできるかどうかを実証することである。 我々は、まずHEOMを解くことで、光合成系における励起エネルギー伝達の散逸ダイナミクスを表現した時系列のデータセットを生成し、このデータを用いて、初期短時間のダイナミクスが与えられる場合にのみ、長期間のダイナミクスを予測することができるモデルをテストする。 以上の結果から,SARIMAモデルが長期力学の予測を行うための計算コストが安価かつ正確な方法として機能することが示唆された。

One of the approaches used to solve for the dynamics of open quantum systems is the hierarchical equations of motion (HEOM). Although it is numerically exact, this method requires immense computational resources to solve. The objective here is to demonstrate whether models such as SARIMA, CatBoost, Prophet, convolutional and recurrent neural networks are able to bypass this requirement. We are able to show this successfully by first solving the HEOM to generate a data set of time series that depict the dissipative dynamics of excitation energy transfer in photosynthetic systems then, we use this data to test the models ability to predict the long-time dynamics when only the initial short-time dynamics is given. Our results suggest that the SARIMA model can serve as a computationally inexpensive yet accurate way to predict long-time dynamics.
翻訳日:2023-01-21 15:56:21 公開日:2022-10-27
# パリティ非依存配向原子の巨視的schr\"odinger cat状態の高速生成

Rapid Generation of a Macroscopic Schr\"odinger Cat State of Atoms with Parity-Independent Orientation ( http://arxiv.org/abs/2210.15115v1 )

ライセンス: Link先を確認
Jinyang Li, Gregorio R.M. da Silva, Schuyler Kain, Selim M. Shahriar(参考訳) 本研究では, 単一原子の量子状態を操作することにより, 多数の原子の磁気モーメントの配向を制御可能であることを示す。 この制御技術では、決定論的に1つの原子でアンサンブルを絡めることも可能であり、これはschr\"odinger catとして知られる思考実験を模倣している。 さらに、この技術により、多数の原子に対してメソスコピックなSchr\"odinger cat状態を生成することができ、そのような状態を生成する従来のプロセスよりもはるかに高速に、原子数のパリティに依存しない配向を持つことができる。 エコー構成とは別に,一軸ツイストのスクイーズパラメータの特別な値に対する挙動についても検討した。 n とスクイージングパラメータの積が pi に等しければ、スクイージングプロパゲータは n の回転作用素の和として表現できる(ただし、n は 0 でない整数)。 この性質の直接の結果は、フシミ準確率分布が不規則に見えたとしても、この条件下で生じる圧縮状態に隠れた順序が存在するということである。

We show that using the process of one-axis-twist squeezing in an echo configuration, it is possible to control the orientation of the macroscopic magnetic moment of a large number of atoms by manipulating the quantum state of a single atom that is physically isolated from the ensemble. With this control technique, it is also possible to entangle an ensemble with a single atom deterministically, which mimics the thought experiment known as the Schr\"odinger cat. In addition, this technique would make it possible to generate a mesoscopic Schr\"odinger cat state for a large number of atoms far more rapidly that the conventional process for generating such a state, with an orientation that is independent of the parity of the number of atoms. Apart from the echo configuration, we have also investigated the behavior of one-axis-twist squeezing for some special values of the squeezing parameter. We find that the squeezing propagator can be expressed as the sum of n rotation operators if the product of n and the squeezing parameter equals pi, where n is a non-zero integer. A direct consequence of this property of one-axis-twist squeezing is that there is a hidden order in a squeezed state generated under this condition even if its Husimi quasi-probability distribution looks irregular.
翻訳日:2023-01-21 08:27:27 公開日:2022-10-27
# カシミール-リフシッツトルクの競合による符号反転:位相ノード線半金属の研究

Competition-Induced Sign Reversal of Casimir-Lifshitz Torque: An Investigation on Topological Node-Line Semimetal ( http://arxiv.org/abs/2210.15106v1 )

ライセンス: Link先を確認
Liang Chen and Xuan Guo(参考訳) トポロジカルノード線半金属中の準粒子の分散は、異なる方向に大きく異なる。 ある方向において、準粒子は一定速度の相対論的粒子のように振る舞う。 他の方向には、2次元の電子ガスとして作用する。 相対論的分散と非相対論的分散の競合は、カシミール・リフシッツトルクの符号反転を引き起こす。 3つの異なるアプローチを適用することで、この符号反転、すなわち、ノードライン半金属における異方性パラメータまたは化学ポテンシャルをチューニングし、この物質と基板の複屈折の距離を変化させることができる。 トポロジカルノード線半金属 Ca$_3$P$_2$ および液晶材料 4-シアノ-4-n-ペンチルシクロヘキサン-フェニル の系について詳細な計算を行った。

The dispersion of quasiparticles in topological node-line semimetals is significantly different in different directions. In a certain direction, the quasiparticles behave like relativistic particles with constant velocity. In other directions, they act as two-dimensional electron gas. The competition between relativistic and nonrelativistic dispersions can induce a sign reversal of Casimir-Lifshitz torque. Three different approaches can be applied to generate this sign reversal, i.e., tuning the anisotropic parameter or chemical potential in node-line semimetal, changing the distance between this material and substrate birefringence. Detailed calculations are illustrated for the system with topological node-line semimetal Ca$_3$P$_2$ and liquid crystal material 4-cyano-4-n-pentylcyclohexane-phenyl.
翻訳日:2023-01-21 08:27:04 公開日:2022-10-27
# 時空古典影による入浴非マルコビアン性からのクロストークのフィルタリング

Filtering crosstalk from bath non-Markovianity via spacetime classical shadows ( http://arxiv.org/abs/2210.15333v1 )

ライセンス: Link先を確認
Gregory A. L. White, Kavan Modi, Charles D. Hill(参考訳) 開システムの観点からは、近くの浴槽や隣接するキュービットによる非マルコフ効果は動的に等価である。 しかし、考慮すべき概念的な違いがある:隣のキュービットを制御できる。 非マルコフ量子過程トモグラフィーの最近の進歩と古典影の枠組みを組み合わせることで時空間的量子相関を特徴付ける。 ここでの可観測性はシステムに適用される操作であり、自由操作は最大偏極チャネルである。 これを因果切断として、時間的相関の先駆者を狭めるために因果経路を系統的に消去する。 この応用の一つはクロストークの効果を除去し、到達不能な浴槽から非マルコビアン性のみをプローブすることである。 また、共通の環境から格子全体に時空間的に相関するノイズを拡散するレンズを提供する。 両者の例を合成データで示す。 古典影のスケーリングにより、任意の数の隣接する量子ビットを余分なコストで消去することができる。 したがって,本手法は全対一のインタラクションであっても,システムに対して効率的かつ快適である。

From an open system perspective non-Markovian effects due to a nearby bath or neighbouring qubits are dynamically equivalent. However, there is a conceptual distinction to account for: neighbouring qubits may be controlled. We combine recent advances in non-Markovian quantum process tomography with the framework of classical shadows to characterise spatiotemporal quantum correlations. Observables here constitute operations applied to the system, where the free operation is the maximally depolarising channel. Using this as a causal break, we systematically erase causal pathways to narrow down the progenitors of temporal correlations. We show that one application of this is to filter out the effects of crosstalk and probe only non-Markovianity from an inaccessible bath. It also provides a lens on spatiotemporally spreading correlated noise throughout a lattice from common environments. We demonstrate both examples on synthetic data. Owing to the scaling of classical shadows, we can erase arbitrarily many neighbouring qubits at no extra cost. Our procedure is thus efficient and amenable to systems even with all-to-all interactions.
翻訳日:2023-01-21 08:24:30 公開日:2022-10-27
# 量子誤差緩和のための仮想蒸留回路のノイズに関する研究

Study of noise in virtual distillation circuits for quantum error mitigation ( http://arxiv.org/abs/2210.15317v1 )

ライセンス: Link先を確認
Pontus Vikst{\aa}l, Giulia Ferrini, Shruti Puri(参考訳) 仮想蒸留は量子アルゴリズムにおける可観測物の期待値を推定するための誤り軽減プロトコルとして提案されている。 制御されたスワップゲートの列を用いて、量子状態のM$ノイズコピーの巡回置換を生成する。 雑音が密度作用素の支配的固有ベクトルを理想状態から遠ざけていない場合、期待値推定の誤差は指数関数的に$m$で減少することができる。 実際には、循環置換回路自体のノイズの影響を抑えるために、後続の誤差軽減技術が必要であるため、実験的な複雑さが増大する。 本稿では,循環置換回路の雑音を注意深く解析し,計算ベースで対角的に観測可能な観測値の期待値の推定は,劣化ノイズに対して頑健であることを示す。 数値シミュレーションを用いて解析結果をサポートし,誤差の6,7\%$を$m=2$で削減し,誤差確率を最大$10\%とする。 以上の結果から,超伝導ボソニック量子ビットやライドバーグ原子などの非劣化誤差が抑制された量子ビットプラットフォームでは,短期的により高精度に量子アルゴリズムを実装できることが示唆された。

Virtual distillation has been proposed as an error mitigation protocol for estimating the expectation values of observables in quantum algorithms. It proceeds by creating a cyclic permutation of $M$ noisy copies of a quantum state using a sequence of controlled-swap gates. If the noise does not shift the dominant eigenvector of the density operator away from the ideal state, then the error in expectation-value estimation can be exponentially reduced with $M$. In practice, subsequent error-mitigation techniques are required to suppress the effect of noise in the cyclic permutation circuit itself, leading to increased experimental complexity. Here, we perform a careful analysis of noise in the cyclic permutation circuit and find that the estimation of expectation value of observables diagonal in the computational basis is robust against dephasing noise. We support the analytical result with numerical simulations and find that $67\%$ of errors are reduced for $M=2$, with physical dephasing error probabilities as high as $10\%$. Our results imply that a broad class of quantum algorithms can be implemented with higher accuracy in the near-term with qubit platforms where non-dephasing errors are suppressed, such as superconducting bosonic qubits and Rydberg atoms.
翻訳日:2023-01-21 08:24:15 公開日:2022-10-27
# ハイブリッド量子古典計算の分類

Classification of Hybrid Quantum-Classical Computing ( http://arxiv.org/abs/2210.15314v1 )

ライセンス: Link先を確認
Frank Phillipson, Niels Neumann and Robert Wezeman(参考訳) 量子コンピュータが成熟するにつれて、実用性はますます重要になる。 量子コンピュータの多くの用途はハイブリッドであり、古典的コンピュータは量子コンピュータの操作と使用において重要な役割を担っている。 しかし、ハイブリッドという言葉は拡散し、多解釈可能である。 本研究では、垂直および水平の2種類のハイブリッド量子古典計算のクラスを定義する。 1つ目はアプリケーションに依存しない量子コンピュータの利用である。 2つ目はアプリケーション固有で、アルゴリズムの実行に関する懸念である。 どちらも、異なるタイプのハイブリッド量子古典計算のさらなる細分化を与え、それらに対する用語を定めます。

As quantum computers mature, the applicability in practice becomes more important. Many uses of quantum computers will be hybrid, with classical computers still playing an important role in operating and using the quantum computer. The term hybrid is however diffuse and multi-interpretable. In this work we define two classes of hybrid quantum-classical computing: vertical and horizontal. The first is application-agnostic and concerns using quantum computers. The second is application-specific and concerns running an algorithm. For both, we give a further subdivision in different types of hybrid quantum-classical computing and we coin terms for them.
翻訳日:2023-01-21 08:23:54 公開日:2022-10-27
# Floquet スピンチェーンの情報の伝播とスクランブルに及ぼすMajorana エッジ状態の影響

Effect of Majorana edge states on information propagation and scrambling in a Floquet spin chain ( http://arxiv.org/abs/2210.15302v1 )

ライセンス: Link先を確認
Samudra Sur, Diptiman Sen(参考訳) 量子系における任意の局所作用素の作用は、局所作用素の情報を運ぶ系を通して伝播する。 これは通常、OTOC(out-of-time-order correlator)を介して研究される。 本研究では、Floquet無限温度OTOCを用いて、開境界条件を持つ周期駆動スピン-1/2$XY$チェーンの一端からの情報伝達について検討する。 2つの異なるスピン作用素の OTOC を$\sigma^x$ と $\sigma^z$ で計算し、それらは全く異なる振る舞いを示す。 スピン作用素のotocは、jordan-wigner fermions (\sigma^z$) の項で局所的であり、伝播の軽い円錐の内部でスクランブルする情報を示すものではない。 反対に、jordan-wigner fermions (\sigma^x$) の項で非局所であるスピン作用素のotocは、光円錐内をスクランブルするシグネチャを示している。 正弦波駆動の場合、モデルは異なるタイプのマヨラナエッジ状態(位相的ゼロ準エネルギーエッジ状態と異常エッジ状態)をホストすることが示される。 2つの異なるエッジ状態は、異なる方法で情報伝達に影響を与える。 エッジ状態が存在する場合,$\sigma^z$ と $\sigma^x$ OTOCs の両方に対して,エッジにおける情報の局所化を観測する。 また、異常なエッジ状態の場合、エッジ付近でオトクの振動が見られ、その振動周期はエッジ状態のフロッケ固有値間のギャップに反比例する。 エッジ状態によるこれらの影響を解析的に理解する。 また,システムの反対側でのリフレクション後,$\sigma^x$ OTOC の 'unscrambling effect' も観測する。 最後に,情報は主に群速度の最大値を持つバルク状態を介してシステムに伝播することを示すとともに,この速度が駆動周波数と振幅によってどのように制御されるかを示す。

The action of any local operator on a quantum system propagates through the system carrying the information of the local operator. This is usually studied via the out-of-time-order correlator (OTOC). We study the information propagation from one end of a periodically driven spin-1/2 $XY$ chain with open boundary conditions using the Floquet infinite-temperature OTOC. We calculate the OTOC for two different spin operators, $\sigma^x$ and $\sigma^z$, and find that they show quite different behaviors. The OTOC for the spin operator which is local in terms of Jordan-Wigner fermions ($\sigma^z$) shows no signature of information scrambling inside the light cone of propagation. On the contrary, the OTOC for the spin operator which is non-local in terms of Jordan-Wigner fermions ($\sigma^x$) shows signatures of scrambling inside the light cone. For sinusoidal driving, the model can be shown to host different types of Majorana edge states, namely topological zero quasienergy edge states and anomalous edge states. The two different types of edge states influence the information propagation in different ways. We observe a localization of information at the edge for both $\sigma^z$ and $\sigma^x$ OTOCs whenever edge states are present. In addition, in the case of anomalous edge states, we see oscillations of the OTOC in time near the edge, the oscillation period being inversely proportional to the gap between the Floquet eigenvalues of the edge states. We provide an analytical understanding of these effects due to the edge states. We also observe an `unscrambling effect' in the $\sigma^x$ OTOC after reflection at the other end of the system. Finally, we demonstrate that the information propagates into the system mainly via the bulk states with the maximum value of the group velocity, and we show how this velocity is controlled by the driving frequency and amplitude.
翻訳日:2023-01-21 08:23:46 公開日:2022-10-27
# 量子コンピューティングのためのロバストな低温整合低域同軸フィルタ

Robust cryogenic matched low-pass coaxial filters for quantum computing applications ( http://arxiv.org/abs/2210.15301v1 )

ライセンス: Link先を確認
Andrey A. Samoylov, Anton I. Ivanov, Vladimir V. Echeistov, Elizaveta I. Malevannaya, Aleksei R. Matanin, Nikita S. Smirnov, Victor I. Polozov, Ilya A. Rodionov(参考訳) 電磁ノイズは超伝導量子コヒーレンスを減少させる重要な外部要因の1つである。 整合同軸フィルタは、マイクロ波と赤外線光子が超伝導量子回路に負の影響を防げる。 本稿では、ミリケルビン温度におけるノイズ感度測定のための整合低域同軸フィルタの設計と製造経路について報告する。 設計された線形吸収(1dB/GHz)と超低反射損失が-20dB未満の20GHzのロバスト伝送係数を実現する。 本稿では,フィルタの伝送パラメータの寸法による評価と予測を行う数学的モデルを提案する。 cuパウダーとスタイキャスト樹脂の複合材との長さの異なる2つのフィルタプロトタイプで実験的に承認されている。 提案する設計と組み立て経路は様々な化合物に対して普遍的であり,幾何的およびマイクロ波特性の再現性が高い。 最後に,0GHzから20GHzの範囲で反射特性と透過特性がほぼ等しい3つのフィルタを実演し,複数のチャネル超伝導量子回路の制御に非常に有用であることを示す。

Electromagnetic noise is one of the key external factors decreasing superconducting qubits coherence. Matched coaxial filters can prevent microwave and IR photons negative influence on superconducting quantum circuits. Here, we report on design and fabrication route of matched low-pass coaxial filters for noise-sensitive measurements at milliKelvin temperatures. A robust transmission coefficient with designed linear absorption (-1dB/GHz) and ultralow reflection losses less than -20 dB up to 20 GHz is achieved. We present a mathematical model for evaluating and predicting filters transmission parameters depending on their dimensions. It is experimentally approved on two filters prototypes different lengths with compound of Cu powder and Stycast commercial resin demonstrating excellent matching. The presented design and assembly route are universal for various compounds and provide high repeatability of geometrical and microwave characteristics. Finally, we demonstrate three filters with almost equal reflection and transmission characteristics in the range from 0 to 20 GHz, which is quite useful to control multiple channel superconducting quantum circuits.
翻訳日:2023-01-21 08:23:18 公開日:2022-10-27
# 超伝導量子回路のジョセフソン接合再現性の向上:接合領域のゆらぎ

Improving Josephson junction reproducibility for superconducting quantum circuits: junction area fluctuation ( http://arxiv.org/abs/2210.15293v1 )

ライセンス: Link先を確認
A.A. Pishchimova, N.S. Smirnov, D.A. Ezenkova, E.A. Krivko, E.V. Zikiy, D.O. Moskalev, A.I. Ivanov, N.D. Korshakov, I.A. Rodionov(参考訳) ジョセフソン超伝導量子ビットとパラメトリック増幅器は、近年急速に進歩した超伝導量子回路の顕著な例である。 このような装置の複雑さが増すにつれ、チップ間の電気的特性の再現性に対する要求はより厳しくなっている。 したがって、最も重要な電気的パラメータであるジョセフソン接合の臨界電流 $i_c$ 変動を最小化する必要がある。 臨界電流は、室温で測定できるアンベガオカー・バラトフ公式(ambegaokar-baratoff formula)の正常状態抵抗と関連している。 ここでは、ジョセフソン接合臨界電流非一様接合領域のばらつきの主源に焦点をあてる。 我々はジョセフソン接合の加工工程を最適化し、それぞれ9.8-4.4 %$と4.8-2.3 %$の抵抗変動を22ドル$mm^2$と5ドル$mm^2$のチップ領域で示す。 幅広いジャンクション領域に対して、$0.008$${\mu}m^2$から$0.12$$${\mu}m^2$は、線形次元が$80$から680$$$nm$の4500ジャンクション上の小さな直線幅標準偏差を4,500ドルで保証する。 開発プロセスは, 超伝導高コヒーレントトランスモン量子ビット$(T_1 > 100\:{\mu}s)$および非線形非対称誘導素子パラメトリック増幅器で試験された。

Josephson superconducting qubits and parametric amplifiers are prominent examples of superconducting quantum circuits that have shown rapid progress in recent years. With the growing complexity of such devices, the requirements for reproducibility of their electrical properties across a chip have become stricter. Thus, the critical current $I_c$ variation of the Josephson junction, as the most important electrical parameter, needs to be minimized. Critical current, in turn, is related to normal-state resistance the Ambegaokar-Baratoff formula, which can be measured at room temperature. Here, we focus on the dominant source of Josephson junction critical current non-uniformity junction area variation. We optimized Josephson junctions fabrication process and demonstrate resistance variation of $9.8-4.4\%$ and $4.8-2.3\%$ across $22{\times}22$ $mm^2$ and $5{\times}10$ $mm^2$ chip areas, respectively. For a wide range of junction areas from $0.008$ ${\mu}m^2$ to $0.12$ ${\mu}m^2$ we ensure a small linewidth standard deviation of $4$ $nm$ measured over 4500 junctions with linear dimensions from $80$ to $680$ $nm$. The developed process was tested on superconducting highly coherent transmon qubits $(T_1 > 100\:{\mu}s)$ and a nonlinear asymmetric inductive element parametric amplifier.
翻訳日:2023-01-21 08:23:01 公開日:2022-10-27
# 特異形因子を介するspin$\unicode{x2013}$boson相互作用の再正規化

Renormalization of spin$\unicode{x2013}$boson interactions mediated by singular form factors ( http://arxiv.org/abs/2210.15267v1 )

ライセンス: Link先を確認
Davide Lonigro(参考訳) 我々は、回転波スピン$\unicode{x2013}$bosonモデルの拡張と、同様の回転波構造とシステム$\unicode{x2013}$field結合を記述するより一般的なモデルについて検討し、より弱い成長制約を満たす特異な(正規化不可能な)形状因子によって媒介される相互作用について論じる。 この目的のために、フォック空間のスケール上の連続写像としての消滅演算子と生成演算子の構築と厳密な再正規化手順を用いる。

We study and discuss the extension of the rotating-wave spin$\unicode{x2013}$boson model, together with more general models describing a system$\unicode{x2013}$field coupling with a similar rotating-wave structure, to interactions mediated by possibly singular (non-normalizable) form factors satisfying a weaker growth constraint. To this purpose, a construction of annihilation and creation operators as continuous maps on a scale of Fock spaces, together with a rigorous renormalization procedure, is employed.
翻訳日:2023-01-21 08:22:35 公開日:2022-10-27
# 物理系のシグナリング次元

The signaling dimension of physical systems ( http://arxiv.org/abs/2210.15210v1 )

ライセンス: Link先を確認
Michele Dall'Arno(参考訳) 物理系のシグナリング次元は、与えられた系によって達成可能な入出力相関の集合を再現できる古典的なチャネルの最小次元である。 ここでは、量子系のシグナル次元がヒルベルト空間次元と等しいことを示すfrenkelとweinerの2015年のブレークスルーから、トピックに関する主要な既知の結果のいくつかをレビューすることで、シグナル次元を展望する。

The signaling dimension of a physical system is the minimum dimension of a classical channel that can reproduce the set of input-output correlations attainable by the given system. Here we put the signaling dimension into perspective by reviewing some of the main known results on the topic, starting from Frenkel and Weiner's 2015 breakthrough showing that the signaling dimension of any quantum system is equal to its Hilbert space dimension.
翻訳日:2023-01-21 08:22:20 公開日:2022-10-27
# 量子ビットの連続測定誘起ダイナミクスにおける量子リセット

Quantum resetting in continuous measurement induced dynamics of a qubit ( http://arxiv.org/abs/2210.15188v1 )

ライセンス: Link先を確認
Varun Dubey, Raphael Chetrite, Abhishek Dhar(参考訳) 連続的に監視されるが、ゼノの影響を避けるように調整された検出器との相互作用によって観測される2状態系の進化について検討する。 このシステムは、準備されたプローブのシーケンスと相互作用することができる。 相互作用後のプローブ状態が測定され、これによってシステムの状態ベクトルの確率的進化が導かれる。 システムの効果的な進化は、決定論的ドリフトと、瞬時状態ベクトルに依存する速度で固定状態への確率的再設定からなる。 検出器の読み出しはカウント処理である。 本研究では,検出事象数分布と確率分布の時間変化に関する解析結果を得る。 このモデルに関する初期の研究は、測定率を上げるための定常状態の形で遷移を発見した。 ここでは、ダイナミクスに見られる遷移を研究する。 スピンオフとして、拡散、ドリフトおよび位置依存ジャンプ率を持つ一般的な確率的リセット過程に対して、確率分布の進化のための正確かつ一般的な解を得る。

We study the evolution of a two-state system that is monitored continuously but with interactions with the detector tuned so as to avoid the Zeno affect. The system is allowed to interact with a sequence of prepared probes. The post-interaction probe states are measured and this leads to a stochastic evolution of the system's state vector, which can be described by a single angle variable. The system's effective evolution consists of a deterministic drift and a stochastic resetting to a fixed state at a rate that depends on the instantaneous state vector. The detector readout is a counting process. We obtain analytic results for the distribution of number of detector events and the time-evolution of the probability distribution. Earlier work on this model found transitions in the form of the steady state on increasing the measurement rate. Here we study transitions seen in the dynamics. As a spin-off we obtain, for a general stochastic resetting process with diffusion, drift and position dependent jump rates, an exact and general solution for the evolution of the probability distribution.
翻訳日:2023-01-21 08:22:06 公開日:2022-10-27
# 超伝導量子コンピュータの実装によるスーパーデンス符号化における誤りの自動補正

Automated error correction in superdense coding, with implementation on superconducting quantum computer ( http://arxiv.org/abs/2210.15161v1 )

ライセンス: Link先を確認
Kumar Nilesh, Piyush Joshi, and Prasanta Panigrahi(参考訳) フォールトトレラント量子コンピュータの構築は、量子状態における避けられないノイズと量子絡み合いの脆弱さのため、依然として困難な問題である。 しかし、ほとんどの誤り訂正符号はアルゴリズムの複雑さを増大させ、量子アドバンテージを減少させる。 ここでは、制限された量子状態に対して完全な保護を提供するタスク固有誤差補正手法を提案する。 具体的には, n-qubit 一般化ベル状態を用いたスーパーデンス符号化アルゴリズムにおいて, 自動誤り訂正を行う。 中心となるのは、アンシラクビット(相とパリティアンシラ)の測定を含むベル状態の非破壊的判別法に基づいている。 このアルゴリズムは分配可能であることが示され、直交状態を共有する任意のパーティに分散することができる。 自動(Automated)とは、量子コンピュータにおいて、外部の介入を必要とせず、単位演算子を用いて実験的にアルゴリズムを実装することを指す。 また, 7-qubit 超伝導 IBM 量子コンピュータや27-qubit 量子シミュレータ上で, ノイズの存在下での3種類の超高密度符号化アルゴリズムに対する自動誤り訂正手法を実験的に実現した。 実験結果の忠実度を示すため,確率ヒストグラムを作成した。 量子状態トモグラフィも量子コンピュータを用いて実施し,本手法の有効性を検証した。

Construction of a fault-tolerant quantum computer remains a challenging problem due to unavoidable noise in quantum states and the fragility of quantum entanglement. However, most of the error-correcting codes increases the complexity of the algorithms, thereby decreasing any quantum advantage. Here we present a task-specific error-correction technique that provides a complete protection over a restricted set of quantum states. Specifically, we give an automated error correction in Superdense Coding algorithms utilizing n-qubit generalized Bell states. At its core, it is based on non-destructive discrimination method of Bell states involving measurements on ancilla qubits (phase and parity ancilla). The algorithm is shown to be distributable and can be distributed to any set of parties sharing orthogonal states. Automated refers to experimentally implementing the algorithm in a quantum computer by utilizing unitary operators with no measurements in between and thus without the need for outside intervention. We also experimentally realize our automated error correction technique for three different types of superdense coding algorithm on a 7-qubit superconducting IBM quantum computer and also on a 27-qubit quantum simulator in the presence of noise. Probability histograms are generated to show the high fidelity of our experimental results. Quantum state tomography is also carried out with the quantum computer to explicate the efficacy of our method.
翻訳日:2023-01-21 08:21:39 公開日:2022-10-27
# 量子力学によるプログラミング

Programming with Quantum Mechanics ( http://arxiv.org/abs/2210.15506v1 )

ライセンス: Link先を確認
Evandro C. R. da Rosa and Claudio Lima(参考訳) 量子コンピューティングは、指数関数的計算スピードアップの新しい時代を開く新しいパラダイムである。 それでも量子コンピュータはまだ商用利用の準備が整っていない。 しかし、将来量子の優位性を得るために量子加速ソリューションを開発する労働者を訓練し、資格付けすることが不可欠である。 このチュートリアルは量子コンピューティングの広い視野を提供し、数学的形式論のほとんどを抽象化し、量子プログラミング言語のKetとのハンズオンを提案している。 対象とする聴衆は、量子コンピューティングから始める学部生と大学院生です -- このチュートリアルに従う前提条件はありません。

Quantum computing is an emerging paradigm that opens a new era for exponential computational speedup. Still, quantum computers have yet to be ready for commercial use. However, it is essential to train and qualify today the workforce that will develop quantum acceleration solutions to get the quantum advantage in the future. This tutorial gives a broad view of quantum computing, abstracting most of the mathematical formalism and proposing a hands-on with the quantum programming language Ket. The target audience is undergraduate and graduate students starting in quantum computing -- no prerequisites for following this tutorial.
翻訳日:2023-01-21 08:15:18 公開日:2022-10-27
# 位置依存質量背景における半無限量子井戸

Semi-infinite quantum wells in a position-dependent mass background ( http://arxiv.org/abs/2210.15502v1 )

ライセンス: Link先を確認
C. Quesne(参考訳) モースポテンシャルに対する定数-質量 schr\"odinger 方程式を出発点とする点正準変換を用いることにより、位置の負の値に対して無限となる位置依存質量に付随する非正則プロファイルを持つ半無限の量子井戸モデルを容易に導出できることが示される。 さらに、同じ位置依存質量に関連付けられた別のタイプの半無限量子井戸を、モースポテンシャルの代わりにローゼンモースiiポテンシャルから開始して構築し、解く。

By using a point canonical transformation starting from the constant-mass Schr\"odinger equation for the Morse potential, it is shown that a semi-infinite quantum well model with a non-rectangular profile associated with a position-dependent mass that becomes infinite for some negative value of the position, while going to a constant for a large positive value of the latter, can be easily derived. In addition, another type of semi-infinite quantum well associated with the same position-dependent mass is constructed and solved by starting from the Rosen-Morse II potential instead of the Morse one.
翻訳日:2023-01-21 08:15:11 公開日:2022-10-27
# 多ビット量子処理

Polyqubit quantum processing ( http://arxiv.org/abs/2210.15484v1 )

ライセンス: Link先を確認
Wesley C. Campbell and Eric R. Hudson(参考訳) トラップ原子量子プロセッサにおける原子当たりの複数の量子ビットの符号化と、同じ原子に格納されたオブザーバ量子ビットを乱すことなく、原子内および原子間ゲートの両方を参加者量子ビット上で実行する方法について述べる。 また、他の量子ビットにエンコードされた情報をそのまま残す個々の量子ビットの選択的状態準備と測定のための技術も導入する。 量子ビット処理に必要な追加の内部状態はすでに原子プロセッサに存在しており、この乗算的な量子ビット数の増加に伴う資源コストは、短期から中期において良いバルゲインとなる可能性があることを示唆している。

We describe the encoding of multiple qubits per atom in trapped atom quantum processors and methods for performing both intra- and inter-atomic gates on participant qubits without disturbing the spectator qubits stored in the same atoms. We also introduce techniques for selective state preparation and measurement of individual qubits that leave the information encoded in the other qubits intact, a capability required for qubit quantum error correction. The additional internal states needed for polyqubit processing are already present in atomic processors, suggesting that the resource cost associated with this multiplicative increase in qubit number could be a good bargain in the short to medium term.
翻訳日:2023-01-21 08:14:58 公開日:2022-10-27
# 暗黙のマルチパーティ量子通信複雑性の境界

Bounds on oblivious multiparty quantum communication complexity ( http://arxiv.org/abs/2210.15402v1 )

ライセンス: Link先を確認
Fran\c{c}ois Le Gall and Daiki Suruga(参考訳) 本論文の主な概念的貢献は,通信がemph{oblivious} となる環境での量子マルチパーティ通信の複雑性について考察することである。 この要件は、我々の知識が文献中の全ての量子マルチパーティプロトコルによって満たされることであり、通信パターン、特に各ラウンドにおける各プレイヤーのペア間で交換される通信量は、プロトコルの実行前に入力と無依存に固定されることを意味する。 広義の関数に対して、これらの難解な量子$k$-party通信複雑性の強い下界を、それらの 'emph{two-party} 通信複雑性の低い境界を用いて証明する方法を示す。 我々はこの手法を, \textsf{and} ガジェットを用いたすべての対称関数の厳密な下界の証明に適用し,特に,n$-bit の set-disjointness 関数の任意の量子 $k$-party 通信複雑性に対して最適な $\omega(k\sqrt{n})$ の上限を求める。 また,上界に(ほぼ)一致するようにすることで,下界のタイトさを示す。

The main conceptual contribution of this paper is investigating quantum multiparty communication complexity in the setting where communication is \emph{oblivious}. This requirement, which to our knowledge is satisfied by all quantum multiparty protocols in the literature, means that the communication pattern, and in particular the amount of communication exchanged between each pair of players at each round is fixed \emph{independently of the input} before the execution of the protocol. We show, for a wide class of functions, how to prove strong lower bounds on their oblivious quantum $k$-party communication complexity using lower bounds on their \emph{two-party} communication complexity. We apply this technique to prove tight lower bounds for all symmetric functions with \textsf{AND} gadget, and in particular obtain an optimal $\Omega(k\sqrt{n})$ lower bound on the oblivious quantum $k$-party communication complexity of the $n$-bit Set-Disjointness function. We also show the tightness of these lower bounds by giving (nearly) matching upper bounds.
翻訳日:2023-01-21 08:14:46 公開日:2022-10-27
# 部分集合被覆問題の量子セキュリティ

Quantum security of subset cover problems ( http://arxiv.org/abs/2210.15396v1 )

ライセンス: Link先を確認
Samuel Bouaziz--Ermann, Alex B. Grilo and Damien Vergnaud(参考訳) k \geq 1$ハッシュ関数に対する部分被覆問題は、衝突問題の延長と見なすことができ、2002年にレイジンとレイジンによってハッシュ関数に基づく署名スキームHORSの安全性を解析するために導入された。 多くのハッシュベースのシグネチャスキームのセキュリティは、この問題またはこの問題の変種(例えば、HORS、SPHINCS、SPHINCS+、 \dots)に依存している。 近年,Yuan,Tibouchi,Abe (2022) は,制限部分被覆と呼ばれる部分被覆問題の変種を導入し,この問題に対する量子アルゴリズムを提案した。 本研究では,任意の量子アルゴリズムにおいて,制約付き部分被覆問題を解くために,基礎となるハッシュ関数に対して$\omega\left(k^{-\frac{2^{k-1}}{2^k-1}}\cdot n^{\frac{2^{k-1}-1}{2^k-1}}\right)$クエリを行なわなければならないことを証明した。 また、一般的な$(r,k)$-subsetカバー問題のセキュリティも分析する。これは、$r$-chosenメッセージアタック($r \geq 1$)下でのHORSの偽造性を示す根底にある問題である。 一般的な量子アルゴリズムでは、基礎となるハッシュ関数に対して$\Omega\left(N^{k/5}\right)$クエリを行い、1,k)$-subsetのカバーを見つける必要がある。 また、$(r,k)$-subset 被覆を見つけ、$o\left(n^{k/(2+2r)}\right)$クエリを$k$ハッシュ関数に生成する量子アルゴリズムを提案する。

The subset cover problem for $k \geq 1$ hash functions, which can be seen as an extension of the collision problem, was introduced in 2002 by Reyzin and Reyzin to analyse the security of their hash-function based signature scheme HORS. The security of many hash-based signature schemes relies on this problem or a variant of this problem (e.g. HORS, SPHINCS, SPHINCS+, \dots). Recently, Yuan, Tibouchi and Abe (2022) introduced a variant to the subset cover problem, called restricted subset cover, and proposed a quantum algorithm for this problem. In this work, we prove that any quantum algorithm needs to make $\Omega\left(k^{-\frac{2^{k-1}}{2^k-1}}\cdot N^{\frac{2^{k-1}-1}{2^k-1}}\right)$ queries to the underlying hash functions to solve the restricted subset cover problem, which essentially matches the query complexity of the algorithm proposed by Yuan, Tibouchi and Abe. We also analyze the security of the general $(r,k)$-subset cover problem, which is the underlying problem that implies the unforgeability of HORS under a $r$-chosen message attack (for $r \geq 1$). We prove that a generic quantum algorithm needs to make $\Omega\left(N^{k/5}\right)$ queries to the underlying hash functions to find a $(1,k)$-subset cover. We also propose a quantum algorithm that finds a $(r,k)$-subset cover making $O\left(N^{k/(2+2r)}\right)$ queries to the $k$ hash functions.
翻訳日:2023-01-21 08:14:24 公開日:2022-10-27
# マルチモード光子触媒エンタングルス状態を用いた量子マルチパラメータ推定

Quantum multiparameter estimation with multi-mode photon catalysis entangled squeezed state ( http://arxiv.org/abs/2210.15381v1 )

ライセンス: Link先を確認
Huan Zhang, Wei Ye, Shoukang Chang, Ying Xia, Liyun Hu, Zeyang Liao(参考訳) 本稿では, クロスカー非線形媒質をマッハ・ツェンダー干渉計に埋め込むことにより, マルチモード触媒硬化真空状態(MECSVS)を生成する手法を提案する。 この方法はフレドキンゲートに基づく異なるモード間の量子状態の交換を実現する。 さらに,MECSVSをマルチアーム光干渉計のプローブ状態として検討し,マルチフェーズ同時推定を実現する。 その結果, 触媒光子の数を増やしたり, 光ビームスプリッタの透過率を低下させることで, 位相推定の量子クレーマー・ラオ境界(QCRB)を向上させることができることがわかった。 また,光子損失が生じたとしても,光子触媒のQCRBは理想エンタングルド真空状態 (ESVS) のQCRBよりも低く,光子触媒操作を行うことで,触媒操作なしでのQCRBよりも光子損失に対してより堅牢であることを示す。 この結果は、マルチパラメータ推定のための量子メトロジーにおける重要な応用を見出すことができる。

We propose a method to generate the multi-mode entangled catalysis squeezed vacuum states (MECSVS) by embedding the cross-Kerr nonlinear medium into the Mach-Zehnder interferometer. This method realizes the exchange of quantum states between different modes based on Fredkin gate. In addition, we study the MECSVS as the probe state of multi-arm optical interferometer to realize multi-phase simultaneous estimation. The results show that the quantum Cramer-Rao bound (QCRB) of phase estimation can be improved by increasing the number of catalytic photons or decreasing the transmissivity of the optical beam splitter using for photon catalysis. In addition, we also show that even if there is photon loss, the QCRB of our photon catalysis scheme is lower than that of the ideal entangled squeezed vacuum states (ESVS), which shows that by performing the photon catalytic operation is more robust against photon loss than that without the catalytic operation. The results here can find important applications in quantum metrology for multiparatmeter estimation.
翻訳日:2023-01-21 08:13:44 公開日:2022-10-27
# QMAとQCMAの古典的オラクル分離

A classical oracle separation between QMA and QCMA ( http://arxiv.org/abs/2210.15380v1 )

ライセンス: Link先を確認
Anand Natarajan and Chinmay Nirkhe(参考訳) 量子複雑性理論では、$\textit{non-deterministic}$の量子計算の定義が量子証人$(\textsf{QMA})$、または古典的目撃者がsuffice$(\textsf{QCMA})$を必要としているかどうかという長い問題である。 各計算複雑性クラスを分離したランダム化された古典オラクルを構築することにより、この問題を進展させる。 以前の分離 (Aaronson-Kuperberg (CCC'07), Fefferman-Kimmel (MFCS'18)) は量子ユニタリオラクルを必要とした。 分離問題は、正規の非方向グラフでサポートされている分布が複数の連結成分(yesインスタンス)で構成されているか、または1つの拡張連結成分(noインスタンス)で構成されているかを決定することである。 したがって oracle は $n$-bit boolean 関数上のディストリビューションである。

It is a long-standing open question in quantum complexity theory whether the definition of $\textit{non-deterministic}$ quantum computation requires quantum witnesses $(\textsf{QMA})$ or if classical witnesses suffice $(\textsf{QCMA})$. We make progress on this question by constructing a randomized classical oracle separating the respective computational complexity classes. Previous separations [Aaronson-Kuperberg (CCC'07), Fefferman-Kimmel (MFCS'18)] required a quantum unitary oracle. The separating problem is deciding whether a distribution supported on regular un-directed graphs either consists of multiple connected components (yes instances) or consists of one expanding connected component (no instances) where the graph is given in an adjacency-list format by the oracle. Therefore, the oracle is a distribution over $n$-bit boolean functions.
翻訳日:2023-01-21 08:13:26 公開日:2022-10-27
# e_8$ルート系の複雑化による量子絡み合いと文脈性

Quantum entanglement and contextuality with complexifications of $E_8$ root system ( http://arxiv.org/abs/2210.15338v1 )

ライセンス: Link先を確認
Alexander Yu. Vlasov(参考訳) 40個の複素線を持つワイティング構成は、ドデカヘドロンの幾何学に基づく2つのスピン-3/2系によるペンローズ模型の再構成の可能性として提案され、量子力学における非局所性と文脈性の解析に用いられた。 しかし、120個の量子状態を持つ別の構成が提示された研究で考慮されている。 異なる状態の数にもかかわらず、両方の構成はリー代数の根系に対応する8次元実格子の240の最小ベクトルの複素化から導出される。 量子状態の設定が提案される性質の分析は、ウィッティング構成の特性を持つ多くのアナログを用いて行われる。

The Witting configuration with 40 complex rays was suggested as a possible reformulation of Penrose model with two spin-3/2 systems based on geometry of dodecahedron and used for analysis of nonlocality and contextuality in quantum mechanics. Yet another configuration with 120 quantum states is considered in presented work. Despite of different number of states both configurations can be derived from complexification of 240 minimal vectors of 8D real lattice corresponding to root system of Lie algebra $E_8$. An analysis of properties of suggested configuration of quantum states is provided using many analogies with properties of Witting configuration.
翻訳日:2023-01-21 08:13:06 公開日:2022-10-27
# マイクロストリップインピーダンストランスを用いた広帯域SNAILパラメトリック増幅器

Broadband SNAIL parametric amplifier with microstrip impedance transformer ( http://arxiv.org/abs/2210.15334v1 )

ライセンス: Link先を確認
D. Ezenkova, D. Moskalev, N. Smirnov, A. Ivanov, A. Matanin, V. Polozov, V. Echeistov, E. Malevannaya, A. Samoilov, E. Zikiy and I. Rodionov(参考訳) ジョセフソンパラメトリック増幅器は量子情報処理と量子状態生成のための有望なプラットフォームとして登場した。 進行波とインピーダンス整合パラメトリック増幅器は、複数の量子ビット超電導回路の高忠実度単発読み出しに広い帯域幅を提供する。 本稿では,超伝導非線形非対称誘導素子(SNAIL)に基づく量子制限型3波混合パラメトリック増幅器について述べる。 増幅器のダイナミックレンジは、268個のジョセフソン接合を持つ67個のSNAILを用いて増加し、非線形四分波共振器を形成する。 現在の入力モードで動作し、300 mhz$の帯域幅で平均17 db$、平均飽和電力が100 dbm$、量子制限ノイズ性能で最大97 dbm$となることを実験的に実証した。 さらに、増幅器は1つのeビームリソグラフィステップだけで簡単な技術で製造することができる。 中央周波数は数百メガヘルツで調整され、それによって運用帯域幅は1.5ghz程度に拡大される。

Josephson parametric amplifiers have emerged as a promising platform for quantum information processing and squeezed quantum states generation. Travelling wave and impedance-matched parametric amplifiers provide broad bandwidth for high-fidelity single-shot readout of multiple qubit superconducting circuits. Here, we present a quantum-limited 3-wave-mixing parametric amplifier based on superconducting nonlinear asymmetric inductive elements (SNAILs), whose useful bandwidth is enhanced with an on-chip two-section impedance-matching circuit based on microstrip transmission lines. The amplifier dynamic range is increased using an array of sixty-seven SNAILs with 268 Josephson junctions, forming a nonlinear quarter-wave resonator. Operating in a current-pumped mode, we experimentally demonstrate an average gain of $17 dB$ across $300 MHz$ bandwidth, along with an average saturation power of $- 100 dBm$, which can go as high as $- 97 dBm$ with quantum-limited noise performance. Moreover, the amplifier can be fabricated using a simple technology with just a one e-beam lithography step. Its central frequency is tuned over a several hundred megahertz, which in turn broadens the effective operational bandwidth to around $1.5 GHz$.
翻訳日:2023-01-21 08:12:57 公開日:2022-10-27
# 可積分および非可積分量子クエンチ後の絡み合いスペクトルの中間子含量

Meson content of entanglement spectra after integrable and nonintegrable quantum quenches ( http://arxiv.org/abs/2210.15682v1 )

ライセンス: Link先を確認
Johannes Knaute(参考訳) 我々はテンソルネットワークシミュレーションを用いて、Isingモデルにおける大域量子クエンチ後の絡み合いスペクトルの下部と戻り率関数の時間発展を計算する。 半古典的状態と相対論的E$_8$理論における非摂動的境界状態として、閉じ込められたフェルミオン対を持つメソニックパラメータの範囲への基底状態クレンチを考える。 いずれの場合においても、モジュラーハミルトニアンの優占固有値のみが量子多体系または量子場理論の中間子成分を完全にエンコードし、エントロピーにおけるほぼ同一の絡み合い振動を引き起こすことが分かる。 常磁性相において初期状態が準備されたとき、リターンレート密度は不等間隔の位置で正規カスプを示し、エンタングルメントスペクトルがギャップを保ったままの動的量子相転移の出現を示す。 本研究は,高エネルギー物理学の系を想起させる創発現象のダイナミクスにおける量子情報量の役割を深く理解する。

We use tensor network simulations to calculate the time evolution of the lower part of the entanglement spectrum and return rate functions after global quantum quenches in the Ising model. We consider ground state quenches towards mesonic parameter ranges with confined fermion pairs as nonperturbative bound states in a semiclassical regime and the relativistic E$_8$ theory. We find that in both cases only the dominant eigenvalue of the modular Hamiltonian fully encodes the meson content of the quantum many-body system or quantum field theory, giving rise to nearly identical entanglement oscillations in the entanglement entropy. When the initial state is prepared in the paramagnetic phase, the return rate density exhibits regular cusps at unequally spaced positions, signaling the appearance of dynamical quantum phase transitions, at which the entanglement spectrum remains gapped. Our analyses provide a deeper understanding on the role of quantum information quantities for the dynamics of emergent phenomena reminiscent to systems in high-energy physics.
翻訳日:2023-01-21 08:06:16 公開日:2022-10-27
# トポロジカル転位モードの動的融解と凝縮

Dynamic melting and condensation of topological dislocation modes ( http://arxiv.org/abs/2210.15661v1 )

ライセンス: Link先を確認
Sanjib Kumar Das and Bitan Roy(参考訳) バルク転位格子欠陥は、有限運動量({\bf K}_{\rm inv}$)で帯域反転を特徴とする翻訳活性なトポロジカル絶縁体(TATI)を特定するのに役立っている。 TATI は転位コアの周囲に堅牢なギャップのないモードを持ち、関連するバーガーズベクトル ({\bf b}$) が${\bf K}_{\rm inv} \cdot {\bf b}=\pi$ (modulo $2 \pi$) を満たす。 適切な密度行列の時間進化から,実時間ランプを経由したTATIが自明あるいは位相絶縁相に入ると,空隙のない転位モードがなくなると,プリランプ欠陥モードの符号が長期間持続することを示す。 さらに興味深いのは、翻訳に不活性な絶縁体からtatiフェーズに入ると、転位モードのシグネチャが欠陥コアの近くに動的に形成され、スローランプではより顕著である。 二次元時間反転対称性破壊絶縁体に対するこれらの一般的な結果を例示する。 転位コアの動的応答は、量子結晶、光学格子、時間可変バンドギャップを持つメタマテリアルで実験的に観察できる。

Bulk dislocation lattice defects are instrumental to identify translationally active topological insulators (TATIs), featuring band inversion at a finite momentum (${\bf K}_{\rm inv}$). TATIs host robust gapless modes around the dislocation core, when the associated Burgers vector (${\bf b}$) satisfies ${\bf K}_{\rm inv} \cdot {\bf b}=\pi$ (modulo $2 \pi$). From the time evolution of appropriate density matrices, we show that when a TATI via a real time ramp enters into a trivial or topological insulating phase, devoid of any gapless dislocation mode, signatures of the preramp defect modes survive for a long time. More intriguingly, as the system ramps into a TATI phase from any translationally inert insulators, signature of the dislocation mode dynamically builds up near the defect core, which is more prominent for slow ramps. We exemplify these generic outcomes for two-dimensional time-reversal symmetry breaking insulators. Proposed dynamic responses at the dislocation core can be experimentally observed on quantum crystals, optical lattices and metamaterials with time tunable band gap.
翻訳日:2023-01-21 08:05:58 公開日:2022-10-27
# 適応計測による量子平均値の推定

Quantum-enhanced mean value estimation via adaptive measurement ( http://arxiv.org/abs/2210.15624v1 )

ライセンス: Link先を確認
Kaito Wada, Kazuma Fukuchi, Naoki Yamamoto(参考訳) 量子可観測物の平均値の推定は、量子コンピューティングの基本的な課題である。 特に,騒音環境における効率的な推定には,高精度な計測手法の開発が必要である。 本稿では、平均値に対する量子強調推定法を提案し、この測定値(POVM)を適応的に最適化し、最適化の結果、推定精度は量子フィッシャー情報の逆である量子Cram\'{e}r-Raoの下界に近づく。 提案する適応的推定法(一貫性や漸近正規性など)の統計的性質を厳密に解析する。 さらに、大きな系次元を持つ数値シミュレーションにより、推定器が量子Cram\'{e}r-Rao境界をほぼ飽和させるためには、適切な数の測定しか必要としないことを示した。

Estimating the mean values of quantum observables is a fundamental task in quantum computing. In particular, efficient estimation in a noisy environment requires us to develop a sophisticated measurement strategy. Here, we propose a quantum-enhanced estimation method for the mean values, that adaptively optimizes the measurement (POVM); as a result of optimization, the estimation precision gets close to the quantum Cram\'{e}r-Rao lower bound, that is, inverse of the quantum Fisher information. We provide a rigorous analysis for the statistical properties of the proposed adaptive estimation method such as consistency and asymptotic normality. Furthermore, several numerical simulations with large system dimension are provided to show that the estimator needs only a reasonable number of measurements to almost saturate the quantum Cram\'{e}r-Rao bound.
翻訳日:2023-01-21 08:05:36 公開日:2022-10-27
# 相互作用するフラクタル高次位相相の分類と構成

Classification and construction of interacting fractonic higher-order topological phases ( http://arxiv.org/abs/2210.15596v1 )

ライセンス: Link先を確認
Jian-Hao Zhang, Meng Cheng, Zhen Bi(参考訳) 高次位相の概念は、荷電励起に対するフラクトロニックダイナミクスを示すサブシステム対称性を持つ系に興味深い一般化をもたらすことができる。 本研究では,2次元および3次元相互作用ボソン系におけるサブシステム対称性と通常の大域対称性の組み合わせによって保護される高次位相相を体系的に研究する。

The notion of higher-order topological phases can have interesting generalizations to systems with subsystem symmetries that exhibit fractonic dynamics for charged excitations. In this work, we systematically study the higher-order topological phases protected by a combination of subsystem symmetries and ordinary global symmetries in two and three-dimensional interacting boson systems, with some interacting fermionic examples.
翻訳日:2023-01-21 08:04:21 公開日:2022-10-27
# 生成物の局所的ユニタリ時間発展によるschr\"odinger's cat stateの成長

Growing Schr\"odinger's cat states by local unitary time evolution of product states ( http://arxiv.org/abs/2210.15585v1 )

ライセンス: Link先を確認
Saverio Bocini, Maurizio Fagotti(参考訳) 我々は、自明な分離可能な固有状態を持つ量子スピンチェーンハミルトニアンによって記述できる多体系を考察する。 ジェネリックハミルトニアンにとって、そのような状態は量子スカーを表す。 典型的には、巨視的に絡み合った状態は、自明な固有状態の1つのスピンの単一の射影的測定後に自然に成長することを示し、さらに、成長している状態が「シュル=オディンガーの猫状態」である状態を特定する。 本分析では,自明な固有状態が局所保存法を最小化・最大化しないため,絡み合った状態が発展するための特別な要件は明かされていない。 ジェネリック・ハミルトニアンによって記述されたシステムと、U(1)$隠れ対称性を示すモデルという2つの例を明示的に研究する。 後者は、トランジスタ状の構造ブロックを介して、脚に沿った相互作用がもう一方の脚の局所状態によって制御される2脚のはしごとして解釈することができる。

We envisage many-body systems that can be described by quantum spin-chain Hamiltonians with a trivial separable eigenstate. For generic Hamiltonians, such a state represents a quantum scar. We show that, typically, a macroscopically-entangled state naturally grows after a single projective measurement of just one spin in the trivial eigenstate; moreover, we identify a condition under which what is growing is a "Schr\"odinger's cat state". Our analysis does not reveal any particular requirement for the entangled state to develop, provided that the trivial eigenstate does not minimise/maximise a local conservation law. We study two examples explicitly: systems described by generic Hamiltonians and a model that exhibits a $U(1)$ hidden symmetry. The latter can be reinterpreted as a 2-leg ladder in which the interactions along the legs are controlled by the local state on the other leg through transistor-like building blocks.
翻訳日:2023-01-21 08:04:14 公開日:2022-10-27
# 離散su(2)ゲージ場に対する正準モーメントの定義

Defining Canonical Momenta for Discretised SU(2) Gauge Fields ( http://arxiv.org/abs/2210.15547v1 )

ライセンス: Link先を確認
Marco Garofalo and Tobias Hartung and Karl Jansen and Johann Ostmeyer and Simone Romiti and Carsten Urbach(参考訳) ここでは、ゲージ場作用素が対角線である基底として、ハミルトン形式論におけるSU(N)格子ゲージ理論の正準モーメントを定義する方法について論じる。 SU(2) の明示的な離散化のために、モータを構築し、基本可換関係の違反をチェックする。

In this proceeding contribution we discuss how to define canonical momenta for SU(N) lattice gauge theories in the Hamiltonian formalism in a basis where the gauge field operators are diagonal. For an explicit discretisation of SU(2) we construct the momenta and check the violation of the fundamental commutation relations.
翻訳日:2023-01-21 08:03:57 公開日:2022-10-27
# 準結晶ポテンシャルにおける二次元ボソンの熱力学的相図

Thermodynamic Phase Diagram of Two-Dimensional Bosons in a Quasicrystal Potential ( http://arxiv.org/abs/2210.15526v1 )

ライセンス: Link先を確認
Zhaoxuan Zhu, Hepeng Yao, Laurent Sanchez-Palencia(参考訳) 合成ボソニック物質中の準結晶の量子シミュレーションは、これらの興味深い系を広いパラメータ範囲で探索する道を開いた。 しかし、そのような系の熱揺らぎは量子コヒーレンスと競合し、ゼロ温度の量子位相に大きな影響を及ぼす。 ここでは2次元等質準結晶ポテンシャルにおける相互作用ボソンの熱力学的位相図を決定する。 結果は量子モンテカルロシミュレーションを用いて得られた。 有限サイズのスケーリングは慎重に検討され、量子相は熱相と体系的に区別される。 特に, 実ボースガラス相を一定パラメータの範囲で通常の流体に対して安定化させることを実証する。 フェミオン化図を用いて強い相互作用を解釈し,実験的妥当性について考察した。

Quantum simulation of quasicrystals in synthetic bosonic matter now paves the way to the exploration of these intriguing systems in wide parameter ranges. Yet thermal fluctuations in such systems compete with quantum coherence, and significantly affect the zero-temperature quantum phases. Here we determine the thermodynamic phase diagram of interacting bosons in a two-dimensional, homogeneous quasicrystal potential. Our results are found using quantum Monte Carlo simulations. Finite-size scaling is carefully considered and the quantum phases are systematically distinguished from thermal phases. In particular, we demonstrate stabilization of a genuine Bose glass phase against the normal fluid in sizable parameter ranges. Our results for strong interactions are interpreted using a fermionization picture and experimental relevance is discussed.
翻訳日:2023-01-21 08:03:51 公開日:2022-10-27
# 二次元磁性体によるキャビティマグノメカニクスの量子状態工学

Quantum-state engineering in cavity magnomechanics formed by two-dimensional magnetic materials ( http://arxiv.org/abs/2210.15519v1 )

ライセンス: Link先を確認
Chun-Jie Yang, Qingjun Tong, Jun-Hong An(参考訳) キャビティマグノメカニクスは、マクロな量子効果を探求する理想的なプラットフォームとなっている。 マグノン、フォノン、光子を単一の物理系にまとめることで、量子技術への多くのチャンスを開く。 これは従来、yttrium iron garnetによって実現され、リニアなmagnon-phonon結合である$\hat{m}^\dag\hat{m}(\hat{b}^\dag+\hat{b})$、$\hat{m}$と$\hat{b}$がmagnonおよびphononモードである。 近年の二次元(2d)磁石の実現に触発されて,2次元磁性体によるキャビティミラーの1つを用いた新しいキャビティマグノメカニクスシステムを提案する。 その異方性磁歪相互作用は、ユニークな非線形フォノン-マグノン結合 $\hat{m}^\dag\hat{m}(\hat{b}^\dag+\hat{b})^2$ を誘導する。 抑制されたフォノン数を有するレジームにおいて、3つのモード間のフォノン及びバイおよびトリパーティト絡み合いの安定なスクイーズが発生することが判明した。 従来のスキームと比較して, 余分な非線形相互作用や貯水池工学は不要であり, 熱揺らぎに対して頑健である。 キャビティマグノメカニクスの実現により、量子状態工学においてその2次元特徴によって実現される多彩な相互作用により、その優越性を示す。

Cavity magnomechanics has become an ideal platform to explore macroscopic quantum effects. Bringing together magnons, phonons, and photons in a single physical system, it opens many opportunities for quantum technologies. It was conventionally realized by a yttrium iron garnet, which exhibits a linear magnon-phonon coupling $\hat{m}^\dag\hat{m}(\hat{b}^\dag+\hat{b})$, with $\hat{m}$ and $\hat{b}$ being the magnon and phonon modes. Inspired by the recent realization of two-dimensional (2D) magnets, we propose a new cavity magnomechanical system with one of the cavity mirror formed by a 2D magnetic material. Its anisotropic magnetostrictive interaction induces a unique nonlinear phonon-magnon coupling $\hat{m}^\dag\hat{m}(\hat{b}^\dag+\hat{b})^2$. It is found that a stable squeezing of the phonon and bi- and tri-partite entanglements among the three modes are generated in the regimes with a suppressed phonon number. Compared with previous schemes, ours does not require any extra nonlinear interaction and reservoir engineering and is robust against the thermal fluctuation. Enriching the realization of cavity magnomechanics, our system exhibits its superiority in quantum-state engineering due to the versatile interactions enabled by its 2D feature.
翻訳日:2023-01-21 08:03:41 公開日:2022-10-27
# 最適化量子トモグラフィによるユニタリ偏光変換の探索

Retrieving unitary polarization transformations via optimized quantum tomography ( http://arxiv.org/abs/2210.17288v1 )

ライセンス: Link先を確認
Francesco Di Colandrea, Lorenzo Amato, Roberto Schiattarella, Alexandre Dauphin, Filippo Cardano(参考訳) 光波板回転光偏光は単一量子ビットユニタリ作用素としてモデル化することができ、その作用は量子過程トモグラフィーによって実験的に決定できる。 トモグラフィー問題に対する標準的なアプローチは、最大様相の推定に依存し、実験的な射影測定のセットと同じ結果をもたらす最も可能性の高い変換を提供する。 本手法の性能は, 入力測定回数と, 採用する数値最小化ルーチンに大きく依存する。 本稿では、この問題に対する遺伝的および機械学習のアプローチの適用について検討し、最小値に非常に近い一連の投影計測を処理する際に、より正確な再構成とより高速な操作を可能にすることを発見した。 また、これらの手法を空間依存偏光変換の場合に応用し、複雑なスピン軌道メタ曲面の光学的作用を実験的に評価する。 これらの結果は、非ユニタリゲートや高次元ヒルベルト空間での演算を含む、より一般的な量子過程におけるトモグラフィーアプローチの最適化の基礎となることを期待している。

An optical waveplate rotating light polarization can be modeled as a single-qubit unitary operator, whose action can be experimentally determined via quantum process tomography. Standard approaches to tomographic problems rely on the maximum-likelihood estimation, providing the most likely transformation to yield the same outcomes as a set of experimental projective measurements. The performances of this method strongly depend on the number of input measurements and the numerical minimization routine that is adopted. Here we investigate the application of genetic and machine-learning approaches to this problem, finding that both allow for more accurate reconstructions and faster operations when processing a set of projective measurements very close to the minimal one. We also apply these techniques to the case of space-dependent polarization transformations, providing an experimental characterization of the optical action of complex spin-orbit metasurfaces. We expect these results to lay the groundwork for the optimization of tomographic approaches in more general quantum processes, including non-unitary gates and operations in higher-dimensional Hilbert spaces.
翻訳日:2023-01-21 07:57:15 公開日:2022-10-27
# 自由電子スペクトルせん断干渉計による量子波動関数再構成

Quantum wavefunction reconstruction by free-electron spectral shearing interferometry ( http://arxiv.org/abs/2210.16312v1 )

ライセンス: Link先を確認
Zhaopin Chen, Bin Zhang, Yiming Pan, and Michael Krueger(参考訳) 自由電子スペクトルせん断干渉法(fessi)を用いて,電子パルスの量子波動関数を再構成する新しいスペクトル法を提案する。 我々は、電子波束の時間遅延レプリカを2つ生成し、中赤外レーザー駆動の光電子変調器を用いて1つのレプリカをエネルギーシフトするためにwienフィルタを用いる。 直接的実証として,10keVの運動エネルギーで超短電子パルスを数値的に再構成する。 FESSIは実験的に実現可能であり、スペクトル位相の異なる順序とその物理的意味を完全に決定することができ、超短電子パルスを特徴づけるための普遍的なアプローチを提供する。

We propose a novel spectral method for reconstructing quantum wavefunction of an electron pulse, free-electron spectral shearing interferometry (FESSI). We employ a Wien filter to generate two time-delayed replicas of the electron wavepacket and then shift one replica in energy using a light-electron modulator driven by a mid-infrared laser. As a direct demonstration, we numerically reconstruct an ultrashort electron pulse with a kinetic energy of 10 keV. FESSI is experimentally feasible and enables us to fully determine distinct orders of spectral phases and their physical implications, providing a universal approach to characterize ultrashort electron pulses.
翻訳日:2023-01-21 07:56:58 公開日:2022-10-27
# 追跡誤差の時間領域感度

Time Domain Sensitivity of the Tracking Error ( http://arxiv.org/abs/2210.15783v1 )

ライセンス: Link先を確認
S. O'Neil, S. G. Schirmer, F. C. Langbein, C. A. Weidner, and E. Jonckheere(参考訳) 植物構造の不確実性に対するエラー信号の対数感度の厳密な時間領域の定式化を、古典的および量子システムを用いて提示し、解析する。 結果として、幅広い物理システムにおいて、性能の最大化(誤り信号の最小化)が漸近的に、あるいは特定の時間において、ログ感性の増加のコストを伴い、周波数領域の同一性である$\mathbf{s(s) + t(s) = i}$ に類似した時間領域の制約が示される。 漸近的安定化や追従に基づく古典的問題において限定的な価値を持つ一方で、時間領域の定式化は、時間に基づく性能指標に基づく高忠実性量子制御スキームと一致するロバストネスコストの低減を評価する上で有用である。

A strictly time-domain formulation of the log-sensitivity of the error signal to structured plant uncertainty is presented and analyzed through simple classical and quantum systems. Results demonstrate that across a wide range of physical systems, maximization of performance (minimization of the error signal) asymptotically or at a specific time comes at the cost of increased log-sensitivity, implying a time-domain constraint analogous to the frequency-domain identity $\mathbf{S(s) + T(s) = I}$. While of limited value in classical problems based on asymptotic stabilization or tracking, such a time-domain formulation is valuable in assessing the reduced robustness cost concomitant with high-fidelity quantum control schemes predicated on time-based performance measures.
翻訳日:2023-01-21 07:56:45 公開日:2022-10-27
# 極低温RFフォトニクスによる超伝導量子コンピュータのスケールアップ

Scaling up Superconducting Quantum Computers with Cryogenic RF-photonics ( http://arxiv.org/abs/2210.15756v1 )

ライセンス: Link先を確認
Sanskriti Joshi, Sajjad Moazeni(参考訳) 今日の100キュービットの量子コンピュータは、現実の問題を解決するために数百万キュービットまでの劇的なスケールを必要とする。 様々な量子ビット技術が実証されているが、スケーラビリティは依然として大きなハードルである。 超伝導(SC)量子ビットは、この課題を克服する最も成熟し、有望な技術の1つである。 しかし、これらのクビットはミリケルビン低温希釈冷蔵庫に存在し、熱と電気のノイズから分離される。 それらは非常に複雑な配線とケーブルを通して外部電子機器のラックフルで制御される。 1つのチップで数千キュービットを製造でき、ミリケルビンの温度まで冷やすことができるが、制御と読み出しの電子回路のスケールアップは、いまだに難解な目標である。 これは主に、配線容量とキャブリング熱負荷管理を制限した低温システムで利用可能な冷却電力が限られているためである。 本稿では,低温RF-フォトニックリンクを用いて,XY制御線路のスケールアップに着目する。 これは、1000量子ビットの超伝導qcを作る大きな障害の1つである。 まず,sc qubitシステムの制御インタフェースを大規模化するために,低温cmosや深層クリミカルフォトニック法など,最先端の手法の課題を概観し,検討する。 我々は、能動電力の消散と受動的熱漏れによる限界について詳細に論じる。 ノイズ源と熱予算の限界を解析的にモデル化することで、我々のソリューションが最大1000キュービットまでスケールできることを示します。 提案手法はシリコンフォトニックプロセスを用いてシームレスに実装でき、波長分割多重化(WDM)を用いることで必要な光ファイバーの数をさらに削減することができる。

Today's hundred-qubit quantum computers require a dramatic scale up to millions of qubits to become practical for solving real-world problems. Although a variety of qubit technologies have been demonstrated, scalability remains a major hurdle. Superconducting (SC) qubits are one of the most mature and promising technologies to overcome this challenge. However, these qubits reside in a millikelvin cryogenic dilution fridge, isolating them from thermal and electrical noise. They are controlled by a rack-full of external electronics through extremely complex wiring and cables. Although thousands of qubits can be fabricated on a single chip and cooled down to millikelvin temperatures, scaling up the control and readout electronics remains an elusive goal. This is mainly due to the limited available cooling power in cryogenic systems constraining the wiring capacity and cabling heat load management. In this paper, we focus on scaling up the number of XY-control lines by using cryogenic RF-photonic links. This is one of the major roadblocks to build a thousand qubit superconducting QC. We will first review and study the challenges of state-of-the-art proposed approaches, including cryogenic CMOS and deep-cryogenic photonic methods, to scale up the control interface for SC qubit systems. We will discuss their limitations due to the active power dissipation and passive heat leakage in detail. By analytically modeling the noise sources and thermal budget limits, we will show that our solution can achieve a scale up to a thousand of qubits. Our proposed method can be seamlessly implemented using advanced silicon photonic processes, and the number of required optical fibers can be further reduced by using wavelength division multiplexing (WDM).
翻訳日:2023-01-21 07:56:28 公開日:2022-10-27
# Adiabatic Wigner-Weisskopfモデル

The Adiabatic Wigner-Weisskopf Model ( http://arxiv.org/abs/2210.15725v1 )

ライセンス: Link先を確認
Alain Joye, Marco Merkli(参考訳) 我々は、光子場と相互作用するゆっくり変化する時間依存dレベル原子を考える。 単一励起原子場セクターに制限されるこのモデルは、放射場への原子励起の自然放出を記述するウィグナー・ワイスコプフモデルの時間依存的な一般化である。 本研究では,アディバティックおよび小さなカップリング近似系における原子の動態と放射場の解析を行った。 特に、励起原子状態から始めて、原子の放射的崩壊と場における光子励起の蓄積の両方について記述する。

We consider a slowly varying time dependent d-level atom interacting with a photon field. Restricted to the single excitation atom-field sector, the model is a time-dependent generalization of the Wigner-Weisskopf model describing spontaneous emission of an atomic excitation into the radiation field. We analyze the dynamics of the atom and of the radiation field in the adiabatic and small coupling approximations, in various regimes. In particular, starting with an excited atomic state, we provide a description of both the radiative decay of the atom and of the buildup of the photon excitation in the field.
翻訳日:2023-01-21 07:55:24 公開日:2022-10-27
# 量子力学:概念的含意評価における統計的バランスのリスク

Quantum Mechanics: Statistical Balance Prompts Caution in Assessing Conceptual Implications ( http://arxiv.org/abs/2210.15710v1 )

ライセンス: Link先を確認
Brian Drummond(参考訳) 量子力学を通して、異なる測定タイプに対するシステムの集合反応において、統計的バランスが存在する。 統計バランスは量子力学の中核的な特徴であり、基礎となる量子力学状態は説明されていない。 統計バランス」の概念は、2019年以降の意味と2001年の本来の意味を比較して検討されている。 統計的均衡は現在、次の文脈の特徴を指す。 (a)1つの測定型に対するアンサンブルの集団応答に対して0又は1以外の所定の確率が存在すること。 (b)同じアンサンブルの他の測定値に対する集合的な応答は、元の測定値に関連する特性に対して、そのアンサンブルの個々のメンバーに対して、明確に定義された値を属性付けできないことを示す。 ある説明のつかない方法では、元の型である「バランス」の測定の単回実行の結果が、所定の確率に沿って全体的な結果を与える。 説明されていない統計バランスは、絡み合い、測定、不確実性、および2スリットおよびベル型分析の概念的意義を評価する上で注意を喚起する。 物理学者は、より広い人口に対して、量子力学について概念的に正確なことと、多くの考えられる概念的含意が不確かであることを明確にする責任がある。

Throughout quantum mechanics there is statistical balance, in the collective response of an ensemble of systems to differing measurement types. Statistical balance is a core feature of quantum mechanics, underlying quantum mechanical states, and not yet explained. The concept of "statistical balance" is here explored, comparing its meaning since 2019 with its original meaning in 2001. Statistical balance now refers to a feature of contexts in which: (a) there is a prescribed probability other than 0 or 1 for the collective response of an ensemble to one measurement type; and (b) the collective response of the same ensemble to another measurement type demonstrates that no well-defined value can be attributed, for the property relevant to the original measurement type, to individual members of the ensemble. In some unexplained way, the outcomes of single runs of a measurement of the original type "balance" each other to give an overall result in line with the prescribed probability. Unexplained statistical balance prompts caution in assessing the conceptual implications of entanglement, measurement, uncertainty, and two-slit and Bell-type analyses. Physicists have a responsibility to the wider population to be conceptually precise about quantum mechanics, and to make clear that many possible conceptual implications are uncertain.
翻訳日:2023-01-21 07:55:15 公開日:2022-10-27
# スケーラブル量子コンピューティングのためのマイクロ波-光学統合インタフェース

An integrated microwave-to-optics interface for scalable quantum computing ( http://arxiv.org/abs/2210.15702v1 )

ライセンス: Link先を確認
Matthew J. Weaver, Pim Duivestein, Alexandra C. Bernasconi, Selim Scharmer, Mathilde Lemang, Thierry C. van Thiel, Frederick Hijazi, Bas Hensen, Simon Gr\"oblacher, Robert Stockill(参考訳) マイクロ波から光学への変換は、量子コンピュータと量子ネットワークをスケールするための重要な技術として発展しつつある。 キュービット処理ユニット間の有用な絡み合いリンクを確立するために、トランスデューサは入力参照ノイズの1量子数を1量子以下にし、高い効率で動作し、帯域幅が大きく、繰り返しレートが高いという、いくつかの重要な条件を同時に満たさなければならない。 ここでは,シリコン上にニオブ酸リチウムを添加したメカニカル発振器を用いて,シリコンフォトニックキャビティに結合した平面超伝導共振器に基づく集積型トランスデューサの設計を提案する。 実験では,光子数に制限された雑音,最大0.9%の伝送効率,14.8MHzの帯域幅,最大100kHzの繰り返し速度で,これらの条件を同時に実現するための特性とポテンシャルを実験的に実証した。 我々のデバイスは50オーム伝送ラインに直接接続し、1つのチップ上で多数のトランスデューサに容易にスケールできるので、分散量子コンピューティングへの道が開ける。

Microwave-to-optics transduction is emerging as a vital technology for scaling quantum computers and quantum networks. To establish useful entanglement links between qubit processing units, several key conditions have to be simultaneously met: the transducer must add less than a single quantum of input referred noise and operate with high-efficiency, as well as large bandwidth and high repetition rate. Here we present a new design for an integrated transducer based on a planar superconducting resonator coupled to a silicon photonic cavity through a mechanical oscillator made of lithium niobate on silicon. We experimentally demonstrate its unique performance and potential for simultaneously realizing all of the above conditions, measuring added noise that is limited to a few photons, transduction efficiencies as high as 0.9%, with a bandwidth of 14.8 MHz and a repetition rate of up to 100 kHz. Our device couples directly to a 50-Ohm transmission line and can easily be scaled to a large number of transducers on a single chip, paving the way for distributed quantum computing.
翻訳日:2023-01-21 07:54:55 公開日:2022-10-27
# 逆コレスキー因子分解に基づくグレヴィル法を分割行列へ拡張する効率的で安定なアルゴリズム

Efficient and Stable Algorithms to Extend Greville's Method to Partitioned Matrices Based on Inverse Cholesky Factorization ( http://arxiv.org/abs/2005.07045v2 )

ライセンス: Link先を確認
Hufei Zhu(参考訳) grevilleの手法は(broad learning-ing system) blsで活用され、ネットワーク全体を最初から再トレーニングすることなく、効果的かつ効率的なインクリメンタル学習システムを提案する。 第二部が p 列からなる列分割行列に対して、グレヴィルの方法は、第一部の擬逆から行列全体の擬逆を計算するのに p 反復を必要とする。 blsのインクリメンタルなアルゴリズムは、最初の部分の擬似逆数から行列全体の擬逆数を計算するためにグレヴィルの手法を拡張し、いくつかの可能なケースを無視し、効率と数値の安定性をさらに改善する必要がある。 本稿では,すべての可能な場合を考慮し,最初の部分の擬逆から行列全体の擬逆を1回の反復で計算し,最近提案されている逆コレスキー因子分解を計算複雑性を更に低減するために,greville法に基づく効率的で数値的な安定なアルゴリズムを提案する。 最後に,BLSにおける列分割行列に対する全アルゴリズムを提案する。 一方,BLSにおける行分割行列のアルゴリズムも提案する。

Greville's method has been utilized in (Broad Learn-ing System) BLS to propose an effective and efficient incremental learning system without retraining the whole network from the beginning. For a column-partitioned matrix where the second part consists of p columns, Greville's method requires p iterations to compute the pseudoinverse of the whole matrix from the pseudoinverse of the first part. The incremental algorithms in BLS extend Greville's method to compute the pseudoinverse of the whole matrix from the pseudoinverse of the first part by just 1 iteration, which have neglected some possible cases, and need further improvements in efficiency and numerical stability. In this paper, we propose an efficient and numerical stable algorithm from Greville's method, to compute the pseudoinverse of the whole matrix from the pseudoinverse of the first part by just 1 iteration, where all possible cases are considered, and the recently proposed inverse Cholesky factorization can be applied to further reduce the computational complexity. Finally, we give the whole algorithm for column-partitioned matrices in BLS. On the other hand, we also give the proposed algorithm for row-partitioned matrices in BLS.
翻訳日:2022-12-03 04:47:12 公開日:2022-10-27
# 脳構造と機能的コネクトーム解析のための共同グラフ畳み込み

Joint Graph Convolution for Analyzing Brain Structural and Functional Connectome ( http://arxiv.org/abs/2211.07363v1 )

ライセンス: Link先を確認
Yueting Li, Qingyue Wei, Ehsan Adeli, Kilian M. Pohl, and Qingyu Zhao(参考訳) 脳のホワイトマッター(ミクロ構造)構造はニューロン集団間の同期を促進し、機能的結合を豊かに生み出す。 神経科学の基本的な問題は、拡散テンソルイメージングと静止状態機能MRIによって定量化された構造的および機能的ネットワークを関連付ける最良の方法を決定することである。 ネットワーク分析における最先端のアプローチの1つとして、グラフ畳み込みネットワーク(GCN)は機能的および構造的ネットワークの解析に別々に用いられているが、ネットワーク間関係の探索には適用されていない。 本研究は,脳領域間のネットワーク間エッジを付加することにより,個人の2つのネットワークを結合させ,結合構造関数グラフを1つのGCNで直接解析することを提案する。 ネットワーク間エッジの重みは学習可能であり、脳全体の非一様構造-機能結合強度を反映している。 若年者におけるアルコール・神経発達に関する全国コンソーシアム(NCANDA)の公開データセットから得られた662人の年齢と性別を,機能的およびミクロ構造的ホワイトマターネットワークに基づいて予測する。 提案するジョイントgcnは,構造的および機能的ネットワーク解析のための既存のマルチモーダルグラフ学習手法よりも優れていることを裏付ける。

The white-matter (micro-)structural architecture of the brain promotes synchrony among neuronal populations, giving rise to richly patterned functional connections. A fundamental problem for systems neuroscience is determining the best way to relate structural and functional networks quantified by diffusion tensor imaging and resting-state functional MRI. As one of the state-of-the-art approaches for network analysis, graph convolutional networks (GCN) have been separately used to analyze functional and structural networks, but have not been applied to explore inter-network relationships. In this work, we propose to couple the two networks of an individual by adding inter-network edges between corresponding brain regions, so that the joint structure-function graph can be directly analyzed by a single GCN. The weights of inter-network edges are learnable, reflecting non-uniform structure-function coupling strength across the brain. We apply our Joint-GCN to predict age and sex of 662 participants from the public dataset of the National Consortium on Alcohol and Neurodevelopment in Adolescence (NCANDA) based on their functional and micro-structural white-matter networks. Our results support that the proposed Joint-GCN outperforms existing multi-modal graph learning approaches for analyzing structural and functional networks.
翻訳日:2022-11-20 14:17:13 公開日:2022-10-27
# タンパク質機能予測のための深層学習技術の展望

A Review of Deep Learning Techniques for Protein Function Prediction ( http://arxiv.org/abs/2211.09705v1 )

ライセンス: Link先を確認
Divyanshu Aggarwal and Yasha Hasija(参考訳) 近年、ディープラーニングとビッグデータはバイオインフォマティクスや計算生物学において大きな成功を収めており、人工知能の手法もタンパク質機能分類の課題に大きく貢献している。 本稿では, 深層学習を用いたタンパク質機能予測手法の最近の展開を概説する。 本稿では,タンパク質の機能決定の重要性と,その自動化が重要である理由を説明する。 そして,この課題に広く用いられている深層学習手法をレビューし,近年のコンピュータビジョン,自然言語処理,マルチモーダル学習の分野において画期的な成果を収めた,現代の最先端の深層学習モデル(SOTA)の出現を概観する。 このレビューは、特にタンパク質機能タスクの予測において、生物科学における深層学習の現在の役割と進歩を広く理解し、新しい研究者がこの分野に貢献することを願っている。

Deep Learning and big data have shown tremendous success in bioinformatics and computational biology in recent years; artificial intelligence methods have also significantly contributed in the task of protein function classification. This review paper analyzes the recent developments in approaches for the task of predicting protein function using deep learning. We explain the importance of determining the protein function and why automating the following task is crucial. Then, after reviewing the widely used deep learning techniques for this task, we continue our review and highlight the emergence of the modern State of The Art (SOTA) deep learning models which have achieved groundbreaking results in the field of computer vision, natural language processing and multi-modal learning in the last few years. We hope that this review will provide a broad view of the current role and advances of deep learning in biological sciences, especially in predicting protein function tasks and encourage new researchers to contribute to this area.
翻訳日:2022-11-20 14:15:52 公開日:2022-10-27
# 深層ニューラルネットワークにおける勾配不安定性解消のための直交初期化の生物学的可能性について

On the biological plausibility of orthogonal initialisation for solving gradient instability in deep neural networks ( http://arxiv.org/abs/2211.08408v1 )

ライセンス: Link先を確認
Nikolay Manchev and Michael Spratling(参考訳) 直交行列を持つニューラルネットワーク(anns)のシナプス重みの初期化は、消失と爆発の勾配問題を緩和することが知られている。 このような初期化スキームに対する大きな反対は、それらは神経生物学的過程に起因し難い因子化技法を委任するので生物学的に不可能であると考えられていることである。 本稿では,ネットワークが自発的に重みを進化させて直交行列を形成するための2つの初期化スキームを提案し,事前学習された直交化が常に収束する理論解析を行い,提案手法がランダムに初期化されたリカレントおよびフィードフォワードネットワークを上回ることを実証的に確認する。

Initialising the synaptic weights of artificial neural networks (ANNs) with orthogonal matrices is known to alleviate vanishing and exploding gradient problems. A major objection against such initialisation schemes is that they are deemed biologically implausible as they mandate factorization techniques that are difficult to attribute to a neurobiological process. This paper presents two initialisation schemes that allow a network to naturally evolve its weights to form orthogonal matrices, provides theoretical analysis that pre-training orthogonalisation always converges, and empirically confirms that the proposed schemes outperform randomly initialised recurrent and feedforward networks.
翻訳日:2022-11-20 14:08:57 公開日:2022-10-27
# スパイクニューラルネットワークにおける伝播遅延による局所学習

Local learning through propagation delays in spiking neural networks ( http://arxiv.org/abs/2211.08397v1 )

ライセンス: Link先を確認
J{\o}rgen Jensen Farner, Ola Huse Ramstad, Stefano Nichele, Kristine Heiney(参考訳) スパイク伝播時間が活動に依存する可塑性を受けるスパイクニューラルネットワークのための新しい局所学習ルールを提案する。 我々の可塑性規則はシナプス前のスパイク時間と一致し、より強く、より速い反応を生み出す。 入力は遅延符号化によって符号化され、出力スパイクアクティビティの類似パターンにマッチしてデコードされる。 本研究では,手書き桁のデータベースから入力した3層フィードフォワードネットワークにおいて,この手法の使用例を示す。 ネットワークは、トレーニング後の分類精度を一貫して向上させ、この方法によるトレーニングにより、トレーニング中の入力クラスへの一般化も可能となった。 提案手法では,ニューロンをスパイクすることで複数のスパイクの時間同期配列をサポートし,それぞれが異なる入力活性化によって活性化される。 ここで示した概念実証は、局所遅延学習がスパイクニューラルネットワークのメモリ容量と一般化性を拡大する大きな可能性を示している。

We propose a novel local learning rule for spiking neural networks in which spike propagation times undergo activity-dependent plasticity. Our plasticity rule aligns pre-synaptic spike times to produce a stronger and more rapid response. Inputs are encoded by latency coding and outputs decoded by matching similar patterns of output spiking activity. We demonstrate the use of this method in a three-layer feedfoward network with inputs from a database of handwritten digits. Networks consistently improve their classification accuracy after training, and training with this method also allowed networks to generalize to an input class unseen during training. Our proposed method takes advantage of the ability of spiking neurons to support many different time-locked sequences of spikes, each of which can be activated by different input activations. The proof-of-concept shown here demonstrates the great potential for local delay learning to expand the memory capacity and generalizability of spiking neural networks.
翻訳日:2022-11-20 14:08:43 公開日:2022-10-27
# CPU上の高速DistilBERT

Fast DistilBERT on CPUs ( http://arxiv.org/abs/2211.07715v1 )

ライセンス: Link先を確認
Haihao Shen, Ofir Zafrir, Bo Dong, Hengyu Meng, Xinyu Ye, Zhe Wang, Yi Ding, Hanwen Chang, Guy Boudoukh, and Moshe Wasserblat(参考訳) トランスフォーマーベースの言語モデルは、自然言語処理タスクを解決する標準的なアプローチとなっている。 しかし、業界の採用は通常、Transformerモデルが本番環境で使用されるのを防ぐために、一定のレイテンシ制約を満たすために最大スループットを必要とする。 このギャップに対処するために、量子化やプルーニングのようなモデル圧縮技術を用いて推論効率を向上させることができる。 しかし、これらの圧縮技術は、大規模に適用および展開するために特別なソフトウェアを必要とする。 本研究では,ハードウェア対応プルーニング,知識蒸留,量子化,およびスパース演算子と量子化演算子を最適化したTransformer推論ランタイムエンジンを用いた,CPU上での高速トランスフォーマーモデルの生成と実行のためのパイプラインを提案する。 我々は,質問応答SQuADv1.1ベンチマークの精度を最小限に抑えたFast DistilBERTモデルを作成し,典型的な生産制約と環境下でのスループット結果を示す。 我々の結果は、既存の最先端のNeural MagicのDeepSparseランタイムのパフォーマンスを最大50%、ONNX Runtimeよりも最大4.1倍のパフォーマンスで上回っています。

Transformer-based language models have become the standard approach to solving natural language processing tasks. However, industry adoption usually requires the maximum throughput to comply with certain latency constraints that prevents Transformer models from being used in production. To address this gap, model compression techniques such as quantization and pruning may be used to improve inference efficiency. However, these compression techniques require specialized software to apply and deploy at scale. In this work, we propose a new pipeline for creating and running Fast Transformer models on CPUs, utilizing hardware-aware pruning, knowledge distillation, quantization, and our own Transformer inference runtime engine with optimized kernels for sparse and quantized operators. We demonstrate the efficiency of our pipeline by creating a Fast DistilBERT model showing minimal accuracy loss on the question-answering SQuADv1.1 benchmark, and throughput results under typical production constraints and environments. Our results outperform existing state-of-the-art Neural Magic's DeepSparse runtime performance by up to 50% and up to 4.1x performance speedup over ONNX Runtime.
翻訳日:2022-11-20 14:08:15 公開日:2022-10-27
# ニューラルネットワークモデルから速度符号化スパイキングニューラルネットワークへの低レイテンシ変換

Low Latency Conversion of Artificial Neural Network Models to Rate-encoded Spiking Neural Networks ( http://arxiv.org/abs/2211.08410v1 )

ライセンス: Link先を確認
Zhanglu Yan, Jun Zhou, Weng-Fai Wong(参考訳) スパイキングニューラルネットワーク(SNN)は、高価な乗算器を必要としないため、リソース制約のあるアプリケーションに適している。 典型的なレート符号化SNNでは、グローバルに固定された時間ウィンドウ内の一連のバイナリスパイクを使用してニューロンを発射する。 このタイムウィンドウにおけるスパイクの最大数は、単一の推論を行う際のネットワークのレイテンシであり、モデル全体のエネルギー効率も決定する。 本研究の目的は、ANNを等価SNNに変換する際の精度を維持しつつ、これを削減することである。 最先端の変換方式は、大きなウィンドウサイズでのみ、ANNと同等の精度でSNNを生成する。 本稿では,既存の ANN モデルから標準レート符号化 SNN モデルへの変換における情報損失の理解から始める。 これらの知見から,変換中に失われた情報を緩和し,極めて低いレイテンシとともに最先端のsnsアキュラシーを実現する,一連の新しい手法を提案する。 提案手法は,MNISTデータセットで98.73% (1タイムステップ),CIFAR-100データセットで76.38% (8タイムステップ),CIFAR-10データセットで93.71% (8タイムステップ)のTop-1 SNN精度を達成した。 ImageNetでは、SNNの精度75.35%/79.16%が100/200タイムステップで達成された。

Spiking neural networks (SNNs) are well suited for resource-constrained applications as they do not need expensive multipliers. In a typical rate-encoded SNN, a series of binary spikes within a globally fixed time window is used to fire the neurons. The maximum number of spikes in this time window is also the latency of the network in performing a single inference, as well as determines the overall energy efficiency of the model. The aim of this paper is to reduce this while maintaining accuracy when converting ANNs to their equivalent SNNs. The state-of-the-art conversion schemes yield SNNs with accuracies comparable with ANNs only for large window sizes. In this paper, we start with understanding the information loss when converting from pre-existing ANN models to standard rate-encoded SNN models. From these insights, we propose a suite of novel techniques that together mitigate the information lost in the conversion, and achieve state-of-art SNN accuracies along with very low latency. Our method achieved a Top-1 SNN accuracy of 98.73% (1 time step) on the MNIST dataset, 76.38% (8 time steps) on the CIFAR-100 dataset, and 93.71% (8 time steps) on the CIFAR-10 dataset. On ImageNet, an SNN accuracy of 75.35%/79.16% was achieved with 100/200 time steps.
翻訳日:2022-11-20 14:07:21 公開日:2022-10-27
# MAEEG:脳波表現学習のためのマスク付きオートエンコーダ

MAEEG: Masked Auto-encoder for EEG Representation Learning ( http://arxiv.org/abs/2211.02625v1 )

ライセンス: Link先を確認
Hsiang-Yun Sherry Chien, Hanlin Goh, Christopher M. Sandino, Joseph Y. Cheng(参考訳) 機械学習を用いた脳波などの生体信号からの情報の復号化は、小さなデータセットとラベル取得の困難さから課題となっている。 本稿では,脳波自動エンコーダ(MAEEG)を用いた自己教師型学習モデルを提案する。 少数のラベルが与えられた場合,MAEEGは睡眠段階分類を大幅に改善する表現(〜5%の精度向上)を学習できることがわかった。 また,復元型SSLプリトレーニングにおける入力サンプルの長さやマスクの仕方が異なることが,下流モデルの性能に大きな影響を及ぼすことがわかった。 具体的には、より大きな比率とより集中したマスク信号の再構築を学ぶことで、睡眠分類のパフォーマンスが向上する。 脳波の表現学習において,リコンストラクションベースのSSLがいかに役立つかが示唆された。

Decoding information from bio-signals such as EEG, using machine learning has been a challenge due to the small data-sets and difficulty to obtain labels. We propose a reconstruction-based self-supervised learning model, the masked auto-encoder for EEG (MAEEG), for learning EEG representations by learning to reconstruct the masked EEG features using a transformer architecture. We found that MAEEG can learn representations that significantly improve sleep stage classification (~5% accuracy increase) when only a small number of labels are given. We also found that input sample lengths and different ways of masking during reconstruction-based SSL pretraining have a huge effect on downstream model performance. Specifically, learning to reconstruct a larger proportion and more concentrated masked signal results in better performance on sleep classification. Our findings provide insight into how reconstruction-based SSL could help representation learning for EEG.
翻訳日:2022-11-13 23:46:48 公開日:2022-10-27
# ディープフィードフォワードネットワークとウェーブレット圧縮を用いたパワーエレクトロニクスコンバータの故障診断

Fault Diagnosis for Power Electronics Converters based on Deep Feedforward Network and Wavelet Compression ( http://arxiv.org/abs/2211.02632v1 )

ライセンス: Link先を確認
Lei Kou, Chuang Liu, Guowei Cai, Zhe Zhang(参考訳) 本稿では,ディープフィードフォワードネットワークとウェーブレット圧縮に基づく電力変換器の故障診断手法を提案する。 ウェーブレット圧縮後の過渡履歴データを用いて故障診断分類器の訓練を実現する。 まず、様々な故障状態で動作する電圧または電流データの相関解析を行い、冗長な特徴とサンプリング点を除去する。 次に、ウェーブレット変換を使用して、機能の冗長なデータを削除し、トレーニングサンプルデータが大幅に圧縮される。 ディープフィードフォワードネットワークは特徴の低周波成分によってトレーニングされ、トレーニング速度は大幅に加速される。 故障診断分類器の平均精度は97%以上に達する。 最後に、故障診断分類器のテストを行い、診断結果の信頼性を向上させる多群過渡データにより最終診断結果を決定する。 実験の結果, 分類器の一般化能力は強く, IGBT の開回路欠陥を正確に検出できることがわかった。

A fault diagnosis method for power electronics converters based on deep feedforward network and wavelet compression is proposed in this paper. The transient historical data after wavelet compression are used to realize the training of fault diagnosis classifier. Firstly, the correlation analysis of the voltage or current data running in various fault states is performed to remove the redundant features and the sampling point. Secondly, the wavelet transform is used to remove the redundant data of the features, and then the training sample data is greatly compressed. The deep feedforward network is trained by the low frequency component of the features, while the training speed is greatly accelerated. The average accuracy of fault diagnosis classifier can reach over 97%. Finally, the fault diagnosis classifier is tested, and final diagnosis result is determined by multiple-groups transient data, by which the reliability of diagnosis results is improved. The experimental result proves that the classifier has strong generalization ability and can accurately locate the open-circuit faults in IGBTs.
翻訳日:2022-11-13 23:46:20 公開日:2022-10-27
# Scalp-EEGデータを用いたEar-EEGベースの睡眠状態改善のための知識蒸留フレームワーク

A Knowledge Distillation Framework For Enhancing Ear-EEG Based Sleep Staging With Scalp-EEG Data ( http://arxiv.org/abs/2211.02638v1 )

ライセンス: Link先を確認
Mithunjha Anandakumar, Jathurshan Pradeepkumar, Simon L. Kappel, Chamira U. S. Edussooriya, Anjula C. De Silva(参考訳) 睡眠は人間の健康に重要な役割を担っている。 ポリソムノグラフィを用いた従来の睡眠研究は、取得設定による不快感や睡眠品質の低下と関連している。 これまでの研究は、高品質な睡眠研究を行うための邪魔の少ない方法の開発に重点を置いてきた。 しかし,耳-EEGによる睡眠ステージングの成績は,頭皮-EEGによる睡眠ステージングよりも劣っている。 頭皮-EEGと耳-EEGベースの睡眠ステージングのパフォーマンスギャップに対処するため,ドメイン適応手法であるクロスモーダルな知識蒸留戦略を提案する。 実験と分析により,提案手法の有効性が検証され,耳eegに基づく睡眠ステージングの精度が3.46%,コーエンのkappa係数が0.038パーセント向上した。

Sleep plays a crucial role in the well-being of human lives. Traditional sleep studies using Polysomnography are associated with discomfort and often lower sleep quality caused by the acquisition setup. Previous works have focused on developing less obtrusive methods to conduct high-quality sleep studies, and ear-EEG is among popular alternatives. However, the performance of sleep staging based on ear-EEG is still inferior to scalp-EEG based sleep staging. In order to address the performance gap between scalp-EEG and ear-EEG based sleep staging, we propose a cross-modal knowledge distillation strategy, which is a domain adaptation approach. Our experiments and analysis validate the effectiveness of the proposed approach with existing architectures, where it enhances the accuracy of the ear-EEG based sleep staging by 3.46% and Cohen's kappa coefficient by a margin of 0.038.
翻訳日:2022-11-13 23:46:05 公開日:2022-10-27
# パラメータ化ハイパーコンプレックスニューラルネットワークを用いた心電図に基づく心房細動の効率的な検出に向けて

Towards Efficient ECG-based Atrial Fibrillation Detection via Parameterised Hypercomplex Neural Networks ( http://arxiv.org/abs/2211.02678v1 )

ライセンス: Link先を確認
Leonie Basso, Zhao Ren, Wolfgang Nejdl(参考訳) 心房細動(af)は最も一般的な心不整脈であり、脳卒中などの重篤な疾患のリスクが高い。 心電図(ECG)とウェアラブルデバイスを組み込んだ長期的記録は、AFの自動的かつタイムリーな評価によって、生命を脅かす状況を避けるのに役立つ。 しかし、ウェアラブルデバイスにおけるECGの自動分析にディープニューラルネットワークを使用することは、その複雑さによって制限される。 本研究では,最近提案されたパラメータ化ハイパーコンプレックス(ph)ニューラルネットワークに触発されたaf検出のための軽量畳み込みニューラルネットワーク(cnns)を提案する。 具体的には、実数値CNNの畳み込み層と完全連結層をそれぞれPH畳み込みと乗算に置き換える。 PH層は任意のチャネル次元 n で操作でき、チャネル間の関係を捉えることができる。 我々は,動的ECG記録と病院内ECG記録の公開データベース上でPH-CNNを評価し,近似を用いて対応する実数値CNNと同等の性能を示す。 1/n$モデルパラメータ。

Atrial fibrillation (AF) is the most common cardiac arrhythmia and associated with a higher risk for serious conditions like stroke. Long-term recording of the electrocardiogram (ECG) with wearable devices embedded with an automatic and timely evaluation of AF helps to avoid life-threatening situations. However, the use of a deep neural network for auto-analysis of ECG on wearable devices is limited by its complexity. In this work, we propose lightweight convolutional neural networks (CNNs) for AF detection inspired by the recently proposed parameterised hypercomplex (PH) neural networks. Specifically, the convolutional and fully-connected layers of a real-valued CNN are replaced by PH convolutions and multiplications, respectively. PH layers are flexible to operate in any channel dimension n and able to capture inter-channel relations. We evaluate PH-CNNs on publicly available databases of dynamic and in-hospital ECG recordings and show comparable performance to corresponding real-valued CNNs while using approx. $1/n$ model parameters.
翻訳日:2022-11-13 23:45:51 公開日:2022-10-27
# ディープニューラルネットワークに適合する偏微分方程式:調査

Partial Differential Equations Meet Deep Neural Networks: A Survey ( http://arxiv.org/abs/2211.05567v1 )

ライセンス: Link先を確認
Shudong Huang, Wentao Feng, Chenwei Tang, Jiancheng Lv(参考訳) 科学と工学における多くの問題は、数学的モデリングを通して偏微分方程式(PDE)の集合で表される。 PDEに続くメカニズムベースの計算は、長い間、計算流体力学、多物理シミュレーション、分子動力学、さらには力学システムといった分野の研究に欠かせないパラダイムであった。 重要性が増し、異常な可能性を持つ、活気ある多分野の分野である。 同時に、PDEの効率的な解決は長年にわたる課題でした。 一般に、解析解が直接利用可能となるいくつかの微分方程式を除いて、多くの方程式は、およそ解決される有限差分法、有限要素法、有限体積法、境界要素法といった数値的な方法に依存する必要がある。 これらの数値法は通常、連続問題領域を離散点に分割し、各点におけるシステムの解法に集中する。 従来の数値法の有効性はあるものの、各ステップに付随する多数の反復演算が効率を著しく低下させる。 近年、深層学習に代表されるデータベースの計算が、PDEを解く効果的な方法として登場した。 驚いたことに、この興味深いサブフィールドの包括的なレビューはまだ欠けている。 この調査は、PDEのDeep Neural Networks(DNN)の現状を分類し、レビューすることを目的としている。 我々は,過去数十年にわたってこのサブフィールドで発行された文献について議論し,それらを共通の分類法として提示し,その関連手法の科学的研究と工学的シナリオへの応用の概要と分類を行った。 このサブフィールドの各潜在的な方向における起源、発達史、性格、ソート、および将来のトレンドも紹介されている。

Many problems in science and engineering can be represented by a set of partial differential equations (PDEs) through mathematical modeling. Mechanism-based computation following PDEs has long been an essential paradigm for studying topics such as computational fluid dynamics, multiphysics simulation, molecular dynamics, or even dynamical systems. It is a vibrant multi-disciplinary field of increasing importance and with extraordinary potential. At the same time, solving PDEs efficiently has been a long-standing challenge. Generally, except for a few differential equations for which analytical solutions are directly available, many more equations must rely on numerical approaches such as the finite difference method, finite element method, finite volume method, and boundary element method to be solved approximately. These numerical methods usually divide a continuous problem domain into discrete points and then concentrate on solving the system at each of those points. Though the effectiveness of these traditional numerical methods, the vast number of iterative operations accompanying each step forward significantly reduces the efficiency. Recently, another equally important paradigm, data-based computation represented by deep learning, has emerged as an effective means of solving PDEs. Surprisingly, a comprehensive review for this interesting subfield is still lacking. This survey aims to categorize and review the current progress on Deep Neural Networks (DNNs) for PDEs. We discuss the literature published in this subfield over the past decades and present them in a common taxonomy, followed by an overview and classification of applications of these related methods in scientific research and engineering scenarios. The origin, developing history, character, sort, as well as the future trends in each potential direction of this subfield are also introduced.
翻訳日:2022-11-13 23:38:39 公開日:2022-10-27
# HYDRA-HGR:マクロ・マイクロ・ニューラルドライブ情報の融合のためのハイブリッドトランスを用いたアーキテクチャ

HYDRA-HGR: A Hybrid Transformer-based Architecture for Fusion of Macroscopic and Microscopic Neural Drive Information ( http://arxiv.org/abs/2211.02619v1 )

ライセンス: Link先を確認
Mansooreh Montazerin, Elahe Rahimian, Farnoosh Naderkhani, S. Farokh Atashzar, Hamid Alinejad-Rokny, Arash Mohammadi(参考訳) 先進表面筋電図(SEMG)に基づくヒューマン・マシン・インタフェース(HMI)システムの開発は、未来的サイバー物理・ヒューマン(CPH)世界の出現への道を開く上で最重要となる。 この文脈において、最近の文献の主な焦点は、マクロレベルのハンドジェスチャー認識(HGR)を実行する異なるディープニューラルネットワーク(DNN)ベースのアーキテクチャ(すなわち、sEMG信号から直接)の開発であった。 同時に、高密度sEMG信号(HD-sEMG)の取得の進展により、顕微鏡的ニューラルドライブ情報抽出のためのsEMG分解技術への大きな関心が高まっている。 しかし、sEMG分解の複雑さと計算オーバーヘッドの増大により、顕微鏡レベルでのHGRは、前述のDNNベースのものよりも探索が小さい。 本稿では、2つの独立ビジョントランスフォーマー(ViT)ベースの並列アーキテクチャ(いわゆるマクロパスとマイクロパス)を通じて、時間的・空間的特徴のセットを同時に抽出するハイブリッドモデルHYDRA-HGRフレームワークを提案する。 マクロパスは、前処理したHD-sEMG信号に基づいて直接訓練され、マイクロパスは、抽出されたモータユニットアクション電位(MUAP)のp-to-p値で供給される。 マクロおよび顕微鏡レベルの抽出された特徴は、完全な結合(FC)融合層を介して結合される。 提案したハイブリッドHYDRA-HGRフレームワークを,最近リリースされたHD-sEMGデータセットを用いて評価した。 提案されたhydra-hgrフレームワークは、250msのウィンドウサイズで平均94.86%の精度を実現しており、それぞれマクロパスとマイクロパスよりも5.52%高い8.22%である。

Development of advance surface Electromyogram (sEMG)-based Human-Machine Interface (HMI) systems is of paramount importance to pave the way towards emergence of futuristic Cyber-Physical-Human (CPH) worlds. In this context, the main focus of recent literature was on development of different Deep Neural Network (DNN)-based architectures that perform Hand Gesture Recognition (HGR) at a macroscopic level (i.e., directly from sEMG signals). At the same time, advancements in acquisition of High-Density sEMG signals (HD-sEMG) have resulted in a surge of significant interest on sEMG decomposition techniques to extract microscopic neural drive information. However, due to complexities of sEMG decomposition and added computational overhead, HGR at microscopic level is less explored than its aforementioned DNN-based counterparts. In this regard, we propose the HYDRA-HGR framework, which is a hybrid model that simultaneously extracts a set of temporal and spatial features through its two independent Vision Transformer (ViT)-based parallel architectures (the so called Macro and Micro paths). The Macro Path is trained directly on the pre-processed HD-sEMG signals, while the Micro path is fed with the p-to-p values of the extracted Motor Unit Action Potentials (MUAPs) of each source. Extracted features at macroscopic and microscopic levels are then coupled via a Fully Connected (FC) fusion layer. We evaluate the proposed hybrid HYDRA-HGR framework through a recently released HD-sEMG dataset, and show that it significantly outperforms its stand-alone counterparts. The proposed HYDRA-HGR framework achieves average accuracy of 94.86% for the 250 ms window size, which is 5.52% and 8.22% higher than that of the Macro and Micro paths, respectively.
翻訳日:2022-11-13 23:37:43 公開日:2022-10-27
# 不均衡データに対する関連ベクトルマシン分類の完全ベイズ解析

Fully Bayesian Analysis of the Relevance Vector Machine Classification for Imbalanced Data ( http://arxiv.org/abs/2007.13140v2 )

ライセンス: Link先を確認
Wenyang Wang, Dongchu Sun, Zhuoqiong He(参考訳) Relevance Vector Machine (RVM)は、ベイズ空間モデルに基づいてSVM(Support Vector Machine)から拡張された教師あり学習アルゴリズムである。 回帰問題と比較すると,後方の重みパラメータに対する閉形式解がないため,rvmの分類は困難である。 元のRVM分類アルゴリズムはニュートン法を最適化に用い、重量パラメータの後方モードを取得し、ラプラス法におけるガウス分布で近似した。 それは機能するが、ベイズフレームワークで周波数法を適用しただけである。 本稿では,rvm分類の汎用ベイズ法を提案する。 本アルゴリズムは, 従来のrvm分類アルゴリズムの非収束推定値と比較して, 関心量の収束推定を達成していると推測する。 さらに,rvm分類のための階層型ハイパープライオリティ構造を持つ完全ベイズ型アプローチを提案し,特に不均衡データ問題において,分類性能を改善した。 数値計算により,提案アルゴリズムは高い分類精度が得られる。 完全ベイズ階層型ハイパープライアー法は、不均衡データ分類の一般的な方法よりも優れている。

Relevance Vector Machine (RVM) is a supervised learning algorithm extended from Support Vector Machine (SVM) based on the Bayesian sparsity model. Compared with the regression problem, RVM classification is difficult to be conducted because there is no closed-form solution for the weight parameter posterior. Original RVM classification algorithm used Newton's method in optimization to obtain the mode of weight parameter posterior then approximated it by a Gaussian distribution in Laplace's method. It would work but just applied the frequency methods in a Bayesian framework. This paper proposes a Generic Bayesian approach for the RVM classification. We conjecture that our algorithm achieves convergent estimates of the quantities of interest compared with the nonconvergent estimates of the original RVM classification algorithm. Furthermore, a Fully Bayesian approach with the hierarchical hyperprior structure for RVM classification is proposed, which improves the classification performance, especially in the imbalanced data problem. By the numeric studies, our proposed algorithms obtain high classification accuracy rates. The Fully Bayesian hierarchical hyperprior method outperforms the Generic one for the imbalanced data classification.
翻訳日:2022-11-06 19:55:25 公開日:2022-10-27
# シンボリック回帰法による原子間ポテンシャルモデルの汎化可能性

Generalizability of Functional Forms for Interatomic Potential Models Discovered by Symbolic Regression ( http://arxiv.org/abs/2210.15124v1 )

ライセンス: Link先を確認
Alberto Hernandez, Tim Mueller(参考訳) 近年、原子間ポテンシャルモデルを開発するために機械学習アルゴリズムの利用が大きな進歩を遂げている。 機械学習ポテンシャルモデルは一般に密度汎関数理論よりも桁違いに速いが、埋め込み原子法のような物理学由来のモデルよりも桁違いに遅い。 これまでの研究では、シンボリック回帰を用いて、埋め込み原子法に類似した新しい機能形式を持つ銅の高速で正確で転送可能な原子間ポテンシャルモデルを開発した。 これらの形態の成功が銅に比例する程度を判断するために、これらのモデルの他の要素への一般化可能性について検討し、いくつかの材料特性のサンプル外性能を解析する。 これらの形状は銅と化学的に類似した元素に特によく作用することがわかった。 類似した複雑さを持つ最適化されたサットン・シェンモデルと比較すると、シンボリック回帰を用いて発見された関数形式は、類似した性能を持つ金を除く全ての要素でより良く機能する。 それらは、訓練された性質上の適度に複雑な埋め込み原子形式と類似し、他の性質について平均的により正確である。 一般化された精度の向上は、記号回帰を用いて発見されたモデルの相対的単純さに起因している。 遺伝的プログラミングモデルは、約50%の確率で他のモデルよりも優れており、モデルの複雑さの約1/10である。 これらの結果が新たなポテンシャルの発達へのシンボル回帰の広範な応用にもたらす影響を論じ、ある要素で発見されたモデルを用いて異なる要素の新しい探索を行う方法について述べる。

In recent years there has been great progress in the use of machine learning algorithms to develop interatomic potential models. Machine-learned potential models are typically orders of magnitude faster than density functional theory but also orders of magnitude slower than physics-derived models such as the embedded atom method. In our previous work, we used symbolic regression to develop fast, accurate and transferrable interatomic potential models for copper with novel functional forms that resemble those of the embedded atom method. To determine the extent to which the success of these forms was specific to copper, here we explore the generalizability of these models to other elements and analyze their out-of-sample performance on several material properties. We found that these forms work particularly well on elements that are chemically similar to copper. When compared to optimized Sutton-Chen models, which have similar complexity, the functional forms discovered using symbolic regression perform better across all elements considered except gold where they have a similar performance. They perform similarly to a moderately more complex embedded atom form on properties on which they were trained, and they are more accurate on average on other properties. We attribute this improved generalized accuracy to the relative simplicity of the models discovered using symbolic regression. The genetic programming models are found to outperform other models from the literature about 50% of the time, with about 1/10th the model complexity on average. We discuss the implications of these results to the broader application of symbolic regression to the development of new potentials and highlight how models discovered for one element can be used to seed new searches for different elements.
翻訳日:2022-11-06 14:39:01 公開日:2022-10-27
# 音声強調のための多用途拡散型生成精製器

A Versatile Diffusion-based Generative Refiner for Speech Enhancement ( http://arxiv.org/abs/2210.17287v1 )

ライセンス: Link先を確認
Ryosuke Sawata, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Takashi Shibuya, Shusuke Takahashi and Yuki Mitsufuji(参考訳) ディープニューラルネットワーク(DNN)ベースの音声強調法(SE)は、従来の非DNNベースの手法よりも優れているが、生成された出力の知覚品質を劣化させることが多い。 この問題に対処するために,我々は,SE法により事前処理された知覚音声品質の向上を目的としたDNNベースの生成精細機を提案する。 精製装置として,クリーン音声のみからなるデータセットを用いて拡散型生成モデルを訓練する。 次に, 前回のse法で生じた劣化・歪部を, 拡散回復により新たに生成したクリーン部に置き換える。 精製器をクリーンな音声で訓練すると、各SEモジュールに特別な追加の訓練を加えることなく、様々なSEメソッドに適用することができる。 したがって,本手法は多機能な後処理モジュールw.r.t.SE法であり,モジュラリティの面で高い可能性を持つ。 実験の結果,従来のSE手法によらず,知覚音声の質が向上した。

Although deep neural network (DNN)-based speech enhancement (SE) methods outperform the previous non-DNN-based ones, they often degrade the perceptual quality of generated outputs. To tackle this problem, We introduce a DNN-based generative refiner aiming to improve perceptual speech quality pre-processed by an SE method. As the refiner, we train a diffusion-based generative model by utilizing a dataset consisting of clean speech only. Then, the model replaces the degraded and distorted parts caused by a preceding SE method with newly generated clean parts by denoising diffusion restoration. Once our refiner is trained on a set of clean speech, it can be applied to various SE methods without additional training specialized for each SE module. Therefore, our refiner can be a versatile post-processing module w.r.t. SE methods and has high potential in terms of modularity. Experimental results show that our method improved perceptual speech quality regardless of the preceding SE methods used.
翻訳日:2022-11-01 20:08:10 公開日:2022-10-27
# トランスオートエンコーダを用いた合成器プリセット補間

Synthesizer Preset Interpolation using Transformer Auto-Encoders ( http://arxiv.org/abs/2210.16984v1 )

ライセンス: Link先を確認
Gwendal Le Vaillant, Thierry Dutoit(参考訳) サウンドシンセサイザーは現代の音楽制作で広く普及しているが、熟練のスキルを身につける必要がある。 この研究は、すべての音合成パラメータの値のセットであるプリセット間の補間に焦点を当て、既存の音から新しい音を直感的に生成できるようにする。 本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。 このモデルは、100以上のパラメータを持つ一般的な周波数変調合成器でテストされている。 実験では、モデルを関連するアーキテクチャや手法と比較し、よりスムーズな補間を行うことを示した。 トレーニング後,提案モデルは実演補間や音響設計作業のために市販の合成装置に組み込むことができる。

Sound synthesizers are widespread in modern music production but they increasingly require expert skills to be mastered. This work focuses on interpolation between presets, i.e., sets of values of all sound synthesis parameters, to enable the intuitive creation of new sounds from existing ones. We introduce a bimodal auto-encoder neural network, which simultaneously processes presets using multi-head attention blocks, and audio using convolutions. This model has been tested on a popular frequency modulation synthesizer with more than one hundred parameters. Experiments have compared the model to related architectures and methods, and have demonstrated that it performs smoother interpolations. After training, the proposed model can be integrated into commercial synthesizers for live interpolation or sound design tasks.
翻訳日:2022-11-01 19:57:32 公開日:2022-10-27
# 連続辞書から発行される混合物の同時学習

Simultaneous off-the-grid learning of mixtures issued from a continuous dictionary ( http://arxiv.org/abs/2210.16311v1 )

ライセンス: Link先を確認
Cristina Butucea (CREST), Jean-Fran\c{c}ois Delmas (CERMICS), Anne Dutfoy (EDF R\&D), Cl\'ement Hardy (CERMICS, EDF R\&D)(参考訳) 本稿では、ノイズによって劣化した信号の集合、おそらく連続体を観察する。 各信号は連続辞書に属する未知の数の特徴の有限混合である。 連続辞書は実際の非線形パラメータによってパラメータ化される。 信号は、データセット全体のアクティブな特徴の結合が有限であると言うことによって、基礎構造を共有すると仮定する。 我々は正規化された最適化問題を定式化し、混合の線形係数と特徴の非線形パラメータを同時に推定する。 最適化問題は、データ忠実性項と(l1,lp)ペナルティからなる。 我々は推定器に付随する予測誤差に対する高い確率境界を証明した。 証明は証明書関数の存在に基づいている。 オフ・ザ・グリッド法の幾何学に関する最近の研究に続いて、アクティブな特徴のパラメータがリーマン計量に関して定数によって一対に分離されるので、そのような関数を構成できることを示した。 信号数が有限でノイズがガウス過程と仮定された場合、ガウス過程のsupremaと$\chi$2のランダム過程のテール境界を用いて、p = 1 と p = 2 に対する結果の精細化を行う。 p = 2 の場合、予測誤差はマルチタスク線形回帰モデルにおいて群ラッソ推定器によって得られる速度に達する。

In this paper we observe a set, possibly a continuum, of signals corrupted by noise. Each signal is a finite mixture of an unknown number of features belonging to a continuous dictionary. The continuous dictionary is parametrized by a real non-linear parameter. We shall assume that the signals share an underlying structure by saying that the union of active features in the whole dataset is finite. We formulate regularized optimization problems to estimate simultaneously the linear coefficients in the mixtures and the non-linear parameters of the features. The optimization problems are composed of a data fidelity term and a (l1 , Lp)-penalty. We prove high probability bounds on the prediction errors associated to our estimators. The proof is based on the existence of certificate functions. Following recent works on the geometry of off-the-grid methods, we show that such functions can be constructed provided the parameters of the active features are pairwise separated by a constant with respect to a Riemannian metric. When the number of signals is finite and the noise is assumed Gaussian, we give refinements of our results for p = 1 and p = 2 using tail bounds on suprema of Gaussian and $\chi$2 random processes. When p = 2, our prediction error reaches the rates obtained by the Group-Lasso estimator in the multi-task linear regression model.
翻訳日:2022-11-01 16:53:29 公開日:2022-10-27
# 医用画像分割のための前セグメンテーション拡散サンプリングによる拡散促進モデル

Accelerating Diffusion Models via Pre-segmentation Diffusion Sampling for Medical Image Segmentation ( http://arxiv.org/abs/2210.17408v1 )

ライセンス: Link先を確認
Xutao Guo, Yanwu Yang, Chenfei Ye, Shang Lu, Yang Xiang, Ting Ma(参考訳) Denoising Diffusion Probabilistic Model (DDPM)に基づいて、医療画像セグメンテーションは条件付き画像生成タスクとして記述することができ、セグメンテーションの画素単位の不確実性マップを計算し、セグメンテーションの暗黙のアンサンブルによってセグメンテーション性能を高めることができる。 しかし、DDPMはガウスノイズからセグメンテーションを生成するために多くの反復分解ステップを必要とし、非常に非効率な推論をもたらす。 そこで本研究では, 医用画像のセグメンテーションに特に用いられる, 前セグメンテーション拡散サンプリングddpm (pd-ddpm) という原理的加速戦略を提案する。 鍵となる考え方は、個別に訓練されたセグメンテーションネットワークに基づいて事前セグメンテーション結果を取得し、前方拡散規則に従ってノイズ予測(非ガウス分布)を構築することである。 ノイズの多い予測から始めて、セグメント化結果を生成するために逆ステップを少なくすることができる。 実験により, PD-DDPMは, 逆ステップの数が著しく減少しても, 代表ベースライン法よりも高いセグメンテーション結果が得られることが示された。 さらに、PD-DDPMは既存の高度なセグメンテーションモデルと直交しており、さらにセグメンテーション性能を向上させるために組み合わせることができる。

Based on the Denoising Diffusion Probabilistic Model (DDPM), medical image segmentation can be described as a conditional image generation task, which allows to compute pixel-wise uncertainty maps of the segmentation and allows an implicit ensemble of segmentations to boost the segmentation performance. However, DDPM requires many iterative denoising steps to generate segmentations from Gaussian noise, resulting in extremely inefficient inference. To mitigate the issue, we propose a principled acceleration strategy, called pre-segmentation diffusion sampling DDPM (PD-DDPM), which is specially used for medical image segmentation. The key idea is to obtain pre-segmentation results based on a separately trained segmentation network, and construct noise predictions (non-Gaussian distribution) according to the forward diffusion rule. We can then start with noisy predictions and use fewer reverse steps to generate segmentation results. Experiments show that PD-DDPM yields better segmentation results over representative baseline methods even if the number of reverse steps is significantly reduced. Moreover, PD-DDPM is orthogonal to existing advanced segmentation models, which can be combined to further improve the segmentation performance.
翻訳日:2022-11-01 16:42:06 公開日:2022-10-27
# ProbNeRF:2次元画像からの3次元形状の不確かさ認識

ProbNeRF: Uncertainty-Aware Inference of 3D Shapes from 2D Images ( http://arxiv.org/abs/2210.17415v1 )

ライセンス: Link先を確認
Matthew D. Hoffman, Tuan Anh Le, Pavel Sountsov, Christopher Suter, Ben Lee, Vikash K. Mansinghka, Rif A. Saurous(参考訳) 単一の2次元画像から物体形状を推定する問題は、過小評価される。 しかし、そのような事前の知識を考えると、物体の閉塞した部分の形状についてはまだ不確実性があるかもしれない。 近年, 単一2次元画像から3次元モデルの良点推定を推定できる条件付きニューラル放射場(NeRF)モデルが開発されている。 これらのモデルに対する不確実性を推定する問題は、あまり注目されていない。 本研究では,3次元物体の形状と外観の確率的生成モデルを学習し,その特性を2次元画像から再現するためのモデルと推論戦略である確率的NeRF(ProbNeRF)を提案する。 ProbNeRFは変分オートエンコーダとして訓練されているが、テスト時にはハミルトンモンテカルロ(HMC)を用いて推論を行う。 ProbNeRFは、物体の1つまたは数つの2D画像(一部は隠されているかもしれない)を与えられた場合、その部分の正確なモデル化だけでなく、見えない部分に関する現実的で多様な仮説を提案することができる。 ProbNeRFの成功の鍵は何かを示す。 (i)決定論的レンダリングスキーム (II)焼鈍HMC戦略 (iii)ハイパーネットワークベースのデコーダアーキテクチャ、及び (iv) 単に低次元のコードではなく、一組のNeRF重みに対して推論を行う。

The problem of inferring object shape from a single 2D image is underconstrained. Prior knowledge about what objects are plausible can help, but even given such prior knowledge there may still be uncertainty about the shapes of occluded parts of objects. Recently, conditional neural radiance field (NeRF) models have been developed that can learn to infer good point estimates of 3D models from single 2D images. The problem of inferring uncertainty estimates for these models has received less attention. In this work, we propose probabilistic NeRF (ProbNeRF), a model and inference strategy for learning probabilistic generative models of 3D objects' shapes and appearances, and for doing posterior inference to recover those properties from 2D images. ProbNeRF is trained as a variational autoencoder, but at test time we use Hamiltonian Monte Carlo (HMC) for inference. Given one or a few 2D images of an object (which may be partially occluded), ProbNeRF is able not only to accurately model the parts it sees, but also to propose realistic and diverse hypotheses about the parts it does not see. We show that key to the success of ProbNeRF are (i) a deterministic rendering scheme, (ii) an annealed-HMC strategy, (iii) a hypernetwork-based decoder architecture, and (iv) doing inference over a full set of NeRF weights, rather than just a low-dimensional code.
翻訳日:2022-11-01 16:06:13 公開日:2022-10-27
# cnn圧縮のための効率的な類似性に基づくパッシブフィルタプルーニング

Efficient Similarity-based Passive Filter Pruning for Compressing CNNs ( http://arxiv.org/abs/2210.17416v1 )

ライセンス: Link先を確認
Arshdeep Singh, Mark D. Plumbley(参考訳) 畳み込みニューラルネットワーク(CNN)は様々なアプリケーションで大きな成功を収めている。 しかし、CNNの計算複雑性とメモリストレージは、リソース制約のあるデバイスへの展開のボトルネックとなっている。 CNNの計算コストとメモリオーバーヘッドを削減しようとする最近の取り組みは、類似性に基づくパッシブフィルタプルーニング手法である。 類似度に基づくパッシブフィルタプルーニング法は、フィルタのペアワイズ類似度行列を計算し、いくつかの類似フィルタを除去して小さなプルーニングCNNを得る。 しかし、ペアワイズ類似性行列を計算する計算の複雑さは高く、特に畳み込み層が多くのフィルタを持つ場合である。 ペアワイズ類似度行列を得る際の計算の複雑さを軽減するため、nystr\"om近似法を用いて、完全ペアワイズ類似度行列をその列のほんの数列から近似する効率的な方法を提案する。 提案する効率的な類似性に基づくパッシブフィルタプルーニング法は,完全ペアワイズ類似性行列を計算した類似性に基づくプルーニング法と比較して,cnnの計算量の削減と同じ精度で3倍高速である。 これとは別に、提案手法は既存のノルムベースプルーニング法と同等かそれ以上に機能する。 提案手法の有効性を,DCASE 2021 Task 1A ベースラインネットワークや音響シーン分類用に設計されたVGGish ネットワークなどのCNNで評価した。

Convolution neural networks (CNNs) have shown great success in various applications. However, the computational complexity and memory storage of CNNs is a bottleneck for their deployment on resource-constrained devices. Recent efforts towards reducing the computation cost and the memory overhead of CNNs involve similarity-based passive filter pruning methods. Similarity-based passive filter pruning methods compute a pairwise similarity matrix for the filters and eliminate a few similar filters to obtain a small pruned CNN. However, the computational complexity of computing the pairwise similarity matrix is high, particularly when a convolutional layer has many filters. To reduce the computational complexity in obtaining the pairwise similarity matrix, we propose to use an efficient method where the complete pairwise similarity matrix is approximated from only a few of its columns by using a Nystr\"om approximation method. The proposed efficient similarity-based passive filter pruning method is 3 times faster and gives same accuracy at the same reduction in computations for CNNs compared to that of the similarity-based pruning method that computes a complete pairwise similarity matrix. Apart from this, the proposed efficient similarity-based pruning method performs similarly or better than the existing norm-based pruning methods. The efficacy of the proposed pruning method is evaluated on CNNs such as DCASE 2021 Task 1A baseline network and a VGGish network designed for acoustic scene classification.
翻訳日:2022-11-01 15:03:48 公開日:2022-10-27
# アイデアには形がありますか? ニューラルネットワークの連続的限界としてのアイデア登録

Do ideas have shape? Idea registration as the continuous limit of artificial neural networks ( http://arxiv.org/abs/2008.03920v3 )

ライセンス: Link先を確認
Houman Owhadi(参考訳) 本稿ではResNetsのGP一般化(特にResNetsを含む)を紹介する。 本稿では,ResNets(とそのGP一般化)が無限深度限界において,画像登録変分アルゴリズムの一般化に収束することを示す。 計算解剖学は、物質空間のワープによって画像を整列させるが、この一般化は入力空間を出力空間にマッピングする関数のRKHSのワープを通じてアイデア(プラトンの形式理論のような抽象的な形状)を整列させる。 ResNetsのハミルトン解釈は新しいものではないが、Ansatzに基づいている。 我々はこのアンサッツを頼りにせず、訓練された重みとバイアスを持つ再ネットがハミルトン力学駆動の流れに収束する最初の厳密な証明を示す。 我々の構成的証明は ResNets のいくつかの顕著な性質とそれらのGP一般化を明らかにする。 resnets regressorは、データ依存のワーピングカーネルを持つカーネルレグレッサーである。 L_2$正規化ResNetの最小化は、層間の重みと偏りのノルムのほぼ保存を意味する離散最小の作用原理を満たす。 L^2$正規化のトレーニングされたResNetの重みは、自律ハミルトニアン系を解くことで特定できる。 トレーニングされたResNetパラメータは、表現が一般的に疎い初期モーメントまでユニークである。 カーネルの正規化戦略は、annのドロップアウトに代わる、確実なロバストな代替手段を提供する。 本稿では,ResNetの誤差推定に繋がるGPの関数的一般化を提案する。 トレーニングされたResNetパラメータのフィールド制限(EPDiff)を識別する。 この結果から,CNNを任意の空間や変換群に分割して一般化する手法として,同変のマルチチャネルカーネルを縮小したワーピング回帰ブロックの構成法が提案されている。

We introduce a GP generalization of ResNets (including ResNets as a particular case). We show that ResNets (and their GP generalization) converge, in the infinite depth limit, to a generalization of image registration variational algorithms. Whereas computational anatomy aligns images via warping of the material space, this generalization aligns ideas (or abstract shapes as in Plato's theory of forms) via the warping of the RKHS of functions mapping the input space to the output space. While the Hamiltonian interpretation of ResNets is not new, it was based on an Ansatz. We do not rely on this Ansatz and present the first rigorous proof of convergence of ResNets with trained weights and biases towards a Hamiltonian dynamics driven flow. Our constructive proof reveals several remarkable properties of ResNets and their GP generalization. ResNets regressors are kernel regressors with data-dependent warping kernels. Minimizers of $L_2$ regularized ResNets satisfy a discrete least action principle implying the near preservation of the norm of weights and biases across layers. The trained weights of ResNets with $L^2$ regularization can be identified by solving an autonomous Hamiltonian system. The trained ResNet parameters are unique up to the initial momentum whose representation is generally sparse. The kernel regularization strategy provides a provably robust alternative to Dropout for ANNs. We introduce a functional generalization of GPs leading to error estimates for ResNets. We identify the (EPDiff) mean fields limit of trained ResNet parameters. We show that the composition of warping regression blocks with reduced equivariant multichannel kernels (introduced here) recovers and generalizes CNNs to arbitrary spaces and groups of transformations.
翻訳日:2022-10-31 22:12:58 公開日:2022-10-27
# ディープラーニングオブジェクト検出によるソース識別

Deep Learning Object Detection Approaches to Source Identification ( http://arxiv.org/abs/2210.16173v1 )

ライセンス: Link先を確認
Luke Wood, Kevin Anderson, Peter Gerstoft(参考訳) 従来,しきい値に基づくエネルギー検出アルゴリズムを用いて音源同定を行う。 これらのアルゴリズムは、しばしば領域のアクティビティを要約し、特定の活動しきい値を超える領域をソースとみなす。 これらのアルゴリズムは、ほとんどのケースで機能するが、小さな周波数帯域を占める信号を検出できず、重なり合う周波数帯域を持つソースを識別できず、特定の信号と雑音比の信号は検出できない。 生信号データのスペクトログラムへの変換により、ソース識別を物体検出問題としてフレーム化することができる。 ディープラーニングに基づくオブジェクト検出の現代的進歩を活用することで,従来の情報源識別アルゴリズムを用いて発生する障害を緩和するシステムを提案する。 コントリビューションには、オブジェクト検出問題としてのフレーミングソース識別、スペクトログラムオブジェクト検出データセットの公開、データセット上でトレーニングされたRetinaNetおよびYOLOv5オブジェクト検出モデルの評価が含まれる。 我々の最終モデルは平均精度0.906に達する。 このような高い平均精度で、これらのモデルは現実世界のアプリケーションで使うのに十分頑丈である。

Traditionally source identification is solved using threshold based energy detection algorithms. These algorithms frequently sum up the activity in regions, and consider regions above a specific activity threshold to be sources. While these algorithms work for the majority of cases, they often fail to detect signals that occupy small frequency bands, fail to distinguish sources with overlapping frequency bands, and cannot detect any signals under a specified signal to noise ratio. Through the conversion of raw signal data to spectrogram, source identification can be framed as an object detection problem. By leveraging modern advancements in deep learning based object detection, we propose a system that manages to alleviate the failure cases encountered when using traditional source identification algorithms. Our contributions include framing source identification as an object detection problem, the publication of a spectrogram object detection dataset, and evaluation of the RetinaNet and YOLOv5 object detection models trained on the dataset. Our final models achieve Mean Average Precisions of up to 0.906. With such a high Mean Average Precision, these models are sufficiently robust for use in real world applications.
翻訳日:2022-10-31 17:53:44 公開日:2022-10-27
# 呼吸音分類のための教師付きコントラスト学習

Supervised Contrastive Learning for Respiratory Sound Classification ( http://arxiv.org/abs/2210.16192v1 )

ライセンス: Link先を確認
Ilyass Moummad and Nicolas Farrugia(参考訳) 機械学習を用いた自動呼吸音分類は、大きな生物学的変動、不均衡なデータセット、呼吸信号を捉えるために使用される記録技術の多様性など、困難な課題である。 注釈付き呼吸サイクルを持つデータセットが提案されているが、アノテーションを用いた教師あり学習に基づく手法は、一般化能力に限られる可能性がある。 本研究では,呼吸サイクルアノテーションとスペクトログラム周波数と時間マスキング法を併用した教師付きコントラスト学習を用いてこの問題に対処し,対照損失のある表現学習のための拡張サンプルを生成する。 このようなアプローチが,スクラッチからトレーニングされた畳み込みニューラルネットワークによる実験を用いて教師付き学習を上回ることができ,その新しい状態が達成できることを実証する。 本研究は,不均衡環境と雑音環境における教師ありコントラスト学習の可能性を示す。 私たちのコードはhttps://github.com/ilyassmoummad/scl_icbhi2017でリリースされています。

Automatic respiratory sound classification using machine learning is a challenging task, due to large biological variability, imbalanced datasets, as well as a diversity in recording techniques used to capture the respiration signal. While datasets with annotated respiration cycles have been proposed, methods based on supervised learning using annotations only may be limited in their generalization capability. In this study, we address this issue using supervised contrastive learning, relying both on respiration cycle annotations and a spectrogram frequency and temporal masking method SpecAugment to generate augmented samples for representation learning with a contrastive loss. We demonstrate that such an approach can outperform supervised learning using experiments on a convolutional neural network trained from scratch, achieving the new state of the art. Our work shows the potential of supervised contrastive learning in imbalanced and noisy settings. Our code is released at https://github.com/ilyassmoummad/scl_icbhi2017
翻訳日:2022-10-31 17:53:05 公開日:2022-10-27
# 自動音声認識のための文脈発話訓練

Contextual-Utterance Training for Automatic Speech Recognition ( http://arxiv.org/abs/2210.16238v1 )

ライセンス: Link先を確認
Alejandro Gomez-Alanis, Lukas Drude, Andreas Schwarz, Rupak Vignesh Swaminathan, Simon Wiesler(参考訳) 近年のストリーミング自動音声認識(ASR)リカレントニューラルネットワークトランスデューサ(RNN-T)ベースのシステムでは,単語誤り率(WER)の性能向上のために,過去の文脈情報でエンコーダを供給している。 本稿では,まず,話者,話題,音響環境に対して暗黙的適応を行うために,前者および将来の文脈発話を利用した文脈発話訓練手法を提案する。 また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。 提案手法は,教師の知識を「その場」に蒸留し,過去と未来の両方の文脈発話を,現在と過去の文脈発話しか見ることができない生徒に蒸留することで,ストリーミングモデルで利用可能な音響コンテキストをよりよく活用することを可能にする。 実験の結果,提案手法で訓練したコンバータ・トランスデューサシステムは,古典的RNN-T損失で訓練したシステムよりも優れていた。 具体的には,提案手法により,平均的なトークン放出遅延を6%以上,40ms以上低減することができた。

Recent studies of streaming automatic speech recognition (ASR) recurrent neural network transducer (RNN-T)-based systems have fed the encoder with past contextual information in order to improve its word error rate (WER) performance. In this paper, we first propose a contextual-utterance training technique which makes use of the previous and future contextual utterances in order to do an implicit adaptation to the speaker, topic and acoustic environment. Also, we propose a dual-mode contextual-utterance training technique for streaming automatic speech recognition (ASR) systems. This proposed approach allows to make a better use of the available acoustic context in streaming models by distilling "in-place" the knowledge of a teacher, which is able to see both past and future contextual utterances, to the student which can only see the current and past contextual utterances. The experimental results show that a conformer-transducer system trained with the proposed techniques outperforms the same system trained with the classical RNN-T loss. Specifically, the proposed technique is able to reduce both the WER and the average last token emission latency by more than 6% and 40ms relative, respectively.
翻訳日:2022-10-31 17:52:17 公開日:2022-10-27
# 音響信号のワンショット音響マッチング - 部屋やコンサートホールで音楽を聴くことを学ぶ

One-Shot Acoustic Matching Of Audio Signals -- Learning to Hear Music In Any Room/ Concert Hall ( http://arxiv.org/abs/2210.15750v1 )

ライセンス: Link先を確認
Prateek Verma, Chris Chafe, Jonathan Berger(参考訳) 音が生成され、聴く音空間は、その音がどのように知覚されるかにおいて、一意に \textit{presence} という感覚を与えることによって重要な役割を果たす。 音源に固有の逐次畳み込み操作とマイクロホン特性や室内インパルス応答などの外部要因から得られる全ての音について検討する。 通常、研究者たちはピストルショットやバルーンポップのような興奮をインパルス信号として使用し、音化を発生させる。 興味の信号と関連する「インパルス」応答は、入力音を興味の音響空間で再生される音に変換することができる。 本稿では,気球ポップの代理として録音された任意の音声を用いて,興味のある音を他の任意の音響空間(部屋やホール)に変換できる新しいアーキテクチャを提案する。 アーキテクチャは、学習した音響信号と入力信号から残留信号を学ぶための単純な信号処理のアイデアに基づいている。 この枠組みにより,ニューラルネットワークは時間周波数表現の各点の利得を調整でき,音質的,定量的な結果が得られる。

The acoustic space in which a sound is created and heard plays an essential role in how that sound is perceived by affording a unique sense of \textit{presence}. Every sound we hear results from successive convolution operations intrinsic to the sound source and external factors such as microphone characteristics and room impulse responses. Typically, researchers use an excitation such as a pistol shot or balloon pop as an impulse signal with which an auralization can be created. The room "impulse" responses convolved with the signal of interest can transform the input sound into the sound played in the acoustic space of interest. Here we propose a novel architecture that can transform a sound of interest into any other acoustic space(room or hall) of interest by using arbitrary audio recorded as a proxy for a balloon pop. The architecture is grounded in simple signal processing ideas to learn residual signals from a learned acoustic signature and the input signal. Our framework allows a neural network to adjust gains of every point in the time-frequency representation, giving sound qualitative and quantitative results.
翻訳日:2022-10-31 17:45:27 公開日:2022-10-27
# 同変線グラフネットワークによるタンパク質-リガンド結合親和性予測

Predicting Protein-Ligand Binding Affinity with Equivariant Line Graph Network ( http://arxiv.org/abs/2210.16098v1 )

ライセンス: Link先を確認
Yiqiang Yi, Xu Wan, Kangfei Zhao, Le Ou-Yang, Peilin Zhao(参考訳) 3次元(3d)タンパク質リガンド錯体の結合親和性予測は薬物再配置および仮想薬物スクリーニングに重要である。 既存のアプローチでは、3Dタンパク質-リガンド複合体を2次元(2次元)グラフに変換し、グラフニューラルネットワーク(GNN)を使用して結合親和性を予測する。 しかし、2Dグラフのノード特徴とエッジ特徴は、3D複合体の不変局所座標系に基づいて抽出される。 その結果、この方法は、物理的対称性や結合の位相的情報など、複素体の大域的な情報を完全に学習することはできない。 これらの問題に対処するために,3次元タンパク質配位子複合体の親和性予測のためのEquivariant Line Graph Network (ELGN)を提案する。 提案したERGNはまず3D錯体にスーパーノードを追加し、3D錯体に基づいて線グラフを構築する。 その後、ELGNは新しいE(3)-equivariantネットワーク層を使用して、3Dコンプレックスのグローバル座標系に基づいて、ノードとエッジの間でメッセージを渡す。 2つの実データセットに対する実験結果は、複数の最先端ベースライン上でのELGNの有効性を示す。

Binding affinity prediction of three-dimensional (3D) protein ligand complexes is critical for drug repositioning and virtual drug screening. Existing approaches transform a 3D protein-ligand complex to a two-dimensional (2D) graph, and then use graph neural networks (GNNs) to predict its binding affinity. However, the node and edge features of the 2D graph are extracted based on invariant local coordinate systems of the 3D complex. As a result, the method can not fully learn the global information of the complex, such as, the physical symmetry and the topological information of bonds. To address these issues, we propose a novel Equivariant Line Graph Network (ELGN) for affinity prediction of 3D protein ligand complexes. The proposed ELGN firstly adds a super node to the 3D complex, and then builds a line graph based on the 3D complex. After that, ELGN uses a new E(3)-equivariant network layer to pass the messages between nodes and edges based on the global coordinate system of the 3D complex. Experimental results on two real datasets demonstrate the effectiveness of ELGN over several state-of-the-art baselines.
翻訳日:2022-10-31 17:26:29 公開日:2022-10-27
# AI駆動型分子最適化におけるゼロ階最適化手法の実証評価

An Empirical Evaluation of Zeroth-Order Optimization Methods on AI-driven Molecule Optimization ( http://arxiv.org/abs/2210.16099v1 )

ライセンス: Link先を確認
Elvin Lo and Pin-Yu Chen(参考訳) 分子最適化は化学発見において重要な問題であり、生成モデリング、強化学習、遺伝的アルゴリズムなど多くの手法を用いてアプローチされてきた。 最近の研究は、勾配のない最適化のサブセットであるゼロ階数最適化(ZO)を適用し、勾配に基づく手法と同様に、オートエンコーダから潜在ベクトル表現を最適化する。 本稿では,可変な滑らか性,不適切な光学性,その他の課題を特徴とする分子標的を最適化するための様々なzo最適化手法の有効性について検討する。 この設定におけるZO最適化手法の堅牢性について考察し、ZO符号に基づく勾配降下(ZO-signGD)の利点を示し、現実的な発見タスクにおいてZO最適化が実際にどのように活用できるかを議論し、Guacamolスイートで広く使用されているベンチマークタスクにおけるZO最適化手法の有効性を示す。 コードは、https://github.com/IBM/QMO-bench.comで入手できる。

Molecule optimization is an important problem in chemical discovery and has been approached using many techniques, including generative modeling, reinforcement learning, genetic algorithms, and much more. Recent work has also applied zeroth-order (ZO) optimization, a subset of gradient-free optimization that solves problems similarly to gradient-based methods, for optimizing latent vector representations from an autoencoder. In this paper, we study the effectiveness of various ZO optimization methods for optimizing molecular objectives, which are characterized by variable smoothness, infrequent optima, and other challenges. We provide insights on the robustness of various ZO optimizers in this setting, show the advantages of ZO sign-based gradient descent (ZO-signGD), discuss how ZO optimization can be used practically in realistic discovery tasks, and demonstrate the potential effectiveness of ZO optimization methods on widely used benchmark tasks from the Guacamol suite. Code is available at: https://github.com/IBM/QMO-bench.
翻訳日:2022-10-31 17:26:11 公開日:2022-10-27
# コントラスト正規化による消滅成分分析

Vanishing Component Analysis with Contrastive Normalization ( http://arxiv.org/abs/2210.16171v1 )

ライセンス: Link先を確認
Ryosuke Masuya, Yuichi Ike and Hiroshi Kera(参考訳) 消滅成分分析(VCA)は、サンプルの消失理想の近似生成器を計算し、サンプルの非線形特徴の抽出にさらに使用される。 近年の研究では、近似ジェネレータの正規化が重要な役割を担い、異なる正規化が異なる性質のジェネレータにつながることが示されている。 本稿では,近年の自己監督型フレームワークに着想を得て,VCAの逆正規化手法を提案する。 理論的には、対照的な正規化はVCAの識別力を高め、VCAの正規化の下での代数的解釈を提供する。 数値実験により本手法の有効性が示された。 これは、イデアルの近似生成子の正規化を調整し、識別的特徴を得るための最初の研究である。

Vanishing component analysis (VCA) computes approximate generators of vanishing ideals of samples, which are further used for extracting nonlinear features of the samples. Recent studies have shown that normalization of approximate generators plays an important role and different normalization leads to generators of different properties. In this paper, inspired by recent self-supervised frameworks, we propose a contrastive normalization method for VCA, where we impose the generators to vanish on the target samples and to be normalized on the transformed samples. We theoretically show that a contrastive normalization enhances the discriminative power of VCA, and provide the algebraic interpretation of VCA under our normalization. Numerical experiments demonstrate the effectiveness of our method. This is the first study to tailor the normalization of approximate generators of vanishing ideals to obtain discriminative features.
翻訳日:2022-10-31 17:25:43 公開日:2022-10-27
# 粗粒非平衡流に対する適応物理形ニューラルネットワーク

Adaptive Physics-Informed Neural Operator for Coarse-Grained Non-Equilibrium Flows ( http://arxiv.org/abs/2210.15799v1 )

ライセンス: Link先を確認
Ivan Zanardi, Simone Venturi, Marco Panesi(参考訳) 本研究は,非平衡反応流シミュレーションの計算効率を向上させることを目的とした新しい機械学習(ml)に基づくパラダイムを提案する。 このフレームワークは、階層的かつ適応的なディープラーニング戦略を通じて次元の縮小とニューラルネットワークを組み合わせることで、化学動力学のための多スケール粗粒化制御方程式の解を学習する。 提案したサロゲートのアーキテクチャは木として構成され、葉ノードは別の物理インフォームドディープオペレータネットワーク(PI-DeepONets)に対応する。 階層属性には2つの利点がある。 一 最も遅い時間スケールから始まる転校学習による研修段階の簡易化を可能にすること。 二 ガスの非平衡の局所的な度合いに基づいて、サロゲートの評価が必要な葉ノードに限られているため、適応性を確保することにより予測を加速する。 このモデルは、超音速飛行に応用するための化学速度論の研究に応用され、純粋な酸素ガス混合物で試験されている。 提案するmlフレームワークは,様々な初期条件において,相対誤差が4%未満の約30種の動特性を適応的に予測できる。 この研究は、非平衡現象を正確に特徴づけるために、反応性ナヴィエ・ストークス解法と結合した効率的なMLベースのサロゲートを構築する基礎を築いた。

This work proposes a new machine learning (ML)-based paradigm aiming to enhance the computational efficiency of non-equilibrium reacting flow simulations while ensuring compliance with the underlying physics. The framework combines dimensionality reduction and neural operators through a hierarchical and adaptive deep learning strategy to learn the solution of multi-scale coarse-grained governing equations for chemical kinetics. The proposed surrogate's architecture is structured as a tree, where the leaf nodes correspond to separate physics-informed deep operator networks (PI-DeepONets). The hierarchical attribute has two advantages: i) It allows the simplification of the training phase via transfer learning, starting from the slowest temporal scales; ii) It accelerates the prediction step by enabling adaptivity as the surrogate's evaluation is limited to the necessary leaf nodes based on the local degree of non-equilibrium of the gas. The model is applied to the study of chemical kinetics relevant for application to hypersonic flight, and it is tested here on a pure oxygen gas mixture. The proposed ML framework can adaptively predict the dynamics of almost thirty species with a relative error smaller than 4% for a broad range of initial conditions. This work lays the foundation for constructing an efficient ML-based surrogate coupled with reactive Navier-Stokes solvers for accurately characterizing non-equilibrium phenomena.
翻訳日:2022-10-31 17:16:46 公開日:2022-10-27
# 室内シーンにおける家具自動取り外しのためのレイアウト対応インペインティング

Layout Aware Inpainting for Automated Furniture Removal in Indoor Scenes ( http://arxiv.org/abs/2210.15796v1 )

ライセンス: Link先を確認
Prakhar Kulshreshtha, Konstantinos-Nektarios Lianos, Brian Pugh and Salma Jiddi(参考訳) 部屋の広角写真から家具を検知・消去する問題に対処する。 屋内シーンの広い領域の塗装は、しばしば塗装マスク内の背景要素の幾何学的矛盾をもたらす。 この問題に対処するために,知覚情報(例えば,セグメンテーションや部屋レイアウト)を用いて,部屋の幾何学的に一貫性のある空のバージョンを作成する。 本システムは,面当たりの塗装,自動改質,テクスチャ改質など,本システムを実現するための重要な情報を共有している。 詳細なアブレーションと質的な例を提供し、設計の選択を正当化します。 実際の家具を部屋から取り除き,仮想家具で再装飾することで,本システムの適用例を示す。

We address the problem of detecting and erasing furniture from a wide angle photograph of a room. Inpainting large regions of an indoor scene often results in geometric inconsistencies of background elements within the inpaint mask. To address this problem, we utilize perceptual information (e.g. instance segmentation, and room layout) to produce a geometrically consistent empty version of a room. We share important details to make this system viable, such as per-plane inpainting, automatic rectification, and texture refinement. We provide detailed ablation along with qualitative examples, justifying our design choices. We show an application of our system by removing real furniture from a room and redecorating it with virtual furniture.
翻訳日:2022-10-31 17:09:49 公開日:2022-10-27
# リアル音声重複のシミュレーションによるマルチトーカーASRの改良

Simulating realistic speech overlaps improves multi-talker ASR ( http://arxiv.org/abs/2210.15715v1 )

ライセンス: Link先を確認
Muqiao Yang, Naoyuki Kanda, Xiaofei Wang, Jian Wu, Sunit Sivasankaran, Zhuo Chen, Jinyu Li, Takuya Yoshioka(参考訳) 複数の話者の重複音声を含む自然な会話の書き起こしを生成するために、マルチトーカー自動音声認識(asr)が研究されている。 ハイクオリティな人間の書き起こしによる実会話データの取得が困難であることから,複数発話をランダムに混合したマルチトーカ音声のna\"iveシミュレーションをモデル学習に用いた。 そこで本研究では,任意の音声重複パターンを離散トークン列で表現し,複数話者重複音声を現実的な音声重複でシミュレートする改良手法を提案する。 この表現により、N-gramのような統計言語モデルに基づいて実際の会話から音声重複パターンを学習し、訓練用マルチトーク音声を生成することができる。 実験では,提案手法を用いて学習したマルチストーカーASRモデルを用いて,複数データセット間の単語誤り率を一貫した改善を行った。

Multi-talker automatic speech recognition (ASR) has been studied to generate transcriptions of natural conversation including overlapping speech of multiple speakers. Due to the difficulty in acquiring real conversation data with high-quality human transcriptions, a na\"ive simulation of multi-talker speech by randomly mixing multiple utterances was conventionally used for model training. In this work, we propose an improved technique to simulate multi-talker overlapping speech with realistic speech overlaps, where an arbitrary pattern of speech overlaps is represented by a sequence of discrete tokens. With this representation, speech overlapping patterns can be learned from real conversations based on a statistical language model, such as N-gram, which can be then used to generate multi-talker speech for training. In our experiments, multi-talker ASR models trained with the proposed method show consistent improvement on the word error rates across multiple datasets.
翻訳日:2022-10-31 17:01:06 公開日:2022-10-27
# 合成エンドツーエンドモデルを用いた音声理解のためのトークンレベルシーケンスラベリング

Token-level Sequence Labeling for Spoken Language Understanding using Compositional End-to-End Models ( http://arxiv.org/abs/2210.15734v1 )

ライセンス: Link先を確認
Siddhant Arora, Siddharth Dalmia, Brian Yan, Florian Metze, Alan W Black, Shinji Watanabe(参考訳) SLU(End-to-end Speech Language Understanding)システムは,その単純さとエラーの伝播を避ける能力により,カスケード方式よりも人気が高まっている。 しかし、これらのシステムでは、適切に確立されたトークンレベルのタグ付けの定式化から分岐を引き起こすシーケンス予測タスクとしてシーケンスラベリングをモデル化している。 我々は、SLUにおける音声の言及を認識する複雑さを、シーケンスラベリングのNLUタスクから明確に分離する構成的なエンドツーエンドSLUシステムを構築した。 asr用にトレーニングされた中間デコーダを利用することで、エンドツーエンドシステムは入力モダリティを音声から従来のシーケンスラベリングフレームワークで使用できるトークンレベルの表現に変換する。 エンドツーエンドのSLUシステムにおけるASRおよびNLUのこの構成は、事前訓練されたASRおよびNLUシステムとの直接互換性を提供し、個々のコンポーネントのパフォーマンス監視を可能にし、CRFのようなグローバルな正規化された損失の使用を可能にする。 我々のモデルは、SLUベンチマークにおける名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンドツーエンドモデルの両方より優れている。

End-to-end spoken language understanding (SLU) systems are gaining popularity over cascaded approaches due to their simplicity and ability to avoid error propagation. However, these systems model sequence labeling as a sequence prediction task causing a divergence from its well-established token-level tagging formulation. We build compositional end-to-end SLU systems that explicitly separate the added complexity of recognizing spoken mentions in SLU from the NLU task of sequence labeling. By relying on intermediate decoders trained for ASR, our end-to-end systems transform the input modality from speech to token-level representations that can be used in the traditional sequence labeling framework. This composition of ASR and NLU formulations in our end-to-end SLU system offers direct compatibility with pre-trained ASR and NLU systems, allows performance monitoring of individual components and enables the use of globally normalized losses like CRF, making them attractive in practical scenarios. Our models outperform both cascaded and direct end-to-end models on a labeling task of named entity recognition across SLU benchmarks.
翻訳日:2022-10-31 17:00:51 公開日:2022-10-27
# 生音声からの自己教師型言語学習:ゼロリソース音声チャレンジからの教訓

Self-supervised language learning from raw audio: Lessons from the Zero Resource Speech Challenge ( http://arxiv.org/abs/2210.15759v1 )

ライセンス: Link先を確認
Ewan Dunbar, Nicolas Hamilakis and Emmanuel Dupoux(参考訳) 自己教師付きまたは教師なし機械学習の最近の進歩は、テキスト表現や音素、辞書、構文解析木といった専門家ラベルを使わずに、生のオーディオから完全な音声処理システムを構築する可能性を広げた。 2015年からのゼロリソーススピーチチャレンジシリーズの貢献は、この長期的な目標を、音響単位発見、音声項発見、離散的再合成、音声言語モデリングという4つの明確に定義されたタスクに分解し、モデルの比較と累積的な進歩を可能にする関連するメトリクスとベンチマークを導入することである。 本稿では,2015年以降のこの課題シリーズの6版の概要を述べるとともに,さらに多くの作業が必要な分野について概説する。

Recent progress in self-supervised or unsupervised machine learning has opened the possibility of building a full speech processing system from raw audio without using any textual representations or expert labels such as phonemes, dictionaries or parse trees. The contribution of the Zero Resource Speech Challenge series since 2015 has been to break down this long-term objective into four well-defined tasks -- Acoustic Unit Discovery, Spoken Term Discovery, Discrete Resynthesis, and Spoken Language Modeling -- and introduce associated metrics and benchmarks enabling model comparison and cumulative progress. We present an overview of the six editions of this challenge series since 2015, discuss the lessons learned, and outline the areas which need more work or give puzzling results.
翻訳日:2022-10-31 17:00:32 公開日:2022-10-27
# 教師なし音声表現における文脈不変性の評価

Evaluating context-invariance in unsupervised speech representations ( http://arxiv.org/abs/2210.15775v1 )

ライセンス: Link先を確認
Mark Hallap, Emmanuel Dupoux, Ewan Dunbar(参考訳) 教師なし音声表現(superb、zerospeech)は、半教師なし音声認識、音声合成、音声認識のみの言語モデリングにおいて大きな進歩を示している。 着想は、言語や類似の低ビットレートエンコーディングの ``discovering the phonemes''' という約束に由来する。 しかし、音素の書き起こしの批判的性質の1つは文脈不変性であり、音声の音声的文脈は発音の仕方に大きな影響を与えうるが、テキストは安定している。 これは、同じ単語のトークンが同じ書き起こしを持つことができることです -- 言語理解の鍵です。 現在のベンチマークではコンテキスト不変性は測定されない。 我々は,コンテキスト不変性を測定するzerospeech abxベンチマークの新バージョンを開発し,最近の自己教師付き表現に適用する。 表現の文脈依存性は単語レベルの表現の安定性の予測であることを示す。 本研究では,自己監督型および非教師型表現の文脈依存性の向上に焦点をあてる。

Unsupervised speech representations have taken off, with benchmarks (SUPERB, ZeroSpeech) demonstrating major progress on semi-supervised speech recognition, speech synthesis, and speech-only language modelling. Inspiration comes from the promise of ``discovering the phonemes'' of a language or a similar low-bitrate encoding. However, one of the critical properties of phoneme transcriptions is context-invariance: the phonetic context of a speech sound can have massive influence on the way it is pronounced, while the text remains stable. This is what allows tokens of the same word to have the same transcriptions -- key to language understanding. Current benchmarks do not measure context-invariance. We develop a new version of the ZeroSpeech ABX benchmark that measures context-invariance, and apply it to recent self-supervised representations. We demonstrate that the context-independence of representations is predictive of the stability of word-level representations. We suggest research concentrate on improving context-independence of self-supervised and unsupervised representations.
翻訳日:2022-10-31 17:00:17 公開日:2022-10-27
# AmberNet: 音声言語識別のためのコンパクトなエンドツーエンドモデル

AmberNet: A Compact End-to-End Model for Spoken Language Identification ( http://arxiv.org/abs/2210.15781v1 )

ライセンス: Link先を確認
Fei Jia, Nithin Rao Koluguri, Jagadeesh Balam, Boris Ginsburg(参考訳) 本稿では,音声言語識別のためのコンパクトなエンドツーエンドニューラルネットワークであるAmberNetを提案する。 AmberNetは1次元奥行き分離可能な畳み込みと、グローバルコンテキストを備えたSqueeze-and-Excitationレイヤで構成され、統計プールと線形レイヤが続く。 AmberNetは、VoxLingua107データセット上のState-of-the-art(SOTA)モデルに似たパフォーマンスを実現し、10倍小さい。 ambernetは、未発見の言語や単純な微調整による新しい音響条件に適応することができる。 FLEURSベンチマークの精度は75.8%である。 モデルのスケーラビリティが向上し,精度と速度のトレードオフが向上することを示す。 さらに,入力長に対するモデルの感度を検査し,短発話においてもambernetが良好であることを示す。

We present AmberNet, a compact end-to-end neural network for Spoken Language Identification. AmberNet consists of 1D depth-wise separable convolutions and Squeeze-and-Excitation layers with global context, followed by statistics pooling and linear layers. AmberNet achieves performance similar to state-of-the-art(SOTA) models on VoxLingua107 dataset, while being 10x smaller. AmberNet can be adapted to unseen languages and new acoustic conditions with simple finetuning. It attains SOTA accuracy of 75.8% on FLEURS benchmark. We show the model is easily scalable to achieve a better trade-off between accuracy and speed. We further inspect the model's sensitivity to input length and show that AmberNet performs well even on short utterances.
翻訳日:2022-10-31 17:00:03 公開日:2022-10-27
# 変形可能な物体操作のための点雲からの時空間抽象化による計画

Planning with Spatial-Temporal Abstraction from Point Clouds for Deformable Object Manipulation ( http://arxiv.org/abs/2210.15751v1 )

ライセンス: Link先を確認
Xingyu Lin, Carl Qi, Yunchu Zhang, Zhiao Huang, Katerina Fragkiadaki, Yunzhu Li, Chuang Gan, David Held(参考訳) 長軸変形可能なオブジェクト操作の効果的な計画には、空間的および時間的レベルの適切な抽象化が必要である。 従来の手法は通常、短期水平タスクにフォーカスするか、フルステート情報が利用可能であるという強い仮定を行う。 本稿では,空間的抽象化(オブジェクトとその相互関係に関する推論)と時間的抽象化(低レベル動作ではなく,スキルによる推論)の両方を取り入れた空間的抽象化を用いたPlAnning with Spatial-Temporal Abstraction(PASTA)を提案する。 我々のフレームワークは、点雲のような高次元の3次元観測を潜在ベクトルの集合にマッピングし、潜在集合表現の上にスキルシーケンスを計画する。 本手法は,ナイフによる切削,押し押し,生地をローラーで広げるなど,複数の工具使用スキルを組み合わせることで,実世界において挑戦的な逐次変形可能な物体操作タスクを効果的に行うことができることを示す。

Effective planning of long-horizon deformable object manipulation requires suitable abstractions at both the spatial and temporal levels. Previous methods typically either focus on short-horizon tasks or make strong assumptions that full-state information is available, which prevents their use on deformable objects. In this paper, we propose PlAnning with Spatial-Temporal Abstraction (PASTA), which incorporates both spatial abstraction (reasoning about objects and their relations to each other) and temporal abstraction (reasoning over skills instead of low-level actions). Our framework maps high-dimension 3D observations such as point clouds into a set of latent vectors and plans over skill sequences on top of the latent set representation. We show that our method can effectively perform challenging sequential deformable object manipulation tasks in the real world, which require combining multiple tool-use skills such as cutting with a knife, pushing with a pusher, and spreading the dough with a roller.
翻訳日:2022-10-31 16:52:52 公開日:2022-10-27
# 自律型社会ロボットのハンドウォッシング動作検出システム

Handwashing Action Detection System for an Autonomous Social Robot ( http://arxiv.org/abs/2210.15804v1 )

ライセンス: Link先を確認
Sreejith Sasidharan, Pranav Prabha, Devasena Pasupuleti, Anand M Das, Chaitanya Kapoor, Gayathri Manikutty, Praveen Pankajakshan, Bhavani Rao(参考訳) 幼児は不適切な手衛生のため、新型コロナウイルスなどの伝染病に罹患するリスクが高まっている。 子供の手洗いを観察し、手洗いの実践を奨励する自律型ソーシャルエージェントは、手洗い行動が習慣になる機会を提供する。 本稿では,ソーシャルロボットプラットフォームにおける視覚システムの一部であるヒューマンアクション認識システムについて述べる。 改良された畳み込みニューラルネットワーク(CNN)アーキテクチャとチャネル空間注意バイリニアポーリング(CSAB)フレームは、バックボーンとしてVGG-16アーキテクチャをトレーニングし、拡張データセット上で検証する。 修正されたアーキテクチャは、WHOが規定するハンドウォッシングステップに対して90%の精度で、目に見えない環境でもうまく一般化する。 本研究は, 映像中の手の動きを微妙に認識し, ジェスチャー検出や社会ロボティクスの分類に利用できることを示す。

Young children are at an increased risk of contracting contagious diseases such as COVID-19 due to improper hand hygiene. An autonomous social agent that observes children while handwashing and encourages good hand washing practices could provide an opportunity for handwashing behavior to become a habit. In this article, we present a human action recognition system, which is part of the vision system of a social robot platform, to assist children in developing a correct handwashing technique. A modified convolution neural network (CNN) architecture with Channel Spatial Attention Bilinear Pooling (CSAB) frame, with a VGG-16 architecture as the backbone is trained and validated on an augmented dataset. The modified architecture generalizes well with an accuracy of 90% for the WHO-prescribed handwashing steps even in an unseen environment. Our findings indicate that the approach can recognize even subtle hand movements in the video and can be used for gesture detection and classification in social robotics.
翻訳日:2022-10-31 16:52:34 公開日:2022-10-27
# グラフエコー状態ネットワークによるHomophilyを超えて

Beyond Homophily with Graph Echo State Networks ( http://arxiv.org/abs/2210.15731v1 )

ライセンス: Link先を確認
Domenico Tortorella, Alessio Micheli(参考訳) グラフエコー状態ネットワーク(GESN)はすでに、グラフ分類タスクの有効性と効率を実証している。 しかし、半教師付きノード分類は、エンドツーエンドの訓練された深層モデルの過度な平滑化の問題を引き起こし、高いホモフィリーグラフへのバイアスを引き起こす。 本研究はGESNのノード分類タスクにおけるホモフィリーの度合いを初めて評価し,貯水池半径の影響も分析した。 実験では,アーキテクチャバイアスのアドホックなバリエーションを実装した十分に訓練された深層モデルに対して,リザーバモデルの方が精度が向上し,効率が向上することを示した。

Graph Echo State Networks (GESN) have already demonstrated their efficacy and efficiency in graph classification tasks. However, semi-supervised node classification brought out the problem of over-smoothing in end-to-end trained deep models, which causes a bias towards high homophily graphs. We evaluate for the first time GESN on node classification tasks with different degrees of homophily, analyzing also the impact of the reservoir radius. Our experiments show that reservoir models are able to achieve better or comparable accuracy with respect to fully trained deep models that implement ad hoc variations in the architectural bias, with a gain in terms of efficiency.
翻訳日:2022-10-31 16:43:40 公開日:2022-10-27
# 製造可能なチップ設計のためのadversarial active sampling-based data augmentation framework

An Adversarial Active Sampling-based Data Augmentation Framework for Manufacturable Chip Design ( http://arxiv.org/abs/2210.15765v1 )

ライセンス: Link先を確認
Mingjie Liu, Haoyu Yang, Zongyi Li, Kumara Sastry, Saumyadip Mukhopadhyay, Selim Dogru, Anima Anandkumar, David Z. Pan, Brucek Khailany, Haoxing Ren(参考訳) リソグラフィモデリングは、チップ設計マスクが製造可能であることを保証するため、チップ設計において重要な問題である。 計算コストが高い光学および化学モデルの厳密なシミュレーションを必要とする。 最近の機械学習の発展は、時間を要するリソグラフィシミュレーションをディープニューラルネットワークに置き換えるための代替ソリューションを提供している。 しかし、精度の低下は依然として工業化を妨げている。 最も重要なのは、トレーニングデータセットの品質と量は、モデルパフォーマンスに直接影響します。 この問題に対処するため,限られたデータのジレンマを解消し,機械学習モデルの性能を向上させるために,LADAフレームワークを提案する。 まず,リソグラフィモデリングのためのニューラルネットワークと,グラデーションフレンドリーなstylegan2ジェネレータを事前学習する。 次に, 対向型能動サンプリングを行い, 情報的, 合成的分布マスクの設計を生成する。 これらの合成マスク画像は、性能を改善するためにリソグラフィモデルを微調整するために使用される、オリジナルの限られたトレーニングデータセットを補強する。 実験結果は、トレーニングとテストデータインスタンス間のパフォーマンスギャップを狭めることで、ladaがニューラルネットワーク能力をうまく活用できることを示しています。

Lithography modeling is a crucial problem in chip design to ensure a chip design mask is manufacturable. It requires rigorous simulations of optical and chemical models that are computationally expensive. Recent developments in machine learning have provided alternative solutions in replacing the time-consuming lithography simulations with deep neural networks. However, the considerable accuracy drop still impedes its industrial adoption. Most importantly, the quality and quantity of the training dataset directly affect the model performance. To tackle this problem, we propose a litho-aware data augmentation (LADA) framework to resolve the dilemma of limited data and improve the machine learning model performance. First, we pretrain the neural networks for lithography modeling and a gradient-friendly StyleGAN2 generator. We then perform adversarial active sampling to generate informative and synthetic in-distribution mask designs. These synthetic mask images will augment the original limited training dataset used to finetune the lithography model for improved performance. Experimental results demonstrate that LADA can successfully exploits the neural network capacity by narrowing down the performance gap between the training and testing data instances.
翻訳日:2022-10-31 16:43:27 公開日:2022-10-27
# TAD:トランスファー学習に基づくネットワーク侵入検知システムに対する侵入攻撃の多元的検出

TAD: Transfer Learning-based Multi-Adversarial Detection of Evasion Attacks against Network Intrusion Detection Systems ( http://arxiv.org/abs/2210.15700v1 )

ライセンス: Link先を確認
Islam Debicha, Richard Bauwens, Thibault Debatty, Jean-Michel Dricot, Tayeb Kenaza, Wim Mees(参考訳) 現在、ディープラーニングに基づく侵入検知システムは最先端のパフォーマンスを提供する。 しかし、近年の研究では、敵対的な例と呼ばれる特別に製作された摂動が、侵入検知システムの性能を著しく低下させることが示されている。 本研究の目的は, 効率的な伝達学習に基づく逆検出器の設計と, 侵入検知システムにおける1つの逆検出器と比較して, 戦略的に配置した複数の逆検出器の有効性を評価することである。 実験では、侵入検知のための既存の最先端モデルを実装した。 次に、選択した回避攻撃でこれらのモデルを攻撃します。 これらの攻撃を検出するために,複数のトランスファー学習に基づく攻撃検知器を設計・実装し,idを通した情報のサブセットを受信する。 それぞれの決定を組み合わせることで、並列IDS設計の場合と比較して、複数の検出器を組み合わせることで、対向的なトラフィックの検出性がさらに向上することを示す。

Nowadays, intrusion detection systems based on deep learning deliver state-of-the-art performance. However, recent research has shown that specially crafted perturbations, called adversarial examples, are capable of significantly reducing the performance of these intrusion detection systems. The objective of this paper is to design an efficient transfer learning-based adversarial detector and then to assess the effectiveness of using multiple strategically placed adversarial detectors compared to a single adversarial detector for intrusion detection systems. In our experiments, we implement existing state-of-the-art models for intrusion detection. We then attack those models with a set of chosen evasion attacks. In an attempt to detect those adversarial attacks, we design and implement multiple transfer learning-based adversarial detectors, each receiving a subset of the information passed through the IDS. By combining their respective decisions, we illustrate that combining multiple detectors can further improve the detectability of adversarial traffic compared to a single detector in the case of a parallel IDS design.
翻訳日:2022-10-31 16:41:02 公開日:2022-10-27
# 低ビット幅深層ニューラルネットワーク学習のための協調的多教師知識蒸留

Collaborative Multi-Teacher Knowledge Distillation for Learning Low Bit-width Deep Neural Networks ( http://arxiv.org/abs/2210.16103v1 )

ライセンス: Link先を確認
Cuong Pham, Tuan Hoang, Thanh-Toan Do(参考訳) 複雑な教師モデルから知識を抽出することで軽量な学生モデルを学ぶ知識蒸留は、コンパクトなディープニューラルネットワーク(DNN)を学ぶための魅力的なアプローチである。 近年の課題は、複数の教師ネットワークを活用することにより、学生ネットワークの性能向上である。 しかし、既存の知識蒸留ベースのマルチ教師法は、ほとんどが個別に訓練済みの教師を使っている。 これにより、教師間の協調学習と教師と生徒間の相互学習が制限される。 ネットワーク量子化は、コンパクトDNNを学ぶための別の魅力的なアプローチである。 しかし、既存のネットワーク量子化手法の多くは、量子化学生モデルの性能を高めるためのマルチ教師サポートを考慮せずに開発・評価されている。 本稿では,低ビット幅DNNの学習にマルチ教師による知識蒸留とネットワーク量子化を併用した新しいフレームワークを提案する。 提案手法は,量子化教師間の協調学習と,量子化教師と量子化学生間の相互学習を促進させる。 学習過程の過程では,教師の知識が重要視される共有知識を形成し,その後の階層における教師のインプットや,生徒の指導に使用される。 CIFAR100およびImageNetデータセットを用いた実験結果から,本手法で訓練した小型の量子化学生モデルは,他の最先端手法と比較して競争力のある結果が得られることが示された。

Knowledge distillation which learns a lightweight student model by distilling knowledge from a cumbersome teacher model is an attractive approach for learning compact deep neural networks (DNNs). Recent works further improve student network performance by leveraging multiple teacher networks. However, most of the existing knowledge distillation-based multi-teacher methods use separately pretrained teachers. This limits the collaborative learning between teachers and the mutual learning between teachers and student. Network quantization is another attractive approach for learning compact DNNs. However, most existing network quantization methods are developed and evaluated without considering multi-teacher support to enhance the performance of quantized student model. In this paper, we propose a novel framework that leverages both multi-teacher knowledge distillation and network quantization for learning low bit-width DNNs. The proposed method encourages both collaborative learning between quantized teachers and mutual learning between quantized teachers and quantized student. During learning process, at corresponding layers, knowledge from teachers will form an importance-aware shared knowledge which will be used as input for teachers at subsequent layers and also be used to guide student. Our experimental results on CIFAR100 and ImageNet datasets show that the compact quantized student models trained with our method achieve competitive results compared to other state-of-the-art methods, and in some cases, indeed surpass the full precision models.
翻訳日:2022-10-31 16:34:23 公開日:2022-10-27
# quill: 検索強化と多段階蒸留を用いた大規模言語モデルによるクエリインテント

QUILL: Query Intent with Large Language Models using Retrieval Augmentation and Multi-stage Distillation ( http://arxiv.org/abs/2210.15718v1 )

ライセンス: Link先を確認
Krishna Srinivasan, Karthik Raman, Anupam Samanta, Lingrui Liao, Luca Bertelli and Mike Bendersky(参考訳) 大規模言語モデル(llm)は様々なテキスト理解タスクで印象的な結果を示している。 検索クエリは、短さとニュアンスやコンテキストの欠如を考えると、ユニークな課題となる。 複雑な機能エンジニアリングの取り組みは、知識蒸留の複雑さの増加によってパフォーマンス上の利点が相殺される可能性があるため、必ずしも下流の改善につながるとは限らない。 そこで本論文では,(1)クエリの検索拡張がLLMに価値ある追加コンテキストを提供し,理解の向上を実現することを実証する。 Retrieval Augmentationは一般的にLMの遅延を増大させるが(蒸留効率を損なう)、 (2) Retrieval Augmentation LLMを蒸留する実用的で効果的な方法を提供する。 具体的には, 2段階蒸留方式を用いて, 計算量の増加に悩まされることなく, 検索能力の増大を乗り越えることができる。 3) 提案手法(QUILL)の10億ドル規模の実世界の問合せ理解システムにおける利点を示す。 公開ベンチマークを含む広範な実験により、この研究は検索強化クエリ理解の実践的利用のレシピを提供すると考えている。

Large Language Models (LLMs) have shown impressive results on a variety of text understanding tasks. Search queries though pose a unique challenge, given their short-length and lack of nuance or context. Complicated feature engineering efforts do not always lead to downstream improvements as their performance benefits may be offset by increased complexity of knowledge distillation. Thus, in this paper we make the following contributions: (1) We demonstrate that Retrieval Augmentation of queries provides LLMs with valuable additional context enabling improved understanding. While Retrieval Augmentation typically increases latency of LMs (thus hurting distillation efficacy), (2) we provide a practical and effective way of distilling Retrieval Augmentation LLMs. Specifically, we use a novel two-stage distillation approach that allows us to carry over the gains of retrieval augmentation, without suffering the increased compute typically associated with it. (3) We demonstrate the benefits of the proposed approach (QUILL) on a billion-scale, real-world query understanding system resulting in huge gains. Via extensive experiments, including on public benchmarks, we believe this work offers a recipe for practical use of retrieval-augmented query understanding.
翻訳日:2022-10-31 16:32:56 公開日:2022-10-27
# 会話型質問応答のための強化質問書き換え

Reinforced Question Rewriting for Conversational Question Answering ( http://arxiv.org/abs/2210.15777v1 )

ライセンス: Link先を確認
Zhiyu Chen, Jie Zhao, Anjie Fang, Besnik Fetahu, Oleg Rokhlenko, Shervin Malmasi(参考訳) 会話質問回答 (CQA) は、文脈なしでは容易に解釈できない対話に含まれる質問に答えることを目的としている。 会話の質問を自己完結した質問に書き換えるためのモデルを開発することは、既存のシングルターンQAシステムを使用して、CQAモデルをスクラッチからトレーニングすることを避けることで、業界における新たなソリューションとなる。 従来の作業列車は、人間の書き直しを監督としてモデルを書き直した。 しかし、このような目的はQAモデルと切り離されているため、より人間的な書き直しはQAのパフォーマンスを保証しない。 本稿では,強化学習による書き換えモデルの監視にQAフィードバックを用いることを提案する。 提案手法は,抽出QAと検索QAの両方において,ベースライン上でのQA性能を効果的に向上できることを示す。 さらに,本手法は人間のアノテーションと比較して,より正確かつ詳細な書き直しを生成できることを示す。

Conversational Question Answering (CQA) aims to answer questions contained within dialogues, which are not easily interpretable without context. Developing a model to rewrite conversational questions into self-contained ones is an emerging solution in industry settings as it allows using existing single-turn QA systems to avoid training a CQA model from scratch. Previous work trains rewriting models using human rewrites as supervision. However, such objectives are disconnected with QA models and therefore more human-like rewrites do not guarantee better QA performance. In this paper we propose using QA feedback to supervise the rewriting model with reinforcement learning. Experiments show that our approach can effectively improve QA performance over baselines for both extractive and retrieval QA. Furthermore, human evaluation shows that our method can generate more accurate and detailed rewrites when compared to human annotations.
翻訳日:2022-10-31 16:32:33 公開日:2022-10-27
# リカレントアテンション戦略によるニューラルネットワークの重要かつ局所的な深化

Deepening Neural Networks Implicitly and Locally via Recurrent Attention Strategy ( http://arxiv.org/abs/2210.15676v1 )

ライセンス: Link先を確認
Shanshan Zhong, Wushao Wen, Jinghui Qin, Zhongzhan Huang(参考訳) より経験的かつ理論的に証明されるようになれば、ニューラルネットワークの深層化は、適切なトレーニング環境下でのパフォーマンスを効果的に改善できる。 しかし、ニューラルネットワークのバックボーンの深化は必然的に、計算量とパラメータサイズを大幅に増加させる。 そこで本研究では,局所的なパラメータ共有により,軽量なアテンションモジュールによるニューラルネットワークの奥行きを暗黙的に増加させる,簡便かつ効率的なリカレントアテンション戦略(ras)を提案する。 広く使用されている3つのベンチマークデータセットに関する広範な実験は、RASがパラメータサイズと計算をわずかに追加することで、ニューラルネットワークのパフォーマンスを向上できることを示し、既存の注目モジュールに対して好意的に機能する。

More and more empirical and theoretical evidence shows that deepening neural networks can effectively improve their performance under suitable training settings. However, deepening the backbone of neural networks will inevitably and significantly increase computation and parameter size. To mitigate these problems, we propose a simple-yet-effective Recurrent Attention Strategy (RAS), which implicitly increases the depth of neural networks with lightweight attention modules by local parameter sharing. The extensive experiments on three widely-used benchmark datasets demonstrate that RAS can improve the performance of neural networks at a slight addition of parameter size and computation, performing favorably against other existing well-known attention modules.
翻訳日:2022-10-31 16:32:04 公開日:2022-10-27
# 採集力, 採集嵐: 人工知能に関する百年の研究(AI100)2021年調査パネル報告

Gathering Strength, Gathering Storms: The One Hundred Year Study on Artificial Intelligence (AI100) 2021 Study Panel Report ( http://arxiv.org/abs/2210.15767v1 )

ライセンス: Link先を確認
Michael L. Littman, Ifeoma Ajunwa, Guy Berger, Craig Boutilier, Morgan Currie, Finale Doshi-Velez, Gillian Hadfield, Michael C. Horowitz, Charles Isbell, Hiroaki Kitano, Karen Levy, Terah Lyons, Melanie Mitchell, Julie Shah, Steven Sloman, Shannon Vallor, Toby Walsh(参考訳) 2021年9月、「人工知能に関する百年研究」プロジェクト(AI100)は、人工知能(AI)の長期的評価とその社会への影響に関する第2報を公表した。 著者は17人の研究者で、それぞれがブラウン大学のマイケル・リットマン(Michael Littman)氏が議長を務めるAI研究に深く根ざしている。 と題されたこのレポートは、AIの重大なリスクと危険性、社会への影響、一般の認識、そしてこの分野の将来について、AI開発の重要な領域を探求する14の質問に答えている。 報告書は、AIが近年、研究室から人々の生活に大きく飛躍し、その潜在的なネガティブな影響を理解するために緊急性を高めていると結論付けている。 質問は、テキサス大学オースティン校のピーター・ストーン(Peter Stone)が議長を務めるAI100スタンディング委員会(AI100 Standing Committee)によって開発された。

In September 2021, the "One Hundred Year Study on Artificial Intelligence" project (AI100) issued the second report of its planned long-term periodic assessment of artificial intelligence (AI) and its impact on society. It was written by a panel of 17 study authors, each of whom is deeply rooted in AI research, chaired by Michael Littman of Brown University. The report, entitled "Gathering Strength, Gathering Storms," answers a set of 14 questions probing critical areas of AI development addressing the major risks and dangers of AI, its effects on society, its public perception and the future of the field. The report concludes that AI has made a major leap from the lab to people's lives in recent years, which increases the urgency to understand its potential negative effects. The questions were developed by the AI100 Standing Committee, chaired by Peter Stone of the University of Texas at Austin, consisting of a group of AI leaders with expertise in computer science, sociology, ethics, economics, and other disciplines.
翻訳日:2022-10-31 16:16:42 公開日:2022-10-27
# 遺伝的アルゴリズムによるシュロディンガー方程式の解法--実用的アプローチ

Solving the Schrodinger equation with genetic algorithms: a practical approach ( http://arxiv.org/abs/2210.15720v1 )

ライセンス: Link先を確認
Rafael Lahoz-Beltra(参考訳) シュロディンガー方程式は物理学や化学において最も重要な方程式の1つであり、最も単純な場合をコンピュータ数値法で解くことができる。 前世紀の初めから、コンピュータはこの方程式を基本的な量子系、例えば最も複雑な場合、水素のような系で解くのに使われ始めた。 解を得ることは波動関数を見つけることであり、量子系の物理的および化学的性質を予測することができる。 しかし、量子系が水素のような系よりも複雑であれば、方程式の近似解を満たさなければならない。 この10年の間、物理学や化学以外の分野(生物学や人工知能など)における量子計算のアルゴリズムと原理の適用により、シュロディンガー方程式の近似解を得るための代替技術が探索されてきた。 本稿では,ダーウィンの進化にインスパイアされた遺伝的アルゴリズム,すなわち確率的最適化手法を基礎量子システムや人工知能の量子モデルに応用し,その応用を概説する。 この最後の分野では、量子ニューロンの基本モデルにおけるシュロディンガー方程式の解法と、ブレイテンベルク車両の挙動を制御する量子回路の合成の2つのおもちゃモデルについて説明する。

The Schrodinger equation is one of the most important equations in physics and chemistry and can be solved in the simplest cases by computer numerical methods. Since the beginning of the 70s of the last century the computer began to be used to solve this equation in elementary quantum systems, e.g. and in the most complex case a hydrogen-like system. Obtaining the solution means finding the wave function, which allows predicting the physical and chemical properties of the quantum system. However, when a quantum system is more complex than a hydrogen-like system then we must be satisfied with an approximate solution of the equation. During the last decade the application of algorithms and principles of quantum computation in disciplines other than physics and chemistry, such as biology and artificial intelligence, has led to the search for alternative techniques with which to obtain approximate solutions of the Schrodinger equation. In this paper, we review and illustrate the application of genetic algorithms, i.e. stochastic optimization procedures inspired by Darwinian evolution, in elementary quantum systems and in quantum models of artificial intelligence. In this last field, we illustrate with two toy models how to solve the Schrodinger equation in an elementary model of a quantum neuron and in the synthesis of quantum circuits controlling the behavior of a Braitenberg vehicle.
翻訳日:2022-10-31 16:16:24 公開日:2022-10-27
# patchrot:視覚トランスフォーマーの訓練のための自己教師技術

PatchRot: A Self-Supervised Technique for Training Vision Transformers ( http://arxiv.org/abs/2210.15722v1 )

ライセンス: Link先を確認
Sachin Chhabra, Prabal Bijoy Dutta, Hemanth Venkateswara and Baoxin Li(参考訳) 視覚トランスフォーマーは畳み込みニューラルネットワークを上回るために大量のラベル付きデータを必要とする。 しかし、巨大なデータセットのラベリングは非常に高価なプロセスです。 自己教師付き学習技術は、教師なし学習と同様の学習機能によってこの問題を軽減する。 本稿では,視覚変換器のための自己教師型PatchRotを提案する。 PatchRotは画像とイメージパッチを回転させ、ネットワークをトレーニングして回転角を予測する。 ネットワークは、画像からグローバルとローカル両方の特徴を抽出することを学ぶ。 異なるデータセットに関する広範な実験では、PatchRotトレーニングは教師付き学習よりも優れたリッチな特徴を学び、ベースラインを比較します。

Vision transformers require a huge amount of labeled data to outperform convolutional neural networks. However, labeling a huge dataset is a very expensive process. Self-supervised learning techniques alleviate this problem by learning features similar to supervised learning in an unsupervised way. In this paper, we propose a self-supervised technique PatchRot that is crafted for vision transformers. PatchRot rotates images and image patches and trains the network to predict the rotation angles. The network learns to extract both global and local features from an image. Our extensive experiments on different datasets showcase PatchRot training learns rich features which outperform supervised learning and compared baseline.
翻訳日:2022-10-31 16:16:02 公開日:2022-10-27
# ビデオにおける異常事象検出のための時空間予測タスク

Spatio-temporal predictive tasks for abnormal event detection in videos ( http://arxiv.org/abs/2210.15741v1 )

ライセンス: Link先を確認
Yassine Naji, Aleksandr Setkov, Ang\'elique Loesch, Mich\`ele Gouiff\`es, Romaric Audigier(参考訳) ビデオにおける異常なイベント検出は、異常なパターンの多さと対応するアノテーションの欠如が原因で、難しい問題である。 本稿では,オブジェクトレベルの正規性パターンを学習するための制約付きプリテキストタスクを提案する。 提案手法は,ダウンスケールのビジュアルクエリとそれに対応する正常な外観と動作特性のマッピングを,元の解像度で学習することである。 提案したタスクは,再構成よりも空間的特徴と時間的特徴を共同で予測することを学ぶため,文献で広く使用されている再構築や将来のフレーム予測よりも困難である。 より制約のあるプリテキストタスクは、正規性パターンをよりよく学習させると信じています。 いくつかのベンチマークデータセットを用いた実験は、時空間評価指標における異常の局所化と追跡の手法の有効性を示す。

Abnormal event detection in videos is a challenging problem, partly due to the multiplicity of abnormal patterns and the lack of their corresponding annotations. In this paper, we propose new constrained pretext tasks to learn object level normality patterns. Our approach consists in learning a mapping between down-scaled visual queries and their corresponding normal appearance and motion characteristics at the original resolution. The proposed tasks are more challenging than reconstruction and future frame prediction tasks which are widely used in the literature, since our model learns to jointly predict spatial and temporal features rather than reconstructing them. We believe that more constrained pretext tasks induce a better learning of normality patterns. Experiments on several benchmark datasets demonstrate the effectiveness of our approach to localize and track anomalies as it outperforms or reaches the current state-of-the-art on spatio-temporal evaluation metrics.
翻訳日:2022-10-31 16:15:54 公開日:2022-10-27
# 建設現場理解による建設現場の安全・進捗監視の改善に向けて

Towards Improving Workers' Safety and Progress Monitoring of Construction Sites Through Construction Site Understanding ( http://arxiv.org/abs/2210.15760v1 )

ライセンス: Link先を確認
Mahdi Bonyani, Maryam Soleymani(参考訳) コンピュータビジョン研究の重要な要素は物体検出である。 近年,建設現場画像の研究が著しく進展している。 しかし、複雑な背景、さまざまなサイズの物体、画像品質の低下など、建設対象の検出には明らかな問題がある。 現状のアプローチでは、時空の特徴を扱うために精巧な注意機構が開発されているが、チャネルワイドな特徴調整の重要性に対処することは滅多にない。 本稿では,各チャネルに適応的に最適化された重み付けを決定するために使用できるグローバル特徴親和性アソシエーションに基づくチャネル関係を改善するための軽量最適化位置決め(op)モジュールを提案する。 opはまず、各チャネルを特徴マップのセットの残りのチャネルと比較することにより、中間の最適化された位置を計算する。 すべてのチャネルの重み付きアグリゲーションは、各チャネルを表すために使用される。 OP-Netモジュールは、あらゆるディープニューラルネットワークにプラグインできる一般的なディープニューラルネットワークモジュールである。 ディープラーニングを利用したアルゴリズムは、ほぼリアルタイムで画像から幅広い物体を識別する能力を示している。 マシンインテリジェンスは、建設画像に関連付けられたアルゴリズムを使用して、生産性を自動分析し、安全性を監視することによって、建設業界に利益をもたらす可能性がある。 現場における自動監視の利点は、危険防止に大きく貢献する。 構築オブジェクトが正しく認識されると、建設監視タスクも自動化できる。 建設現場画像における物体検出タスクを広範囲に実験し,その有効性と有効性を示す。 SODAを用いたベンチマークテストでは, OP-Netは, 高い計算オーバーヘッドを維持しつつ, 新たな最先端性能を実現することができることを示した。

An important component of computer vision research is object detection. In recent years, there has been tremendous progress in the study of construction site images. However, there are obvious problems in construction object detection, including complex backgrounds, varying-sized objects, and poor imaging quality. In the state-of-the-art approaches, elaborate attention mechanisms are developed to handle space-time features, but rarely address the importance of channel-wise feature adjustments. We propose a lightweight Optimized Positioning (OP) module to improve channel relation based on global feature affinity association, which can be used to determine the Optimized weights adaptively for each channel. OP first computes the intermediate optimized position by comparing each channel with the remaining channels for a given set of feature maps. A weighted aggregation of all the channels will then be used to represent each channel. The OP-Net module is a general deep neural network module that can be plugged into any deep neural network. Algorithms that utilize deep learning have demonstrated their ability to identify a wide range of objects from images nearly in real time. Machine intelligence can potentially benefit the construction industry by automatically analyzing productivity and monitoring safety using algorithms that are linked to construction images. The benefits of on-site automatic monitoring are immense when it comes to hazard prevention. Construction monitoring tasks can also be automated once construction objects have been correctly recognized. Object detection task in construction site images is experimented with extensively to demonstrate its efficacy and effectiveness. A benchmark test using SODA demonstrated that our OP-Net was capable of achieving new state-of-the-art performance in accuracy while maintaining a reasonable computational overhead.
翻訳日:2022-10-31 16:15:40 公開日:2022-10-27
# 完全注意・解釈可能:痛み検出のための視覚とビデオビジョン変換器

Fully-attentive and interpretable: vision and video vision transformers for pain detection ( http://arxiv.org/abs/2210.15769v1 )

ライセンス: Link先を確認
Giacomo Fiorentini, Itir Onal Ertugrul, Albert Ali Salah(参考訳) 痛みは世界中で深刻でコストのかかる問題ですが、治療にはまず発見する必要があります。 視覚変換器はコンピュータビジョンにおいて最高の性能のアーキテクチャであり、痛み検出に使用する研究はほとんどない。 本稿では,表情からの2次痛み検出における最先端のパフォーマンスを実現する,最初の完全注意型自動痛み検出パイプラインを提案する。 モデルは、UNBC-McMasterデータセットでトレーニングされ、顔が3D登録され、標準的なフロントビューに回転する。 実験では、ハイパーパラメータ空間の重要な領域と、視覚およびビデオビジョントランスフォーマとの相互作用を特定し、3つの注目すべきモデルを得た。 モデルの1つのアテンションマップを分析し、その予測に合理的な解釈を見つける。 また,拡張手法であるMixupと最適化手法であるSharpness-Aware Minimizationを評価した。 提案したモデルでは,ViT-1 (F1 score 0.55 +- 0.15),ViViT-1 (F1 score 0.55 +- 0.13),ViViT-2 (F1 score 0.49 +- 0.04) が先行研究より優れており,痛み検出のための視覚変換器の可能性を示している。 コードはhttps://github.com/IPDTFE/ViT-McMasterで入手できる。

Pain is a serious and costly issue globally, but to be treated, it must first be detected. Vision transformers are a top-performing architecture in computer vision, with little research on their use for pain detection. In this paper, we propose the first fully-attentive automated pain detection pipeline that achieves state-of-the-art performance on binary pain detection from facial expressions. The model is trained on the UNBC-McMaster dataset, after faces are 3D-registered and rotated to the canonical frontal view. In our experiments we identify important areas of the hyperparameter space and their interaction with vision and video vision transformers, obtaining 3 noteworthy models. We analyse the attention maps of one of our models, finding reasonable interpretations for its predictions. We also evaluate Mixup, an augmentation technique, and Sharpness-Aware Minimization, an optimizer, with no success. Our presented models, ViT-1 (F1 score 0.55 +- 0.15), ViViT-1 (F1 score 0.55 +- 0.13), and ViViT-2 (F1 score 0.49 +- 0.04), all outperform earlier works, showing the potential of vision transformers for pain detection. Code is available at https://github.com/IPDTFE/ViT-McMaster
翻訳日:2022-10-31 16:15:17 公開日:2022-10-27
# BI AVAN: ブレインインインスパイアされた敵対的視覚注意ネットワーク

BI AVAN: Brain inspired Adversarial Visual Attention Network ( http://arxiv.org/abs/2210.15790v1 )

ライセンス: Link先を確認
Heng Huang, Lin Zhao, Xintao Hu, Haixing Dai, Lu Zhang, Dajiang Zhu, Tianming Liu(参考訳) 視覚的注意は人間の脳の基本的なメカニズムであり、ディープニューラルネットワークにおける注意機構の設計を促す。 しかし、視覚的注意研究の多くは、人間の視覚的注意を特徴づける脳活動を直接測定するよりも、視線追跡データを採用した。 また,人間の視覚系における注意関連物体と注意無視背景との敵対関係は十分に活用されなかった。 これらのギャップを埋めるために,機能的脳活動から直接人間の視覚的注意を特徴付ける新しい脳内対視注意ネットワーク(BI-AVAN)を提案する。 このバイアバンモデルでは,人間の脳が教師なしの方法で焦点をあてる映画フレーム内の視覚物体を識別・同定するために,注意関連・否定対象間のバイアス付き競争過程を模倣する。 我々は,脳活動と視覚刺激の関係をマッピングし,有意義な人間の視覚的注意を推定し,そのモデルが堅牢で有望な結果をもたらすことを示す。 私たちのBI-AVANモデルは、脳の機能的アーキテクチャを活用して、人工知能(AI)におけるモデル設計を刺激し、ガイドする分野、例えばディープニューラルネットワークに寄与します。

Visual attention is a fundamental mechanism in the human brain, and it inspires the design of attention mechanisms in deep neural networks. However, most of the visual attention studies adopted eye-tracking data rather than the direct measurement of brain activity to characterize human visual attention. In addition, the adversarial relationship between the attention-related objects and attention-neglected background in the human visual system was not fully exploited. To bridge these gaps, we propose a novel brain-inspired adversarial visual attention network (BI-AVAN) to characterize human visual attention directly from functional brain activity. Our BI-AVAN model imitates the biased competition process between attention-related/neglected objects to identify and locate the visual objects in a movie frame the human brain focuses on in an unsupervised manner. We use independent eye-tracking data as ground truth for validation and experimental results show that our model achieves robust and promising results when inferring meaningful human visual attention and mapping the relationship between brain activities and visual stimuli. Our BI-AVAN model contributes to the emerging field of leveraging the brain's functional architecture to inspire and guide the model design in artificial intelligence (AI), e.g., deep neural networks.
翻訳日:2022-10-31 16:14:54 公開日:2022-10-27
# 低リソース機械翻訳のためのCOMET-QEとアクティブラーニング

COMET-QE and Active Learning for Low-Resource Machine Translation ( http://arxiv.org/abs/2210.15696v1 )

ライセンス: Link先を確認
Everlyn Asiko Chimoto and Bruce A. Bassett(参考訳) アクティブラーニングは、リソースが不足している場合に最大限の利益をもたらすことを目的としている。 低リソースニューラルネットワーク翻訳のための文の選択には,参照不要評価指標であるCOMET-QEを用いる。 スワヒリ、キニアルワンダ、スペイン語を実験に用いて、30kのベースラインでアクティブラーニングによって選択された20万文に対して、rttl(ラウンドトリップ変換度)とランダム文選択の2つの変種を有意に上回っていることを示した。 これはCOMET-QEが低リソース限界における文選択の強力なツールであることを示唆している。

Active learning aims to deliver maximum benefit when resources are scarce. We use COMET-QE, a reference-free evaluation metric, to select sentences for low-resource neural machine translation. Using Swahili, Kinyarwanda and Spanish for our experiments, we show that COMET-QE significantly outperforms two variants of Round Trip Translation Likelihood (RTTL) and random sentence selection by up to 5 BLEU points for 20k sentences selected by Active Learning on a 30k baseline. This suggests that COMET-QE is a powerful tool for sentence selection in the very low-resource limit.
翻訳日:2022-10-31 15:57:31 公開日:2022-10-27
# スティリスティック制御可能生成のための最近傍言語モデル

Nearest Neighbor Language Models for Stylistic Controllable Generation ( http://arxiv.org/abs/2210.15762v1 )

ライセンス: Link先を確認
Severino Trotta and Lucie Flek and Charles Welch(参考訳) 最近の言語モデリング性能は外部メモリによって大幅に改善されている。 このメモリは、同様のコンテキストをデコード中にリコールできるように、コンテキストをエンコードする。 この類似性は、モデルがどのようにコンテキストをエンコードするかによって異なり、スタイルのような他の属性を含むように変更することができる。 我々は, 丁寧さ, 形式性, 毒性に注釈を付したコーパスを用いて, この目的のためにアーキテクチャを構築し, 評価する。 広範な実験と人的評価を通じて,スタイルを制御しながらテキストを生成する手法の可能性を示す。 スタイル固有のデータストアは生成性能を向上するが、結果はスタイルによって大きく異なり、事前学習データや特定のスタイルの影響は今後の研究で検討されるべきである。

Recent language modeling performance has been greatly improved by the use of external memory. This memory encodes the context so that similar contexts can be recalled during decoding. This similarity depends on how the model learns to encode context, which can be altered to include other attributes, such as style. We construct and evaluate an architecture for this purpose, using corpora annotated for politeness, formality, and toxicity. Through extensive experiments and human evaluation we demonstrate the potential of our method to generate text while controlling style. We find that style-specific datastores improve generation performance, though results vary greatly across styles, and the effect of pretraining data and specific styles should be explored in future work.
翻訳日:2022-10-31 15:57:17 公開日:2022-10-27
# 事前学習モデルは継続学習に等しく相応しいか?

Do Pre-trained Models Benefit Equally in Continual Learning? ( http://arxiv.org/abs/2210.15701v1 )

ライセンス: Link先を確認
Kuan-Ying Lee, Yuanyi Zhong, Yu-Xiong Wang(参考訳) 既存の継続学習(CL)の研究は主に、ゼロから訓練されたモデルのアルゴリズムの開発に費やされている。 コントリビュートベンチマークのパフォーマンスは高いが、これらのアルゴリズムは現実のシナリオで劇的なパフォーマンス低下を示す。 そこで本論文では,下流の課題に知識を伝達する一般的なレシピであるCLへの事前学習の体系的導入を提唱するが,CLコミュニティにはかなり欠落している。 本研究は, 3つの異なる軸, 事前学習モデル, CLアルゴリズム, CLシナリオに沿って, CLの事前学習モデルを利用する多面的複雑性を明らかにする。 おそらく最も興味深いのは、事前学習によるCLアルゴリズムの改善は、全てのアルゴリズムが事前訓練されたモデルから始めると、性能の低いアルゴリズムが競合し、最先端のアルゴリズムになる可能性があることである。 これは、全てのCLメソッドがオフスクラッチトレーニングで比較される現在のパラダイムは、真のCL目標と望ましい進歩を十分に反映していないことを示している。 さらに、正規化の少ないCLアルゴリズムは、事前訓練されたモデルによってより恩恵を受けられること、CLIPのようなより強力な事前学習モデルでは、改善が保証されないことなど、いくつかの重要な観察を行う。 これらの結果に基づき,最小正規化を活用し,より有益な事前学習モデルと2段階のトレーニングパイプラインを併用した,単純かつ効果的なベースラインを導入する。 我々はこの強力なベースラインを今後のCLアルゴリズムの開発に組み込むことを推奨する。

Existing work on continual learning (CL) is primarily devoted to developing algorithms for models trained from scratch. Despite their encouraging performance on contrived benchmarks, these algorithms show dramatic performance drops in real-world scenarios. Therefore, this paper advocates the systematic introduction of pre-training to CL, which is a general recipe for transferring knowledge to downstream tasks but is substantially missing in the CL community. Our investigation reveals the multifaceted complexity of exploiting pre-trained models for CL, along three different axes, pre-trained models, CL algorithms, and CL scenarios. Perhaps most intriguingly, improvements in CL algorithms from pre-training are very inconsistent an underperforming algorithm could become competitive and even state-of-the-art when all algorithms start from a pre-trained model. This indicates that the current paradigm, where all CL methods are compared in from-scratch training, is not well reflective of the true CL objective and desired progress. In addition, we make several other important observations, including that CL algorithms that exert less regularization benefit more from a pre-trained model; and that a stronger pre-trained model such as CLIP does not guarantee a better improvement. Based on these findings, we introduce a simple yet effective baseline that employs minimum regularization and leverages the more beneficial pre-trained model, coupled with a two-stage training pipeline. We recommend including this strong baseline in the future development of CL algorithms, due to its demonstrated state-of-the-art performance.
翻訳日:2022-10-31 15:41:31 公開日:2022-10-27
# 等角予測を伴う自己監督モデルにおける信頼性の高いゼロショット分類に向けて

Towards Reliable Zero Shot Classification in Self-Supervised Models with Conformal Prediction ( http://arxiv.org/abs/2210.15805v1 )

ライセンス: Link先を確認
Bhawesh Kumar, Anil Palepu, Rudraksh Tuwani and Andrew Beam(参考訳) CLIPのような対照的な損失で訓練された自己教師型モデルは、ゼロショット分類設定において非常に強力であることが示されている。 しかし、ゼロショット分類器として使用するには、テスト時にユーザが固定されたラベルセットに新しいキャプションを提供する必要がある。 多くの設定において、新しいクエリキャプションがモデルのトレーニングに使用されるソースキャプションと互換性があるかどうかを知ることは困難または不可能である。 ゼロショット分類タスクを異常検出問題とみなし、与えられたテストキャプションを確実に使用できるかを評価するための適合予測手順を開発することで、これらの制限に対処する。 実世界の医学的な例では,提案手法によりゼロショット分類設定におけるCLIPスタイルモデルの信頼性が向上し,その性能に影響を及ぼす可能性のある要因を実証分析する。

Self-supervised models trained with a contrastive loss such as CLIP have shown to be very powerful in zero-shot classification settings. However, to be used as a zero-shot classifier these models require the user to provide new captions over a fixed set of labels at test time. In many settings, it is hard or impossible to know if a new query caption is compatible with the source captions used to train the model. We address these limitations by framing the zero-shot classification task as an outlier detection problem and develop a conformal prediction procedure to assess when a given test caption may be reliably used. On a real-world medical example, we show that our proposed conformal procedure improves the reliability of CLIP-style models in the zero-shot classification setting, and we provide an empirical analysis of the factors that may affect its performance.
翻訳日:2022-10-31 15:41:04 公開日:2022-10-27
# ML分類における特徴の必要性と関連性

Feature Necessity & Relevancy in ML Classifier Explanations ( http://arxiv.org/abs/2210.15675v1 )

ライセンス: Link先を確認
Xuanxiang Huang, Martin C. Cooper, Antonio Morgado, Jordi Planes, Joao Marques-Silva(参考訳) 機械学習(ML)モデルと予測が与えられた場合、説明は予測に十分な機能のセットとして定義することができる。 一部のアプリケーションでは、あるいは説明を求めるだけでなく、ある説明でセンシティブな機能が発生するのか、あるいはすべての説明で非関心機能が発生するのかを理解することが重要である。 本稿では,論理に基づく推論における関連性の問題と必要性をそれぞれ関連付けることから始める。 この論文は、ml分類器のいくつかのファミリーのメンバーシップとハードネスの結果を証明する。 その後,2種類の分類器の具体的なアルゴリズムを提案する。 実験により提案アルゴリズムのスケーラビリティを確認した。

Given a machine learning (ML) model and a prediction, explanations can be defined as sets of features which are sufficient for the prediction. In some applications, and besides asking for an explanation, it is also critical to understand whether sensitive features can occur in some explanation, or whether a non-interesting feature must occur in all explanations. This paper starts by relating such queries respectively with the problems of relevancy and necessity in logic-based abduction. The paper then proves membership and hardness results for several families of ML classifiers. Afterwards the paper proposes concrete algorithms for two classes of classifiers. The experimental results confirm the scalability of the proposed algorithms.
翻訳日:2022-10-31 15:32:26 公開日:2022-10-27
# 原型層状層状クロスモーダルハッシュ

Prototype-Based Layered Federated Cross-Modal Hashing ( http://arxiv.org/abs/2210.15678v1 )

ライセンス: Link先を確認
Jiale Liu, Yu-Wei Zhan, Xin Luo, Zhen-Duo Chen, Yongxin Wang, Xin-Shun Xu(参考訳) 近年, クロスモーダルハッシュが注目されている。 しかし、多くの場合、データは分散され、プライバシ上の懸念から収集できないため、クライアント毎のクロスモーダルハッシュ性能が大幅に低下する。 また, 統計的不均一性の問題, モデル不均一性, および各クライアントに同じパラメータの受け入れを強制することなどにより, クロスモーダルハッシュ学習にフェデレート学習を適用するのは非常に難しい。 本稿では,プロトタイプベース階層型フェデレートクロスモーダルハッシュと呼ばれる新しい手法を提案する。 具体的には、サーバ上のインスタンスとクラス間の類似性を学ぶためにプロトタイプを導入し、異なるクライアントに対する統計的不均一性(非IID)の影響を減らす。 そして、ローカルとグローバルのプロトタイプ間の距離を監視し、パフォーマンスをさらに向上させる。 パーソナライズされたフェデレーション学習を実現するために、ハイパーネットワークがサーバ上に展開され、異なるレイヤのローカルモデルの重みを動的に更新する。 評価実験の結果,提案手法は最先端手法よりも優れていた。

Recently, deep cross-modal hashing has gained increasing attention. However, in many practical cases, data are distributed and cannot be collected due to privacy concerns, which greatly reduces the cross-modal hashing performance on each client. And due to the problems of statistical heterogeneity, model heterogeneity, and forcing each client to accept the same parameters, applying federated learning to cross-modal hash learning becomes very tricky. In this paper, we propose a novel method called prototype-based layered federated cross-modal hashing. Specifically, the prototype is introduced to learn the similarity between instances and classes on server, reducing the impact of statistical heterogeneity (non-IID) on different clients. And we monitor the distance between local and global prototypes to further improve the performance. To realize personalized federated learning, a hypernetwork is deployed on server to dynamically update different layers' weights of local model. Experimental results on benchmark datasets show that our method outperforms state-of-the-art methods.
翻訳日:2022-10-31 15:32:16 公開日:2022-10-27
# GraphMAD: データ駆動凸クラスタリングによるデータ拡張のためのグラフミックスアップ

GraphMAD: Graph Mixup for Data Augmentation using Data-Driven Convex Clustering ( http://arxiv.org/abs/2210.15721v1 )

ライセンス: Link先を確認
Madeline Navarro and Santiago Segarra(参考訳) グラフデータ拡張のための新しいデータ駆動非線形混合機構を開発し、サンプルペアとそのラベルに対して異なる混合関数を示す。 Mixupは、データサンプルとラベルを線形に補間することで、新しいトレーニングデータを作成するデータ拡張方法である。 グラフデータの混合は、潜在的に異なるサイズのグラフ間の補間が不適切な操作であるため、困難である。 したがって、グラフ混合に対する有望なアプローチは、まずグラフを共通の潜在的特徴空間に投影し、この潜在的空間における線形および非線形混合戦略を探索することである。 この文脈で,我々は提案する (i)グラフと呼ばれる連続ランダムグラフモデルの潜在空間への射影グラフ (ii) この潜伏空間における凸クラスタリングを利用して非線形データ駆動混合関数を生成し、 (iii)ラベルとデータサンプルに異なる混合関数を用いることについて検討する。 ベンチマークデータセット上でグラフデータ拡張性能を評価し,非線形データ駆動混合関数がグラフ分類を大幅に改善できることを実証した。

We develop a novel data-driven nonlinear mixup mechanism for graph data augmentation and present different mixup functions for sample pairs and their labels. Mixup is a data augmentation method to create new training data by linearly interpolating between pairs of data samples and their labels. Mixup of graph data is challenging since the interpolation between graphs of potentially different sizes is an ill-posed operation. Hence, a promising approach for graph mixup is to first project the graphs onto a common latent feature space and then explore linear and nonlinear mixup strategies in this latent space. In this context, we propose to (i) project graphs onto the latent space of continuous random graph models known as graphons, (ii) leverage convex clustering in this latent space to generate nonlinear data-driven mixup functions, and (iii) investigate the use of different mixup functions for labels and data samples. We evaluate our graph data augmentation performance on benchmark datasets and demonstrate that nonlinear data-driven mixup functions can significantly improve graph classification.
翻訳日:2022-10-31 15:31:59 公開日:2022-10-27
# M3FGM:ノードマスキングと多粒度メッセージパスベースフェデレーショングラフモデルによる時空間データ予測

M3FGM:a node masking and multi-granularity message passing-based federated graph model for spatial-temporal data prediction ( http://arxiv.org/abs/2210.16193v1 )

ライセンス: Link先を確認
Yuxing Tian, Zheng Liu, Yanwen Qu(参考訳) 研究者たちは、プライバシーとセキュリティの制約に関して、連合学習(fl)とグラフモデルを組み合わせることで、空間-時間予測の課題を解決している。 しかし、未解決の問題がいくつか残っている。 1) クライアントは,推論フェーズ中にサーバにアクセスできないかもしれない。 2) サーバモデルで手動で設計したクライアントのグラフは,クライアント間の適切な関係を明らかにするものではない。 本稿では,ノードマスキングとマルチ粒度メッセージパッシングに基づくフェデレーショングラフモデル(m3fgm)という新しい埋め込み集約型構造化fl手法を提案する。 m3fgmのサーバモデルは、マスクノード層を使用してオフラインクライアントのケースをシミュレートする。 また、クライアントモデルのデコーダをデュアルサブデコーダ構造で再設計し、各クライアントモデルがそのローカルデータをオフライン時に独立して予測できるようにします。 2つ目の問題として、MGMP(Multi-Granularity Message Passing)と呼ばれる新しいGNNレイヤでは、各クライアントノードがグローバルおよびローカル情報を知覚することができる。 その結果,提案モデルがベースラインや変種モデルよりも優れており,両シナリオで最高の結果が得られることがわかった。

Researchers are solving the challenges of spatial-temporal prediction by combining Federated Learning (FL) and graph models with respect to the constrain of privacy and security. However, there are still several issues left unattended: 1) Clients might not be able to access the server during inference phase; 2) The graph of clients designed manually in the server model may not reveal the proper relationship between clients. This paper proposes a new embeddings aggregation structured FL approach named node Masking and Multi-granularity Message passing-based Federated Graph Model (M3FGM) for the above issues. The server model of M3FGM employs a MaskNode layer to simulate the case of offline clients. We also redesign the decoder of the client model using a dual-sub-decoders structure so that each client model can use its local data to predict independently when offline. As for the second issue, A new GNN layer named Multi-Granularity Message Passing (MGMP) allows each client node to perceive global and local information.We conducted extensive experiments in two different scenarios on two real traffic datasets. Results show that the proposed model outperforms the baselines and variant models, achieves the best results in both scenarios.
翻訳日:2022-10-31 15:30:25 公開日:2022-10-27
# 改善焦点因果関係(ICR)

Improvement-Focused Causal Recourse (ICR) ( http://arxiv.org/abs/2210.15709v1 )

ライセンス: Link先を確認
Gunnar K\"onig, Timo Freiesleben, Moritz Grosse-Wentrup(参考訳) Karimi et al.(2021)の因果関係(CR)のようなアルゴリズムによるレコメンデーションは、不必要な決定を逆転する方法をステークホルダーに通知する。 しかし、いくつかのアクションは受け入れられる(つまり、モデルの決定を逆転させる)が、改善にはつながりません(つまり、基礎となる現実世界の状態は戻らない)。 このような行動を推奨するには、予測者を騙すことを推奨する。 本稿では,概念シフトを伴う新しい手法である改善重視因果リコース(icr)について紹介する。 第二に、特定の予測者によって受け入れられる推奨事項を調整しない。 その代わり、私たちは因果知識を利用して、正確な事前および事後予測を行う意思決定システムを設計します。 その結果、改善保証は受け入れ保証に変換される。 我々は、既存のアプローチとは対照的に、正しい因果知識であるICRが、受け入れと改善の両方の指針であることを実証する。

Algorithmic recourse recommendations, such as Karimi et al.'s (2021) causal recourse (CR), inform stakeholders of how to act to revert unfavourable decisions. However, some actions lead to acceptance (i.e., revert the model's decision) but do not lead to improvement (i.e., may not revert the underlying real-world state). To recommend such actions is to recommend fooling the predictor. We introduce a novel method, Improvement-Focused Causal Recourse (ICR), which involves a conceptual shift: Firstly, we require ICR recommendations to guide towards improvement. Secondly, we do not tailor the recommendations to be accepted by a specific predictor. Instead, we leverage causal knowledge to design decision systems that predict accurately pre- and post-recourse. As a result, improvement guarantees translate into acceptance guarantees. We demonstrate that given correct causal knowledge, ICR, in contrast to existing approaches, guides towards both acceptance and improvement.
翻訳日:2022-10-31 15:30:02 公開日:2022-10-27
# グラフに基づくアクティブラーニングのためのポアソン重み付きラプラシアン不確かさサンプリング

Poisson Reweighted Laplacian Uncertainty Sampling for Graph-based Active Learning ( http://arxiv.org/abs/2210.15786v1 )

ライセンス: Link先を確認
Kevin Miller and Jeff Calder(参考訳) グラフに基づくアクティブラーニングにおいて、不確実性サンプリングは、不確実性の測定が基礎となるモデルと適切に一致し、未探索領域における不確実性が適切に反映される限り、探索と搾取に十分であることを示す。 特に,最近開発されたアルゴリズムであるpoisson reweighted laplace learning (pwll) を分類器に適用し,探索されていないデータ領域を識別するこのグラフに基づく分類器の不確実性を測定するための取得関数を提案する。 本稿では, PWLLにおける対角的摂動を導入し, 解の指数的局所化を実現し, 能動学習における探索対搾取トレードオフを制御する。 提案手法の厳密な解析には,PWLLの良好な連続限界を用いるとともに,多数のグラフに基づく画像分類問題に対する実験結果を示す。

We show that uncertainty sampling is sufficient to achieve exploration versus exploitation in graph-based active learning, as long as the measure of uncertainty properly aligns with the underlying model and the model properly reflects uncertainty in unexplored regions. In particular, we use a recently developed algorithm, Poisson ReWeighted Laplace Learning (PWLL) for the classifier and we introduce an acquisition function designed to measure uncertainty in this graph-based classifier that identifies unexplored regions of the data. We introduce a diagonal perturbation in PWLL which produces exponential localization of solutions, and controls the exploration versus exploitation tradeoff in active learning. We use the well-posed continuum limit of PWLL to rigorously analyze our method, and present experimental results on a number of graph-based image classification problems.
翻訳日:2022-10-31 15:29:46 公開日:2022-10-27
# 動的システムの視点に基づく層間共有注意ネットワーク

Layer-wise Shared Attention Network on Dynamical System Perspective ( http://arxiv.org/abs/2210.16101v1 )

ライセンス: Link先を確認
Zhongzhan Huang, Senwei Liang, Mingfu Liang, Weiling He, Liang Lin(参考訳) 注意ネットワークは様々な視覚問題において精度を高めることに成功した。 以前の作品は、新しい自己着脱モジュールの設計に重点を置いており、ネットワークの各レイヤに個別にモジュールを接続する従来のパラダイムに従っている。 しかし、このようなパラダイムは必然的にレイヤー数の増加とともに余分なパラメータコストを増大させる。 残差ニューラルネットワークの力学系の観点から、同一ステージの層から得られる特徴マップが均質であることに気付き、異なるネットワーク層全体にわたって単一の注意モジュールを共有する、密集的かつ暗黙的な注意(DIA)ユニットと呼ばれる、新規かつ簡易なフレームワークを提案する。 筆者らのフレームワークでは,パラメータコストはレイヤ数に依存しないため,より精巧なモデル作成を行うことなく,パラメータの大幅な削減を図りながら,既存の自己認識モジュールの精度をさらに向上する。 ベンチマークデータセットの大規模な実験により、DIAはレイヤーワイドな特徴相互関係を強調し、画像分類、オブジェクト検出、医療応用など、様々なビジョンタスクに大幅な改善をもたらすことが示されている。 さらに,(1)残留ニューラルネットワークのスキップ接続を除去し,(2)モデルのバッチ正規化を除去し,(3)トレーニング中のすべてのデータ拡張を除去することにより,モデルトレーニングを不安定化する実験により,DIAユニットの有効性が実証された。 このような場合、DIAはトレーニングを安定させる強力な正規化能力があること、すなわち、我々の手法によって形成された密で暗黙的な接続は、階層間の情報通信を効果的に回復し、グラデーションの値を高めることで、トレーニング不安定を緩和する。

Attention networks have successfully boosted accuracy in various vision problems. Previous works lay emphasis on designing a new self-attention module and follow the traditional paradigm that individually plugs the modules into each layer of a network. However, such a paradigm inevitably increases the extra parameter cost with the growth of the number of layers. From the dynamical system perspective of the residual neural network, we find that the feature maps from the layers of the same stage are homogenous, which inspires us to propose a novel-and-simple framework, called the dense and implicit attention (DIA) unit, that shares a single attention module throughout different network layers. With our framework, the parameter cost is independent of the number of layers and we further improve the accuracy of existing popular self-attention modules with significant parameter reduction without any elaborated model crafting. Extensive experiments on benchmark datasets show that the DIA is capable of emphasizing layer-wise feature interrelation and thus leads to significant improvement in various vision tasks, including image classification, object detection, and medical application. Furthermore, the effectiveness of the DIA unit is demonstrated by novel experiments where we destabilize the model training by (1) removing the skip connection of the residual neural network, (2) removing the batch normalization of the model, and (3) removing all data augmentation during training. In these cases, we verify that DIA has a strong regularization ability to stabilize the training, i.e., the dense and implicit connections formed by our method can effectively recover and enhance the information communication across layers and the value of the gradient thus alleviate the training instability.
翻訳日:2022-10-31 15:23:05 公開日:2022-10-27
# ロバスト学習のためのノイズ注入ノード規則化

Noise Injection Node Regularization for Robust Learning ( http://arxiv.org/abs/2210.15764v1 )

ライセンス: Link先を確認
Noam Levi, Itay M. Bloch, Marat Freytsis, Tomer Volansky(参考訳) 本研究では,ニューラルネットワーク(dnn)の学習段階で構造的ノイズを注入する手法であるノイズ注入ノード正則化(ninr)を導入し,創発的正則化効果をもたらす。 本研究は、NINRの下で訓練されたフィードフォワードDNNに対する各種試験データ摂動に対するロバスト性を大幅に改善する理論的および実証的な証拠を示す。 このアプローチの目新しさは,適応型ノイズ注入と初期化条件の相互作用によるものである。 既存のネットワーク構造や最適化アルゴリズムを変更することなく、単に外部ノードの追加を必要とするため、この手法は多くの標準問題仕様に簡単に組み込むことができる。 非構造化ノイズに対する最も劇的な改善は、ドメインシフトを含む多くのデータ摂動に対する安定性の向上であり、この手法は、ドロップアウトや$l_2$正規化といった他の既存の方法よりも優れています。 さらに、クリーンデータに対する望ましい一般化特性が一般に維持されていることを示す。

We introduce Noise Injection Node Regularization (NINR), a method of injecting structured noise into Deep Neural Networks (DNN) during the training stage, resulting in an emergent regularizing effect. We present theoretical and empirical evidence for substantial improvement in robustness against various test data perturbations for feed-forward DNNs when trained under NINR. The novelty in our approach comes from the interplay of adaptive noise injection and initialization conditions such that noise is the dominant driver of dynamics at the start of training. As it simply requires the addition of external nodes without altering the existing network structure or optimization algorithms, this method can be easily incorporated into many standard problem specifications. We find improved stability against a number of data perturbations, including domain shifts, with the most dramatic improvement obtained for unstructured noise, where our technique outperforms other existing methods such as Dropout or $L_2$ regularization, in some cases. We further show that desirable generalization properties on clean data are generally maintained.
翻訳日:2022-10-31 15:13:50 公開日:2022-10-27
# 逆生存モデル(RSM:Reverse Survival Model: 深層生存モデル予測のためのパイプライン)

Reverse Survival Model (RSM): A Pipeline for Explaining Predictions of Deep Survival Models ( http://arxiv.org/abs/2210.15674v1 )

ライセンス: Link先を確認
Mohammad R. Rezaei, Reza Saadati Fard, Ebrahim Pourjafari, Navid Ziaei, Amir Sameizadeh, Mohammad Shafiee, Mohammad Alavinia, Mansour Abolghasemian, Nick Sajadi(参考訳) 医療における生存率分析の目的は、集中治療室(icu)における患者の死亡などの事象の発生確率を推定することである。 生存分析のためのディープニューラルネットワーク(DNN)の最近の発展は、生存分析アプリケーションにおける他のよく知られたモデルと比較して、これらのモデルの優位性を示している。 医療に展開される深層生存モデルの信頼性と説明可能性の確保が不可欠である。 DNNモデルはブラックボックスのように振る舞うことが多いため、特に医師の意見に反する場合、その予測は臨床医によって簡単には信用できないかもしれない。 意思決定プロセスの説明と正当化を行う深層生存モデルは、臨床医の信頼を得る可能性がある。 本研究では、生存モデルの決定過程に関する詳細な知見を提供する逆生存モデル(RSM)フレームワークを提案する。 関心のある患者ごとに、rsmはデータセットから同様の患者を抽出し、ディープサバイバルモデルが予測に依存する最も関連する特徴に基づいてランク付けすることができる。

The aim of survival analysis in healthcare is to estimate the probability of occurrence of an event, such as a patient's death in an intensive care unit (ICU). Recent developments in deep neural networks (DNNs) for survival analysis show the superiority of these models in comparison with other well-known models in survival analysis applications. Ensuring the reliability and explainability of deep survival models deployed in healthcare is a necessity. Since DNN models often behave like a black box, their predictions might not be easily trusted by clinicians, especially when predictions are contrary to a physician's opinion. A deep survival model that explains and justifies its decision-making process could potentially gain the trust of clinicians. In this research, we propose the reverse survival model (RSM) framework that provides detailed insights into the decision-making process of survival models. For each patient of interest, RSM can extract similar patients from a dataset and rank them based on the most relevant features that deep survival models rely on for their predictions.
翻訳日:2022-10-31 15:05:19 公開日:2022-10-27
# q^\pi$-realizable MDPにおける効率的なローカルプランニングのための信頼度近似政策イテレーション

Confident Approximate Policy Iteration for Efficient Local Planning in $q^\pi$-realizable MDPs ( http://arxiv.org/abs/2210.15755v1 )

ライセンス: Link先を確認
Gell\'ert Weisz and Andr\'as Gy\"orgy and Tadashi Kozuno and Csaba Szepesv\'ari(参考訳) 我々は、$\gamma$-discounted Markov決定過程における近似動的プログラミングを考察し、線形値関数近似を用いた近似計画に適用する。 私たちの最初の貢献は、slanced approximation policy iteration(capi)と呼ばれる新しいタイプの近似ポリシーイテレーション(api)です。これは、効果的なホライズン$h$と最悪の場合の近似エラー$\epsilon$の積と線形にスケーリングする最適なエラー境界を持つ決定論的定常ポリシーを計算します。 api(エラーは$h^2$でスケールする)に対するこの改善は、メモリコストが$h$-foldの値で増加する。 Scherrer と Lesner [2012] が同様の改善(メモリオーバーヘッドが同じ)を達成するために非定常ポリシーの計算を推奨しているのとは異なり、我々は定常ポリシーに固執することができる。 これにより、シミュレータへのローカルアクセスと$d$次元線形関数近似によるプランニングへのCAPIの適用が可能になります。 そこで我々は,CAPIを適用した計画アルゴリズムを設計し,動的に進化する状態の集合上で連続的に改良されたアキュラシーを持つ一連のポリシーを得る。 このアルゴリズムは、$\tilde O(dH^4/\epsilon^2)$クエリをシミュレータに出力した後、$\tilde O(\sqrt{d}H\epsilon)$-Optimal Policyを出力し、同時に最適な精度境界と既知のクエリ複雑性境界を達成する。 このクエリの複雑さは、$H$を除くすべてのパラメータで厳密である。 これらの改善は、アルゴリズムと出力ポリシーの両方のメモリと計算コストの軽度(ポリノミカル)の増加を犠牲にしている。

We consider approximate dynamic programming in $\gamma$-discounted Markov decision processes and apply it to approximate planning with linear value-function approximation. Our first contribution is a new variant of Approximate Policy Iteration (API), called Confident Approximate Policy Iteration (CAPI), which computes a deterministic stationary policy with an optimal error bound scaling linearly with the product of the effective horizon $H$ and the worst-case approximation error $\epsilon$ of the action-value functions of stationary policies. This improvement over API (whose error scales with $H^2$) comes at the price of an $H$-fold increase in memory cost. Unlike Scherrer and Lesner [2012], who recommended computing a non-stationary policy to achieve a similar improvement (with the same memory overhead), we are able to stick to stationary policies. This allows for our second contribution, the application of CAPI to planning with local access to a simulator and $d$-dimensional linear function approximation. As such, we design a planning algorithm that applies CAPI to obtain a sequence of policies with successively refined accuracies on a dynamically evolving set of states. The algorithm outputs an $\tilde O(\sqrt{d}H\epsilon)$-optimal policy after issuing $\tilde O(dH^4/\epsilon^2)$ queries to the simulator, simultaneously achieving the optimal accuracy bound and the best known query complexity bound, while earlier algorithms in the literature achieve only one of them. This query complexity is shown to be tight in all parameters except $H$. These improvements come at the expense of a mild (polynomial) increase in memory and computational costs of both the algorithm and its output policy.
翻訳日:2022-10-31 15:05:00 公開日:2022-10-27
# 破壊的ニューラルスケーリング法則

Broken Neural Scaling Laws ( http://arxiv.org/abs/2210.14891v2 )

ライセンス: Link先を確認
Ethan Caballero, Kshitij Gupta, Irina Rish, David Krueger(参考訳) 本稿では,大規模かつ多様なアップストリームタスクと下流タスクのセットにおいて,ディープニューラルネットワークのスケーリング動作を正確にモデル化し,その評価指標がどのように変化するか,すなわち,トレーニングに使用する計算量,モデルパラメータ数,データセットのサイズが変化するか)をゼロショット,起動,微調整した設定で正確にモデル化し,外挿する,スムースなパワーロー機能形式を提案する。 このセットには、大規模ビジョンと教師なし言語タスク、画像の拡散生成モデリング、算術、強化学習が含まれる。 神経スケーリング行動の他の機能形式と比較すると、この関数型は、この集合のスケーリング動作の補間をかなり正確にする(その補間の根平均二乗ログ誤差は、前回より平均で0.86倍)。 さらに、この関数形式は、二重降下のような現象のスケーリング挙動に存在する非単調遷移や、算術のようなタスクのスケーリング挙動に存在する遅延、鋭いインフレクションポイントなど、他の関数形式が表現できないスケーリング挙動を正確にモデル化し、外挿する。 コードはhttps://github.com/ethancaballero/broken_neural_scaling_lawsで入手できる。

We present a smoothly broken power law functional form that accurately models and extrapolates the scaling behaviors of deep neural networks (i.e. how the evaluation metric of interest varies as the amount of compute used for training, number of model parameters, or training dataset size varies) for each task within a large and diverse set of upstream and downstream tasks, in zero-shot, prompted, and fine-tuned settings. This set includes large-scale vision and unsupervised language tasks, diffusion generative modeling of images, arithmetic, and reinforcement learning. When compared to other functional forms for neural scaling behavior, this functional form yields extrapolations of scaling behavior that are considerably more accurate (root mean squared log error of its extrapolations are 0.86 times that of previous state-of-the-art on average) on this set. Moreover, this functional form accurately models and extrapolates scaling behavior that other functional forms are incapable of expressing such as the non-monotonic transitions present in the scaling behavior of phenomena such as double descent and the delayed, sharp inflection points present in the scaling behavior of tasks such as arithmetic. Code is available at https://github.com/ethancaballero/broken_neural_scaling_laws
翻訳日:2022-10-31 12:50:29 公開日:2022-10-27
# AIの大規模言語モデルにおける理解に関する議論

The Debate Over Understanding in AI's Large Language Models ( http://arxiv.org/abs/2210.13966v2 )

ライセンス: Link先を確認
Melanie Mitchell and David C. Krakauer(参考訳) 我々は、AI研究コミュニティにおいて、大規模な事前訓練された言語モデルが言語 -- 物理的および社会的状況の言語エンコード -- を"理解"できるかどうかについて、現在、熱い議論を調査している。 このような理解のために行われ、反対された議論と、これらの議論に照らして生じたより広い知性科学の鍵となる疑問について述べる。 我々は、異なる理解の様式、その強みと限界、そして様々な形態の認知を統合することの難しさを洞察する新しい知性科学を開発することができると論じる。

We survey a current, heated debate in the AI research community on whether large pre-trained language models can be said to "understand" language -- and the physical and social situations language encodes -- in any important sense. We describe arguments that have been made for and against such understanding, and key questions for the broader sciences of intelligence that have arisen in light of these arguments. We contend that a new science of intelligence can be developed that will provide insight into distinct modes of understanding, their strengths and limitations, and the challenge of integrating diverse forms of cognition.
翻訳日:2022-10-30 12:01:18 公開日:2022-10-27
# 意思決定モデルの効率的な学習:データ駆動逆最適化のためのペナルティブロック座標Descentアルゴリズム

Efficient Learning of Decision-Making Models: A Penalty Block Coordinate Descent Algorithm for Data-Driven Inverse Optimization ( http://arxiv.org/abs/2210.15393v1 )

ライセンス: Link先を確認
Rishabh Gupta, Qi Zhang(参考訳) 決定問題は通常最適化問題として定式化され、最適決定を行うために解かれる。 本研究では,事前決定データを用いて基礎となる意思決定過程を数学的最適化モデルとして解明する逆問題を考える。 この統計学習問題はデータ駆動逆最適化と呼ばれる。 基礎となる意思決定プロセスがパラメータが不明な凸最適化問題としてモデル化される問題に焦点を当てる。 逆最適化問題を双レベルプログラムとして定式化し,大規模問題に対する効率的なブロック座標降下型アルゴリズムを提案する。 合成データセットの数値実験により,本手法の計算的優位性を示す。 さらに,マルチプレイヤーナッシュバーゲティングゲームにおいて,リスク嗜好を推定し,エージェントの局所的制約パラメータを学習する2つの現実的なケーススタディを通じて,提案手法の現実的有用性を強調した。

Decision-making problems are commonly formulated as optimization problems, which are then solved to make optimal decisions. In this work, we consider the inverse problem where we use prior decision data to uncover the underlying decision-making process in the form of a mathematical optimization model. This statistical learning problem is referred to as data-driven inverse optimization. We focus on problems where the underlying decision-making process is modeled as a convex optimization problem whose parameters are unknown. We formulate the inverse optimization problem as a bilevel program and propose an efficient block coordinate descent-based algorithm to solve large problem instances. Numerical experiments on synthetic datasets demonstrate the computational advantage of our method compared to standard commercial solvers. Moreover, the real-world utility of the proposed approach is highlighted through two realistic case studies in which we consider estimating risk preferences and learning local constraint parameters of agents in a multiplayer Nash bargaining game.
翻訳日:2022-10-28 16:18:12 公開日:2022-10-27
# FreeVC: 高品質テキストフリーワンショット音声変換を目指す

FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion ( http://arxiv.org/abs/2210.15418v1 )

ライセンス: Link先を確認
Jingyi li, Weiping tu, Li xiao(参考訳) 音声変換(vc)は、まずソースコンテンツ情報とターゲット話者情報を抽出し、それからこれらの情報で波形を再構成することで実現できる。 しかし、現在のアプローチは通常、話者情報が漏洩した汚いコンテンツ情報を抽出するか、トレーニングのために大量の注釈付きデータを要求する。 さらに、変換モデルとボコーダのミスマッチにより再構成波形の品質を劣化させることができる。 本稿では,高品質波形再構成のためのvitsのエンドツーエンドフレームワークを採用し,テキストアノテーションを使わずにクリーンなコンテンツ情報抽出手法を提案する。 我々は,wavlmの特徴に情報ボトルネックを課すことでコンテンツ情報の絡み合いを解消し,抽出されたコンテンツ情報の純度を向上させるために,スペクトログラムリサイズに基づくデータ拡張を提案する。 実験の結果,提案手法はアノテートデータを用いてトレーニングした最新のVCモデルよりも優れ,ロバスト性が高いことがわかった。

Voice conversion (VC) can be achieved by first extracting source content information and target speaker information, and then reconstructing waveform with these information. However, current approaches normally either extract dirty content information with speaker information leaked in, or demand a large amount of annotated data for training. Besides, the quality of reconstructed waveform can be degraded by the mismatch between conversion model and vocoder. In this paper, we adopt the end-to-end framework of VITS for high-quality waveform reconstruction, and propose strategies for clean content information extraction without text annotation. We disentangle content information by imposing an information bottleneck to WavLM features, and propose the spectrogram-resize based data augmentation to improve the purity of extracted content information. Experimental results show that the proposed method outperforms the latest VC models trained with annotated data and has greater robustness.
翻訳日:2022-10-28 16:17:44 公開日:2022-10-27
# ソフトウェア定義ネットワークをテストする失敗モデル学習

Learning Failure-Inducing Models for Testing Software-Defined Networks ( http://arxiv.org/abs/2210.15469v1 )

ライセンス: Link先を確認
Rapha\"el Ollando, Seung Yeob Shin, Lionel C. Briand(参考訳) ソフトウェア定義ネットワーク(SDN)は、集中型ソフトウェアコントローラによって管理される、フレキシブルで効果的な通信システム(データセンターなど)を可能にする。 しかし、そのようなコントローラはSDNベースのシステムの基盤となる通信ネットワークを損なう可能性があるため、慎重にテストする必要がある。 SDNベースのシステムが失敗した場合、そのような障害に対処するためには、エンジニアはそれが起こる条件を正確に理解する必要がある。 本稿では,(1) SDN システムにおける障害につながる効果的なテストデータを生成すること,(2) システム障害を特徴付ける正確な故障発生モデルを学ぶことを目的とした,ファズSDN という機械学習誘導ファズリング手法を提案する。 これは、モデルがテスト生成を導く相乗効果で行われ、後者もモデルの改善を目指している。 我々の知る限り、FuzzSDNはSDNの2つの目的に同時に対処する最初の試みである。 2つのオープンソースSDNコントローラで制御されるシステムにFizzSDNを適用して評価する。 さらに,sdnsをファジングする2つの最先端手法と,障害誘発モデルを学ぶための2つのベースライン(つまり,これら2つの既存手法の単純な拡張)を比較した。 その結果,(1)最先端の手法と比較して,FazSDNはファジィングにかなり頑健なコントローラと,(2)故障発生モデルでは平均98%の精度と86%のリコールで,少なくとも12倍の故障を発生し,ベースラインを著しく上回っていることがわかった。

Software-defined networks (SDN) enable flexible and effective communication systems, e.g., data centers, that are managed by centralized software controllers. However, such a controller can undermine the underlying communication network of an SDN-based system and thus must be carefully tested. When an SDN-based system fails, in order to address such a failure, engineers need to precisely understand the conditions under which it occurs. In this paper, we introduce a machine learning-guided fuzzing method, named FuzzSDN, aiming at both (1) generating effective test data leading to failures in SDN-based systems and (2) learning accurate failure-inducing models that characterize conditions under which such system fails. This is done in a synergistic manner where models guide test generation and the latter also aims at improving the models. To our knowledge, FuzzSDN is the first attempt to simultaneously address these two objectives for SDNs. We evaluate FuzzSDN by applying it to systems controlled by two open-source SDN controllers. Further, we compare FuzzSDN with two state-of-the-art methods for fuzzing SDNs and two baselines (i.e., simple extensions of these two existing methods) for learning failure-inducing models. Our results show that (1) compared to the state-of-the-art methods, FuzzSDN generates at least 12 times more failures, within the same time budget, with a controller that is fairly robust to fuzzing and (2) our failure-inducing models have, on average, a precision of 98% and a recall of 86%, significantly outperforming the baselines.
翻訳日:2022-10-28 16:17:12 公開日:2022-10-27
# 高移動車両を用いた資源制約付き車両エッジフェデレーション学習

Resource Constrained Vehicular Edge Federated Learning with Highly Mobile Connected Vehicles ( http://arxiv.org/abs/2210.15496v1 )

ライセンス: Link先を確認
Md Ferdous Pervej, Richeng Jin and Huaiyu Dai(参考訳) 本稿では,車載型中央処理ユニット(CPU)とローカルデータセットを用いて,エッジサーバが高度に移動可能なコネクテッドカー(CV)を利用してグローバルモデルをトレーニングする,VEFL(vehicular edge federated learning)ソリューションを提案する。 収束解析により、VEFLのトレーニング損失は、間欠的な車両間赤外線(V2I)無線リンクに対するCVのトレーニングモデルの受信の成功に依存することが明らかになった。 高モビリティのため、フルデバイス参加ケース(FDPC)では、エッジサーバは、CVのデータセットサイズとソジュール期間に応じて重み付けされた組み合わせに基づいてクライアントモデルパラメータを集約し、部分デバイス参加ケース(PDPC)ではCVのサブセットを選択する。 そこで我々は, 遅延, エネルギー, コスト制約下での無線アクセス技術 (RAT) のパラメータ最適化問題を考案し, 局所的に訓練されたモデルの受信の確率を最大化する。 最適化問題はNPハードであることを考えると、推定最悪の待ち時間、遅延とエネルギーコスト、オンラインRTTパラメータ最適化サブプロブレムを考えると、VEFLパラメータ最適化サブプロブレムに分解する。 最後に, 5G-NR (5G-NR) RAT を用いて, 現実的な微視的モビリティモデルにより提案手法の有効性を検証した。

This paper proposes a vehicular edge federated learning (VEFL) solution, where an edge server leverages highly mobile connected vehicles' (CVs') onboard central processing units (CPUs) and local datasets to train a global model. Convergence analysis reveals that the VEFL training loss depends on the successful receptions of the CVs' trained models over the intermittent vehicle-to-infrastructure (V2I) wireless links. Owing to high mobility, in the full device participation case (FDPC), the edge server aggregates client model parameters based on a weighted combination according to the CVs' dataset sizes and sojourn periods, while it selects a subset of CVs in the partial device participation case (PDPC). We then devise joint VEFL and radio access technology (RAT) parameters optimization problems under delay, energy and cost constraints to maximize the probability of successful reception of the locally trained models. Considering that the optimization problem is NP-hard, we decompose it into a VEFL parameter optimization sub-problem, given the estimated worst-case sojourn period, delay and energy expense, and an online RAT parameter optimization sub-problem. Finally, extensive simulations are conducted to validate the effectiveness of the proposed solutions with a practical 5G new radio (5G-NR) RAT under a realistic microscopic mobility model.
翻訳日:2022-10-28 16:16:43 公開日:2022-10-27
# フィットネスアプリの共有標高プロファイルから位置情報を学習する:プライバシーの観点から

Learning Location from Shared Elevation Profiles in Fitness Apps: A Privacy Perspective ( http://arxiv.org/abs/2210.15529v1 )

ライセンス: Link先を確認
Ulku Meteriz-Yildiran and Necip Fazil Yildiran and Joongheon Kim and David Mohaisen(参考訳) スマートフォンやウェアラブル機器の広範な使用は、多くの有用なアプリケーションを促進してきた。 例えば、gps(global positioning system)を搭載したスマートおよびウェアラブルデバイスでは、多くのアプリケーションが位置情報、軌道、高度、時間といった豊富なメタデータを収集、処理、共有することができる。 例えば、RunkeeperやStravaといったフィットネスアプリケーションは、アクティビティ追跡にその情報を利用し、最近人気が高まっているのを目撃している。 これらのフィットネストラッカーアプリケーションには独自のWebプラットフォームがあり、ユーザーはそのようなプラットフォームや他のソーシャルネットワークプラットフォームとアクティビティを共有できる。 共有を許可しながらユーザのプライバシーを維持するために、いくつかのプラットフォームでは、ユーザの位置を漏洩しないと思われるアクティビティの高度プロファイルなどの部分的な情報を開示することができる。 本研究では, 利用者の位置を推定するために, 高度プロファイルがどの程度利用できるかを検証した概念実証を, 注意深い物語として作成する。 この問題に対処するために、ターゲットの市町村を予測できる3つの確実な脅威設定を考案した。 これらの脅威設定は、敵が予測攻撃を開始するために利用できる情報量を定義する。 標高プロファイルの単純な特徴、例えばスペクトル特徴が不十分であることを立証し、自然言語処理(nlp)に触発されたテキスト様表現とコンピュータビジョンに触発された標高プロファイルのイメージ様表現の両方を考案し、手前の問題をテキストと画像の分類問題に変換する。 従来の機械学習とディープラーニングベースの技術の両方を使用し、59.59\%から99.80\%までの予測成功率を達成する。 標高情報を共有することは、位置情報のプライバシーに重大なリスクがある可能性があることを強調する。

The extensive use of smartphones and wearable devices has facilitated many useful applications. For example, with Global Positioning System (GPS)-equipped smart and wearable devices, many applications can gather, process, and share rich metadata, such as geolocation, trajectories, elevation, and time. For example, fitness applications, such as Runkeeper and Strava, utilize the information for activity tracking and have recently witnessed a boom in popularity. Those fitness tracker applications have their own web platforms and allow users to share activities on such platforms or even with other social network platforms. To preserve the privacy of users while allowing sharing, several of those platforms may allow users to disclose partial information, such as the elevation profile for an activity, which supposedly would not leak the location of the users. In this work, and as a cautionary tale, we create a proof of concept where we examine the extent to which elevation profiles can be used to predict the location of users. To tackle this problem, we devise three plausible threat settings under which the city or borough of the targets can be predicted. Those threat settings define the amount of information available to the adversary to launch the prediction attacks. Establishing that simple features of elevation profiles, e.g., spectral features, are insufficient, we devise both natural language processing (NLP)-inspired text-like representation and computer vision-inspired image-like representation of elevation profiles, and we convert the problem at hand into text and image classification problem. We use both traditional machine learning- and deep learning-based techniques and achieve a prediction success rate ranging from 59.59\% to 99.80\%. The findings are alarming, highlighting that sharing elevation information may have significant location privacy risks.
翻訳日:2022-10-28 16:16:20 公開日:2022-10-27
# ソースフィルタHiFi-GAN:高速かつピッチ制御可能な高忠実性ニューラルボコーダ

Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural Vocoder ( http://arxiv.org/abs/2210.15533v1 )

ライセンス: Link先を確認
Reo Yoneyama, Yi-Chiao Wu, and Tomoki Toda(参考訳) 先行研究であるunified source-filter gan (usfgan) vocoderでは,音源フィルタ理論に基づく新しいアーキテクチャを並列波形生成逆ネットワークに導入し,高い音声品質とピッチ制御性を実現している。 しかし、時間分解能の高い入力は高い計算コストをもたらす。 HiFi-GANボコーダは、効率的なアップサンプリングベースジェネレータアーキテクチャにより高速な高忠実度音声生成を実現するが、ピッチ制御性は著しく制限されている。 高速かつピッチ制御可能な高忠実性ニューラルボコーダを実現するために,共振フィルタリングネットワークを適切に推定されたソース励磁情報に階層的に条件付けすることで,HiFi-GANにソースフィルタ理論を導入する。 実験結果から,提案手法は1CPUにおける歌声品質と合成速度において,HiFi-GANとuSFGANよりも優れていた。 さらに, uSFGAN vocoder とは異なり,提案手法はリアルタイムアプリケーションやエンドツーエンドシステムに容易に適用・統合できる。

Our previous work, the unified source-filter GAN (uSFGAN) vocoder, introduced a novel architecture based on the source-filter theory into the parallel waveform generative adversarial network to achieve high voice quality and pitch controllability. However, the high temporal resolution inputs result in high computation costs. Although the HiFi-GAN vocoder achieves fast high-fidelity voice generation thanks to the efficient upsampling-based generator architecture, the pitch controllability is severely limited. To realize a fast and pitch-controllable high-fidelity neural vocoder, we introduce the source-filter theory into HiFi-GAN by hierarchically conditioning the resonance filtering network on a well-estimated source excitation information. According to the experimental results, our proposed method outperforms HiFi-GAN and uSFGAN on a singing voice generation in voice quality and synthesis speed on a single CPU. Furthermore, unlike the uSFGAN vocoder, the proposed method can be easily adopted/integrated in real-time applications and end-to-end systems.
翻訳日:2022-10-28 16:15:50 公開日:2022-10-27
# 任意の量子過程を予測する学習

Learning to predict arbitrary quantum processes ( http://arxiv.org/abs/2210.14894v2 )

ライセンス: Link先を確認
Hsin-Yuan Huang, Sitan Chen, John Preskill(参考訳) 我々は、未知の量子プロセスである$\mathcal{E}$ over $n$ qubitsを予測するための効率的な機械学習(ML)アルゴリズムを提案する。 任意の $n$-qubit 状態に対して $\mathcal{d}$ の幅広い分布に対して、このml アルゴリズムは、$\mathcal{d}$ から引き出された入力状態よりも小さい平均誤差で、未知のプロセス $\mathcal{e}$ から出力の任意の局所的性質を予測できることを示す。 mlアルゴリズムは、未知のプロセスが指数関数的に多くのゲートを持つ量子回路であっても計算効率が高い。 本アルゴリズムは,未知状態の性質を学習し,未知観測量に対する低次近似を学習するための効率的な手順を組み合わせる。 この分析は、古典的ボネンブラスト・ヒル不等式(英語版)の量子アナログを含む新しいノルム不等式を証明し、局所ハミルトニアンを最適化するための改良されたアルゴリズムを提供することで導かれる。 その結果,MLモデルが複雑な量子力学の出力を,プロセス自体の実行時間よりもはるかに高速に予測できる可能性が示された。

We present an efficient machine learning (ML) algorithm for predicting any unknown quantum process $\mathcal{E}$ over $n$ qubits. For a wide range of distributions $\mathcal{D}$ on arbitrary $n$-qubit states, we show that this ML algorithm can learn to predict any local property of the output from the unknown process $\mathcal{E}$, with a small average error over input states drawn from $\mathcal{D}$. The ML algorithm is computationally efficient even when the unknown process is a quantum circuit with exponentially many gates. Our algorithm combines efficient procedures for learning properties of an unknown state and for learning a low-degree approximation to an unknown observable. The analysis hinges on proving new norm inequalities, including a quantum analogue of the classical Bohnenblust-Hille inequality, which we derive by giving an improved algorithm for optimizing local Hamiltonians. Overall, our results highlight the potential for ML models to predict the output of complex quantum dynamics much faster than the time needed to run the process itself.
翻訳日:2022-10-28 16:15:31 公開日:2022-10-27
# 音声強調のための注意機構を有する並列ゲートニューラルネットワーク

Parallel Gated Neural Network With Attention Mechanism For Speech Enhancement ( http://arxiv.org/abs/2210.14509v2 )

ライセンス: Link先を確認
Jianqiao Cui, Stefan Bleeck(参考訳) 深層学習アルゴリズムは、音声強調(SE)にますます使われている。 教師付き手法では、正確なスペクトルマッピングにはグローバルおよびローカル情報が必要である。 鍵となる制限は、しばしば重要な文脈情報の取り込みが貧弱である。 対象話者の長期的活用とクリーン音声の歪み補償のために,シーケンス・ツー・シーケンス(S2S)マッピング構造を採用し,特徴抽出ブロック(FEB),補償拡張ブロック(ComEB),マスクブロック(MB)からなる新しいモノラル音声強調システムを提案する。 FEBにおいて、U-netブロックを用いて複合値スペクトルを用いて抽象的特徴を抽出し、マスキング手法を用いて大域の背景雑音を抑える一方、MBはFEBから大域特徴を採り、ComEBから得られた失われた複素領域特徴を補償して最終的なクリーン化音声を復元する。 Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから最近のモデルよりも優れた性能が得られることを示した。

Deep learning algorithm are increasingly used for speech enhancement (SE). In supervised methods, global and local information is required for accurate spectral mapping. A key restriction is often poor capture of key contextual information. To leverage long-term for target speakers and compensate distortions of cleaned speech, this paper adopts a sequence-to-sequence (S2S) mapping structure and proposes a novel monaural speech enhancement system, consisting of a Feature Extraction Block (FEB), a Compensation Enhancement Block (ComEB) and a Mask Block (MB). In the FEB a U-net block is used to extract abstract features using complex-valued spectra with one path to suppress the background noise in the magnitude domain using masking methods and the MB takes magnitude features from the FEBand compensates the lost complex-domain features produced from ComEB to restore the final cleaned speech. Experiments are conducted on the Librispeech dataset and results show that the proposed model obtains better performance than recent models in terms of ESTOI and PESQ scores.
翻訳日:2022-10-28 16:09:44 公開日:2022-10-27
# 戦略マッチングによる人間との協調

Coordination with Humans via Strategy Matching ( http://arxiv.org/abs/2210.15099v1 )

ライセンス: Link先を確認
Michelle Zhao, Reid Simmons, Henny Admoni(参考訳) 人間とロボットのパートナーは、チームとしてタスクを実行するために協力する必要がある。 このようなコラボレーションのために設計されたロボットは、タスクコンプリート戦略がチームメンバーの振る舞いやスキルとどのように相互作用し、共同目標を達成するかを考える必要がある。 本研究の目的は,人間-ロボットチームコラボレーションにおける人間パートナーへのロボット適応のための計算フレームワークの開発である。 まず,協調作業を行う人間と人間のチームを観察することにより,利用可能なタスク補完戦略を自律的に認識するアルゴリズムを提案する。 隠れマルコフモデルを使ってチームアクションを低次元の表現に変換することで、事前の知識なしに戦略を識別できます。 ロボットのポリシーは、識別された戦略に基づいて学習され、未発見の人間のパートナーのタスク戦略に適応する専門家の混合モデルを構築する。 オーバークッキングシミュレータを用いた協調調理作業におけるモデルの評価を行った。 125名の参加者によるオンラインユーザ調査の結果,このフレームワークが人間-エージェントチームのタスクパフォーマンスと協調性を改善していることが示された。

Human and robot partners increasingly need to work together to perform tasks as a team. Robots designed for such collaboration must reason about how their task-completion strategies interplay with the behavior and skills of their human team members as they coordinate on achieving joint goals. Our goal in this work is to develop a computational framework for robot adaptation to human partners in human-robot team collaborations. We first present an algorithm for autonomously recognizing available task-completion strategies by observing human-human teams performing a collaborative task. By transforming team actions into low dimensional representations using hidden Markov models, we can identify strategies without prior knowledge. Robot policies are learned on each of the identified strategies to construct a Mixture-of-Experts model that adapts to the task strategies of unseen human partners. We evaluate our model on a collaborative cooking task using an Overcooked simulator. Results of an online user study with 125 participants demonstrate that our framework improves the task performance and collaborative fluency of human-agent teams, as compared to state of the art reinforcement learning methods.
翻訳日:2022-10-28 16:08:56 公開日:2022-10-27
# ViT-CAT:MECネットワークにおける普及予測のためのクロスアテンション融合型並列ビジョントランス

ViT-CAT: Parallel Vision Transformers with Cross Attention Fusion for Popularity Prediction in MEC Networks ( http://arxiv.org/abs/2210.15125v1 )

ライセンス: Link先を確認
Zohreh HajiAkhondi-Meybodi, Arash Mohammadi, Ming Hou, Jamshid Abouei, Konstantinos N. Plataniotis(参考訳) Mobile Edge Caching(MEC)は、第6世代無線ネットワーク(6G)の革新的な技術であり、ネットワークのエッジにストレージ容量を提供することで、ユーザのレイテンシを大幅に削減する。 しかし、MECネットワークの効率は、上位Kのコンテンツでキャッシュノードのストレージを動的に予測・更新する能力に大きく依存する。 従来の統計的キャッシングスキームは、コンテンツ要求の基盤となるパターンの時間変化特性に対して堅牢ではないため、MECネットワークの時系列人気予測にDeep Neural Networks(DNN)を使うことへの関心が高まっている。 しかし、MECのコンテキスト内の既存のDNNモデルは、履歴要求パターンの時間的相関と複数のコンテンツ間の依存関係の両方を同時にキャプチャできない。 これは、この重要な課題に取り組むために、新しく革新的な人気予測アーキテクチャの開発と設計を急務に求めている。 本稿では,注意機構に基づく新しいハイブリッドキャッシングフレームワークを提案することで,このギャップを解消する。 クロスアテンションを用いた並列ビジョントランスフォーマー (vit-cat) fusion と呼ばれ、提案されたアーキテクチャは2つの並列vitネットワークで構成され、一方は時間相関を収集し、もう一方は異なるコンテンツ間の依存関係をキャプチャする。 The Fusion Center (FC)としてCross Attention (CA)モジュールに追従して提案されたViT-CATは、時間的相関と空間的相関の相互情報を学習し、分類精度を改善し、モデルの複雑さを約8倍に減らすことができる。 シミュレーション結果に基づいて,提案したViT-CATアーキテクチャは,分類精度,複雑性,キャッシュヒット比において,その性能に優れる。

Mobile Edge Caching (MEC) is a revolutionary technology for the Sixth Generation (6G) of wireless networks with the promise to significantly reduce users' latency via offering storage capacities at the edge of the network. The efficiency of the MEC network, however, critically depends on its ability to dynamically predict/update the storage of caching nodes with the top-K popular contents. Conventional statistical caching schemes are not robust to the time-variant nature of the underlying pattern of content requests, resulting in a surge of interest in using Deep Neural Networks (DNNs) for time-series popularity prediction in MEC networks. However, existing DNN models within the context of MEC fail to simultaneously capture both temporal correlations of historical request patterns and the dependencies between multiple contents. This necessitates an urgent quest to develop and design a new and innovative popularity prediction architecture to tackle this critical challenge. The paper addresses this gap by proposing a novel hybrid caching framework based on the attention mechanism. Referred to as the parallel Vision Transformers with Cross Attention (ViT-CAT) Fusion, the proposed architecture consists of two parallel ViT networks, one for collecting temporal correlation, and the other for capturing dependencies between different contents. Followed by a Cross Attention (CA) module as the Fusion Center (FC), the proposed ViT-CAT is capable of learning the mutual information between temporal and spatial correlations, as well, resulting in improving the classification accuracy, and decreasing the model's complexity about 8 times. Based on the simulation results, the proposed ViT-CAT architecture outperforms its counterparts across the classification accuracy, complexity, and cache-hit ratio.
翻訳日:2022-10-28 16:08:36 公開日:2022-10-27
# 中間プライバシーモデルにおける匿名ヒストグラム

Anonymized Histograms in Intermediate Privacy Models ( http://arxiv.org/abs/2210.15178v1 )

ライセンス: Link先を確認
Badih Ghazi and Pritish Kamath and Ravi Kumar and Pasin Manurangsi(参考訳) 項目ラベルのないヒストグラムとして定義される匿名ヒストグラム(別名、非分散ヒストグラム)をプライベートに計算する問題について検討する。 以前は$\ell_1$-と$\ell_2^2$-errors of $O_\varepsilon(\sqrt{n})$というアルゴリズムを差分プライバシー(DP)の中心モデルで提供していた。 本研究では,シャッフルDPモデルとパンプライベートモデルにおいて,ほぼ一致した誤差保証を$\tilde{O}_\varepsilon(\sqrt{n})$とするアルゴリズムを提案する。 アルゴリズムは非常に単純で、離散ラプラスのヒストグラムを後処理するだけです! このアルゴリズムをサブルーチンとして使用し,エントロピーやサポートカバレッジ,サポートサイズといった分布の対称特性をプライベートに推定するアプリケーションを示す。

We study the problem of privately computing the anonymized histogram (a.k.a. unattributed histogram), which is defined as the histogram without item labels. Previous works have provided algorithms with $\ell_1$- and $\ell_2^2$-errors of $O_\varepsilon(\sqrt{n})$ in the central model of differential privacy (DP). In this work, we provide an algorithm with a nearly matching error guarantee of $\tilde{O}_\varepsilon(\sqrt{n})$ in the shuffle DP and pan-private models. Our algorithm is very simple: it just post-processes the discrete Laplace-noised histogram! Using this algorithm as a subroutine, we show applications in privately estimating symmetric properties of distributions such as entropy, support coverage, and support size.
翻訳日:2022-10-28 16:08:05 公開日:2022-10-27
# Masked Autoencodersはアート学習者。

Masked Autoencoders Are Articulatory Learners ( http://arxiv.org/abs/2210.15195v1 )

ライセンス: Link先を確認
Ahmed Adel Attia, Carol Espy-Wilson(参考訳) 調音録音は声道に沿った異なる調音器の位置と動きを追跡し、音声生成の研究や調音ベースの音声合成装置や音声インバージョンシステムといった音声技術の開発に広く用いられている。 ウィスコンシン大学x線マイクロビーム(xrmb)データセットは、音声録音と同期した調音記録を提供する様々なデータセットの1つである。 xrmbの調音録音では、マイクロビームで追跡できる多数の調音器にペレットが配置されている。 しかし、録音のかなりの部分は誤トラックされており、これまでは使用不可能であった。 本研究では,マスキングオートエンコーダを用いて,xrmbデータセットの話者47名中41名を対象に,誤追跡された調音録音を正確に再構成する深層学習手法を提案する。 従来使用できなかった3.4時間のうち3.28時間程度を収集し,8つの調音器のうち3つが誤追跡された場合でも,実感に合致した調音軌跡を再現することができる。

Articulatory recordings track the positions and motion of different articulators along the vocal tract and are widely used to study speech production and to develop speech technologies such as articulatory based speech synthesizers and speech inversion systems. The University of Wisconsin X-Ray microbeam (XRMB) dataset is one of various datasets that provide articulatory recordings synced with audio recordings. The XRMB articulatory recordings employ pellets placed on a number of articulators which can be tracked by the microbeam. However, a significant portion of the articulatory recordings are mistracked, and have been so far unsuable. In this work, we present a deep learning based approach using Masked Autoencoders to accurately reconstruct the mistracked articulatory recordings for 41 out of 47 speakers of the XRMB dataset. Our model is able to reconstruct articulatory trajectories that closely match ground truth, even when three out of eight articulators are mistracked, and retrieve 3.28 out of 3.4 hours of previously unusable recordings.
翻訳日:2022-10-28 16:07:50 公開日:2022-10-27
# 知識駆動母音に基づくデータ拡張を用いた音声からの抑うつ分類のアプローチ

A knowledge-driven vowel-based approach of depression classification from speech using data augmentation ( http://arxiv.org/abs/2210.15261v1 )

ライセンス: Link先を確認
Kexin Feng and Theodora Chaspari(参考訳) 本稿では,発話間の時間依存性をモデル化し,母音レベルでのスペクトル時間情報を活用することによって,音声からの抑うつを識別する新しい機械学習モデルを提案する。 本手法は,空間ピラミッドプーリング層を有する畳み込みニューラルネットワーク("vowel cnn")を用いて,局所レベルの可変長発話を定サイズの母音ベース埋め込みにモデル化する。 その後、抑うつは、別の1D CNN(抑うつCNN)の入力として機能する母音CNN埋め込みのグループから世界レベルで分類される。 母音cnnと抑うつcnnの訓練のために異なるデータ拡張法が設計されている。 提案手法は,10,21,42発話に対応して,短い,中,長い解析窓をモデル化する際の時間的粒度の異なるシステムの性能について検討した。 提案手法は,従来の最先端手法と同等の性能に達し,抑うつ結果に関して説明可能な特性を示す。 この研究から得られた知見は、人間-ml共同意思決定タスク中に追加の直感を提供することで臨床医に利益をもたらす可能性がある。

We propose a novel explainable machine learning (ML) model that identifies depression from speech, by modeling the temporal dependencies across utterances and utilizing the spectrotemporal information at the vowel level. Our method first models the variable-length utterances at the local-level into a fixed-size vowel-based embedding using a convolutional neural network with a spatial pyramid pooling layer ("vowel CNN"). Following that, the depression is classified at the global-level from a group of vowel CNN embeddings that serve as the input of another 1D CNN ("depression CNN"). Different data augmentation methods are designed for both the training of vowel CNN and depression CNN. We investigate the performance of the proposed system at various temporal granularities when modeling short, medium, and long analysis windows, corresponding to 10, 21, and 42 utterances, respectively. The proposed method reaches comparable performance with previous state-of-the-art approaches and depicts explainable properties with respect to the depression outcome. The findings from this work may benefit clinicians by providing additional intuitions during joint human-ML decision-making tasks.
翻訳日:2022-10-28 16:07:33 公開日:2022-10-27
# 近近距離音声の分布外検出について

On Out-of-Distribution Detection for Audio with Deep Nearest Neighbors ( http://arxiv.org/abs/2210.15283v1 )

ライセンス: Link先を確認
Zaharah Bukhsh, Aaqib Saeed(参考訳) out-of-distribution (ood) 検出は、モデルのトレーニングデータと同じ分布に属しないデータポイントの識別に関係している。 現実の環境での予測モデルの安全な配置には、OOD入力に対する確実な予測を避けることが重要であり、潜在的に危険な結果をもたらす可能性がある。 しかし、OOD検出は音声(および音声)領域の未探索領域として残されている。 これは、音声が話者ダイアリゼーション、自動音声認識、音響イベント検出といった多くのタスクの中心的なモダリティであるにもかかわらずである。 そこで本研究では,このモデルの特徴空間を深いk-nearest近傍で活用し,oodサンプルを検出することを提案する。 本手法は,音声(および音声)データセットの幅広いカテゴリにわたるood入力を効果的に検出できることを示す。 具体的には、偽陽性率(fpr@tpr95)を17%、aurocスコアを他の先行技術よりも7%向上させる。

Out-of-distribution (OOD) detection is concerned with identifying data points that do not belong to the same distribution as the model's training data. For the safe deployment of predictive models in a real-world environment, it is critical to avoid making confident predictions on OOD inputs as it can lead to potentially dangerous consequences. However, OOD detection largely remains an under-explored area in the audio (and speech) domain. This is despite the fact that audio is a central modality for many tasks, such as speaker diarization, automatic speech recognition, and sound event detection. To address this, we propose to leverage feature-space of the model with deep k-nearest neighbors to detect OOD samples. We show that this simple and flexible method effectively detects OOD inputs across a broad category of audio (and speech) datasets. Specifically, it improves the false positive rate (FPR@TPR95) by 17% and the AUROC score by 7% than other prior techniques.
翻訳日:2022-10-28 16:07:13 公開日:2022-10-27
# 可変モード共振器を用いた剛体音合成

Rigid-Body Sound Synthesis with Differentiable Modal Resonators ( http://arxiv.org/abs/2210.15306v1 )

ライセンス: Link先を確認
R. Diaz, B. Hayes, C. Saitis, G. Fazekas, M. Sandler(参考訳) 剛体の物理モデルは、仮想環境から音楽制作への応用における音合成に使用される。 モーダル合成のような伝統的な手法は計算コストの高い数値解法に依存することが多いが、最近のディープラーニングのアプローチは結果の処理後に限られている。 本研究は, 深層ニューラルネットワークを訓練し, 微分可能なIIRフィルタのバンクを用いて, 所定の2次元形状と材料に対してモーダル共振器を生成するための新しいエンドツーエンドフレームワークを提案する。 本手法を合成オブジェクトのデータセット上で実証するが,オーディオドメインの目的を用いてモデルをトレーニングし,実世界のオブジェクトの記録から物理的に変形したシンセサイザーを直接学習する方法を提案する。

Physical models of rigid bodies are used for sound synthesis in applications from virtual environments to music production. Traditional methods such as modal synthesis often rely on computationally expensive numerical solvers, while recent deep learning approaches are limited by post-processing of their results. In this work we present a novel end-to-end framework for training a deep neural network to generate modal resonators for a given 2D shape and material, using a bank of differentiable IIR filters. We demonstrate our method on a dataset of synthetic objects, but train our model using an audio-domain objective, paving the way for physically-informed synthesisers to be learned directly from recordings of real-world objects.
翻訳日:2022-10-28 16:06:58 公開日:2022-10-27
# 再帰的mimoグラフフィルタによるグラフ信号予測

Forecasting Graph Signals with Recursive MIMO Graph Filters ( http://arxiv.org/abs/2210.15258v1 )

ライセンス: Link先を確認
Jelmer van der Hoeven, Alberto Natali and Geert Leus(参考訳) グラフ上の時系列予測は、グラフ信号処理における根本的な問題である。 ネットワークの各エンティティがスカラーではなく各タイムスタンプの値のベクトルを持つ場合、既存のアプローチでは、より大きなグラフの作成を犠牲にして、この多次元情報を組み合わせるために製品グラフを使用する。 本稿では,そのようなアプローチの限界を示し,それに取り組むための拡張を提案する。 そこで本研究では,文献にすでに多数存在するモデルを柔軟に包含する再帰的多入力多出力グラフフィルタを提案する。 実世界のデータセット上の数値シミュレーションは,提案モデルの有効性を示す。

Forecasting time series on graphs is a fundamental problem in graph signal processing. When each entity of the network carries a vector of values for each time stamp instead of a scalar one, existing approaches resort to the use of product graphs to combine this multidimensional information, at the expense of creating a larger graph. In this paper, we show the limitations of such approaches, and propose extensions to tackle them. Then, we propose a recursive multiple-input multiple-output graph filter which encompasses many already existing models in the literature while being more flexible. Numerical simulations on a real world data set show the effectiveness of the proposed models.
翻訳日:2022-10-28 16:00:14 公開日:2022-10-27
# DNN対応システムのオンラインテストのための多目的強化学習

Many-Objective Reinforcement Learning for Online Testing of DNN-Enabled Systems ( http://arxiv.org/abs/2210.15432v1 )

ライセンス: Link先を確認
Fitash Ul Haq, Donghwan Shin, Lionel Briand(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、自律ダイビングシステム(ADS)のようなサイバー物理システムにおいて、現実世界のタスクを実行するために広く利用されている。 このようなDNN-Enabled Systems(DES)の正しい動作を保証することが重要なトピックである。 オンラインテストは、システムと環境間の継続的な相互作用を考慮して、クローズドループでアプリケーション環境(シミュレーションまたは現実)でテストするための有望なモードの1つである。 しかしながら、実際の世界でシステムの動作中に変化する可能性のある環境変数(例えば、照明条件)は、DESが要求に違反する(安全で機能的な)ため、2つの主要な課題のためにオンラインテストシナリオの実行中に常に維持される。 本稿では,強化学習(rl)と多目的探索を組み合わせた新しいオンラインテスト手法であるmorlot(many-objective reinforcement learning for online testing)を提案する。 MORLOT は RL を利用して環境変化の連続を漸進的に生成するが、多目的探索を頼りに変化を判定し、発見された目的のいずれかを達成する可能性が高くなる。 我々は、自律運転研究に広く用いられている高忠実度シミュレータであるCARLAを用いて、MORLOTを実証的に評価する。 評価結果から,MORLOTは大きな効果を有する代替品よりも有効で効率的であることが示唆された。 言い換えれば、MORLOTは、複数の安全性要件を考慮しつつ、動的に変化する環境でDESをテストするための良い選択肢である。

Deep Neural Networks (DNNs) have been widely used to perform real-world tasks in cyber-physical systems such as Autonomous Diving Systems (ADS). Ensuring the correct behavior of such DNN-Enabled Systems (DES) is a crucial topic. Online testing is one of the promising modes for testing such systems with their application environments (simulated or real) in a closed loop taking into account the continuous interaction between the systems and their environments. However, the environmental variables (e.g., lighting conditions) that might change during the systems' operation in the real world, causing the DES to violate requirements (safety, functional), are often kept constant during the execution of an online test scenario due to the two major challenges: (1) the space of all possible scenarios to explore would become even larger if they changed and (2) there are typically many requirements to test simultaneously. In this paper, we present MORLOT (Many-Objective Reinforcement Learning for Online Testing), a novel online testing approach to address these challenges by combining Reinforcement Learning (RL) and many-objective search. MORLOT leverages RL to incrementally generate sequences of environmental changes while relying on many-objective search to determine the changes so that they are more likely to achieve any of the uncovered objectives. We empirically evaluate MORLOT using CARLA, a high-fidelity simulator widely used for autonomous driving research, integrated with Transfuser, a DNN-enabled ADS for end-to-end driving. The evaluation results show that MORLOT is significantly more effective and efficient than alternatives with a large effect size. In other words, MORLOT is a good option to test DES with dynamically changing environments while accounting for multiple safety requirements.
翻訳日:2022-10-28 15:59:50 公開日:2022-10-27
# マルチターゲット追跡のための深部畳み込みニューラルネットワーク:伝達学習アプローチ

Deep Convolutional Neural Networks for Multi-Target Tracking: A Transfer Learning Approach ( http://arxiv.org/abs/2210.15539v1 )

ライセンス: Link先を確認
Damian Owerko, Charilaos Kanatsoulis, Alejandro Ribeiro, Donald J. Bucci Jr, Jennifer Bondarchuk(参考訳) マルチターゲットトラッキング(mtt、multi-target tracking)は従来の信号処理タスクである。 本稿では、深層学習の観点からMTTを再検討し、それに取り組むために畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 ターゲット状態とセンサ計測を画像として表現する。 これにより,完全畳み込みモデルを訓練する画像から画像への予測タスクとして問題を再キャストする。 このアーキテクチャは、CNNの転送可能性誤差に関する理論的な境界によって動機付けられている。 提案したCNNアーキテクチャは、MTTタスクにおいて10個のターゲットを持つGM-PHDフィルタより優れている。 cnnのパフォーマンス転送は、平均ospaがわずか13\%$の増加で、250のターゲットを持つより大きなmttタスクに再トレーニングすることなく行われる。

Multi-target tracking (MTT) is a traditional signal processing task, where the goal is to estimate the states of an unknown number of moving targets from noisy sensor measurements. In this paper, we revisit MTT from a deep learning perspective and propose convolutional neural network (CNN) architectures to tackle it. We represent the target states and sensor measurements as images. Thereby we recast the problem as a image-to-image prediction task for which we train a fully convolutional model. This architecture is motivated by a novel theoretical bound on the transferability error of CNN. The proposed CNN architecture outperforms a GM-PHD filter on the MTT task with 10 targets. The CNN performance transfers without re-training to a larger MTT task with 250 targets with only a $13\%$ increase in average OSPA.
翻訳日:2022-10-28 15:58:54 公開日:2022-10-27
# All the Feels:大面積センサ付き豪華な手

All the Feels: A dexterous hand with large area sensing ( http://arxiv.org/abs/2210.15658v1 )

ライセンス: Link先を確認
Raunaq Bhirangi, Abigail DeFranco, Jacob Adkins, Carmel Majidi, Abhinav Gupta, Tess Hellebrekers, Vikash Kumar(参考訳) 高いコストと信頼性の欠如は、ロボット工学におけるデクスタラスハンドの普及を妨げている。 さらに、手の全領域を感知できる実用的な触覚センサーの欠如は、高度な操作スキルの学習を改善するリッチで低レベルなフィードバックを妨げている。 本稿では,ロボット学習パラダイムが要求する大規模データ収集能力を満たしつつ,これらの課題を解決することを目的とした,安価でモジュール化された,堅牢でスケーラブルなプラットフォームDManusを紹介する。 人間の操作に関する研究は、日常作業における低レベルの触覚フィードバックの臨界性を示している。 dmanusには、手のひらの表面だけでなく指先全体に対する反射センサーが付いている。 触覚認識タスク - ビン選択とソート - における完全統合システムの有効性を実証する。 コード、ドキュメンテーション、デザインファイル、詳細なアセンブリ命令、トレーニングされたモデル、タスクビデオ、セットアップを再現するために必要な追加資料はすべてhttp://roboticsbenchmarks.org/platforms/dmanusにある。

High cost and lack of reliability has precluded the widespread adoption of dexterous hands in robotics. Furthermore, the lack of a viable tactile sensor capable of sensing over the entire area of the hand impedes the rich, low-level feedback that would improve learning of dexterous manipulation skills. This paper introduces an inexpensive, modular, robust, and scalable platform - the DManus- aimed at resolving these challenges while satisfying the large-scale data collection capabilities demanded by deep robot learning paradigms. Studies on human manipulation point to the criticality of low-level tactile feedback in performing everyday dexterous tasks. The DManus comes with ReSkin sensing on the entire surface of the palm as well as the fingertips. We demonstrate effectiveness of the fully integrated system in a tactile aware task - bin picking and sorting. Code, documentation, design files, detailed assembly instructions, trained models, task videos, and all supplementary materials required to recreate the setup can be found on http://roboticsbenchmarks.org/platforms/dmanus
翻訳日:2022-10-28 15:58:41 公開日:2022-10-27
# 視聴覚同期用マルチモーダル変圧器蒸留

Multimodal Transformer Distillation for Audio-Visual Synchronization ( http://arxiv.org/abs/2210.15563v1 )

ライセンス: Link先を確認
Xuanjun Chen, Haibin Wu, Chung-Che Wang, Hung-yi Lee, Jyh-Shing Roger Jang(参考訳) 音声と視覚の同期は、ビデオ中の口の動きと音声が同期しているかどうかを決定することを目的としている。 VocaLiSTは、マルチモーダルトランスフォーマーを組み込んで、音声と視覚の対話情報をモデル化することで、最先端のパフォーマンスを実現する。 しかし、それは高いコンピューティングリソースを必要とし、現実のアプリケーションでは実用的でない。 本稿では,提案するマルチモーダル変圧器蒸留(mtd)の損失から学習するmtdvocalistモデルを提案する。 MTD損失により、MTDVocaLiSTモデルはVocaLiSTの変換器のクロスアテンション分布と値関係を深く模倣することができる。 提案手法は, 蒸留法の観点から, MTD損失は他の強い蒸留ベースラインよりも優れた性能を示す。 蒸留したモデルのパフォーマンスの観点からすると 1)MTDVocaLiSTは、同様のサイズのSOTAモデル、SyncNet、PMモデルを15.69%、そして3.39%で上回る。 2) MTDVocaLiSTはVocaLiSTのモデルサイズを83.52%削減するが、同様の性能を維持している。

Audio-visual synchronization aims to determine whether the mouth movements and speech in the video are synchronized. VocaLiST reaches state-of-the-art performance by incorporating multimodal Transformers to model audio-visual interact information. However, it requires high computing resources, making it impractical for real-world applications. This paper proposed an MTDVocaLiST model, which is trained by our proposed multimodal Transformer distillation (MTD) loss. MTD loss enables MTDVocaLiST model to deeply mimic the cross-attention distribution and value-relation in the Transformer of VocaLiST. Our proposed method is effective in two aspects: From the distillation method perspective, MTD loss outperforms other strong distillation baselines. From the distilled model's performance perspective: 1) MTDVocaLiST outperforms similar-size SOTA models, SyncNet, and PM models by 15.69% and 3.39%; 2) MTDVocaLiST reduces the model size of VocaLiST by 83.52%, yet still maintaining similar performance.
翻訳日:2022-10-28 15:58:02 公開日:2022-10-27
# おそらく2倍に加速するフェデレーションラーニング: ローカルトレーニングと圧縮コミュニケーションを組み合わせた理論上最初の成功例

Provably Doubly Accelerated Federated Learning: The First Theoretically Successful Combination of Local Training and Compressed Communication ( http://arxiv.org/abs/2210.13277v2 )

ライセンス: Link先を確認
Laurent Condat, Ivan Agarsk\'y, Peter Richt\'arik(参考訳) フェデレーション学習の現代的パラダイムでは、多くのユーザが協力的な方法でグローバルな学習タスクに関与しています。 ローカル計算と遠隔オーケストレーションサーバとの双方向通信を交互に行う。 通信は遅くてコストがかかる可能性があるが、この設定の主なボトルネックは通信だ。 通信負荷を低減し、分散勾配降下を加速するために、2つの戦略が人気がある。 1) 通信頻度が低くなること,すなわち,通信ラウンド間の局所計算を複数回行うこと, 2) 全次元ベクトルの代わりに圧縮情報を伝達する。 本稿では,分散最適化とフェデレート学習のための最初のアルゴリズムを提案し,これら2つの戦略を協調的に活用し,2倍の高速化率で線形に収束させる。

In the modern paradigm of federated learning, a large number of users are involved in a global learning task, in a collaborative way. They alternate local computations and two-way communication with a distant orchestrating server. Communication, which can be slow and costly, is the main bottleneck in this setting. To reduce the communication load and therefore accelerate distributed gradient descent, two strategies are popular: 1) communicate less frequently; that is, perform several iterations of local computations between the communication rounds; and 2) communicate compressed information instead of full-dimensional vectors. In this paper, we propose the first algorithm for distributed optimization and federated learning, which harnesses these two strategies jointly and converges linearly to an exact solution, with a doubly accelerated rate: our algorithm benefits from the two acceleration mechanisms provided by local training and compression, namely a better dependency on the condition number of the functions and on the dimension of the model, respectively.
翻訳日:2022-10-28 15:57:46 公開日:2022-10-27
# meet: スマートとグリーンの6gネットワークのためのモビリティエンハンスドエッジインテリジェンス

MEET: Mobility-Enhanced Edge inTelligence for Smart and Green 6G Networks ( http://arxiv.org/abs/2210.15111v1 )

ライセンス: Link先を確認
Yuxuan Sun, Bowen Xie, Sheng Zhou, Zhisheng Niu(参考訳) エッジインテリジェンスは、ワイヤレスエッジでのリアルタイムトレーニングと推論の新たなパラダイムであり、ミッションクリティカルなアプリケーションを可能にする。 したがって、ベースステーション(bss)とエッジサーバ(ess)を密に配置する必要があるため、特にエネルギーコストの大幅なデプロイメントと運用コストが発生する。 本稿では、スマートでグリーンな6Gネットワークのためのインテリジェントなコネクテッドカーのセンシング、通信、コンピューティング、セルフパワー機能を活用した、モビリティ強化エッジインテリジェンス(MEET)と呼ばれる新しいフレームワークを提案する。 具体的には、オペレーターは、インフラ内車両を移動可能なBSまたはESとして組み込んで、通信や計算トラフィックの変動に合わせてより柔軟な方法でスケジュールすることができる。 一方、日和見車両の残りの計算資源は、エッジトレーニングと推論に活用され、移動性は、より多くの計算リソース、通信機会、多様なデータをもたらすことによって、エッジインテリジェンスをさらに強化することができる。 このようにして、広く利用可能な車両に配備と運用コストが分散し、エッジインテリジェンスが費用対効果で持続的に実現される。 さらに、これらの車両は再生可能エネルギーで炭素排出量を削減したり、オフピーク時間により柔軟に充電することで電力を削減できる。

Edge intelligence is an emerging paradigm for real-time training and inference at the wireless edge, thus enabling mission-critical applications. Accordingly, base stations (BSs) and edge servers (ESs) need to be densely deployed, leading to huge deployment and operation costs, in particular the energy costs. In this article, we propose a new framework called Mobility-Enhanced Edge inTelligence (MEET), which exploits the sensing, communication, computing, and self-powering capabilities of intelligent connected vehicles for the smart and green 6G networks. Specifically, the operators can incorporate infrastructural vehicles as movable BSs or ESs, and schedule them in a more flexible way to align with the communication and computation traffic fluctuations. Meanwhile, the remaining compute resources of opportunistic vehicles are exploited for edge training and inference, where mobility can further enhance edge intelligence by bringing more compute resources, communication opportunities, and diverse data. In this way, the deployment and operation costs are spread over the vastly available vehicles, so that the edge intelligence is realized cost-effectively and sustainably. Furthermore, these vehicles can be either powered by renewable energy to reduce carbon emissions, or charged more flexibly during off-peak hours to cut electricity bills.
翻訳日:2022-10-28 15:51:19 公開日:2022-10-27
# 筋電図による手指ジェスチャー認識のための軽量CNN注意アーキテクチャ

Light-weighted CNN-Attention based architecture for Hand Gesture Recognition via ElectroMyography ( http://arxiv.org/abs/2210.15119v1 )

ライセンス: Link先を確認
Soheil Zabihi, Elahe Rahimian, Amir Asif, Arash Mohammadi(参考訳) 生体信号処理(BSP)と機械学習(ML)モデルの進歩は、新しい没入型ヒューマン・マシン・インタフェース(HMI)の開発への道を開いた。 この文脈では、表面筋電図(sEMG)信号を利用したハンドジェスチャー認識(HGR)への関心が高まっている。 これは、Mixed Reality(MR)環境での没入に対する人間の意図を解釈するためにウェアラブルデータをデコードするユニークな可能性のためである。 可能な限り高い精度を達成するために、複雑で重み付けされたディープニューラルネットワーク(DNN)が開発され、低消費電力およびリソース制約のウェアラブルシステムにおける実用的応用を制限する。 本研究では,畳み込みニューラルネットワーク(CNN)に基づく軽量ハイブリッドアーキテクチャ(HDCAM)と,入力の局所的および大域的表現を効果的に抽出するアテンション機構を提案する。 58,441パラメータのhdcamモデルは、ウィンドウサイズ300msと200msの82.91%と81.28%の精度で17ハンドジェスチャを分類する新たな最先端(sota)性能に達した。 HDCAMアーキテクチャをトレーニングするパラメータの数は、以前のSOTAのパラメータの18.87倍である。

Advancements in Biological Signal Processing (BSP) and Machine-Learning (ML) models have paved the path for development of novel immersive Human-Machine Interfaces (HMI). In this context, there has been a surge of significant interest in Hand Gesture Recognition (HGR) utilizing Surface-Electromyogram (sEMG) signals. This is due to its unique potential for decoding wearable data to interpret human intent for immersion in Mixed Reality (MR) environments. To achieve the highest possible accuracy, complicated and heavy-weighted Deep Neural Networks (DNNs) are typically developed, which restricts their practical application in low-power and resource-constrained wearable systems. In this work, we propose a light-weighted hybrid architecture (HDCAM) based on Convolutional Neural Network (CNN) and attention mechanism to effectively extract local and global representations of the input. The proposed HDCAM model with 58,441 parameters reached a new state-of-the-art (SOTA) performance with 82.91% and 81.28% accuracy on window sizes of 300 ms and 200 ms for classifying 17 hand gestures. The number of parameters to train the proposed HDCAM architecture is 18.87 times less than its previous SOTA counterpart.
翻訳日:2022-10-28 15:50:54 公開日:2022-10-27
# 部分的なニューラルネットワーク推論

Partially Oblivious Neural Network Inference ( http://arxiv.org/abs/2210.15189v1 )

ライセンス: Link先を確認
Panagiotis Rizomiliotis, Christos Diou, Aikaterini Triakosia, Ilias Kyrannas and Konstantinos Tserpes(参考訳) 曖昧な推論は、ニューラルネットワークのようなMLモデルをアウトソーシングする作業であり、モデルのパラメータのような重要で機密性の高い情報を開示しない。 安全な暗黙の推論のための最も顕著なソリューションの1つは、ホモモルフィック暗号化(HE)やマルチパーティ計算(MPC)のような強力な暗号化ツールに基づいている。 暗黙の推論システムの実装は、過去10年間に著しく改善されてきたが、実際に実装できるMLモデルには、依然として大きな制限がある。 特に、MLモデルと入力データの機密性の両方を保護する必要がある。 本稿では,部分的に不可避な推論の概念を紹介する。 cnnのようなニューラルネットワークモデルでは、いくつかの情報漏洩が許容できることを示す。 そこで我々は,セキュリティと効率の新たなトレードオフを提案する。 本研究では,CNNモデルの重み部分リークによるセキュリティおよび推論実行時の性能への影響について検討する。 実験では,cifar-10ネットワークにおいて,モデルの重みの最大80~%を,実質的にセキュリティへの影響を伴わずにリークできることを実証し,必要なhe-mutliplicationは4倍高速に実施できることを示した。

Oblivious inference is the task of outsourcing a ML model, like neural-networks, without disclosing critical and sensitive information, like the model's parameters. One of the most prominent solutions for secure oblivious inference is based on a powerful cryptographic tools, like Homomorphic Encryption (HE) and/or multi-party computation (MPC). Even though the implementation of oblivious inference systems schemes has impressively improved the last decade, there are still significant limitations on the ML models that they can practically implement. Especially when both the ML model and the input data's confidentiality must be protected. In this paper, we introduce the notion of partially oblivious inference. We empirically show that for neural network models, like CNNs, some information leakage can be acceptable. We therefore propose a novel trade-off between security and efficiency. In our research, we investigate the impact on security and inference runtime performance from the CNN model's weights partial leakage. We experimentally demonstrate that in a CIFAR-10 network we can leak up to $80\%$ of the model's weights with practically no security impact, while the necessary HE-mutliplications are performed four times faster.
翻訳日:2022-10-28 15:50:36 公開日:2022-10-27
# 分布外検出のための透かし

Watermarking for Out-of-distribution Detection ( http://arxiv.org/abs/2210.15198v1 )

ライセンス: Link先を確認
Qizhou Wang, Feng Liu, Yonggang Zhang, Jing Zhang, Chen Gong, Tongliang Liu, Bo Han(参考訳) Out-of-Distribution (OOD) 検出は、よく訓練された深層モデルから抽出された表現に基づいてOODデータを識別することを目的としている。 しかし、既存の手法はディープモデルのプログラミング特性をほとんど無視しているため、本質的な強みを完全に解き放たない可能性がある: 十分に訓練されたディープモデルのパラメータを変更することなく、データレベルの操作(例えば、データに特定の特徴の摂動を追加する)によって、このモデルを新しい目的のために再プログラミングすることができる。 この特性は,OOD検出に優れた分類モデル(新しいタスク)を再構築する動機となり,本論文では透かしと呼ばれる一般的な手法を提案する。 具体的には,元データの特徴に重畳される統一パターンを学習し,ウォーターマーキング後にモデルの検出能力が大きく向上する。 広範囲な実験により透かしの有効性が検証され,OOD検出における深部モデルのプログラミング性の重要性が示された。

Out-of-distribution (OOD) detection aims to identify OOD data based on representations extracted from well-trained deep models. However, existing methods largely ignore the reprogramming property of deep models and thus may not fully unleash their intrinsic strength: without modifying parameters of a well-trained deep model, we can reprogram this model for a new purpose via data-level manipulation (e.g., adding a specific feature perturbation to the data). This property motivates us to reprogram a classification model to excel at OOD detection (a new task), and thus we propose a general methodology named watermarking in this paper. Specifically, we learn a unified pattern that is superimposed onto features of original data, and the model's detection capability is largely boosted after watermarking. Extensive experiments verify the effectiveness of watermarking, demonstrating the significance of the reprogramming property of deep models in OOD detection.
翻訳日:2022-10-28 15:50:19 公開日:2022-10-27
# 職種学習:視覚から新しいコネクタを工業的に導入するためのオフライン・オフラインファインタニング

Learning on the Job: Self-Rewarding Offline-to-Online Finetuning for Industrial Insertion of Novel Connectors from Vision ( http://arxiv.org/abs/2210.15206v1 )

ライセンス: Link先を確認
Ashvin Nair, Brian Zhu, Gokul Narayanan, Eugen Solowjow, Sergey Levine(参考訳) ロボット工学における学習ベースの手法は、一般化の約束を守るが、学習方針が新しい状況に一般化しなかったらどうするか? 原則として、エージェントが自分の成功を少なくとも評価できる場合(つまり、ポリシーがそうでなくてもうまく一般化できる報酬分類器)、この状況において積極的にタスクを実行し、ポリシーを微調整することができる。 本研究は,ソケットへのコネクタ挿入やネジの設置など,産業用挿入作業の設定における課題である。 既存のアルゴリズムはコネクタやソケットの正確な位置決めと、アセンブリラインなどの物理的な設定を注意深く管理してタスクを成功させる。 しかし、住宅などの非構造環境やいくつかの産業環境では、ロボットは正確な位置決めに頼らず、以前は見つからなかったコネクターで処理される可能性がある。 様々なコネクタ挿入タスクのオフライン強化学習は潜在的な解決法だが、もしロボットが以前に見つからなかったコネクタ挿入をタスクしているとしたらどうだろう? このようなシナリオでは、オンラインプラクティスでそのようなタスクを堅牢に解決できる方法が必要になります。 この仕事における主要な観察の1つは、適切な表現学習とドメイン一般化のアプローチにより、報酬関数がポリシーよりも新しくて構造的に類似したタスク(例えば、新しいタイプのコネクタを挿入する)に一般化することがはるかに容易であるということです。 つまり、学習された報酬関数は、方針がゼロショットで一般化できない状況において、ロボットのポリシーの微調整を容易にすることができるが、報奨関数はうまく一般化する。 このようなアプローチは実世界でインスタンス化でき、50の異なるコネクタで事前学習でき、学習した報酬関数を介して新しいコネクタに微調整できる。 ビデオはhttps://sites.google.com/view/learningonthejobで見ることができる。

Learning-based methods in robotics hold the promise of generalization, but what can be done if a learned policy does not generalize to a new situation? In principle, if an agent can at least evaluate its own success (i.e., with a reward classifier that generalizes well even when the policy does not), it could actively practice the task and finetune the policy in this situation. We study this problem in the setting of industrial insertion tasks, such as inserting connectors in sockets and setting screws. Existing algorithms rely on precise localization of the connector or socket and carefully managed physical setups, such as assembly lines, to succeed at the task. But in unstructured environments such as homes or even some industrial settings, robots cannot rely on precise localization and may be tasked with previously unseen connectors. Offline reinforcement learning on a variety of connector insertion tasks is a potential solution, but what if the robot is tasked with inserting previously unseen connector? In such a scenario, we will still need methods that can robustly solve such tasks with online practice. One of the main observations we make in this work is that, with a suitable representation learning and domain generalization approach, it can be significantly easier for the reward function to generalize to a new but structurally similar task (e.g., inserting a new type of connector) than for the policy. This means that a learned reward function can be used to facilitate the finetuning of the robot's policy in situations where the policy fails to generalize in zero shot, but the reward function generalizes successfully. We show that such an approach can be instantiated in the real world, pretrained on 50 different connectors, and successfully finetuned to new connectors via the learned reward function. Videos can be viewed at https://sites.google.com/view/learningonthejob
翻訳日:2022-10-28 15:50:03 公開日:2022-10-27
# 信頼と信念 - すべきだろうか? twitterユーザーの信頼度の評価

Trust and Believe -- Should We? Evaluating the Trustworthiness of Twitter Users ( http://arxiv.org/abs/2210.15214v1 )

ライセンス: Link先を確認
Tanveer Khan and Antonis Michalas(参考訳) Twitterのようなソーシャルネットワークやマイクロブログサービスは、デジタル情報の共有において重要な役割を果たす。 ソーシャルメディアの人気と有用性にもかかわらず、腐敗したユーザーによって定期的に悪用される。 こうした悪質な活動の1つは、いわゆるフェイクニュース(偽ニュース)だ。これは、ソーシャルメディアプラットフォームが提供するホスピタブルな環境によって急速に拡散している「ウイルス」だ。 偽ニュースの広汎な拡散は、個人と社会の両方に悪影響を及ぼす大きな問題となっている。 したがって、ソーシャルメディア上での偽ニュースの特定は、研究コミュニティだけでなく、facebook、業界側、社会的な政党など、双方の大手プレイヤーの関心を惹きつけてきた最も重要な問題である。 この作業において、私たちは、ソーシャルネットワークコミュニティに信頼を喚起するソリューションを提供することを期待するモデルを作成します。 本モデルでは,twitter上での5万人の政治家の行動を分析し,いくつかの特徴と属性に基づいて評価したユーザごとに影響スコアを割り当てる。 次に、ランダムフォレストとサポートベクターマシン分類器を用いて、政治的twitterユーザーを信頼に値するか信頼できないかのどちらかに分類する。 データセットからラベルのない曖昧なレコードを分類するために,アクティブな学習モデルが使用されている。 最後に,提案モデルの性能を測定するために,主評価指標として精度を用いた。

Social networking and micro-blogging services, such as Twitter, play an important role in sharing digital information. Despite the popularity and usefulness of social media, they are regularly abused by corrupt users. One of these nefarious activities is so-called fake news -- a "virus" that has been spreading rapidly thanks to the hospitable environment provided by social media platforms. The extensive spread of fake news is now becoming a major problem with far-reaching negative repercussions on both individuals and society. Hence, the identification of fake news on social media is a problem of utmost importance that has attracted the interest not only of the research community but most of the big players on both sides - such as Facebook, on the industry side, and political parties on the societal one. In this work, we create a model through which we hope to be able to offer a solution that will instill trust in social network communities. Our model analyses the behaviour of 50,000 politicians on Twitter and assigns an influence score for each evaluated user based on several collected and analysed features and attributes. Next, we classify political Twitter users as either trustworthy or untrustworthy using random forest and support vector machine classifiers. An active learning model has been used to classify any unlabeled ambiguous records from our dataset. Finally, to measure the performance of the proposed model, we used accuracy as the main evaluation metric.
翻訳日:2022-10-28 15:49:30 公開日:2022-10-27
# 身近な関係における個人的実生活ストレス検出のためのドメイン適応によるマイズショット学習手法

A few-shot learning approach with domain adaptation for personalized real-life stress detection in close relationships ( http://arxiv.org/abs/2210.15247v1 )

ライセンス: Link先を確認
Kexin Feng, Jacqueline B. Duong, Kayla E. Carta, Sierra Walters, Gayla Margolin, Adela C. Timmons, Theodora Chaspari(参考訳) 我々は,実生活データから人間の成果をモデル化することで得られる計算課題に対処することを目的とした計量学習アプローチを設計する。 提案したメトリック学習は,ターゲットユーザと非ターゲットユーザのサンプルのペア間の相対的差異を学習し,ターゲットからのラベル付きデータの不足に対処できる,シムズニューラルネットワーク(SNN)に基づく。 SNNはさらに、ターゲットユーザと非ターゲットユーザ間の学習した埋め込みのワッサースタイン距離を最小化し、両者間の分散ミスマッチを緩和する。 最後に,焦点行動のベースレートがユーザ毎に異なることを考慮し,ターゲットに最も近いラベル付きサンプルに基づいて焦点ベースレートを近似し,さらにwasserstein距離を最小化する手法を提案する。 本手法は,72人のデートカップルの実生活マルチモーダルデータを用いた時間的ストレス分類を目的とした。 単発・単発学習実験の結果,提案手法はストレス分類に効果があり,上記の課題を軽減できることが示唆された。

We design a metric learning approach that aims to address computational challenges that yield from modeling human outcomes from ambulatory real-life data. The proposed metric learning is based on a Siamese neural network (SNN) that learns the relative difference between pairs of samples from a target user and non-target users, thus being able to address the scarcity of labelled data from the target. The SNN further minimizes the Wasserstein distance of the learned embeddings between target and non-target users, thus mitigating the distribution mismatch between the two. Finally, given the fact that the base rate of focal behaviors is different per user, the proposed method approximates the focal base rate based on labelled samples that lay closest to the target, based on which further minimizes the Wasserstein distance. Our method is exemplified for the purpose of hourly stress classification using real-life multimodal data from 72 dating couples. Results in few-shot and one-shot learning experiments indicate that proposed formulation benefits stress classification and can help mitigate the aforementioned challenges.
翻訳日:2022-10-28 15:49:08 公開日:2022-10-27
# アクセントテキスト音声の明示的強度制御

Explicit Intensity Control for Accented Text-to-speech ( http://arxiv.org/abs/2210.15364v1 )

ライセンス: Link先を確認
Rui Liu, Haolin Zuo, De Hu, Guanglai Gao, Haizhou Li(参考訳) accented text-to-speech (tts) 合成は、標準バージョン (l1) の変種としてアクセント (l2) を持つ音声を生成する。 ttsのプロセスにおけるアクセントの強さを制御する方法は、非常に興味深い研究方向であり、ますます注目を集めている。 近年の作業は、話者とアクセント情報をアンタングルして、そのアクセント強度を制御するために損失重量を調整するために、話者対逆損失を設計している。 しかし、そのような制御方法は解釈可能性に欠けており、制御因子と自然アクセント強度の間に直接相関はない。 そこで本稿では,アクセント付きttsに対する新しい直感的かつ明示的なアクセント強度制御手法を提案する。 具体的には、まず、l1音声認識モデルから'goodness of pronunciation (gop)'と呼ばれる後方確率を抽出し、アクセント付き音声の音素アクセント強度を定量化し、その後、音声生成中にアクセント強度表現を考慮し、ai-ttsと呼ばれるfastspeech2ベースのttsモデルを設計する。 実験により,アクセントのレンダリングとインテンシティ制御の観点から,本手法がベースラインモデルを上回ることを示した。

Accented text-to-speech (TTS) synthesis seeks to generate speech with an accent (L2) as a variant of the standard version (L1). How to control the intensity of accent in the process of TTS is a very interesting research direction, and has attracted more and more attention. Recent work design a speaker-adversarial loss to disentangle the speaker and accent information, and then adjust the loss weight to control the accent intensity. However, such a control method lacks interpretability, and there is no direct correlation between the controlling factor and natural accent intensity. To this end, this paper propose a new intuitive and explicit accent intensity control scheme for accented TTS. Specifically, we first extract the posterior probability, called as ``goodness of pronunciation (GoP)'' from the L1 speech recognition model to quantify the phoneme accent intensity for accented speech, then design a FastSpeech2 based TTS model, named Ai-TTS, to take the accent intensity expression into account during speech generation. Experiments show that the our method outperforms the baseline model in terms of accent rendering and intensity control.
翻訳日:2022-10-28 15:43:23 公開日:2022-10-27
# 円柱状ピタゴラスファジィ集合と多重基準決定への応用

Circular Pythagorean fuzzy sets and applications to multi-criteria decision making ( http://arxiv.org/abs/2210.15483v1 )

ライセンス: Link先を確認
Mahmut Can Bozyi\u{g}it, Murat Olgun and Mehmet \"Unver(参考訳) 本稿では,円ピタゴラスファジィ集合 (値) (c-pfs(v)) の概念を,アタナソフとピタゴラスファジィ集合 (pfss) によって提案された円直観的ファジィ集合 (c-ifss) の新たな一般化として紹介する。 円形ピタゴラスファジィ集合は会員次数と非会員次数を表す円で表され、その中心は非負の実数 $\mu$ と $\nu$ で、条件 $\mu^2+\nu^2\leq 1$ である。 C-PFSは、ある中心と半径の円の点で情報をモデル化できる構造のおかげで、不確実な情報の曖昧さをより適切にモデル化する。 したがって、C-PFSは意思決定者がより大きく柔軟な領域でオブジェクトを評価することを可能にするため、より敏感な決定が可能である。 C-PFSの概念を定義した後、C-PFS間の基本的な集合演算を定義し、一般的な$t$-normsと$t$-conormsを介してC-PFV間の代数演算を提案する。 これらの代数演算を利用することで、c-pfvで表される入力値を単一の出力値に変換する重み付きアグリゲーション演算子を導入する。 次に、C-PFV間の類似度を決定するために、半径に基づいてコサイン類似度尺度を定義する。 さらに,ピタゴラスのファジィ値の集合をpfsに変換する手法を開発した。 最後に, 円形ピタゴラスファジィ環境における多値判定問題の解法が提案され, 提案手法は, 文献から最適な太陽電池を選択する問題に対して実践される。 また,提案手法の比較分析と時間複雑性についても検討した。

In this paper, we introduce the concept of circular Pythagorean fuzzy set (value) (C-PFS(V)) as a new generalization of both circular intuitionistic fuzzy sets (C-IFSs) proposed by Atannassov and Pythagorean fuzzy sets (PFSs) proposed by Yager. A circular Pythagorean fuzzy set is represented by a circle that represents the membership degree and the non-membership degree and whose center consists of non-negative real numbers $\mu$ and $\nu$ with the condition $\mu^2+\nu^2\leq 1$. A C-PFS models the fuzziness of the uncertain information more properly thanks to its structure that allows modelling the information with points of a circle of a certain center and a radius. Therefore, a C-PFS lets decision makers to evaluate objects in a larger and more flexible region and thus more sensitive decisions can be made. After defining the concept of C-PFS we define some fundamental set operations between C-PFSs and propose some algebraic operations between C-PFVs via general $t$-norms and $t$-conorms. By utilizing these algebraic operations, we introduce some weighted aggregation operators to transform input values represented by C-PFVs to a single output value. Then to determine the degree of similarity between C-PFVs we define a cosine similarity measure based on radius. Furthermore, we develop a method to transform a collection of Pythagorean fuzzy values to a PFS. Finally, a method is given to solve multi-criteria decision making problems in circular Pythagorean fuzzy environment and the proposed method is practiced to a problem about selecting the best photovoltaic cell from the literature. We also study the comparison analysis and time complexity of the proposed method.
翻訳日:2022-10-28 15:43:00 公開日:2022-10-27
# トロイダル確率球面判別分析

Toroidal Probabilistic Spherical Discriminant Analysis ( http://arxiv.org/abs/2210.15441v1 )

ライセンス: Link先を確認
Anna Silnova and Niko Br\"ummer and Albert Swart and Luk\'a\v{s} Burget(参考訳) 話者認識では、音声セグメントを単位超球面上の埋め込みにマッピングすると、2つのスコアリングバックエンド、すなわちコサインスコアとPLDAが一般的に使用される。 我々は最近,ガウス分布の代わりにフォン・ミセス・フィッシャー分布を用いるPLDAの類似であるPSDAを提案した。 本稿ではトロイダルPSDA(T-PSDA)について述べる。 psdaを拡張し、超球面のトロイダル部分多様体内および話者間変動をモデル化する能力を持つ。 PLDAやPSDAと同様に、モデルはトレーニングのためのクローズドフォームスコアリングとクローズドフォームEM更新を可能にする。 VoxCelebではコサインスコアと同等のT-PSDA精度を示し,PLDA精度は劣っている。 NIST SRE'21 では,T-PSDA はコサインスコアとPLDA と比較して高い精度が得られた。

In speaker recognition, where speech segments are mapped to embeddings on the unit hypersphere, two scoring back-ends are commonly used, namely cosine scoring and PLDA. We have recently proposed PSDA, an analog to PLDA that uses Von Mises-Fisher distributions instead of Gaussians. In this paper, we present toroidal PSDA (T-PSDA). It extends PSDA with the ability to model within and between-speaker variabilities in toroidal submanifolds of the hypersphere. Like PLDA and PSDA, the model allows closed-form scoring and closed-form EM updates for training. On VoxCeleb, we find T-PSDA accuracy on par with cosine scoring, while PLDA accuracy is inferior. On NIST SRE'21 we find that T-PSDA gives large accuracy gains compared to both cosine scoring and PLDA.
翻訳日:2022-10-28 15:42:03 公開日:2022-10-27
# 市民科学データのための二重機械学習トレンドモデル

A Double Machine Learning Trend Model for Citizen Science Data ( http://arxiv.org/abs/2210.15524v1 )

ライセンス: Link先を確認
Daniel Fink (1), Alison Johnston (2), Matt Strimas-Mackey (1), Tom Auer (1), Wesley M. Hochachka (1), Shawn Ligocki (1), Lauren Oldham Jaromczyk (1), Orin Robinson (1), Chris Wood (1), Steve Kelling (1), and Amanda D. Rodewald (1) ((1) Cornell Lab of Ornithology, Cornell University, USA (2) Centre for Research into Ecological and Environmental Modelling, School of Maths and Statistics, University of St Andrews, St Andrews, UK)(参考訳) 1. 市民と地域科学(CS)データセットは, 毎年収集される大量のデータから, 人口変動の経年変化パターンを推定する大きな可能性を秘めている。 しかし、多くのCSプロジェクトが大量のデータを収集できる柔軟なプロトコルは、通常、何年もにわたって一貫したサンプリングを維持するのに必要な構造を欠いている。 経時的観察過程の変化は種の個体群の大きさの変化と合致するので、これは年々合体する。 ここでは, 市民科学データに共通する大陸間共生を制御しつつ, 種数傾向を推定するための新しいモデリング手法について述べる。 このアプローチはDouble Machine Learningに基づいており、このフレームワークは、機械学習手法を使って人口変化を推定し、データに見いだされたコンバウンディングの調整に使用される確率スコアを推定する。 さらに,正規度スコアが欠落した残差の同定と調整を行うシミュレーション手法を開発した。 この新しい手法により,市民科学データから空間的詳細な傾向推定を作成できる。 アプローチを説明するため,CSプロジェクトeBirdのデータを用いて種の傾向を推定した。 本研究は,実世界のコンファウンディングに直面する空間的変動傾向を推定する手法の能力を評価するために,シミュレーションスタディを用いて行った。 その結果,27kmの解像度で空間定数と空間変動の傾向を区別できる傾向が得られた。 人口変動の予測方向(増加/減少)には誤り率が低く,推定規模には高い相関が認められた。 4. 市民科学データに埋もれながら空間的明らかな傾向を推定する能力は、重要な情報ギャップを埋める可能性があり、厳密なモニタリングデータなしで種・地域・季節の人口動向を推定するのに役立つ。

1. Citizen and community-science (CS) datasets have great potential for estimating interannual patterns of population change given the large volumes of data collected globally every year. Yet, the flexible protocols that enable many CS projects to collect large volumes of data typically lack the structure necessary to keep consistent sampling across years. This leads to interannual confounding, as changes to the observation process over time are confounded with changes in species population sizes. 2. Here we describe a novel modeling approach designed to estimate species population trends while controlling for the interannual confounding common in citizen science data. The approach is based on Double Machine Learning, a statistical framework that uses machine learning methods to estimate population change and the propensity scores used to adjust for confounding discovered in the data. Additionally, we develop a simulation method to identify and adjust for residual confounding missed by the propensity scores. Using this new method, we can produce spatially detailed trend estimates from citizen science data. 3. To illustrate the approach, we estimated species trends using data from the CS project eBird. We used a simulation study to assess the ability of the method to estimate spatially varying trends in the face of real-world confounding. Results showed that the trend estimates distinguished between spatially constant and spatially varying trends at a 27km resolution. There were low error rates on the estimated direction of population change (increasing/decreasing) and high correlations on the estimated magnitude. 4. The ability to estimate spatially explicit trends while accounting for confounding in citizen science data has the potential to fill important information gaps, helping to estimate population trends for species, regions, or seasons without rigorous monitoring data.
翻訳日:2022-10-28 15:41:47 公開日:2022-10-27
# 不確かさの定量化と深層学習による戦略的ジオステアリングワークフロー:ゴリアトフィールドを事例として

Strategic Geosteeering Workflow with Uncertainty Quantification and Deep Learning: A Case Study on the Goliat Field ( http://arxiv.org/abs/2210.15548v1 )

ライセンス: Link先を確認
Muzammil Hussain Rammay, Sergey Alyaev, David Selv{\aa}g Larsen, Reidar Brumer Bratvold, Craig Saint(参考訳) 検層データのリアルタイム解釈により,異方性地下環境における地質層の位置と特性を推定できる。 不確実性を捉えるロバストなリアルタイム推定は、効率的なジオステアリング操作に非常に有用である。 しかし, 従来の概念的地質モデルにおけるモデル誤差と, 測定の前方シミュレーションは, 地質層のプロファイルの信頼できない推定に重要な要因となる。 シミュレーションの高速化と並列化に使用するディープ・ニューラル・ネットワーク(DNN)近似を用いた場合,モデル誤差は特に顕著である。 本稿ではオフラインとオンラインのフェーズからなる実践的なワークフローを提案する。 オフラインフェーズには、DNNトレーニングと、不確実な事前ニアウェルジオモデルの構築が含まれている。 オンラインフェーズでは、フレキシブル反復アンサンブルスムーザ(flexies)を使用して、近似dnnモデルにおけるモデル誤差を考慮した深部電磁データのリアルタイム同化を行う。 本稿では,ゴリアト海(バレンツ海)の歴史的井戸を事例として,提案したワークフローを実証する。 確率的推定の中央値は、近似DNNモデルにも拘わらず、選択した前の層数にも拘わらず、プロプライエタリな逆転と同程度である。 モデルエラーを推定することにより、FlexIESはレイヤの境界と抵抗の不確実性を自動的に定量化します。

The real-time interpretation of the logging-while-drilling data allows us to estimate the positions and properties of the geological layers in an anisotropic subsurface environment. Robust real-time estimations capturing uncertainty can be very useful for efficient geosteering operations. However, the model errors in the prior conceptual geological models and forward simulation of the measurements can be significant factors in the unreliable estimations of the profiles of the geological layers. The model errors are specifically pronounced when using a deep-neural-network (DNN) approximation which we use to accelerate and parallelize the simulation of the measurements. This paper presents a practical workflow consisting of offline and online phases. The offline phase includes DNN training and building of an uncertain prior near-well geo-model. The online phase uses the flexible iterative ensemble smoother (FlexIES) to perform real-time assimilation of extra-deep electromagnetic data accounting for the model errors in the approximate DNN model. We demonstrate the proposed workflow on a case study for a historic well in the Goliat Field (Barents Sea). The median of our probabilistic estimation is on-par with proprietary inversion despite the approximate DNN model and regardless of the number of layers in the chosen prior. By estimating the model errors, FlexIES automatically quantifies the uncertainty in the layers' boundaries and resistivities, which is not standard for proprietary inversion.
翻訳日:2022-10-28 15:41:18 公開日:2022-10-27
# 人工ASMR : サイバー心理学研究

Artificial ASMR: A Cyber-Psychological Study ( http://arxiv.org/abs/2210.14321v2 )

ライセンス: Link先を確認
Zexin Fang, Bin Han, C. Clark Cao, and Hans. D. Schotten(参考訳) 自律感覚メリディアン反応(ASMR)の人気は過去10年間に急上昇したが、それに関する科学的研究はまだ少なく、未熟である。 我々は,ASMR音声の一般的な音響パターンに注目され,音声信号の時間周波数と周期特性の相関と,ASMR効果の誘発効果について検討した。 信号処理,人工知能,実験心理学を組み合わせたサイバー心理学的手法を用いて,ASMR関連音響特徴を同定し,無作為な人工ASMRオーディオを合成する。

The popularity of Autonomous Sensory Meridian Response (ASMR) has skyrockteted over the past decade, but scientific studies on it are still few and immature. With our attention caught by the common acoustic patterns in ASMR audios, we investigate the correlation between the time-frequency and cyclic features of audio signals and their effectiveness in triggering ASMR effects. A cyber-psychological approach that combines signal processing, artificial intelligence, and experimental psychology is taken, with which we are able to identify ASMR-related acoustic features, and therewith synthesize random artificial ASMR audios.
翻訳日:2022-10-28 15:40:55 公開日:2022-10-27
# 確率密度比重み付けによるグラフフィルタの転送

Graph Filter Transfer via Probability Density Ratio Weighting ( http://arxiv.org/abs/2210.14633v2 )

ライセンス: Link先を確認
Koki Yamada(参考訳) グラフ信号の回復問題は、グラフ信号処理における主要なトピックの1つである。 この問題に対する代表的なアプローチはグラフワイナーフィルタであり、歴史データから算出された目標信号の統計情報を利用して効果的な推定器を構築する。 しかし、トポロジーの変化によって現在のグラフが過去のデータと異なる状況に陥り、推定器の性能が低下することが多い。 本稿では,トポロジ変化による履歴データから有効推定器を学習するグラフフィルタ転送手法を提案する。 提案手法は,現在および過去の観測値の確率密度比を活用し,現在のグラフ領域における再構成誤差を最小化する推定器を構成する。 合成データを用いた実験は,提案手法が他の手法よりも優れていることを示す。

The problem of recovering graph signals is one of the main topics in graph signal processing. A representative approach to this problem is the graph Wiener filter, which utilizes the statistical information of the target signal computed from historical data to construct an effective estimator. However, we often encounter situations where the current graph differs from that of historical data due to topology changes, leading to performance degradation of the estimator. This paper proposes a graph filter transfer method, which learns an effective estimator from historical data under topology changes. The proposed method leverages the probability density ratio of the current and historical observations and constructs an estimator that minimizes the reconstruction error in the current graph domain. The experiment on synthetic data demonstrates that the proposed method outperforms other methods.
翻訳日:2022-10-28 15:40:44 公開日:2022-10-27
# オープンデータを用いたセグメンテーションに基づく肝ステアトーシス検出のための深層学習:多施設国際検証研究

Deep Learning for Segmentation-based Hepatic Steatosis Detection on Open Data: A Multicenter International Validation Study ( http://arxiv.org/abs/2210.15149v1 )

ライセンス: Link先を確認
Zhongyi Zhang, Guixia Li, Ziqiang Wang, Feng Xia, Ning Zhao, Huibin Nie, Zezhong Ye, Joshua Lin, Yiyi Hui, Xiangchun Liu(参考訳) 多発性異種集団における脂肪症検出の汎用性は, 自動診断では認められなかった。 本研究では,肝ステアトーシスを検出するための完全自動人工知能(ai)システムを外部から検証した。 LIDC-IDRI, NSCLC-Lung1, NSCLC-Lung1, RIDER, VESSEL12, RICORD-1A, RICORD-1B, COVID-19-Italy, COVID-19-Chinaの8つの異なるデータセットから1014個の非コントラスト拡張胸部CTスキャンを行った。 この3ステップのAIワークフローは、以下の通りである。 (i)3次元肝セグメンテーション - 肝セグメンテーションのために開発された3次元U-Net深層学習モデル。 (II)興味領域(AI-ROI)、AI-3D、AI-2Dの3つの自動測定法による肝減衰測定 (iii)肝ステアトーシスの検出。 ディープラーニングセグメンテーションは平均ダイス係数0.957。 ai-roi減衰測定では, エキスパート測定値と有意差は認められなかった (p > 0.05) が, ai-3dとai-2dはエキスパートと大きく異なる (p < 0.001)。 AI-ROI、AI-3D、AI-2Dのステアトーシス分類(AUC)は0.921(95% CI:0.883 - 0.959)、0.939(95% CI:0.903 - 0.973)、0.894(95% CI:0.8500.938)である。 この深層学習システムは、肝ステアトーシスの早期非侵襲的、非薬剤学的予防的治療を可能にする可能性がある。 https://drive.google.com/drive/folders/1-g_zjeaazxyxgql1oef6pujr6kb0igjx。

Despite high global prevalence of hepatic steatosis, no automated diagnostics demonstrated generalizability in detecting steatosis on multiple heterogeneous populations. In this retrospective study, we externally validated a fully automated artificial intelligence (AI) system to detect hepatic steatosis. 1,014 non-contrast enhanced chest computed tomography (CT) scans were collected from eight distinct datasets: LIDC-IDRI, NSCLC-Lung1, RIDER, VESSEL12, RICORD-1A, RICORD-1B, COVID-19-Italy, and COVID-19-China. This three-step AI workflow consists of the following: (i) 3D liver segmentation - a 3D U-Net deep learning model developed for liver segmentation and applied externally without retraining. (ii) liver attenuation measurements by three automatic methods: AI on regions of interest (AI-ROI), AI-3D, and AI-2D; (iii) hepatic steatosis detection. The deep-learning segmentation achieved a mean dice coefficient of 0.957. AI-ROI attenuation measurements showed no significant differences compared to expert measurements (P > 0.05), but AI-3D and AI-2D were significantly different from the expert (P < 0.001). The area under the curve (AUC) of steatosis classification for AI-ROI, AI-3D, and AI-2D are 0.921 (95% CI: 0.883 - 0.959), 0.939 (95% CI: 0.903 - 0.973), and 0.894 (95% CI: 0.850 - 0.938) respectively. If adopted for universal detection, this deep learning system could potentially allow early non-invasive, non-pharmacological preventative interventions for hepatic steatosis. 1,014 expert-annotated liver segmentations of CT images can be downloaded here: https://drive.google.com/drive/folders/1-g_zJeAaZXYXGqL1OeF6pUjr6KB0igJX.
翻訳日:2022-10-28 15:34:34 公開日:2022-10-27
# 視覚芸術におけるコンピュータビジョン応用の活用 : バロック絵画の分類・分析における残留ニューラルネットワークの利用事例

Leveraging Computer Vision Application in Visual Arts: A Case Study on the Use of Residual Neural Network to Classify and Analyze Baroque Paintings ( http://arxiv.org/abs/2210.15300v1 )

ライセンス: Link先を確認
Daniel Kvak(参考訳) 大規模なデジタル美術コレクションが利用可能になるにつれ、絵画の自動分析と分類が興味深い研究分野になりつつある。 しかしながら、ドメイン特異性、暗黙的主観性、そしてあいまいにアートの動きを分離する広汎なニュアンスのため、機械学習技術を用いたアートの分析は大きな課題となる。 残差ネットワーク(またはその変種)は、画像分類タスクの最も一般的なツールの1つであり、よく定義されたクラスに関連する特徴を抽出することができる。 本研究は、ヨハン・クペツキー(johann kupetzky)が選択した絵画「画家チャールズ・ブルニの肖像」の分類と、提案された分類器の性能の分析に焦点を当てたものである。 残余ネットワークトレーニングで抽出した特徴は,オンラインアートコレクションの検索システム内での画像検索に有用であることを示す。

With the increasing availability of large digitized fine art collections, automated analysis and classification of paintings is becoming an interesting area of research. However, due to domain specificity, implicit subjectivity, and pervasive nuances that vaguely separate art movements, analyzing art using machine learning techniques poses significant challenges. Residual networks, or variants thereof, are one the most popular tools for image classification tasks, which can extract relevant features for well-defined classes. In this case study, we focus on the classification of a selected painting 'Portrait of the Painter Charles Bruni' by Johann Kupetzky and the analysis of the performance of the proposed classifier. We show that the features extracted during residual network training can be useful for image retrieval within search systems in online art collections.
翻訳日:2022-10-28 15:33:54 公開日:2022-10-27
# 大域構造とスペクトル相関に基づく圧縮スペクトル像の再構成

Reconstruction of compressed spectral imaging based on global structure and spectral correlation ( http://arxiv.org/abs/2210.15492v1 )

ライセンス: Link先を確認
Pan Wang, Jie Li, Siqi Zhang, Chun Qi, Lin Wang, and Jieru Chen(参考訳) 本稿では,大域構造特性とスペクトル相関に基づく畳み込みスパース符号化法を提案する。 提案手法は畳み込みカーネルを用いて大域画像を演算し,空間次元における画像構造情報をよりよく保存する。 スペクトル間の制約をフルに探索するために、畳み込みカーネルに対応する係数は標準により制約され、スペクトル精度が向上する。 そして、畳み込みスパース符号化が低周波数に不感な問題を解決するために、低周波数成分を推定するために、大域的総偏差(TV)制約を加える。 低周波の効果的な推定を確実にするだけでなく、畳み込みスパース符号をデノイズ化プロセスに変換することにより、再構成プロセスがより簡単になる。 シミュレーションにより,従来の主流最適化手法 (DeSCI, Gap-TV) と比較して,PSNRでは最大7dB,SSIMでは最大10%の再現精度が向上し,再構成画像の細部が大幅に改善された。

In this paper, a convolution sparse coding method based on global structure characteristics and spectral correlation is proposed for the reconstruction of compressive spectral images. The proposed method uses the convolution kernel to operate the global image, which can better preserve image structure information in the spatial dimension. To take full exploration of the constraints between spectra, the coefficients corresponding to the convolution kernel are constrained by the norm to improve spectral accuracy. And, to solve the problem that convolutional sparse coding is insensitive to low frequency, the global total-variation (TV) constraint is added to estimate the low-frequency components. It not only ensures the effective estimation of the low-frequency but also transforms the convolutional sparse coding into a de-noising process, which makes the reconstructing process simpler. Simulations show that compared with the current mainstream optimization methods (DeSCI and Gap-TV), the proposed method improves the reconstruction quality by up to 7 dB in PSNR and 10% in SSIM, and has a great improvement in the details of the reconstructed image.
翻訳日:2022-10-28 15:33:37 公開日:2022-10-27
# UNet-2022:非同型アーキテクチャにおけるダイナミクスの探索

UNet-2022: Exploring Dynamics in Non-isomorphic Architecture ( http://arxiv.org/abs/2210.15566v1 )

ライセンス: Link先を確認
Jiansen Guo, Hong-Yu Zhou, Liansheng Wang, Yizhou Yu(参考訳) 最近の医療画像セグメンテーションモデルは、主にハイブリッドであり、自己注意層と畳み込み層を非同型アーキテクチャに統合している。 しかし、これらのアプローチの潜在的な欠点の1つは、このハイブリッドな組み合わせがなぜ有益なのかを直感的に説明できなかったため、その後の作業で改善が難しいことである。 この問題に対処するために,まず,自己着脱と畳み込みの重み付け機構の違いを分析する。 この解析に基づいて,単純並列化による自己結合と畳み込みの利点を活かした並列非同型ブロックを構築することを提案する。 結果の u-shape セグメンテーションモデルは unet-2022 と命名する。 実験では、unet-2022は腹部マルチオルガンセグメンテーション、自動心臓診断、神経構造セグメンテーション、皮膚病変セグメンテーションといった範囲のセグメンテーションタスクにおいて明らかにその相手を上回っており、しばしば最高のパフォーマンス基準を4%上回っている。 特にUNet-2022は、現在最も認識されているセグメンテーションモデルであるnnUNetを大きなマージンで上回っている。 これらの現象は、UNet-2022が医療画像セグメンテーションのモデルになる可能性を示している。

Recent medical image segmentation models are mostly hybrid, which integrate self-attention and convolution layers into the non-isomorphic architecture. However, one potential drawback of these approaches is that they failed to provide an intuitive explanation of why this hybrid combination manner is beneficial, making it difficult for subsequent work to make improvements on top of them. To address this issue, we first analyze the differences between the weight allocation mechanisms of the self-attention and convolution. Based on this analysis, we propose to construct a parallel non-isomorphic block that takes the advantages of self-attention and convolution with simple parallelization. We name the resulting U-shape segmentation model as UNet-2022. In experiments, UNet-2022 obviously outperforms its counterparts in a range segmentation tasks, including abdominal multi-organ segmentation, automatic cardiac diagnosis, neural structures segmentation, and skin lesion segmentation, sometimes surpassing the best performing baseline by 4%. Specifically, UNet-2022 surpasses nnUNet, the most recognized segmentation model at present, by large margins. These phenomena indicate the potential of UNet-2022 to become the model of choice for medical image segmentation.
翻訳日:2022-10-28 15:33:19 公開日:2022-10-27
# 新型コロナウイルス感染拡大防止のための完全監視型注意ネットワーク

Full-scale Deeply Supervised Attention Network for Segmenting COVID-19 Lesions ( http://arxiv.org/abs/2210.15571v1 )

ライセンス: Link先を確認
Pallabi Dutta and Sushmita Mitra(参考訳) 肺ctスキャンによるcovid-19病変の自動診断は、患者の診断と予後を補助する。 感染した領域の非対称な形状と位置決めは、タスクを極端に困難にする。 複数のスケールで情報をキャプチャすることで、グローバルレベルとローカルレベルの特徴の解読を支援し、可変サイズとテクスチャの病変を包含する。 我々は,CT画像におけるコロナ感染領域の効率的なセグメンテーションのためのフルスケールDeeply Supervised Attention Network (FuDSA-Net)を紹介した。 モデルは、ネットワークの異なるレベルで取得されたマルチスカラー機能を含む、エンコーディングパスの全レベルからのアクティベーション応答を考察する。 これは、形状、サイズ、コントラストの異なるターゲット領域(配列)を分割するのに役立ちます。 マルチスカラー特性の全領域を新しいアテンション機構に組み込むことで、アクティベーション応答と有用な情報を含む位置の選択が優先される。 デコーダパスに沿った堅牢で差別的な特徴の決定は、より深い監督の下で容易である。 デコーダアームの接続は、勾配の消失の問題に対処するために改造される。 実験結果からわかるように、FuDSA-Netは他の最先端アーキテクチャ、特に病変の複雑な地形を特徴づける上では、超越している。

Automated delineation of COVID-19 lesions from lung CT scans aids the diagnosis and prognosis for patients. The asymmetric shapes and positioning of the infected regions make the task extremely difficult. Capturing information at multiple scales will assist in deciphering features, at global and local levels, to encompass lesions of variable size and texture. We introduce the Full-scale Deeply Supervised Attention Network (FuDSA-Net), for efficient segmentation of corona-infected lung areas in CT images. The model considers activation responses from all levels of the encoding path, encompassing multi-scalar features acquired at different levels of the network. This helps segment target regions (lesions) of varying shape, size and contrast. Incorporation of the entire gamut of multi-scalar characteristics into the novel attention mechanism helps prioritize the selection of activation responses and locations containing useful information. Determining robust and discriminatory features along the decoder path is facilitated with deep supervision. Connections in the decoder arm are remodeled to handle the issue of vanishing gradient. As observed from the experimental results, FuDSA-Net surpasses other state-of-the-art architectures; especially, when it comes to characterizing complicated geometries of the lesions.
翻訳日:2022-10-28 15:32:56 公開日:2022-10-27
# 硬質単分子非剛体3次元再構成技術の現状

State of the Art in Dense Monocular Non-Rigid 3D Reconstruction ( http://arxiv.org/abs/2210.15664v1 )

ライセンス: Link先を確認
Edith Tretschk, Navami Kairanda, Mallikarjun B R, Rishabh Dabral, Adam Kortylewski, Bernhard Egger, Marc Habermann, Pascal Fua, Christian Theobalt, Vladislav Golyanik(参考訳) モノキュラーな2次元画像からの変形可能な(または非剛性)シーンの3次元再構成は、コンピュータビジョンとグラフィックスの長年にわたる活発な研究領域である。 これは不適切な逆問題であり、追加の事前仮定がないため、入力された2d画像への正確な投影を無限に多くの解に導くことができる。 非剛性再構築は、ロボット工学、AR/VR、視覚コンテンツ作成といった下流アプリケーションのための基礎的なビルディングブロックである。 単眼カメラを使用する主な利点は、全能性とエンドユーザへの可用性であり、ステレオやマルチビューシステムのようなより洗練されたカメラセットと比べて使いやすさである。 本研究は, モノキュラ映像やモノキュラビューのセットから, 様々な変形可能な物体と複合シーンの密集した非剛性3次元再構成のための最先端手法に焦点をあてたものである。 2次元画像観察から3次元再構成と変形モデリングの基礎を考察する。 次に、任意の場面を扱う一般的な方法から始め、いくつかの前提を先取りし、観察対象や変形の種類(例えば、人間の顔、体、手、動物)についてより強い仮定を行う技術へと進む。 このSTARの重要な部分は、手法の分類と高レベルの比較、および、議論された手法のトレーニングと評価のためのデータセットの概要にも費やされている。 本稿では,その分野におけるオープンな課題と,レビュー手法の活用に関連する社会的側面について論じる。

3D reconstruction of deformable (or non-rigid) scenes from a set of monocular 2D image observations is a long-standing and actively researched area of computer vision and graphics. It is an ill-posed inverse problem, since--without additional prior assumptions--it permits infinitely many solutions leading to accurate projection to the input 2D images. Non-rigid reconstruction is a foundational building block for downstream applications like robotics, AR/VR, or visual content creation. The key advantage of using monocular cameras is their omnipresence and availability to the end users as well as their ease of use compared to more sophisticated camera set-ups such as stereo or multi-view systems. This survey focuses on state-of-the-art methods for dense non-rigid 3D reconstruction of various deformable objects and composite scenes from monocular videos or sets of monocular views. It reviews the fundamentals of 3D reconstruction and deformation modeling from 2D image observations. We then start from general methods--that handle arbitrary scenes and make only a few prior assumptions--and proceed towards techniques making stronger assumptions about the observed objects and types of deformations (e.g. human faces, bodies, hands, and animals). A significant part of this STAR is also devoted to classification and a high-level comparison of the methods, as well as an overview of the datasets for training and evaluation of the discussed techniques. We conclude by discussing open challenges in the field and the social aspects associated with the usage of the reviewed methods.
翻訳日:2022-10-28 15:32:35 公開日:2022-10-27
# V-Cloak:知能・自然性・音色保存リアルタイム音声匿名化

V-Cloak: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time Voice Anonymization ( http://arxiv.org/abs/2210.15140v1 )

ライセンス: Link先を確認
Jiangyi Deng (1), Fei Teng (1), Yanjiao Chen (1), Xiaofu Chen (2), Zhaohui Wang (2), Wenyuan Xu (1) ((1) Zhejiang University, (2) Wuhan University)(参考訳) インスタントメッセージングやソーシャルメディアアプリケーションで生成された音声データは、ID推測や個人情報盗難で悪意ある敵によって悪用される可能性のあるユニークなユーザ音声プリントを含んでいる。 既存の音声匿名化技術、例えば信号処理や音声変換/合成は知覚品質の劣化に悩まされる。 本稿では,音声の知性,自然性,音色を保ちながら,リアルタイムな音声匿名化を実現するV-Cloakという音声匿名システムを開発する。 設計した匿名化器は、異なる周波数レベルでオリジナル音声の特徴を変調するワンショット生成モデルを備えている。 我々は、慎重に設計された損失関数で匿名化器を訓練する。 匿名性損失は別として、知性損失と精神音響に基づく自然性損失を更に取り入れる。 匿名化器は、未特定かつ対象の匿名化を実現し、未特定性と非リンク性の匿名化目標を達成する。 我々は4つのデータセット、すなわち、LibriSpeech(英語)、AISHELL(中国語)、CommonVoice(フランス語)、CommonVoice(イタリア語)、5つの自動話者検証(ASV)システム(DNNベース2つ、統計学ベース2つ、商用ASV1つを含む)、11の自動音声認識(ASR)システムについて広範な実験を行った。 実験結果から,V-Cloakは匿名性能において5つのベースラインを上回った。 また、VoxCeleb1データセットでトレーニングされたECAPA-TDNN ASVとDeepSpeech2 ASRが、他のASVに対してトランスファー可能な匿名性を持ち、他のASRに対して言語間の知性を持つことを示す。 さらに,V-Cloakの各種ノイズ除去手法と適応攻撃に対するロバスト性を検証する。 願わくば、V-Cloakは、プリズムの世界で私たちにクロークを提供するかもしれない。

Voice data generated on instant messaging or social media applications contains unique user voiceprints that may be abused by malicious adversaries for identity inference or identity theft. Existing voice anonymization techniques, e.g., signal processing and voice conversion/synthesis, suffer from degradation of perceptual quality. In this paper, we develop a voice anonymization system, named V-Cloak, which attains real-time voice anonymization while preserving the intelligibility, naturalness and timbre of the audio. Our designed anonymizer features a one-shot generative model that modulates the features of the original audio at different frequency levels. We train the anonymizer with a carefully-designed loss function. Apart from the anonymity loss, we further incorporate the intelligibility loss and the psychoacoustics-based naturalness loss. The anonymizer can realize untargeted and targeted anonymization to achieve the anonymity goals of unidentifiability and unlinkability. We have conducted extensive experiments on four datasets, i.e., LibriSpeech (English), AISHELL (Chinese), CommonVoice (French) and CommonVoice (Italian), five Automatic Speaker Verification (ASV) systems (including two DNN-based, two statistical and one commercial ASV), and eleven Automatic Speech Recognition (ASR) systems (for different languages). Experiment results confirm that V-Cloak outperforms five baselines in terms of anonymity performance. We also demonstrate that V-Cloak trained only on the VoxCeleb1 dataset against ECAPA-TDNN ASV and DeepSpeech2 ASR has transferable anonymity against other ASVs and cross-language intelligibility for other ASRs. Furthermore, we verify the robustness of V-Cloak against various de-noising techniques and adaptive attacks. Hopefully, V-Cloak may provide a cloak for us in a prism world.
翻訳日:2022-10-28 15:31:44 公開日:2022-10-27
# 雑音残響音声分離のための変形可能な時間畳み込みネットワーク

Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation ( http://arxiv.org/abs/2210.15305v1 )

ライセンス: Link先を確認
William Ravenscroft and Stefan Goetze and Thomas Hain(参考訳) 音声分離モデルは、多くの音声処理アプリケーションで個々の話者を分離するために使用される。 ディープラーニングモデルは、多くの音声分離ベンチマークにおける最先端(SOTA)結果につながることが示されている。 時間畳み込みネットワーク(TCN)として知られるそのようなモデルの1つは、音声分離タスクにおいて有望な結果を示している。 これらのモデルの制限は、固定受容場(RF)を持つことである。 近年,TNの最適なRFは,音声信号の残響特性によって異なることが明らかにされている。 本研究では, 残響音声分離のための様々な残響時間に適応可能な動的RFをTCNモデルで実現するための解として, 変形可能な畳み込みを提案する。 提案するモデルは、whamrベンチマークの入力信号よりも11.1db平均スケール不変信号対歪比(sisdr)が向上する。 1.3Mパラメータの比較的小さな変形可能なTCNモデルが提案され、より大きくより複雑なモデルに匹敵する分離性能を与える。

Speech separation models are used for isolating individual speakers in many speech processing applications. Deep learning models have been shown to lead to state-of-the-art (SOTA) results on a number of speech separation benchmarks. One such class of models known as temporal convolutional networks (TCNs) has shown promising results for speech separation tasks. A limitation of these models is that they have a fixed receptive field (RF). Recent research in speech dereverberation has shown that the optimal RF of a TCN varies with the reverberation characteristics of the speech signal. In this work deformable convolution is proposed as a solution to allow TCN models to have dynamic RFs that can adapt to various reverberation times for reverberant speech separation. The proposed models are capable of achieving an 11.1 dB average scale-invariant signal-to-distortion ratio (SISDR) improvement over the input signal on the WHAMR benchmark. A relatively small deformable TCN model of 1.3M parameters is proposed which gives comparable separation performance to larger and more computationally complex models.
翻訳日:2022-10-28 15:31:08 公開日:2022-10-27
# データを増やす: 音声の自動認識と翻訳のための最小限の努力データ拡張

Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation ( http://arxiv.org/abs/2210.15398v1 )

ライセンス: Link先を確認
Tsz Kin Lam, Shigehiko Schamoni and Stefan Riezler(参考訳) データ拡張は、既存のデータに基づいて新しいトレーニングデータを生成する技術である。 新しいトレーニングインスタンスを構築するために、オリジナルのデータ例を連結するシンプルで費用効率の良い方法を評価する。 このような拡張データによる継続的なトレーニングは、オリジナルのデータのみに最適化された既製のTransformerとConformerモデルを改善することができる。 リブリスピーチ-960hテストセット(テストクリーンおよびテストその他では2.83および6.87)は、浅い核融合 (2.55および6.27) と組み合わせたモデルに引き継がれた。 また, 4つの非英語のasr部分において最大0.9 werの改善が得られ, 元の訓練データの大きさに大きく依存することを確認した。 異なる連結戦略を比較し,その改善を達成するために話者情報を必要としないことを見出した。 最後に,提案手法が音声翻訳にも有効であることを2つのデータセットで示す。

Data augmentation is a technique to generate new training data based on existing data. We evaluate the simple and cost-effective method of concatenating the original data examples to build new training instances. Continued training with such augmented data is able to improve off-the-shelf Transformer and Conformer models that were optimized on the original data only. We demonstrate considerable improvements on the LibriSpeech-960h test sets (WER 2.83 and 6.87 for test-clean and test-other), which carry over to models combined with shallow fusion (WER 2.55 and 6.27). Our method of continued training also leads to improvements of up to 0.9 WER on the ASR part of CoVoST-2 for four non English languages, and we observe that the gains are highly dependent on the size of the original training data. We compare different concatenation strategies and found that our method does not need speaker information to achieve its improvements. Finally, we demonstrate on two datasets that our methods also works for speech translation tasks.
翻訳日:2022-10-28 15:25:06 公開日:2022-10-27
# Virtuoso: テキスト・トゥ・音声のための多言語音声テキスト共同学習

Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech ( http://arxiv.org/abs/2210.15447v1 )

ライセンス: Link先を確認
Takaaki Saeki, Heiga Zen, Zhehuai Chen, Nobuyuki Morioka, Gary Wang, Yu Zhang, Ankur Bapna, Andrew Rosenberg, Bhuvana Ramabhadran(参考訳) 本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。 既存の多言語TSは典型的には数十言語をサポートしており、これは世界中の数千言語のうちごく少数である。 多言語ttを数百の言語にスケールすることの難しさのひとつは、低リソース言語で高品質な音声テキストペアデータを集めることだ。 本研究では,自動音声認識(ASR)のための音声テキスト共同事前学習フレームワークであるMaestroを音声生成タスクに拡張する。 各種の音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSとASRのデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。 実験的評価は 1) Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知能性を著しく向上させることができる。 2) 高品質のTTSデータがない未確認言語に対して, 合理的に理解され, 自然な音声音声を合成することができる。

This paper proposes Virtuoso, a massively multilingual speech-text joint semi-supervised learning framework for text-to-speech synthesis (TTS) models. Existing multilingual TTS typically supports tens of languages, which are a small fraction of the thousands of languages in the world. One difficulty to scale multilingual TTS to hundreds of languages is collecting high-quality speech-text paired data in low-resource languages. This study extends Maestro, a speech-text joint pretraining framework for automatic speech recognition (ASR), to speech generation tasks. To train a TTS model from various types of speech and text data, different training schemes are designed to handle supervised (paired TTS and ASR data) and unsupervised (untranscribed speech and unspoken text) datasets. Experimental evaluation shows that 1) multilingual TTS models trained on Virtuoso can achieve significantly better naturalness and intelligibility than baseline ones in seen languages, and 2) they can synthesize reasonably intelligible and naturally sounding speech for unseen languages where no high-quality paired TTS data is available.
翻訳日:2022-10-28 15:24:49 公開日:2022-10-27
# 自動音声認識のための自己監督音声モデルの有効蒸留探索

Exploring Effective Distillation of Self-Supervised Speech Models for Automatic Speech Recognition ( http://arxiv.org/abs/2210.15631v1 )

ライセンス: Link先を確認
Yujin Wang, Changli Tang, Ziyang Ma, Zhisheng Zheng, Xie Chen and Wei-Qiang Zhang(参考訳) 近年,音声処理における自己教師型学習(SSL)の進歩が注目されている。 SSLモデルは、通常、多数の未ラベルデータに対して事前トレーニングされ、モデリング能力を高めるために、大きなモデルサイズが好ましい。 しかし、これはオーバーサイズモデルによってもたらされる計算コストとメモリコストのため、潜在的なアプリケーションを制限する可能性がある。 SSLモデルの小型化は、実用価値の重要な研究方向となっている。 そこで本研究では,自動音声認識(ASR)のためのHuBERTベースのSSLモデルの有効蒸留について検討する。 まず,強力なベースラインを確立するために,様々な学生モデル構造に関する総合的研究を行った。 これに加えて, 従来の研究で広く採用されていたレグレッション損失の補足として, 特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERTに差別的損失が導入された。 さらに、波形からFbank特徴量へのフロントエンド入力を蒸留する簡便で効率的なアルゴリズムを設計し、17%のパラメータ削減と2倍の推論速度を限界性能劣化で実現した。

Recent years have witnessed great strides in self-supervised learning (SSL) on the speech processing. The SSL model is normally pre-trained on a great variety of unlabelled data and a large model size is preferred to increase the modeling capacity. However, this might limit its potential applications due to the expensive computation and memory costs introduced by the oversize model. Miniaturization for SSL models has become an important research direction of practical value. To this end, we explore the effective distillation of HuBERT-based SSL models for automatic speech recognition (ASR). First, in order to establish a strong baseline, a comprehensive study on different student model structures is conducted. On top of this, as a supplement to the regression loss widely adopted in previous works, a discriminative loss is introduced for HuBERT to enhance the distillation performance, especially in low-resource scenarios. In addition, we design a simple and effective algorithm to distill the front-end input from waveform to Fbank feature, resulting in 17% parameter reduction and doubling inference speed, at marginal performance degradation.
翻訳日:2022-10-28 15:24:28 公開日:2022-10-27
# TPFNet: テキスト除去のための新しいテキストインペイント変換器

TPFNet: A Novel Text In-painting Transformer for Text Removal ( http://arxiv.org/abs/2210.14461v2 )

ライセンス: Link先を確認
Onkar Susladkar, Dhruv Makwana, Gayatri Deshmukh, Sparsh Mittal, Sai Chandra Teja R, Rekha Singhal(参考訳) 画像からのテキスト消去は、画像編集やプライバシー保護といった様々なタスクに役立つ。 本稿では,画像からテキストを除去する新しいワンステージ(エンドツーエンド)ネットワークTPFNetを提案する。 我々のネットワークには特徴合成と画像生成という2つの部分がある。 ノイズは低解像度画像からより効果的に除去できるため、パート1は低解像度画像で動作する。 部1の出力は低解像度のテキストフリー画像である。 パート2は、パート1で学んだ機能を使用して、高解像度テキストフリー画像を予測する。 パート1では、エンコーダとして"pyramidal vision transformer"(pvt)を使用します。 さらに,テキストのない画像に加えて,ハイパスフィルタ画像とセグメンテーションマップを生成する新しいマルチヘッドデコーダを用いる。 セグメンテーションブランチはテキストを正確に見つけるのに役立ち、ハイパスブランチは画像構造を学ぶのに役立ちます。 テキストを正確に特定するために、TPFNetは入力画像ではなくセグメンテーションマップに条件付きである逆損失を用いる。 オックスフォード、scut、およびscut-enstextデータセットでは、我々のネットワークは、最近提案されたほぼすべてのメトリクスのネットワークよりも優れています。 例えば、SCUT-EnsTextデータセットでは、TPFNetはPSNRが39.0、テキスト検出精度が21.1、PSNRが32.3、精度が53.2である。 ソースコードはhttps://github.com/CandleLabAI/TPFNetから取得できる。

Text erasure from an image is helpful for various tasks such as image editing and privacy preservation. In this paper, we present TPFNet, a novel one-stage (end-toend) network for text removal from images. Our network has two parts: feature synthesis and image generation. Since noise can be more effectively removed from low-resolution images, part 1 operates on low-resolution images. The output of part 1 is a low-resolution text-free image. Part 2 uses the features learned in part 1 to predict a high-resolution text-free image. In part 1, we use "pyramidal vision transformer" (PVT) as the encoder. Further, we use a novel multi-headed decoder that generates a high-pass filtered image and a segmentation map, in addition to a text-free image. The segmentation branch helps locate the text precisely, and the high-pass branch helps in learning the image structure. To precisely locate the text, TPFNet employs an adversarial loss that is conditional on the segmentation map rather than the input image. On Oxford, SCUT, and SCUT-EnsText datasets, our network outperforms recently proposed networks on nearly all the metrics. For example, on SCUT-EnsText dataset, TPFNet has a PSNR (higher is better) of 39.0 and text-detection precision (lower is better) of 21.1, compared to the best previous technique, which has a PSNR of 32.3 and precision of 53.2. The source code can be obtained from https://github.com/CandleLabAI/TPFNet
翻訳日:2022-10-28 15:24:14 公開日:2022-10-27
# 視覚と関節トルクセンサを用いたロボットと物体のハンドオーバ

Robot to Human Object Handover using Vision and Joint Torque Sensor Modalities ( http://arxiv.org/abs/2210.15085v1 )

ライセンス: Link先を確認
Mohammadhadi Mohandes, Behnam Moradi, Kamal Gupta, Mehran Mehrandezh(参考訳) 3本指の機械ハンドを備えた7自由度アームにロボット対人ハンドオーバアルゴリズムを実装した。 このシステムは、完全に自律的で堅牢なオブジェクトを人間の受信機にリアルタイムでハンドオーバする。 我々のアルゴリズムは、腕の関節トルクセンサーと、センサーフィードバックのための眼内RGB-Dカメラの2つの相補的なセンサーモードに依存している。 我々のアプローチは完全に暗黙的であり、つまりロボットと人間の受信機の間に明確なコミュニケーションは存在しない。 前述のセンサモダリティによって得られた情報は、関連するディープニューラルネットワークへの入力として使用される。 トルクセンサネットワークは、プル、ホールド、バンプなどの人間の受信者の「意図」を検出するが、視覚センサネットワークは、受信者の指が物体の周りに巻き付いているかどうかを検出する。 ネットワークの出力は融合され、オブジェクトを解放するか否かの判断が下される。 センサフィードバックの同期化,オブジェクト検出,人手検出の副次的な課題にもかかわらず,本システムは,人間の受話器を用いた実演実験において,98\%の精度でロバストなロボット対人ハンドオーバを実現する。

We present a robot-to-human object handover algorithm and implement it on a 7-DOF arm equipped with a 3-finger mechanical hand. The system performs a fully autonomous and robust object handover to a human receiver in real-time. Our algorithm relies on two complementary sensor modalities: joint torque sensors on the arm and an eye-in-hand RGB-D camera for sensor feedback. Our approach is entirely implicit, i.e., there is no explicit communication between the robot and the human receiver. Information obtained via the aforementioned sensor modalities is used as inputs to their related deep neural networks. While the torque sensor network detects the human receiver's "intention" such as: pull, hold, or bump, the vision sensor network detects if the receiver's fingers have wrapped around the object. Networks' outputs are then fused, based on which a decision is made to either release the object or not. Despite substantive challenges in sensor feedback synchronization, object, and human hand detection, our system achieves robust robot-to-human handover with 98\% accuracy in our preliminary real experiments using human receivers.
翻訳日:2022-10-28 15:22:21 公開日:2022-10-27
# 位相的先行した不完全グラフデータからの遷移行列のベイズ推定

Bayesian Inference of Transition Matrices from Incomplete Graph Data with a Topological Prior ( http://arxiv.org/abs/2210.15410v1 )

ライセンス: Link先を確認
Vincenzo Perri, Luka V. Petrovic, Ingo Scholtes(参考訳) 多くのネットワーク解析とグラフ学習技術は、観測されたグラフの確率過程を形式化する遷移行列を推論する必要があるランダムウォークのモデルに基づいている。 重み付きグラフの場合、辺の相対重みに基づいてそのような遷移行列のエントリを推定するのが一般的である。 しかし、我々はしばしば不完全データに直面し、重み付きグラフに基づく遷移行列の構成を推論問題に変える。 さらに、重み付きグラフのどのエッジが(理論的に)可能で、例えば、輸送ネットワークでは、乗客の軌跡や接続の物理的トポロジ、あるいは基盤となる社会構造との社会的相互作用にアクセスできないかといった、システムのトポロジ上の制約を捉える追加情報へのアクセスもしばしば行われる。 これら2つの異なる情報ソースを組み合わせて遷移行列を推論することは、下流のネットワーク分析タスクに影響を及ぼすオープンチャレンジである。 このようなトポロジ的制約に関する知識を含めることで、遷移行列、特に小さなデータセットの推論を改善することができる。 遷移行列をデータ効率良く推定するための反復的相互作用と位相的手法を用いた解析的なベイズ法を導出する。 合成データセットと実世界のデータセットの両方でよく用いられる頻度主義的アプローチとベイズ的アプローチを比較し, トポロジカル制約の知識が部分的である場合においても, 高い精度で遷移確率を回復することがわかった。 最後に,クラスタ検出やノードランキングなどの下流ネットワーク解析タスクの精度向上を図り,本手法のネットワークシステム解析における実用的妥当性を強調した。

Many network analysis and graph learning techniques are based on models of random walks which require to infer transition matrices that formalize the underlying stochastic process in an observed graph. For weighted graphs, it is common to estimate the entries of such transition matrices based on the relative weights of edges. However, we are often confronted with incomplete data, which turns the construction of the transition matrix based on a weighted graph into an inference problem. Moreover, we often have access to additional information, which capture topological constraints of the system, i.e. which edges in a weighted graph are (theoretically) possible and which are not, e.g. transportation networks, where we have access to passenger trajectories as well as the physical topology of connections, or a set of social interactions with the underlying social structure. Combining these two different sources of information to infer transition matrices is an open challenge, with implications on the downstream network analysis tasks. Addressing this issue, we show that including knowledge on such topological constraints can improve the inference of transition matrices, especially for small datasets. We derive an analytically tractable Bayesian method that uses repeated interactions and a topological prior to infer transition matrices data-efficiently. We compare it against commonly used frequentist and Bayesian approaches both in synthetic and real-world datasets, and we find that it recovers the transition probabilities with higher accuracy and that it is robust even in cases when the knowledge of the topological constraint is partial. Lastly, we show that this higher accuracy improves the results for downstream network analysis tasks like cluster detection and node ranking, which highlights the practical relevance of our method for analyses of various networked systems.
翻訳日:2022-10-28 15:16:27 公開日:2022-10-27
# 最適推定のためのレグレト境界と実験設計

Regret Bounds and Experimental Design for Estimate-then-Optimize ( http://arxiv.org/abs/2210.15576v1 )

ライセンス: Link先を確認
Samuel Tan, Peter I. Frazier(参考訳) 実用的なアプリケーションでは、データは見積もりと最適化の2つのステップで決定される。 まず、機械学習モデルは、決定と結果に関する構造モデルのパラメータを推定する。 第二に、パラメータが正しく推定されたかのように、構造モデルの予測結果の最適化が決定される。 柔軟性とシンプルな実装のため、この ``estimate-then-optimize''' アプローチはデータ駆動の意思決定によく使われる。 推定ステップの誤差は、見積もりを最適化して、後悔をもたらす準最適決定、すなわち、決定と構造モデルのパラメータの知識で得られる最良の決定の値の差に導くことができる。 滑らかで制約のない最適化問題に対するこの後悔に縛られた小説を提供する。 この境界を用いて、推定パラメータがガウス以下のランダムベクトルの線形変換であるような場合、推定列最適化による後悔を最小限に抑えるための実験設計のための一般的な手順を提供する。 簡単な例とパンデミックコントロールアプリケーションについて,我々のアプローチを実証する。

In practical applications, data is used to make decisions in two steps: estimation and optimization. First, a machine learning model estimates parameters for a structural model relating decisions to outcomes. Second, a decision is chosen to optimize the structural model's predicted outcome as if its parameters were correctly estimated. Due to its flexibility and simple implementation, this ``estimate-then-optimize'' approach is often used for data-driven decision-making. Errors in the estimation step can lead estimate-then-optimize to sub-optimal decisions that result in regret, i.e., a difference in value between the decision made and the best decision available with knowledge of the structural model's parameters. We provide a novel bound on this regret for smooth and unconstrained optimization problems. Using this bound, in settings where estimated parameters are linear transformations of sub-Gaussian random vectors, we provide a general procedure for experimental design to minimize the regret resulting from estimate-then-optimize. We demonstrate our approach on simple examples and a pandemic control application.
翻訳日:2022-10-28 15:15:56 公開日:2022-10-27
# ルックアヘッドを用いた音響言語特徴を用いたスマート音声分割

Smart Speech Segmentation using Acousto-Linguistic Features with look-ahead ( http://arxiv.org/abs/2210.14446v2 )

ライセンス: Link先を確認
Piyush Behre, Naveen Parihar, Sharman Tan, Amy Shah, Eva Sharma, Geoffrey Liu, Shuangyu Chang, Hosam Khalil, Chris Basoglu, Sayan Pathak(参考訳) 連続音声認識のためのセグメンテーション(ASR)は、伝統的にサイレントタイムアウトまたは音声活動検出器(VAD)を使用しており、どちらも音響的特徴に限定されている。 このセグメンテーションは、人々が話すときに自然に立ち止まって考えるので、しばしば過度に攻撃的です。 その結果、セグメンテーションは、セグメンテーションが重要な機械翻訳のような句読点と下流のタスクの両方を妨げる。 音響特性を利用するモデルベースセグメンテーション手法は強力であるが,言語自体の理解がなければ,これらのアプローチは限定的である。 本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。 さらに,1単語をルックアヘッドとして含むとセグメンテーションの品質が向上することを示す。 平均すると、このモデルはセグメンテーションf0.5スコアをベースラインよりも9.8%向上させる。 このアプローチは複数の言語で有効であることを示す。 機械翻訳のダウンストリームタスクでは、翻訳bleuスコアを平均1.05ポイント改善する。

Segmentation for continuous Automatic Speech Recognition (ASR) has traditionally used silence timeouts or voice activity detectors (VADs), which are both limited to acoustic features. This segmentation is often overly aggressive, given that people naturally pause to think as they speak. Consequently, segmentation happens mid-sentence, hindering both punctuation and downstream tasks like machine translation for which high-quality segmentation is critical. Model-based segmentation methods that leverage acoustic features are powerful, but without an understanding of the language itself, these approaches are limited. We present a hybrid approach that leverages both acoustic and language information to improve segmentation. Furthermore, we show that including one word as a look-ahead boosts segmentation quality. On average, our models improve segmentation-F0.5 score by 9.8% over baseline. We show that this approach works for multiple languages. For the downstream task of machine translation, it improves the translation BLEU score by an average of 1.05 points.
翻訳日:2022-10-28 15:15:23 公開日:2022-10-27
# コンパクト音声表現学習による低リソース言語のための高品質ニューラルネットワークttsに向けて

Towards High-Quality Neural TTS for Low-Resource Languages by Learning Compact Speech Representations ( http://arxiv.org/abs/2210.15131v1 )

ライセンス: Link先を確認
Haohan Guo, Fenglong Xie, Xixin Wu, Hui Lu, Helen Meng(参考訳) 本稿では,コンパクトな音声表現を用いた学習データ要求を削減し,低リソースttsの向上を目指す。 Multi-Stage Multi-Codebook (MSMC) VQ-GANは、MSMCRを学習し、それを波形に復号するために訓練される。 その後、マルチステージ予測器をトレーニングし、テキストからMSMCRを予測し、TS合成を行う。 さらに,MSMCRを低リソース言語で学習するために,より多くのオーディオを活用することで,トレーニング戦略を最適化する。 話者類似度測定を用いて他の言語から音声を選択してトレーニングセットを増強し、伝達学習を適用してトレーニング品質を向上させる。 MOSテストでは、提案システムは標準および低リソースシナリオにおいてFastSpeechとVITSを著しく上回り、低いデータ要求を示す。 提案したトレーニング戦略は、波形再構成におけるMSMCRを効果的に強化する。 TTSのパフォーマンスをさらに改善し、ペアデータのわずか15分で、低リソースのTSの選好テストで77%の票を獲得した。

This paper aims to enhance low-resource TTS by reducing training data requirements using compact speech representations. A Multi-Stage Multi-Codebook (MSMC) VQ-GAN is trained to learn the representation, MSMCR, and decode it to waveforms. Subsequently, we train the multi-stage predictor to predict MSMCRs from the text for TTS synthesis. Moreover, we optimize the training strategy by leveraging more audio to learn MSMCRs better for low-resource languages. It selects audio from other languages using speaker similarity metric to augment the training set, and applies transfer learning to improve training quality. In MOS tests, the proposed system significantly outperforms FastSpeech and VITS in standard and low-resource scenarios, showing lower data requirements. The proposed training strategy effectively enhances MSMCRs on waveform reconstruction. It improves TTS performance further, which wins 77% votes in the preference test for the low-resource TTS with only 15 minutes of paired data.
翻訳日:2022-10-28 15:14:57 公開日:2022-10-27
# ドメイン内限定による自己回帰音声認識モデルの訓練

Training Autoregressive Speech Recognition Models with Limited in-domain Supervision ( http://arxiv.org/abs/2210.15135v1 )

ライセンス: Link先を確認
Chak-Fai Li, Francis Keith, William Hartmann, Matthew Snover(参考訳) 自己教師付き学習の進歩は、訓練に必要な書き起こし音声の量を大幅に削減した。 しかし、この分野の作業の大部分は読み上げスピーチに重点を置いている。 会話音声分野における限られた監督について検討する。 ドメイン内データの量は限られていると仮定する一方で、オープンソースの読み上げ音声データでモデルを増強する。 XLS-Rモデルは、限られた適応データでうまく機能し、強力なベースラインとして機能することが示されている。 自己回帰エンコーダ・デコーダモデルを用いて,自己教師あり学習と半教師あり学習に非転写データを用いる。 擬似転写にXLS-Rモデルを用いることで、ドメイン内データの書き起こしが制限された場合、はるかに小さな自己回帰モデルは微調整されたXLS-Rモデルよりも優れ、WERを最大8%削減できることを示した。

Advances in self-supervised learning have significantly reduced the amount of transcribed audio required for training. However, the majority of work in this area is focused on read speech. We explore limited supervision in the domain of conversational speech. While we assume the amount of in-domain data is limited, we augment the model with open source read speech data. The XLS-R model has been shown to perform well with limited adaptation data and serves as a strong baseline. We use untranscribed data for self-supervised learning and semi-supervised training in an autoregressive encoder-decoder model. We demonstrate that by using the XLS-R model for pseudotranscription, a much smaller autoregressive model can outperform a finetuned XLS-R model when transcribed in-domain data is limited, reducing WER by as much as 8% absolute.
翻訳日:2022-10-28 15:14:31 公開日:2022-10-27
# 自己教師付きasr領域適応のための音響ctc損失による擬似強制アライメント

Iterative pseudo-forced alignment by acoustic CTC loss for self-supervised ASR domain adaptation ( http://arxiv.org/abs/2210.15226v1 )

ライセンス: Link先を確認
Fernando L\'opez and Jordi Luque(参考訳) 特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。 本研究では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。 生成したアライメントは、エンドツーエンドの自動音声認識(ASR)をカスタマイズし、反復的に洗練される。 このアルゴリズムは、シードASRによって生成されたフレームワイド文字後部で供給され、ドメイン外のデータで訓練され、Connectionist Temporal Classification (CTC) の損失を通じて最適化される。 アライメントは、放送テレビのコーパス上で反復的に計算される。 最善のオーディオテキストアライメントを見つけるまで、アライメントするテキストの量を減らしたり、アライメントウィンドウを広げたりすることで、プロセスを繰り返す。 開始タイムスタンプ(temporal anchor)は、最後のアライメントされた発話の信頼度スコアに基づいて独特に生成される。 このスコアは、CTCアライメント行列のパスで計算される。 この手法では、人間が指定したテキスト参照は不要である。 長いオーディオファイルからテレビキャプションのような低品質な書き起こしのアライメントは信頼度スコアでフィルタリングされ、さらにasrに適応する準備ができています。 得られた結果は、スペインのrtve2022データベースとcommonvoiceデータベースの両方において、高精度なオーディオテキストアライメント、ドメイン適応、エンドツーエンドasrの半教師付きトレーニングという、ctcベースのシステムの実現可能性を支えるものであった。

High-quality data labeling from specific domains is costly and human time-consuming. In this work, we propose a self-supervised domain adaptation method, based upon an iterative pseudo-forced alignment algorithm. The produced alignments are employed to customize an end-to-end Automatic Speech Recognition (ASR) and iteratively refined. The algorithm is fed with frame-wise character posteriors produced by a seed ASR, trained with out-of-domain data, and optimized throughout a Connectionist Temporal Classification (CTC) loss. The alignments are computed iteratively upon a corpus of broadcast TV. The process is repeated by reducing the quantity of text to be aligned or expanding the alignment window until finding the best possible audio-text alignment. The starting timestamps, or temporal anchors, are produced uniquely based on the confidence score of the last aligned utterance. This score is computed with the paths of the CTC-alignment matrix. With this methodology, no human-revised text references are required. Alignments from long audio files with low-quality transcriptions, like TV captions, are filtered out by confidence score and ready for further ASR adaptation. The obtained results, on both the Spanish RTVE2022 and CommonVoice databases, underpin the feasibility of using CTC-based systems to perform: highly accurate audio-text alignments, domain adaptation and semi-supervised training of end-to-end ASR.
翻訳日:2022-10-28 15:14:16 公開日:2022-10-27
# ウェイト平均化:自動音声認識におけるカタストロフィック予測を克服するシンプルで効果的な方法

Weight Averaging: A Simple Yet Effective Method to Overcome Catastrophic Forgetting in Automatic Speech Recognition ( http://arxiv.org/abs/2210.15282v1 )

ライセンス: Link先を確認
Steven Vander Eeckt and Hugo Van hamme(参考訳) 訓練された自動音声認識(ASR)モデルを新しいタスクに適用すると、古いタスクが壊滅的に忘れられ、モデルの継続的な学習能力が制限され、新しい話者、方言、言語などに拡張される。 本稿では,終末から終末までのASRに着目し,破滅的忘れを克服する簡単な方法を提案する。 従来モデルと適応モデルの平均値を取るだけで,従来のタスクと新しいタスクの両方において高い性能が得られる。 適応中に知識蒸留損失を導入することでさらに改善することができる。 単言語および多言語ASRにおける本手法の有効性について述べる。 どちらの場合も、最も単純な形式であっても、本手法はすべてのベースラインを強く上回る。

Adapting a trained Automatic Speech Recognition (ASR) model to new tasks results in catastrophic forgetting of old tasks, limiting the model's ability to learn continually and to be extended to new speakers, dialects, languages, etc. Focusing on End-to-End ASR, in this paper, we propose a simple yet effective method to overcome catastrophic forgetting: weight averaging. By simply taking the average of the previous and the adapted model, our method achieves high performance on both the old and new tasks. It can be further improved by introducing a knowledge distillation loss during the adaptation. We illustrate the effectiveness of our method on both monolingual and multilingual ASR. In both cases, our method strongly outperforms all baselines, even in its simplest form.
翻訳日:2022-10-28 15:13:50 公開日:2022-10-27
# SAN: 堅牢なエンドツーエンドのASRモデルアーキテクチャ

SAN: a robust end-to-end ASR model architecture ( http://arxiv.org/abs/2210.15285v1 )

ライセンス: Link先を確認
Zeping Min, Qian Ge, Guanhua Huang(参考訳) 本稿では,ファジィ音声認識の難易度を解消することを目的とした,自動音声認識のためのsiamese adversarial network(san)アーキテクチャを提案する。 具体的には、音声特徴入力を区別するために2つのサブネットワークを構築し、これらのサブネットワークの出力分布を統合するために損失を導入する。 敵対学習により、ネットワークはより重要な音響的特徴を捉え、ファジィオーディオ入力に遭遇する際のモデルの性能向上を支援する。 音声認識タスクのための複数のデータセット上でSANモデルを用いて数値実験を行う。 全ての実験結果から,シアム対逆ネットは文字誤り率(CER)を著しく低下させることが示された。 具体的には,aishell-1データセット上で言語モデルなしでart 4.37 cerを新たに実現することで,約5%のcer削減を実現する。 また,sahese adversarial netの汎用性を明らかにするために,sahese adversarial networkの優位性を示す音素認識タスクについても実験を行った。

In this paper, we propose a novel Siamese Adversarial Network (SAN) architecture for automatic speech recognition, which aims at solving the difficulty of fuzzy audio recognition. Specifically, SAN constructs two sub-networks to differentiate the audio feature input and then introduces a loss to unify the output distribution of these sub-networks. Adversarial learning enables the network to capture more essential acoustic features and helps the models achieve better performance when encountering fuzzy audio input. We conduct numerical experiments with the SAN model on several datasets for the automatic speech recognition task. All experimental results show that the siamese adversarial nets significantly reduce the character error rate (CER). Specifically, we achieve a new state of art 4.37 CER without language model on the AISHELL-1 dataset, which leads to around 5% relative CER reduction. To reveal the generality of the siamese adversarial net, we also conduct experiments on the phoneme recognition task, which also shows the superiority of the siamese adversarial network.
翻訳日:2022-10-28 15:13:38 公開日:2022-10-27
# FCTalker:表現的会話音声合成のための微細・粗粒コンテキストモデリング

FCTalker: Fine and Coarse Grained Context Modeling for Expressive Conversational Speech Synthesis ( http://arxiv.org/abs/2210.15360v1 )

ライセンス: Link先を確認
Yifan Hu, Rui Liu, Guanglai Gao, Haizhou Li(参考訳) Conversational Text-to-Speech (TTS) は、会話の文脈において適切な言語的・感情的な韻律で発話を合成することを目的としている。 合成音声の表現性を向上させるために, 現在の発話と発話レベルの対話履歴の相関式を用いた。 しかし,単語レベルでの対話履歴のきめ細かい情報もまた,従来の研究では十分に研究されていない発話の韻律表現に重要な影響を与えている。 そこで本研究では,音声生成時の微妙で粗い文脈依存性を同時に学習する,新しい表現型会話型TSモデルFCTalkerを提案する。 特に、fctalkerは、ワードおよび発話レベルのコンテキスト依存性を利用するための細粒度および粗粒度エンコーダを含む。 発話と対話履歴の間の単語レベルの依存関係をモデル化するために,対話BERTモデル上に細粒度対話エンコーダを構築する。 実験の結果,提案手法はすべてのベースラインを上回り,文脈的に適切な表現的音声を生成することがわかった。 ソースコードはhttps://github.com/walker-hyf/fctalker.com/。

Conversational Text-to-Speech (TTS) aims to synthesis an utterance with the right linguistic and affective prosody in a conversational context. The correlation between the current utterance and the dialogue history at the utterance level was used to improve the expressiveness of synthesized speech. However, the fine-grained information in the dialogue history at the word level also has an important impact on the prosodic expression of an utterance, which has not been well studied in the prior work. Therefore, we propose a novel expressive conversational TTS model, termed as FCTalker, that learn the fine and coarse grained context dependency at the same time during speech generation. Specifically, the FCTalker includes fine and coarse grained encoders to exploit the word and utterance-level context dependency. To model the word-level dependencies between an utterance and its dialogue history, the fine-grained dialogue encoder is built on top of a dialogue BERT model. The experimental results show that the proposed method outperforms all baselines and generates more expressive speech that is contextually appropriate. We release the source code at: https://github.com/walker-hyf/FCTalker.
翻訳日:2022-10-28 15:13:21 公開日:2022-10-27
# 強化学習に基づく情報融合によるハイブリッド屋内定位

Hybrid Indoor Localization via Reinforcement Learning-based Information Fusion ( http://arxiv.org/abs/2210.15132v1 )

ライセンス: Link先を確認
Mohammad Salimibeni, Arash Mohammadi(参考訳) この論文は,グローバル都市化の将来管理におけるスマートシティ(SC)の概念の重要性を動機としている。 モノのインターネット(IoT)ベースの通信技術の中で、Bluetooth Low Energy(BLE)は都市全体の意思決定とサービスにおいて重要な役割を果たす。 しかし、受信信号強度指標(RSSI)の極端変動は、常に変化するSC環境に対する動的屋内追跡/局所化アプローチにおいて、この技術が確実な精度で信頼性の高いソリューションにならないようにする。 ble v.5.1の最新バージョンは、より信頼性の高い到着角(aoa)に基づいた方向検出アプローチを利用することで、ユーザを追跡する可能性を高めた。 まだいくつかの根本的な問題が残っている。 既存の作業は主に、潜在的な融合戦略を見下ろすスタンドアロンモデルの実装に重点を置いている。 本稿では、このギャップに対処し、AoAとRSSIに基づく粒子フィルタリングと慣性測定ユニット(IMU)に基づくPDR(Pedestrian Dead Reckoning)フレームワークを結合することにより、新しい強化学習(RL)ベースの情報融合フレームワーク(RL-IFF)を提案する。 提案したRL-IFFソリューションは, 優れた性能を示す総合的な実験によって評価される。

The paper is motivated by the importance of the Smart Cities (SC) concept for future management of global urbanization. Among all Internet of Things (IoT)-based communication technologies, Bluetooth Low Energy (BLE) plays a vital role in city-wide decision making and services. Extreme fluctuations of the Received Signal Strength Indicator (RSSI), however, prevent this technology from being a reliable solution with acceptable accuracy in the dynamic indoor tracking/localization approaches for ever-changing SC environments. The latest version of the BLE v.5.1 introduced a better possibility for tracking users by utilizing the direction finding approaches based on the Angle of Arrival (AoA), which is more reliable. There are still some fundamental issues remaining to be addressed. Existing works mainly focus on implementing stand-alone models overlooking potentials fusion strategies. The paper addresses this gap and proposes a novel Reinforcement Learning (RL)-based information fusion framework (RL-IFF) by coupling AoA with RSSI-based particle filtering and Inertial Measurement Unit (IMU)-based Pedestrian Dead Reckoning (PDR) frameworks. The proposed RL-IFF solution is evaluated through a comprehensive set of experiments illustrating superior performance compared to its counterparts.
翻訳日:2022-10-28 15:06:29 公開日:2022-10-27
# 自動注意:ユーザ行動モデリングにおける注意のためのフィールドペア選択

AutoAttention: Automatic Field Pair Selection for Attention in User Behavior Modeling ( http://arxiv.org/abs/2210.15154v1 )

ライセンス: Link先を確認
Zuowu Zheng, Xiaofeng Gao, Junwei Pan, Qi Luo, Guihai Chen, Dapeng Liu, Jie Jiang(参考訳) クリックスルー率(CTR)予測モデルでは、ユーザーの興味は通常、履歴行動に基づいて固定長ベクトルとして表現される。 近年,各ユーザ行動の注意重みを学習し,重み付き総和プールを行う手法が提案されている。 しかし、これらのメソッドは、振る舞いとやりとりするためのクエリとして、ターゲットアイテム側からいくつかのフィールドを手動で選択するだけで、他のターゲットアイテムフィールドやユーザーおよびコンテキストフィールドを無視する。 注意にこれらのフィールドを全て含むとノイズが発生し、パフォーマンスが低下する可能性がある。 本稿では,すべての項目/ユーザ/コンテキスト側フィールドをクエリとして含むAutoAttentionという新しいモデルを提案し,動作フィールドとクエリフィールド間の各フィールドペアに対して学習可能な重みを割り当てる。 これらの学習可能な重みを通したフィールドペアのプルーニングは、ノイズのあるフィールドペアを識別および除去するために、自動フィールドペア選択につながる。 多くのフィールドを含むが、単純な注意関数とフィールドペア選択を用いることにより、AutoAttentionの計算コストは依然として低い。 パブリックデータセットとtencentのプロダクションデータセットに関する広範な実験は、提案手法の有効性を示している。

In Click-through rate (CTR) prediction models, a user's interest is usually represented as a fixed-length vector based on her history behaviors. Recently, several methods are proposed to learn an attentive weight for each user behavior and conduct weighted sum pooling. However, these methods only manually select several fields from the target item side as the query to interact with the behaviors, neglecting the other target item fields, as well as user and context fields. Directly including all these fields in the attention may introduce noise and deteriorate the performance. In this paper, we propose a novel model named AutoAttention, which includes all item/user/context side fields as the query, and assigns a learnable weight for each field pair between behavior fields and query fields. Pruning on these field pairs via these learnable weights lead to automatic field pair selection, so as to identify and remove noisy field pairs. Though including more fields, the computation cost of AutoAttention is still low due to using a simple attention function and field pair selection. Extensive experiments on the public dataset and Tencent's production dataset demonstrate the effectiveness of the proposed approach.
翻訳日:2022-10-28 15:06:07 公開日:2022-10-27
# copilotとの会話: 自然言語を用いたcs1問題解決のためのプロンプトエンジニアリングの検討

Conversing with Copilot: Exploring Prompt Engineering for Solving CS1 Problems Using Natural Language ( http://arxiv.org/abs/2210.15157v1 )

ライセンス: Link先を確認
Paul Denny and Viraj Kumar and Nasser Giacaman(参考訳) GitHub Copilotは、自然言語の問題記述からソースコードを自動的に生成する人工知能モデルである。 2022年6月以降、CopilotはVisual Studio Codeのような開発環境へのプラグインとして、すべての学生に無料で提供されている。 Copilotの基盤となるモデルであるOpenAI Codexを探索する以前の作業は、典型的なCS1問題に対してうまく機能していることを示しており、導入プログラミングコースの教育方法に対する影響に対する懸念を提起している。 しかし、Copilotがうまく機能しない問題の種類や、エラーを解決する際に学生がCopilotと持つ自然言語の相互作用についてはほとんど知られていない。 本稿では,166のプログラム問題の公開データセット上で,copilotのパフォーマンスを評価することにより,これらの疑問を考察する。 最初の試みで、これらの問題の約半分をうまく解決し、問題記述に対する自然言語の変更だけで、残りの問題の60%を解決していることがわかった。 この種のプロンプトエンジニアリングは、最初に失敗すれば人間とコピロットの間の標準的なインタラクションになると信じており、計算思考スキルを促進する潜在的に有用な学習活動であり、コード記述スキル開発の性質を変える可能性がある。

GitHub Copilot is an artificial intelligence model for automatically generating source code from natural language problem descriptions. Since June 2022, Copilot has officially been available for free to all students as a plug-in to development environments like Visual Studio Code. Prior work exploring OpenAI Codex, the underlying model that powers Copilot, has shown it performs well on typical CS1 problems thus raising concerns about the impact it will have on how introductory programming courses are taught. However, little is known about the types of problems for which Copilot does not perform well, or about the natural language interactions that a student might have with Copilot when resolving errors. We explore these questions by evaluating the performance of Copilot on a publicly available dataset of 166 programming problems. We find that it successfully solves around half of these problems on its very first attempt, and that it solves 60\% of the remaining problems using only natural language changes to the problem description. We argue that this type of prompt engineering, which we believe will become a standard interaction between human and Copilot when it initially fails, is a potentially useful learning activity that promotes computational thinking skills, and is likely to change the nature of code writing skill development.
翻訳日:2022-10-28 15:05:47 公開日:2022-10-27
# 人工知能のガバナンスツールとしての倫理の効率性について

On the Efficiency of Ethics as a Governing Tool for Artificial Intelligence ( http://arxiv.org/abs/2210.15289v1 )

ライセンス: Link先を確認
Nicholas Kluge Corr\^ea and Nythamar De Oliveira and Diogo Massmann(参考訳) 第4次産業革命はデジタル時代の頂点である。 現在、ロボット工学、ナノテクノロジー、遺伝学、人工知能といった技術は、私たちの世界と私たちの生活方法を変えることを約束しています。 人工知能の倫理と安全性は、近年人気が高まっている新しい研究分野である。 いくつかの民間、公共、非政府組織は、自律的なインテリジェントシステムの使用と開発を規制するための倫理的原則を提案するガイドラインを公表した。 AI倫理研究分野のメタ分析は、AI産業を支配するとされる特定の原則に収束することを示している。 しかし、この形態の倫理の有効性についてはほとんど分かっていない。 本稿では、AI倫理の現状を批判的に分析し、原則化された倫理ガイドラインに基づくガバナンスの形式は、AI産業とその開発者を規範するのに十分ではないことを示唆する。 ソフトウェアやインテリジェントシステムの開発に関連する分野におけるプロフェッショナルのトレーニングプロセスや、これらのプロフェッショナルとその産業の規制の増大において、劇的な変化が必要であると我々は信じている。 この目的のために、法律は、ai倫理のガバナンスへの貢献を法的用語で明示するために、バイオ倫理からの最近の貢献から恩恵を受けるべきである。

The 4th Industrial Revolution is the culmination of the digital age. Nowadays, technologies such as robotics, nanotechnology, genetics, and artificial intelligence promise to transform our world and the way we live. Artificial Intelligence Ethics and Safety is an emerging research field that has been gaining popularity in recent years. Several private, public and non-governmental organizations have published guidelines proposing ethical principles for regulating the use and development of autonomous intelligent systems. Meta-analyses of the AI Ethics research field point to convergence on certain principles that supposedly govern the AI industry. However, little is known about the effectiveness of this form of Ethics. In this paper, we would like to conduct a critical analysis of the current state of AI Ethics and suggest that this form of governance based on principled ethical guidelines is not sufficient to norm the AI industry and its developers. We believe that drastic changes are necessary, both in the training processes of professionals in the fields related to the development of software and intelligent systems and in the increased regulation of these professionals and their industry. To this end, we suggest that law should benefit from recent contributions from bioethics, to make the contributions of AI ethics to governance explicit in legal terms.
翻訳日:2022-10-28 15:05:25 公開日:2022-10-27
# 自動走行の臨界性説明のための因果関係の把握

Grasping Causality for the Explanation of Criticality for Automated Driving ( http://arxiv.org/abs/2210.15375v1 )

ライセンス: Link先を確認
Tjark Koopmann and Christian Neurohr and Lina Putze and Lukas Westhofen and Roman Gansch and Ahmad Adee(参考訳) SAEレベル4と5における自動運転システムの検証と検証は、古典的な統計的考察が実現不可能な多面的課題である。 このために、現代のアプローチは、臨界性の出現に関する統計分析と組み合わせたシナリオクラスへの分解を示唆している。 残念なことに、これらの連想的アプローチは、スプリアスな推論を生じさせるかもしれないし、さらに悪いことに、重要なシナリオにつながる因果を認識できないかもしれない。 これらのプロセスに因果的知識を組み込むため、この研究は、自動化運転における安全関連要因の因果的理解を促進する因果的クエリの形式化を導入する。 この形式化された因果知識は、これらの影響要因に関連する臨界性を確実に低減する抽象的安全原則の特定と実装に使用できる。 ジューデア・パールの因果理論に基づいて、因果関係を文脈とともに因果構造として定義し、それらの要因が臨界性に与える影響を適切な計量で測定することに焦点を当てる。 モデリングの品質を評価するために,様々な量を提案し,小さな例で評価する。 因果クエリに対する応答を正当に推定するためにデータの可用性と品質が不可欠であるため、実世界および合成データ取得の要件についても論じる。 そこで我々は,自動運転システムの安全運転を確保するために,緊急に必要な安全プロセスの中心に因果的配慮を確立することに貢献する。

The verification and validation of automated driving systems at SAE levels 4 and 5 is a multi-faceted challenge for which classical statistical considerations become infeasible. For this, contemporary approaches suggest a decomposition into scenario classes combined with statistical analysis thereof regarding the emergence of criticality. Unfortunately, these associational approaches may yield spurious inferences, or worse, fail to recognize the causalities leading to critical scenarios, which are, in turn, prerequisite for the development and safeguarding of automated driving systems. As to incorporate causal knowledge within these processes, this work introduces a formalization of causal queries whose answers facilitate a causal understanding of safety-relevant influencing factors for automated driving. This formalized causal knowledge can be used to specify and implement abstract safety principles that provably reduce the criticality associated with these influencing factors. Based on Judea Pearl's causal theory, we define a causal relation as a causal structure together with a context, both related to a domain ontology, where the focus lies on modeling the effect of such influencing factors on criticality as measured by a suitable metric. As to assess modeling quality, we suggest various quantities and evaluate them on a small example. As availability and quality of data are imperative for validly estimating answers to the causal queries, we also discuss requirements on real-world and synthetic data acquisition. We thereby contribute to establishing causal considerations at the heart of the safety processes that are urgently needed as to ensure the safe operation of automated driving systems.
翻訳日:2022-10-28 15:05:07 公開日:2022-10-27
# 高次元分類データのためのグループラッソの改良

Improving Group Lasso for high-dimensional categorical data ( http://arxiv.org/abs/2210.14021v2 )

ライセンス: Link先を確認
Szymon Nowakowski, Piotr Pokarowski, Wojciech Rejchel(参考訳) 1つのパラメータが1つのカテゴリやレベルを大まかにエンコードする必要があるため、中程度の変数でも、カテゴリデータによるスパースモデリングやモデル選択は難しい。 群lassoは連続変数またはカテゴリ変数を選択するためのよく知られた効率的なアルゴリズムであるが、選択された因子に関する全ての推定は通常異なる。 したがって、適合したモデルがスパースしない場合があるため、モデル解釈が困難になる。 グループラッソのスパース解を得るためには、まず、グループラッソを用いてデータ次元を減らし、次に、各因子のクラスタリングレベルによって準備された小さなモデルの情報基準を用いて最終モデルを選択する。 スパース高次元シナリオにおけるアルゴリズムの選択精度について検討する。 また,本手法を実際のデータセットと合成で検証し,予測精度やモデル次元に関して,技術アルゴリズムの状態よりも優れた性能を示すことを示す。

Sparse modelling or model selection with categorical data is challenging even for a moderate number of variables, because one parameter is roughly needed to encode one category or level. The Group Lasso is a well known efficient algorithm for selection continuous or categorical variables, but all estimates related to a selected factor usually differ. Therefore, a fitted model may not be sparse, which makes the model interpretation difficult. To obtain a sparse solution of the Group Lasso we propose the following two-step procedure: first, we reduce data dimensionality using the Group Lasso; then to choose the final model we use an information criterion on a small family of models prepared by clustering levels of individual factors. We investigate selection correctness of the algorithm in a sparse high-dimensional scenario. We also test our method on synthetic as well as real datasets and show that it performs better than the state of the art algorithms with respect to the prediction accuracy or model dimension.
翻訳日:2022-10-28 15:04:41 公開日:2022-10-27
# 平均場ニューラルネットワーク:wasserstein空間上の学習マッピング

Mean-field neural networks: learning mappings on Wasserstein space ( http://arxiv.org/abs/2210.15179v1 )

ライセンス: Link先を確認
Huy\^en Pham and Xavier Warin(参考訳) 確率測度のワッサーシュタイン空間と,平均場ゲームや制御問題などの関数空間を対応づけたモデルに対する機械学習タスクについて検討する。 これらの平均場関数を学習するために,ビン密度と円筒近似に基づく2種類のニューラルネットワークが提案され,理論上は普遍近似定理によって支持されている。 これら2つの平均場ニューラルネットワークを訓練するための数値実験を行い、様々なテスト分布を持つ一般化誤差の精度と効率を示す。 最後に,時間依存平均場問題を解決するために平均場ニューラルネットワークに依存する異なるアルゴリズムを示し,確率測度のワッサースタイン空間における半線形偏微分方程式の例として数値実験を行った。

We study the machine learning task for models with operators mapping between the Wasserstein space of probability measures and a space of functions, like e.g. in mean-field games/control problems. Two classes of neural networks, based on bin density and on cylindrical approximation, are proposed to learn these so-called mean-field functions, and are theoretically supported by universal approximation theorems. We perform several numerical experiments for training these two mean-field neural networks, and show their accuracy and efficiency in the generalization error with various test distributions. Finally, we present different algorithms relying on mean-field neural networks for solving time-dependent mean-field problems, and illustrate our results with numerical tests for the example of a semi-linear partial differential equation in the Wasserstein space of probability measures.
翻訳日:2022-10-28 15:04:14 公開日:2022-10-27
# 一般化ラプラシア正規化フレームレットGCN

Generalized Laplacian Regularized Framelet GCNs ( http://arxiv.org/abs/2210.15092v1 )

ライセンス: Link先を確認
Zhiqi Shao, Andi Han, Dai Shi, Andrey Vasnev and Junbin Gao(参考訳) 本稿では,p-Laplacian GNNに基づく新しいフレームレットグラフ手法を提案する。 提案した2つのモデル、p-Laplacian undecimated framelet graph convolution (pL-UFG) と一般化されたp-Laplacian undecimated framelet graph convolution (pL-fUFG) は、グラフ信号の多重分解の表現力でp-Laplacianの性質を継承する。 実験では,ノード分類や信号の復調を含むグラフ学習タスクにおいて,pL-UFGとpL-fUFGの優れた性能を強調した。

This paper introduces a novel Framelet Graph approach based on p-Laplacian GNN. The proposed two models, named p-Laplacian undecimated framelet graph convolution (pL-UFG) and generalized p-Laplacian undecimated framelet graph convolution (pL-fUFG) inherit the nature of p-Laplacian with the expressive power of multi-resolution decomposition of graph signals. The empirical study highlights the excellent performance of the pL-UFG and pL-fUFG in different graph learning tasks including node classification and signal denoising.
翻訳日:2022-10-28 14:57:53 公開日:2022-10-27
# 自己スーパービジョンを用いたフェデレーショングラフ表現学習

Federated Graph Representation Learning using Self-Supervision ( http://arxiv.org/abs/2210.15120v1 )

ライセンス: Link先を確認
Susheel Suresh, Danny Godbout, Arko Mukherjee, Mayank Shrivastava, Jennifer Neville, Pan Li(参考訳) フェデレートグラフ表現学習(FedGRL)は、データキュレーションに関連するプライバシーとコンプライアンスの問題に対処しながら、構造化データに分散トレーニングの利点をもたらす。 しかし、現在のFedGRLでは、ラベル不足や下流タスクの不均一性といった興味深い実世界のグラフデータの特徴を考慮に入れていない。 本稿では,クロスサイロクライアントがラベル付きデータやラベル付きデータを持たない膨大な量のラベル付きデータにアクセスでき,さらに下流のクラスラベルドメインも多様である,現実的で斬新な問題設定を考える。 そこで我々は,自己監督目的を用いて協調的に最適化し,ローカルクライアントモデルを通じて下流タスクを監督する共有グローバルモデルを学ぶことを目的とした,モデル補間に基づく新しいfeedgrl定式化を提案する。 我々は,SoTAの自己教師付きグラフ表現学習手法であるBGRLを用いて,汎用的な定式化の特定インスタンス化を行い,その有効性を現実的なクロススリオデータセットを通じて実証的に検証する。 6.1%が従来の教師付きフェデレーション学習目標およびavgを上回ります。 個々のクライアント固有の自己教師付きトレーニングと比較して1.7%向上し、(2)モチベーション問題の設定の特徴を持つamazon co-purchase networkと呼ばれる新しいクロスサイロデータセットを構築し、導入しました。 そして、私たちはavgを目撃します。 11.5%が従来の教師付きフェデレーション学習とavgで得ている。 個別に訓練された自己監督モデルに対する1.9%の上昇。 両方の実験結果から,提案手法の有効性が示唆された。 最後に、新しい問題設定とデータセットのコントリビューションの両方が、FedGRLの研究に新たな道を提供する。

Federated graph representation learning (FedGRL) brings the benefits of distributed training to graph structured data while simultaneously addressing some privacy and compliance concerns related to data curation. However, several interesting real-world graph data characteristics viz. label deficiency and downstream task heterogeneity are not taken into consideration in current FedGRL setups. In this paper, we consider a realistic and novel problem setting, wherein cross-silo clients have access to vast amounts of unlabeled data with limited or no labeled data and additionally have diverse downstream class label domains. We then propose a novel FedGRL formulation based on model interpolation where we aim to learn a shared global model that is optimized collaboratively using a self-supervised objective and gets downstream task supervision through local client models. We provide a specific instantiation of our general formulation using BGRL a SoTA self-supervised graph representation learning method and we empirically verify its effectiveness through realistic cross-slio datasets: (1) we adapt the Twitch Gamer Network which naturally simulates a cross-geo scenario and show that our formulation can provide consistent and avg. 6.1% gains over traditional supervised federated learning objectives and on avg. 1.7% gains compared to individual client specific self-supervised training and (2) we construct and introduce a new cross-silo dataset called Amazon Co-purchase Networks that have both the characteristics of the motivated problem setting. And, we witness on avg. 11.5% gains over traditional supervised federated learning and on avg. 1.9% gains over individually trained self-supervised models. Both experimental results point to the effectiveness of our proposed formulation. Finally, both our novel problem setting and dataset contributions provide new avenues for the research in FedGRL.
翻訳日:2022-10-28 14:57:38 公開日:2022-10-27
# モデルパラメータを用いたメタ強化学習

Meta-Reinforcement Learning Using Model Parameters ( http://arxiv.org/abs/2210.15515v1 )

ライセンス: Link先を確認
Gabriel Hartmann and Amos Azaria(参考訳) メタ強化学習では、エージェントは複数の異なる環境で訓練され、新しい環境に効率的に適応できるメタポリシーを学習しようとする。 本稿では,環境ダイナミクスを予測するニューラルネットワークが環境情報をカプセル化するという考えを活かしたモデルパラメータを用いた強化学習エージェントであるsmpを提案する。 RAMPは2つのフェーズで構築される。第1フェーズでは、マルチ環境パラメータ化動的モデルが学習される。 第2フェーズでは、モデルフリー強化学習エージェントのマルチ環境ポリシーのコンテキストとして、動的モデルのモデルパラメータが使用される。

In meta-reinforcement learning, an agent is trained in multiple different environments and attempts to learn a meta-policy that can efficiently adapt to a new environment. This paper presents RAMP, a Reinforcement learning Agent using Model Parameters that utilizes the idea that a neural network trained to predict environment dynamics encapsulates the environment information. RAMP is constructed in two phases: in the first phase, a multi-environment parameterized dynamic model is learned. In the second phase, the model parameters of the dynamic model are used as context for the multi-environment policy of the model-free reinforcement learning agent.
翻訳日:2022-10-28 14:57:07 公開日:2022-10-27
# ヘテロジニアスフェデレーション学習における特徴とロジットの活用

Exploiting Features and Logits in Heterogeneous Federated Learning ( http://arxiv.org/abs/2210.15527v1 )

ライセンス: Link先を確認
Yun-Hin Chan, Edith C.-H. Ngai(参考訳) IoTと人工知能の急速な成長により、IoTデバイスにニューラルネットワークをデプロイすることが、エッジインテリジェンスにとってますます重要になっている。 フェデレーション学習(fl)は、トレーニングデータをローカルおよびプライベートに保持しながら、共有モデルを協調的にトレーニングするためのエッジデバイスの管理を促進する。 しかし、FLにおける一般的な仮定は、すべてのエッジデバイスが同じ機械学習モデルでトレーニングされているということである。 例えば、能力の低いデバイスは、通常のデバイスに適した大きなモデルを扱うのに苦労するため、更新プロセスが遅くなる可能性がある。 本稿では,feloと呼ばれる機能とロジットを管理することで異種クライアントモデルをサポートする新しいデータフリーfl手法と,veloと呼ばれる条件付きvaeをサーバにデプロイした拡張を提案する。 Feloは、クライアントモデルのさらなるトレーニングに使用される平均機能とログを提供するために、クラスラベルに基づいて、サーバのミドルレベルの機能とログを平均化します。 feloとは異なり、サーバはveloに条件付きvaeを持ち、中レベルの機能をトレーニングし、ラベルに従って合成機能を生成するために使用される。 クライアントは、合成機能と平均ロジットに基づいてモデルを最適化する。 2つのデータセットで実験を行い、最先端の手法と比較して、提案手法の良好な性能を示す。

Due to the rapid growth of IoT and artificial intelligence, deploying neural networks on IoT devices is becoming increasingly crucial for edge intelligence. Federated learning (FL) facilitates the management of edge devices to collaboratively train a shared model while maintaining training data local and private. However, a general assumption in FL is that all edge devices are trained on the same machine learning model, which may be impractical considering diverse device capabilities. For instance, less capable devices may slow down the updating process because they struggle to handle large models appropriate for ordinary devices. In this paper, we propose a novel data-free FL method that supports heterogeneous client models by managing features and logits, called Felo; and its extension with a conditional VAE deployed in the server, called Velo. Felo averages the mid-level features and logits from the clients at the server based on their class labels to provide the average features and logits, which are utilized for further training the client models. Unlike Felo, the server has a conditional VAE in Velo, which is used for training mid-level features and generating synthetic features according to the labels. The clients optimize their models based on the synthetic features and the average logits. We conduct experiments on two datasets and show satisfactory performances of our methods compared with the state-of-the-art methods.
翻訳日:2022-10-28 14:56:57 公開日:2022-10-27
# 成長確率グラフによるグラフニューラルネットワークの学習

Training Graph Neural Networks on Growing Stochastic Graphs ( http://arxiv.org/abs/2210.15567v1 )

ライセンス: Link先を確認
Juan Cervino, Luana Ruiz, Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(gnns)は、グラフ畳み込みを利用して、ネットワーク化されたデータの有意義なパターンを利用する。 行列の乗算に基づいて、畳み込みは計算コストが高く、実際はスケーラビリティの限界に繋がる。 これらの制限を克服するため、提案手法はより少ないノード数でGNNを訓練し、GNNをより大きなグラフに転送する。 これらの方法は、異なるノード数でgnnの出力間の差を限定することができるが、非常に大きなグラフ上の最適なgnnに対する保証を提供していない。 本稿では,成長するグラフ列の極限オブジェクトであるグラフオンを利用して,非常に大きなグラフ上のGNNを学習することを提案する。 我々は,学習中のグラフの大きさを増加させることを提案し,提案手法 -- 転移による学習 -- がグラフデータの1次静止点近傍に収束することを示す。 数値実験により提案手法を検証した。

Graph Neural Networks (GNNs) rely on graph convolutions to exploit meaningful patterns in networked data. Based on matrix multiplications, convolutions incur in high computational costs leading to scalability limitations in practice. To overcome these limitations, proposed methods rely on training GNNs in smaller number of nodes, and then transferring the GNN to larger graphs. Even though these methods are able to bound the difference between the output of the GNN with different number of nodes, they do not provide guarantees against the optimal GNN on the very large graph. In this paper, we propose to learn GNNs on very large graphs by leveraging the limit object of a sequence of growing graphs, the graphon. We propose to grow the size of the graph as we train, and we show that our proposed methodology -- learning by transference -- converges to a neighborhood of a first order stationary point on the graphon data. A numerical experiment validates our proposed approach.
翻訳日:2022-10-28 14:56:36 公開日:2022-10-27
# 関数制約によるマルチタスクバイアス分散トレードオフ

Multi-task Bias-Variance Trade-off Through Functional Constraints ( http://arxiv.org/abs/2210.15573v1 )

ライセンス: Link先を確認
Juan Cervino, Juan Andres Bazerque, Miguel Calvo-Fullana, Alejandro Ribeiro(参考訳) マルチタスク学習(multi-task learning)は,レグレッシャあるいは分類器といった,さまざまなタスクに適した関数セットの獲得を目標とする。 マルチタスク学習の背景にある考え方は、各ドメインの学習プロセスを支援するために、データソース間の固有の類似性を活用することだ。 本稿では,2つの極端な学習シナリオ – すべてのタスクに対する単一関数,他のタスク依存を無視したタスク固有関数 – から直観を抽出し,バイアス分散トレードオフを提案する。 分散(i.d.サンプル数で表される)とバイアス(他のタスクのデータから来る)の関係を制御するために,ドメイン固有解を中心関数に近づけるように制約付き学習定式化を導入する。 この問題は双対領域で解かれ、確率的原始双対アルゴリズムを提案する。 実データを用いたマルチドメイン分類問題の実験結果から,提案手法はタスク固有性および単一分類器よりも優れていることがわかった。

Multi-task learning aims to acquire a set of functions, either regressors or classifiers, that perform well for diverse tasks. At its core, the idea behind multi-task learning is to exploit the intrinsic similarity across data sources to aid in the learning process for each individual domain. In this paper we draw intuition from the two extreme learning scenarios -- a single function for all tasks, and a task-specific function that ignores the other tasks dependencies -- to propose a bias-variance trade-off. To control the relationship between the variance (given by the number of i.i.d. samples), and the bias (coming from data from other task), we introduce a constrained learning formulation that enforces domain specific solutions to be close to a central function. This problem is solved in the dual domain, for which we propose a stochastic primal-dual algorithm. Experimental results for a multi-domain classification problem with real data show that the proposed procedure outperforms both the task specific, as well as the single classifiers.
翻訳日:2022-10-28 14:56:22 公開日:2022-10-27
# 部分観察による連続領域における確率的Sim-to-real転送

Provable Sim-to-real Transfer in Continuous Domain with Partial Observations ( http://arxiv.org/abs/2210.15598v1 )

ライセンス: Link先を確認
Jiachen Hu, Han Zhong, Chi Jin, Liwei Wang(参考訳) sim-to-realはシミュレーション環境でrlエージェントを訓練し、実世界に展開する。 sim-to-real transferは、現実世界よりも安価で安全で、シミュレーションでサンプルを集めるのがはるかに速いため、実際に広く使われている。 sim-to-real転送の実証的な成功にもかかわらず、その理論的基礎は理解されていない。 本稿では,シミュレーション環境と実環境を線形二次ガウス系 (lqg) 系でモデル化した連続領域におけるsim-to-real転移を部分的観測により検討する。 実環境における最適政策と競合するシミュレートされた環境から、人気のある頑健な対人訓練アルゴリズムが、ポリシーを学習できることを示す。 そこで我々は,無限水平平均コストLQGに対する新しいアルゴリズムを設計し,モデルクラス固有の複雑さに依存する後悔境界を確立する。 我々のアルゴリズムは、独立した関心を持つであろう新しい歴史クリッピング方式に決定的に依存する。

Sim-to-real transfer trains RL agents in the simulated environments and then deploys them in the real world. Sim-to-real transfer has been widely used in practice because it is often cheaper, safer and much faster to collect samples in simulation than in the real world. Despite the empirical success of the sim-to-real transfer, its theoretical foundation is much less understood. In this paper, we study the sim-to-real transfer in continuous domain with partial observations, where the simulated environments and real-world environments are modeled by linear quadratic Gaussian (LQG) systems. We show that a popular robust adversarial training algorithm is capable of learning a policy from the simulated environment that is competitive to the optimal policy in the real-world environment. To achieve our results, we design a new algorithm for infinite-horizon average-cost LQGs and establish a regret bound that depends on the intrinsic complexity of the model class. Our algorithm crucially relies on a novel history clipping scheme, which might be of independent interest.
翻訳日:2022-10-28 14:56:05 公開日:2022-10-27
# 量子化制約付きニューラルネットワーク

Neural Networks with Quantization Constraints ( http://arxiv.org/abs/2210.15623v1 )

ライセンス: Link先を確認
Ignacio Hounie, Juan Elenter, Alejandro Ribeiro(参考訳) リソースやレイテンシに制約のある設定では,ディープラーニングモデルの低精度実装を実現する必要がある。 さらに、層間の量子化に対する感度の違いを利用することで、混合精度の実装により、計算性能のトレードオフを大幅に改善することができる。 しかし、量子化演算によるバックプロパゲーションには勾配近似の導入が必要であり、探索空間が大きいため現代のアーキテクチャではどの層を量子化するべきかが難しい。 本稿では,量子化を意識した学習に制約のある学習手法を提案する。 低精度教師付き学習を制約付き最適化問題として定式化し、非凸性にもかかわらず、結果の問題は強い双対であり、勾配推定は不要であることを示す。 さらに,双対変数は制約摂動に対する対象の感度を示すことを示した。 提案手法は,画像分類タスクにおいて競合性能を示し,感度を生かして双対変数の値に基づく層選択的量子化を適用することにより,相当な性能向上が期待できることを示す。

Enabling low precision implementations of deep learning models, without considerable performance degradation, is necessary in resource and latency constrained settings. Moreover, exploiting the differences in sensitivity to quantization across layers can allow mixed precision implementations to achieve a considerably better computation performance trade-off. However, backpropagating through the quantization operation requires introducing gradient approximations, and choosing which layers to quantize is challenging for modern architectures due to the large search space. In this work, we present a constrained learning approach to quantization aware training. We formulate low precision supervised learning as a constrained optimization problem, and show that despite its non-convexity, the resulting problem is strongly dual and does away with gradient estimations. Furthermore, we show that dual variables indicate the sensitivity of the objective with respect to constraint perturbations. We demonstrate that the proposed approach exhibits competitive performance in image classification tasks, and leverage the sensitivity result to apply layer selective quantization based on the value of dual variables, leading to considerable performance improvements.
翻訳日:2022-10-28 14:55:44 公開日:2022-10-27
# 新しい課題:物理科学における意味クラス目標の導出

A New Task: Deriving Semantic Class Targets for the Physical Sciences ( http://arxiv.org/abs/2210.14760v2 )

ライセンス: Link先を確認
Micah Bowles, Hongming Tang, Eleni Vardoulaki, Emma L. Alexander, Yan Luo, Lawrence Rudnick, Mike Walmsley, Fiona Porter, Anna M. M. Scaife, Inigo Val Slijepcevic, Gary Segal(参考訳) 意味クラスターゲットの導出を,新しいマルチモーダルタスクとして定義する。 そこで我々は, 物理科学における分類体系の改善を目指しており, 厳密な抽象化と難読化が可能である。 我々は,今後の電波天文学調査において,この課題に対処し,派生した意味的電波銀河形態分類の目標を示す。

We define deriving semantic class targets as a novel multi-modal task. By doing so, we aim to improve classification schemes in the physical sciences which can be severely abstracted and obfuscating. We address this task for upcoming radio astronomy surveys and present the derived semantic radio galaxy morphology class targets.
翻訳日:2022-10-28 14:49:44 公開日:2022-10-27
# ディエンス・パッセージ検索のための検索指向マスキング事前学習言語モデル

Retrieval Oriented Masking Pre-training Language Model for Dense Passage Retrieval ( http://arxiv.org/abs/2210.15133v1 )

ライセンス: Link先を確認
Dingkun Long, Yanzhao Zhang, Guangwei Xu, Pengjun Xie(参考訳) 事前学習言語モデル(PTM)は,高密度通過探索タスクに対して強力なテキスト表現をもたらすことが示されている。 Masked Language Modeling (MLM)は、事前学習プロセスの主要なサブタスクである。 しかし,従来のランダムマスキング戦略では,通路検索作業に限られた効果(ストップワードや句読点など)を持つトークンを多数選択する傾向が見られた。 重要度重みという用語が通路検索に有用な情報をもたらすことを認識し,より重要なトークンがマスキングされる確率が高い検索指向マスキング(rom)戦略を提案し,言語モデルの事前学習プロセスを容易にするために,この単純で不可欠な情報をキャプチャする。 特に,新しいトークンマスキング手法では,従来のPTMのアーキテクチャや学習目標を変更できない。 提案するromは言語モデルの事前学習を支援するため,複数のパス検索ベンチマークにおいてより優れた性能を実現する。

Pre-trained language model (PTM) has been shown to yield powerful text representations for dense passage retrieval task. The Masked Language Modeling (MLM) is a major sub-task of the pre-training process. However, we found that the conventional random masking strategy tend to select a large number of tokens that have limited effect on the passage retrieval task (e,g. stop-words and punctuation). By noticing the term importance weight can provide valuable information for passage retrieval, we hereby propose alternative retrieval oriented masking (dubbed as ROM) strategy where more important tokens will have a higher probability of being masked out, to capture this straightforward yet essential information to facilitate the language model pre-training process. Notably, the proposed new token masking method will not change the architecture and learning objective of original PTM. Our experiments verify that the proposed ROM enables term importance information to help language model pre-training thus achieving better performance on multiple passage retrieval benchmarks.
翻訳日:2022-10-28 14:49:03 公開日:2022-10-27
# 仮面言語モデルにおける性精神健康状態

Gendered Mental Health Stigma in Masked Language Models ( http://arxiv.org/abs/2210.15144v1 )

ライセンス: Link先を確認
Inna Wanyin Lin, Lucille Njoo, Anjalie Field, Ashish Sharma, Katharina Reinecke, Tim Althoff, Yulia Tsvetkov(参考訳) メンタルヘルスのスティグマは、多くの個人が適切なケアを受けるのを妨げ、社会心理学の研究は、メンタルヘルスが男性で見過ごされる傾向があることを示した。 本研究は,マスク型言語モデルにおけるジェンダー型メンタルヘルススティグマについて検討する。 心理学研究に基礎を置く枠組みを開発し,プロンプトのキュレーションに臨床心理学的文献を用い,モデルの適応性を評価し,ジェンダー化された単語を生成する。 マスキング言語モデルは、メンタルヘルスにおける性別に関する社会的な汚点を捉えている:モデルは、精神的な健康状態を持つという文において、男性よりも女性を予測しがちである(32%対19%)。 さらに,男性よりも精神的健康状態の女性の方が,怒りや非難,哀れといったステレオタイプを連想させることから,異なるモデルが男女のスティグマの次元を捉えていることがわかった。 モデルのジェンダー化されたメンタルヘルススティグマの複雑なニュアンスを示す中で,アイデンティティの文脈と重なり合う次元が,計算モデルの社会的バイアスを評価する上で重要な考慮事項であることを示す。

Mental health stigma prevents many individuals from receiving the appropriate care, and social psychology studies have shown that mental health tends to be overlooked in men. In this work, we investigate gendered mental health stigma in masked language models. In doing so, we operationalize mental health stigma by developing a framework grounded in psychology research: we use clinical psychology literature to curate prompts, then evaluate the models' propensity to generate gendered words. We find that masked language models capture societal stigma about gender in mental health: models are consistently more likely to predict female subjects than male in sentences about having a mental health condition (32% vs. 19%), and this disparity is exacerbated for sentences that indicate treatment-seeking behavior. Furthermore, we find that different models capture dimensions of stigma differently for men and women, associating stereotypes like anger, blame, and pity more with women with mental health conditions than with men. In showing the complex nuances of models' gendered mental health stigma, we demonstrate that context and overlapping dimensions of identity are important considerations when assessing computational models' social biases.
翻訳日:2022-10-28 14:48:48 公開日:2022-10-27
# Seq2Seq-SC:事前学習言語モデルによるエンドツーエンドのセマンティック通信システム

Seq2Seq-SC: End-to-End Semantic Communication Systems with Pre-trained Language Model ( http://arxiv.org/abs/2210.15237v1 )

ライセンス: Link先を確認
Ju-Hyung Lee, Dong-Ho Lee, Eunsoo Sheen, Thomas Choi, Jay Pujara, Joongheon Kim(参考訳) セマンティックコミュニケーションは、従来のコミュニケーションに比べて前例のないコミュニケーション効率をもたらすことが期待されているが、その可能性を実現するには多くの課題を解決する必要がある。 本研究では,seq2seq-scという,5g nrと互換性があり,事前学習された言語モデルを用いた汎用テキストデータセットと連携可能な,現実的な意味ネットワークを提供する。 また,意味的類似度を正確に測定し,セq2seq-SCが意味的に意味のある情報を抽出しながら優れた性能を発揮することを示す性能指標(SBERT)を用いる。

While semantic communication is expected to bring unprecedented communication efficiency in comparison to classical communication, many challenges must be resolved to realize its potential. In this work, we provide a realistic semantic network dubbed seq2seq-SC, which is compatible to 5G NR and can work with generalized text dataset utilizing pre-trained language model. We also utilize a performance metric (SBERT) which can accurately measure semantic similarity and show that seq2seq-SC achieves superior performance while extracting semantically meaningful information.
翻訳日:2022-10-28 14:48:26 公開日:2022-10-27
# 空中ハイパースペクトル画像に対する教師あり分類法--相互情報を用いた比較検討

Supervised classification methods applied to airborne hyperspectral images: Comparative study using mutual information ( http://arxiv.org/abs/2210.15422v1 )

ライセンス: Link先を確認
Hasna Nhaila, Asma Elmaizi, Elkebir Sarhrouni and Ahmed Hammouch(参考訳) 現在、超スペクトルリモートセンシング画像hsiは、地球の表面を観測し、気候の変化を検知し、その他多くの応用のための重要なツールとなっている。 HSIの分類は、大量のスペクトル情報と冗長かつ無関係なバンドの存在のため、最も困難な課題の1つである。 分類技術に大きな進歩があったが、HSIの適切な分類方法を決定するための実践的ガイドラインを提供するための研究はほとんど行われていない。 本稿では,4つの教師付き学習アルゴリズム,すなわちサポートベクターマシンsvm,ランダムフォレストrf,k-ネアレスト近傍kn,線形判別解析ldaの性能について,分類精度の観点から検討する。 実験は、NASAの空中可視/赤外線イメージング分光計センサーAVIRISと反射光学系イメージング分光計ROSISセンサーから得られた3つの実際のハイパースペクトルデータセットで実施された。 相互情報は、使用済みデータセットの次元性を低減し、分類効率を向上するために用いられてきた。 広汎な実験により,RBFカーネルとRFを用いたSVM分類器は統計的に良好な結果を示し,高スペクトルリモートセンシング画像の教師付き分類器としてより適していると考えられる。 キーワード:ハイパースペクトル画像、相互情報、次元縮小、サポートベクトルマシン、K-Nearest Neighbors、ランダムフォレスト、線形識別分析。

Nowadays, the hyperspectral remote sensing imagery HSI becomes an important tool to observe the Earth's surface, detect the climatic changes and many other applications. The classification of HSI is one of the most challenging tasks due to the large amount of spectral information and the presence of redundant and irrelevant bands. Although great progresses have been made on classification techniques, few studies have been done to provide practical guidelines to determine the appropriate classifier for HSI. In this paper, we investigate the performance of four supervised learning algorithms, namely, Support Vector Machines SVM, Random Forest RF, K-Nearest Neighbors KNN and Linear Discriminant Analysis LDA with different kernels in terms of classification accuracies. The experiments have been performed on three real hyperspectral datasets taken from the NASA's Airborne Visible/Infrared Imaging Spectrometer Sensor AVIRIS and the Reflective Optics System Imaging Spectrometer ROSIS sensors. The mutual information had been used to reduce the dimensionality of the used datasets for better classification efficiency. The extensive experiments demonstrate that the SVM classifier with RBF kernel and RF produced statistically better results and seems to be respectively the more suitable as supervised classifiers for the hyperspectral remote sensing images. Keywords: hyperspectral images, mutual information, dimension reduction, Support Vector Machines, K-Nearest Neighbors, Random Forest, Linear Discriminant Analysis.
翻訳日:2022-10-28 14:40:57 公開日:2022-10-27
# 低比重対象に対する正・未ラベルデータからの1クラスハイパースペクトル分類器の学習

Learning One-Class Hyperspectral Classifier from Positive and Unlabeled Data for Low Proportion Target ( http://arxiv.org/abs/2210.15457v1 )

ライセンス: Link先を確認
Hengwei Zhao, Yanfei Zhong, Xin He, Xinyu Wang, Hong Shu(参考訳) ハイパースペクトル画像(HSI)の1クラス分類は、陽性ラベルのみを用いて、HSIから単一のターゲットクラスを識別することを目的としており、アノテーションの要求を大幅に低減することができる。 しかし,従来のhsi分類研究ではほとんど考慮されていない負のラベルの欠如とターゲット比率の低さから,hsi一級分類はhsi多級分類よりもはるかに困難である。 本稿では,1クラスリスク推定器であるリスク推定器を用いて,完全畳み込みニューラルネットワーク(fcn)を1つのクラス分類の能力で構築するhsiデータにおいて,正のクラスが不適合となる問題を解くため,下位教師付きhsi one-class class class classificationifier,すなわちhoeclsを提案する。 類似のスペクトルを持つ20種類の接地物体を含む超スペクトル分類データセットを用いた実験の結果,提案する1クラスリスク推定器の効率と実現可能性を示した。 最先端の1クラス分類器と比較して、F1スコアは目標比率の低いHSIデータにおいて大幅に改善される。

Hyperspectral imagery (HSI) one-class classification is aimed at identifying a single target class from the HSI by using only positive labels, which can significantly reduce the requirements for annotation. However, HSI one-class classification is far more challenging than HSI multi-class classification, due the lack of negative labels and the low target proportion, which are issues that have rarely been considered in the previous HSI classification studies. In this paper, a weakly supervised HSI one-class classifier, namely HOneCls is proposed to solve the problem of under-fitting of the positive class occurs in the HSI data with low target proportion, where a risk estimator -- the One-Class Risk Estimator -- is particularly introduced to make the full convolutional neural network (FCN) with the ability of one class classification. The experimental results obtained on challenging hyperspectral classification datasets, which includes 20 kinds of ground objects with very similar spectra, demonstrate the efficiency and feasibility of the proposed One-Class Risk Estimator. Compared with the state-of-the-art one-class classifiers, the F1-score is improved significantly in the HSI data with low target proportion.
翻訳日:2022-10-28 14:40:32 公開日:2022-10-27
# 正規化相互情報と支援ベクトルマシンを用いたハイパースペクトルリモートセンシング画像のバンド選択と分類のための新しいフィルタ手法

A Novel Filter Approach for Band Selection and Classification of Hyperspectral Remotely Sensed Images Using Normalized Mutual Information and Support Vector Machines ( http://arxiv.org/abs/2210.15477v1 )

ライセンス: Link先を確認
Hasna Nhaila, Asma Elmaizi, Elkebir Sarhrouni and Ahmed Hammouch(参考訳) 帯域選択は、ハイパースペクトルリモートセンシング画像hsiの分類において非常に難しい課題である。 これは、高いスペクトル分解能、多くのクラス出力、限られた数のトレーニングサンプルに起因する。 そこで本稿では,情報理論(正規化相互情報)と支援ベクトルマシンSVMを用いたハイパースペクトル画像の次元削減と分類のための新しいフィルタ手法を提案する。 この方法は、入力データセットから最も有益で関連する帯域の最小サブセットを選択することで分類効率を向上させる。 提案アルゴリズムを、NASAのAVIRISセンサーが収集した2つのよく知られたベンチマークデータセットに、インディアナ州とサリナスの谷で適用した。 実験結果は, この領域で広く用いられている異なる評価指標に基づいて評価した。 提案手法との比較により, 選択したバンド数を減らすことで, 良好なタイミングで良好な性能が得られることを示す。 キーワード:次元削減、ハイパースペクトル画像、帯域選択、正規化相互情報、分類、サポートベクトルマシン

Band selection is a great challenging task in the classification of hyperspectral remotely sensed images HSI. This is resulting from its high spectral resolution, the many class outputs and the limited number of training samples. For this purpose, this paper introduces a new filter approach for dimension reduction and classification of hyperspectral images using information theoretic (normalized mutual information) and support vector machines SVM. This method consists to select a minimal subset of the most informative and relevant bands from the input datasets for better classification efficiency. We applied our proposed algorithm on two well-known benchmark datasets gathered by the NASA's AVIRIS sensor over Indiana and Salinas valley in USA. The experimental results were assessed based on different evaluation metrics widely used in this area. The comparison with the state of the art methods proves that our method could produce good performance with reduced number of selected bands in a good timing. Keywords: Dimension reduction, Hyperspectral images, Band selection, Normalized mutual information, Classification, Support vector machines
翻訳日:2022-10-28 14:40:08 公開日:2022-10-27
# GaitMixer:ワイドスペクトル多軸ミキサーを用いた骨格に基づく歩行表現学習

GaitMixer: skeleton-based gait representation learning via wide-spectrum multi-axial mixer ( http://arxiv.org/abs/2210.15491v1 )

ライセンス: Link先を確認
Ekkasit Pinyoanuntapong, Ayman Ali, Pu Wang, Minwoo Lee, Chen Chen(参考訳) 既存の歩行認識法は、人間の歩行行動のビデオデータから抽出されたシルエットに依存する外観ベースである。 研究の少ない骨格に基づく歩行認識法は、2D/3Dヒト骨格配列から直接歩行力学を学習する。 しかし、スケルトンベースのソリューションのパフォーマンスは、まだ外観ベースのソリューションに大きく遅れている。 本稿では,新しいネットワークモデルであるgaitmixerを提案し,スケルトンシーケンスデータからより識別的な歩行表現を求めることにより,その性能ギャップを解消することを目的とする。 特に、GaitMixerは、空間的自己注意ミキサーと時間的大カーネル畳み込みミキサーを併用した異種多軸ミキサーアーキテクチャに従って、歩数特徴写像でリッチな多周波信号を学ぶ。 広く使われている歩行データベースであるCASIA-Bの実験では、GaitMixerは従来のSOTAの骨格法よりも大きなマージンで優れており、代表的な外観法に比べて競争性能が優れている。 コードはhttps://github.com/exitudio/gaitmixerで入手できる。

Most existing gait recognition methods are appearance-based, which rely on the silhouettes extracted from the video data of human walking activities. The less-investigated skeleton-based gait recognition methods directly learn the gait dynamics from 2D/3D human skeleton sequences, which are theoretically more robust solutions in the presence of appearance changes caused by clothes, hairstyles, and carrying objects. However, the performance of skeleton-based solutions is still largely behind the appearance-based ones. This paper aims to close such performance gap by proposing a novel network model, GaitMixer, to learn more discriminative gait representation from skeleton sequence data. In particular, GaitMixer follows a heterogeneous multi-axial mixer architecture, which exploits the spatial self-attention mixer followed by the temporal large-kernel convolution mixer to learn rich multi-frequency signals in the gait feature maps. Experiments on the widely used gait database, CASIA-B, demonstrate that GaitMixer outperforms the previous SOTA skeleton-based methods by a large margin while achieving a competitive performance compared with the representative appearance-based solutions. Code will be available at https://github.com/exitudio/gaitmixer
翻訳日:2022-10-28 14:39:52 公開日:2022-10-27
# 核融合による数発モーフィング攻撃検出とフィンガープリント

Fusion-based Few-Shot Morphing Attack Detection and Fingerprinting ( http://arxiv.org/abs/2210.15510v1 )

ライセンス: Link先を確認
Na Zhang, Shan Jia, Siwei Lyu, and Xin Li(参考訳) 顔認識システムの脆弱性は、現実世界で顔バイオメトリックスが広く採用されていることから、深刻なセキュリティ上の脅威となっている。 既存のモーフィング攻撃検出(mad)メソッドの多くは、大量のトレーニングデータを必要とし、いくつかの事前定義された攻撃モデルでのみテストされている。 優れた一般化特性の欠如、特に新しいモーフィング攻撃の開発への関心の高まりは、既存のマッドリサーチにおいて重要な制限となっている。 そこで本稿では,MADを教師付き学習から少数ショット学習,バイナリ検出からマルチクラスフィンガープリントまで拡張することを提案する。 私たちの技術的な貢献には 1)事前に定義された提示攻撃から未確認の攻撃タイプに一般化できる識別的特徴を学習するためのFSL法を提案する。 2) PRNUモデルとノイズプリントネットワークの融合に基づくFSLは, バイナリMADからマルチクラスモルフィング攻撃指紋(MAF)へ拡張される。 3) 5つの顔データセットと8つの異なる形態素アルゴリズムを含む大規模データベースを収集し,提案手法であるFS-MAFのベンチマークを行った。 核融合によるFS-MAFの性能は良好であった。 コードとデータはhttps://github.com/nz0001na/mad mafで公開されている。

The vulnerability of face recognition systems to morphing attacks has posed a serious security threat due to the wide adoption of face biometrics in the real world. Most existing morphing attack detection (MAD) methods require a large amount of training data and have only been tested on a few predefined attack models. The lack of good generalization properties, especially in view of the growing interest in developing novel morphing attacks, is a critical limitation with existing MAD research. To address this issue, we propose to extend MAD from supervised learning to few-shot learning and from binary detection to multiclass fingerprinting in this paper. Our technical contributions include: 1) We propose a fusion-based few-shot learning (FSL) method to learn discriminative features that can generalize to unseen morphing attack types from predefined presentation attacks; 2) The proposed FSL based on the fusion of the PRNU model and Noiseprint network is extended from binary MAD to multiclass morphing attack fingerprinting (MAF). 3) We have collected a large-scale database, which contains five face datasets and eight different morphing algorithms, to benchmark the proposed few-shot MAF (FS-MAF) method. Extensive experimental results show the outstanding performance of our fusion-based FS-MAF. The code and data will be publicly available at https://github.com/nz0001na/mad maf.
翻訳日:2022-10-28 14:39:30 公開日:2022-10-27
# ロバストなポイントクラウド分類のためのpoint-voxel適応的特徴抽象化

Point-Voxel Adaptive Feature Abstraction for Robust Point Cloud Classification ( http://arxiv.org/abs/2210.15514v1 )

ライセンス: Link先を確認
Lifa Zhu, Changwei Lin, Cheng Zheng, Ninghua Yang(参考訳) ポイントクラウド分類では,学習に基づく手法が大きな進歩を遂げている。 しかし、現実世界のアプリケーションにおける複雑なシーンとセンサーの不正確さにより、ポイントクラウドデータは、閉塞、ノイズ、外れ値などの汚職に悩まされる。 本稿では,様々な腐敗下でのロバストなポイントクラウド分類のための,ポイントボクセル型適応型(pv-ada)機能抽象化を提案する。 具体的には、ポイントクラウドを反復的にボクセル化し、共有ローカルエンコーディングとトランスフォーマーでポイントボクセル特徴を抽出する。 次に,ポイントクラウドの特徴をロバストに集約して分類するために,適応型maxプールを提案する。 ModelNet-Cデータセットの実験では、PV-Adaは最先端の手法よりも優れています。 特に、PointCloud-C Challenge 2022 の ModelNet-C 分類トラックで 2^{nd}$ place をランク付けし、総合的精度 (OA) は0.865 である。 コードはhttps://github.com/zhulf0804/pv-adaで入手できる。

Great progress has been made in point cloud classification with learning-based methods. However, complex scene and sensor inaccuracy in real-world application make point cloud data suffer from corruptions, such as occlusion, noise and outliers. In this work, we propose Point-Voxel based Adaptive (PV-Ada) feature abstraction for robust point cloud classification under various corruptions. Specifically, the proposed framework iteratively voxelize the point cloud and extract point-voxel feature with shared local encoding and Transformer. Then, adaptive max-pooling is proposed to robustly aggregate the point cloud feature for classification. Experiments on ModelNet-C dataset demonstrate that PV-Ada outperforms the state-of-the-art methods. In particular, we rank the $2^{nd}$ place in ModelNet-C classification track of PointCloud-C Challenge 2022, with Overall Accuracy (OA) being 0.865. Code will be available at https://github.com/zhulf0804/PV-Ada.
翻訳日:2022-10-28 14:39:09 公開日:2022-10-27
# スペクトル相互作用とSVM分類器を用いたハイパースペクトル画像の分類と次元化

Hyperspectral Images Classification and Dimensionality Reduction using spectral interaction and SVM classifier ( http://arxiv.org/abs/2210.15546v1 )

ライセンス: Link先を確認
Asma Elmaizi, Elkebir Sarhrouni, Ahmed Hammouch, Nacir Chafik(参考訳) 過去数十年間、ハイパースペクトルリモートセンシング技術の発展は、様々な分野の科学者の間で関心を集めてきた。 ハイパースペクトルセンサによって提供されるリッチで詳細なスペクトル情報は、地球表面物質のモニタリングと検出能力を改善した。 しかし, ハイパースペクトル画像(HSI)の高次元性は, 収集したデータを分析する上での大きな課題の1つである。 雑音、冗長、無関係な帯域の存在は計算複雑性を増大させ、ヒューズ現象を誘発し、ターゲットの分類精度を低下させる。 したがって、次元の減少は次元の課題に直面するための重要なステップである。 本稿では,スペクトル相互作用尺度の最大化に基づく新しいフィルタ手法と,HSIの次元削減と分類のための支持ベクトルマシンを提案する。 提案したMax Relevance Max Synergy (MRMS)アルゴリズムは、スペクトルの相乗効果、冗長性、および関連度を組み合わせて各バンドの関連性を評価する。 本研究の目的は,教師付きシーンの正確な分類を提供する相乗的帯域の最適サブセットを選択することである。 実験は、NASA-AVIRISとROSISの分光計で提供される「インドパイン」と「パヴィア大学」と「サリナス」の3つの異なるハイパースペクトルデータセットを用いて実施された。 さらに,提案手法のロバスト性や効率性を実証するために,アートバンド選択法の現状との比較を行った。 キーワード:ハイパースペクトル画像、リモートセンシング、次元減少、分類、シナジー、相関、スペクトル相互作用情報、相互情報

Over the past decades, the hyperspectral remote sensing technology development has attracted growing interest among scientists in various domains. The rich and detailed spectral information provided by the hyperspectral sensors has improved the monitoring and detection capabilities of the earth surface substances. However, the high dimensionality of the hyperspectral images (HSI) is one of the main challenges for the analysis of the collected data. The existence of noisy, redundant and irrelevant bands increases the computational complexity, induce the Hughes phenomenon and decrease the target's classification accuracy. Hence, the dimensionality reduction is an essential step to face the dimensionality challenges. In this paper, we propose a novel filter approach based on the maximization of the spectral interaction measure and the support vector machines for dimensionality reduction and classification of the HSI. The proposed Max Relevance Max Synergy (MRMS) algorithm evaluates the relevance of every band through the combination of spectral synergy, redundancy and relevance measures. Our objective is to select the optimal subset of synergistic bands providing accurate classification of the supervised scene materials. Experimental results have been performed using three different hyperspectral datasets: "Indiana Pine", "Pavia University" and "Salinas" provided by the "NASA-AVIRIS" and the "ROSIS" spectrometers. Furthermore, a comparison with the state of the art band selection methods has been carried out in order to demonstrate the robustness and efficiency of the proposed approach. Keywords: Hyperspectral images, remote sensing, dimensionality reduction, classification, synergic, correlation, spectral interaction information, mutual inform
翻訳日:2022-10-28 14:38:56 公開日:2022-10-27
# 意味豊かな指示によるVLNの視覚的ギャップのブリッジ

Bridging the visual gap in VLN via semantically richer instructions ( http://arxiv.org/abs/2210.15565v1 )

ライセンス: Link先を確認
Joaquin Ossand\'on, Benjamin Earle, \'Alvaro Soto(参考訳) Visual-and-Language Navigation (VLN)タスクでは、視覚情報のみを使用して自然の屋内環境をナビゲートするためのテキスト命令を理解する必要がある。 これはほとんどの人間にとって簡単な作業だが、それでもAIモデルにはオープンな問題だ。 本研究は,現状の低性能モデルにおいて,利用可能な視覚情報の不十分な利用が中核にあることを仮定する。 この仮説を支持するために,現状のモデルが限られたあるいは全く視覚的データを受け取らない場合に深刻な影響を受けていないことを示す実験的な証拠を提供する。 より適切な視覚情報の利用を促すため,テキストナビゲーション命令の生成において,より明示的な視覚情報の導入を促進する新しいデータ拡張手法を提案する。 我々の主な直感は、現在のVLNデータセットは、人間のような専門家のナビゲータに通知するためのテキスト命令を含むが、ランダムに初期化されたDLモデルのような初心者の視覚的ナビゲーションエージェントは含まないことである。 具体的には、現在のvlnデータセットの視覚的意味ギャップを埋めるため、matterport3dデータセットで利用可能なメタデータを利用して、シーンに存在するオブジェクトラベルに関する情報を含む。 新しい命令セットによる最先端モデルのトレーニングは、未発見の環境での成功率の点で、そのパフォーマンスを8%向上させ、提案するデータ拡張手法の利点を実証する。

The Visual-and-Language Navigation (VLN) task requires understanding a textual instruction to navigate a natural indoor environment using only visual information. While this is a trivial task for most humans, it is still an open problem for AI models. In this work, we hypothesize that poor use of the visual information available is at the core of the low performance of current models. To support this hypothesis, we provide experimental evidence showing that state-of-the-art models are not severely affected when they receive just limited or even no visual data, indicating a strong overfitting to the textual instructions. To encourage a more suitable use of the visual information, we propose a new data augmentation method that fosters the inclusion of more explicit visual information in the generation of textual navigational instructions. Our main intuition is that current VLN datasets include textual instructions that are intended to inform an expert navigator, such as a human, but not a beginner visual navigational agent, such as a randomly initialized DL model. Specifically, to bridge the visual semantic gap of current VLN datasets, we take advantage of metadata available for the Matterport3D dataset that, among others, includes information about object labels that are present in the scenes. Training a state-of-the-art model with the new set of instructions increase its performance by 8% in terms of success rate on unseen environments, demonstrating the advantages of the proposed data augmentation method.
翻訳日:2022-10-28 14:38:35 公開日:2022-10-27
# 1つの統一埋め込みによる多人数共同身体検出と方向推定

Joint Multi-Person Body Detection and Orientation Estimation via One Unified Embedding ( http://arxiv.org/abs/2210.15586v1 )

ライセンス: Link先を確認
Huayi Zhou, Fei Jiang, Jiaxin Si, Hongtao Lu(参考訳) 人体方向推定(hboe)はロボット工学、サーベイランス、歩行者分析、自動運転など様々な応用に広く適用されている。 特定の制御下のシーンから野生環境への挑戦まで、多くのアプローチがhboe問題に取り組んできたが、彼らは人間のインスタンスが既に検出されており、入力として十分に切り抜かれたサブイメージを取ると仮定している。 この設定は効率が低く、大勢の人のような実際のアプリケーションでエラーが発生しやすい。 本稿では,複数人でhboe問題に取り組むための,エンドツーエンドでトレーニング可能なフレームワークを提案する。 本手法は,1つの埋め込みにボックスと方向角の予測を組み込むことで,各物体の位置と方向を1つの画像に直接推定することができる。 我々のキーとなる考え方は、HBOEタスクを、係わる中間機能から同時に恩恵を受ける人々のマルチスケールアンカーチャネル予測に統合することである。 したがって,物体検出のように低分解能と閉塞を伴う難易度に自然に適応できる。 最近発表されたベンチマークMEBOWにおいて,提案手法の有効性と有効性を検証した。 さらに,mebowデータセットによって無視された曖昧なインスタンスを完了し,それに対応する弱いボディオリエンテーションラベルを提供し,複数人を対象とした研究を支援する。 私たちの作品は \url{https://github.com/hnuzhy/jointbdoe} で入手できる。

Human body orientation estimation (HBOE) is widely applied into various applications, including robotics, surveillance, pedestrian analysis and autonomous driving. Although many approaches have been addressing the HBOE problem from specific under-controlled scenes to challenging in-the-wild environments, they assume human instances are already detected and take a well cropped sub-image as the input. This setting is less efficient and prone to errors in real application, such as crowds of people. In the paper, we propose a single-stage end-to-end trainable framework for tackling the HBOE problem with multi-persons. By integrating the prediction of bounding boxes and direction angles in one embedding, our method can jointly estimate the location and orientation of all bodies in one image directly. Our key idea is to integrate the HBOE task into the multi-scale anchor channel predictions of persons for concurrently benefiting from engaged intermediate features. Therefore, our approach can naturally adapt to difficult instances involving low resolution and occlusion as in object detection. We validated the efficiency and effectiveness of our method in the recently presented benchmark MEBOW with extensive experiments. Besides, we completed ambiguous instances ignored by the MEBOW dataset, and provided corresponding weak body-orientation labels to keep the integrity and consistency of it for supporting studies toward multi-persons. Our work is available at \url{https://github.com/hnuzhy/JointBDOE}.
翻訳日:2022-10-28 14:38:10 公開日:2022-10-27
# 3次元表現の深部生成モデルに関する研究

Deep Generative Models on 3D Representations: A Survey ( http://arxiv.org/abs/2210.15663v1 )

ライセンス: Link先を確認
Zifan Shi, Sida Peng, Yinghao Xu, Yiyi Liao, and Yujun Shen(参考訳) 統計モデルの重要なファミリーである生成モデルは、新しいインスタンスを生成することによって観測されたデータ分布を学習する。 ニューラルネットワークの台頭とともに、可変オートエンコーダ(VAE)やGAN(Generative Adversarial Network)といった深層生成モデルも、2D画像合成において大きな進歩を遂げている。 最近、研究者は3Dデータが私たちの物理的世界とよりよく一致していることを考えると、注意を2D空間から3D空間に切り替えている。 しかし、自然に効率的な表現(ピクセルグリッド)を持つ2d画像とは異なり、3dデータを表現することは、はるかに困難に直面する可能性がある。 具体的には、形状や外観を詳細にモデル化できる理想的な3D表現が期待でき、高速でメモリコストの低い高解像度データをモデル化できるような高効率を期待する。 しかし、ポイントクラウド、メッシュ、最近のニューラルフィールドといった既存の3d表現は、通常、上記の要件を同時に満たさない。 本研究では,3次元形状生成と3次元認識画像合成を含む3次元生成の開発を,アルゴリズムとより重要な表現の両方の観点から徹底的にレビューする。 我々は、この領域の進化をコミュニティが追跡し、この挑戦的な課題を進めるための革新的なアイデアをさらに引き起こすことを願っている。

Generative models, as an important family of statistical modeling, target learning the observed data distribution via generating new instances. Along with the rise of neural networks, deep generative models, such as variational autoencoders (VAEs) and generative adversarial network (GANs), have made tremendous progress in 2D image synthesis. Recently, researchers switch their attentions from the 2D space to the 3D space considering that 3D data better aligns with our physical world and hence enjoys great potential in practice. However, unlike a 2D image, which owns an efficient representation (i.e., pixel grid) by nature, representing 3D data could face far more challenges. Concretely, we would expect an ideal 3D representation to be capable enough to model shapes and appearances in details, and to be highly efficient so as to model high-resolution data with fast speed and low memory cost. However, existing 3D representations, such as point clouds, meshes, and recent neural fields, usually fail to meet the above requirements simultaneously. In this survey, we make a thorough review of the development of 3D generation, including 3D shape generation and 3D-aware image synthesis, from the perspectives of both algorithms and more importantly representations. We hope that our discussion could help the community track the evolution of this field and further spark some innovative ideas to advance this challenging task.
翻訳日:2022-10-28 14:37:49 公開日:2022-10-27
# 霧の天候下における自律運転のためのドメイン適応物体検出

Domain Adaptive Object Detection for Autonomous Driving under Foggy Weather ( http://arxiv.org/abs/2210.15176v1 )

ライセンス: Link先を確認
Jinlong Li, Runsheng Xu, Jin Ma, Qin Zou, Jiaqi Ma, Hongkai Yu(参考訳) 自律運転のためのほとんどの物体検出方法は、通常、トレーニングデータとテストデータの間に一貫した特徴分布を仮定する。 晴れた天候下で訓練された物体検出モデルは、領域ギャップのため霧の天候に十分な効果が得られない可能性がある。 本稿では,霧気候下での自律走行のための領域適応型物体検出フレームワークを提案する。 本手法は画像レベルの適応とオブジェクトレベルの適応を両立させ,画像スタイルとオブジェクトの外観における領域差を低減させる。 挑戦的なサンプルの下でモデルの能力をさらに高めるために、我々はさらに新しい逆勾配反転層を考案し、ハードサンプルに対する逆方向のマイニングとドメイン適応を同時に行う。 さらに,新たな領域レベルの計量正規化を実施するために,データ拡張による補助ドメインの生成を提案する。 公開ベンチマーク実験の結果,提案手法の有効性と精度が示された。 コードはhttps://github.com/jinlong17/da-detectで入手できる。

Most object detection methods for autonomous driving usually assume a consistent feature distribution between training and testing data, which is not always the case when weathers differ significantly. The object detection model trained under clear weather might not be effective enough in foggy weather because of the domain gap. This paper proposes a novel domain adaptive object detection framework for autonomous driving under foggy weather. Our method leverages both image-level and object-level adaptation to diminish the domain discrepancy in image style and object appearance. To further enhance the model's capabilities under challenging samples, we also come up with a new adversarial gradient reversal layer to perform adversarial mining for the hard examples together with domain adaptation. Moreover, we propose to generate an auxiliary domain by data augmentation to enforce a new domain-level metric regularization. Experimental results on public benchmarks show the effectiveness and accuracy of the proposed method. The code is available at https://github.com/jinlong17/DA-Detect.
翻訳日:2022-10-28 14:31:59 公開日:2022-10-27
# 人間の動きと言語を共同表現する学習

Learning Joint Representation of Human Motion and Language ( http://arxiv.org/abs/2210.15187v1 )

ライセンス: Link先を確認
Jihoon Kim, Youngjae Yu, Seungyoun Shin, Taehyun Byun, Sungjoon Choi(参考訳) 本稿では,人間の動作と言語の協調表現を学習するためのmolang(motion-language connecting model)を提案する。 そこで本研究では,人間の運動領域のより汎用的な表現を学ぶために,コントラスト学習を伴うモーション言語モデルを提案する。 実験結果から,我々のモデルは言語モダリティをナビゲートすることで,人間の動作データの強力な表現を学習することがわかった。 提案手法は,動作認識と動作検索の両方のタスクを単一モデルで実行し,多数の動作認識ベンチマークにおける最先端のアプローチより優れる。

In this work, we present MoLang (a Motion-Language connecting model) for learning joint representation of human motion and language, leveraging both unpaired and paired datasets of motion and language modalities. To this end, we propose a motion-language model with contrastive learning, empowering our model to learn better generalizable representations of the human motion domain. Empirical results show that our model learns strong representations of human motion data through navigating language modality. Our proposed method is able to perform both action recognition and motion retrieval tasks with a single model where it outperforms state-of-the-art approaches on a number of action recognition benchmarks.
翻訳日:2022-10-28 14:31:45 公開日:2022-10-27
# マスク識別による少数撮影画像生成

Few-shot Image Generation via Masked Discrimination ( http://arxiv.org/abs/2210.15194v1 )

ライセンス: Link先を確認
Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan(参考訳) 少数ショット画像生成は、限られたデータで高品質で多彩な画像を生成することを目的としている。 しかし、現代のGANでは、少数の画像でしか訓練しない場合、過度な適合を避けることは困難である。 判別器は、すべてのトレーニングサンプルを記憶し、ジェネレータに複製を誘導し、深刻な多様性の低下を引き起こすことができる。 大規模なソースドメインで事前訓練されたGANを、限られた実サンプルを持つドメインに適応させることにより、オーバーフィッティングを緩和するいくつかの手法が提案されている。 本研究は,マスク付き識別による少数ショットGAN適応を実現するための新しい手法を提案する。 入力画像から判別器によって抽出された特徴に対してランダムマスクを適用する。 我々は,訓練サンプルと部分的に共通な特徴を有する多彩な画像を実写画像として判断することを目的とした。 それに対応して、ジェネレータはトレーニングサンプルを複製する代わりに、より多様な画像を生成するようにガイドされる。 さらに,その特徴空間におけるサンプル間の相対距離を保つために,判別器に対するクロスドメイン一貫性損失を用いる。 識別器のクロスドメイン整合性損失は、敵対的損失に加えて別の最適化ターゲットとして機能し、より高画質のソースドメインから学習したより多くの情報を保存するために適応されたGANをガイドする。 本手法の有効性は,従来の手法よりも質的かつ定量的に,高品質で多彩な数発画像生成タスクにおいて示される。

Few-shot image generation aims to generate images of high quality and great diversity with limited data. However, it is difficult for modern GANs to avoid overfitting when trained on only a few images. The discriminator can easily remember all the training samples and guide the generator to replicate them, leading to severe diversity degradation. Several methods have been proposed to relieve overfitting by adapting GANs pre-trained on large source domains to target domains with limited real samples. In this work, we present a novel approach to realize few-shot GAN adaptation via masked discrimination. Random masks are applied to features extracted by the discriminator from input images. We aim to encourage the discriminator to judge more diverse images which share partially common features with training samples as realistic images. Correspondingly, the generator is guided to generate more diverse images instead of replicating training samples. In addition, we employ cross-domain consistency loss for the discriminator to keep relative distances between samples in its feature space. The discriminator cross-domain consistency loss serves as another optimization target in addition to adversarial loss and guides adapted GANs to preserve more information learned from source domains for higher image quality. The effectiveness of our approach is demonstrated both qualitatively and quantitatively with higher quality and greater diversity on a series of few-shot image generation tasks than prior methods.
翻訳日:2022-10-28 14:31:33 公開日:2022-10-27
# 適応的鼻咽喉頭癌放射線治療予測のためのアダプティブマージンを用いたマルチビューコントラスト学習

Multi-view Contrastive Learning with Additive Margin for Adaptive Nasopharyngeal Carcinoma Radiotherapy Prediction ( http://arxiv.org/abs/2210.15201v1 )

ライセンス: Link先を確認
Jiabao Sheng, Yuanpeng Zhang, Jing Cai, Sai-Kit Lam, Zhe Li, Jiang Zhang, Xinzhi Teng(参考訳) 鼻咽喉頭癌(NPC)患者に対する放射線治療(RT)前適応放射線療法(ART)の予測は,毒性の低下と生存の延長に重要である。 現在、複雑な腫瘍微小環境のため、1種類の高解像度画像は限られた情報しか提供できない。 一方、従来のソフトマックスに基づく損失はモデルの識別力の定量化には不十分である。 これらの課題を克服するため,MMConを用いた教師付きマルチビューコントラスト学習手法を提案する。 各患者は4つの医用画像が多視点の陽性対を形成しており、追加情報を提供し、医用画像の表現を強化することができる。 さらに、埋め込み空間は対照的な学習によって学習される。 同じ患者または同様のラベルを持つnpcサンプルは埋め込み空間に近く、異なるラベルを持つnpcサンプルははるかに離れている。 損失関数の識別能力を向上させるために,比較学習にマージンを組み込んだ。 実験の結果,この新しい学習目的は,npc画像の識別能力に優れた埋め込み空間の探索に有用であることがわかった。

The prediction of adaptive radiation therapy (ART) prior to radiation therapy (RT) for nasopharyngeal carcinoma (NPC) patients is important to reduce toxicity and prolong the survival of patients. Currently, due to the complex tumor micro-environment, a single type of high-resolution image can provide only limited information. Meanwhile, the traditional softmax-based loss is insufficient for quantifying the discriminative power of a model. To overcome these challenges, we propose a supervised multi-view contrastive learning method with an additive margin (MMCon). For each patient, four medical images are considered to form multi-view positive pairs, which can provide additional information and enhance the representation of medical images. In addition, the embedding space is learned by means of contrastive learning. NPC samples from the same patient or with similar labels will remain close in the embedding space, while NPC samples with different labels will be far apart. To improve the discriminative ability of the loss function, we incorporate a margin into the contrastive learning. Experimental result show this new learning objective can be used to find an embedding space that exhibits superior discrimination ability for NPC images.
翻訳日:2022-10-28 14:31:08 公開日:2022-10-27
# テキスト対画像生成におけるテキストと画像の一貫性向上に向けて

Towards Better Text-Image Consistency in Text-to-Image Generation ( http://arxiv.org/abs/2210.15235v1 )

ライセンス: Link先を確認
Zhaorui Tan, Zihan Ye, Xi Yang, Qiufeng Wang, Yuyao Yan, Kaizhu Huang(参考訳) 与えられたテキストから一貫性のある高品質の画像を生成することは、視覚言語理解に不可欠である。 高品質な画像を生成することで印象的な結果が得られたが、既存のganベースの手法ではテキストと画像の一貫性が依然として大きな関心事となっている。 特に、最も人気のある$R$-precisionはテキストイメージの一貫性を正確に反映していない可能性があり、しばしば生成された画像に非常に誤解を招くセマンティクスをもたらす。 その重要性にもかかわらず、より良いテキストイメージ整合性メトリクスをどうやって設計するかは、驚くほどコミュニティで未調査のままである。 本稿では,ssd(semantic similarity distance)と呼ばれる新しいクリップベースメトリクスの開発をさらに進め,分布的視点から理論的に基礎を置き,ベンチマークデータセットで実証的に検証した。 提案手法を応用して,異なる粒度で意味情報を融合し,正確な意味を捉えるパラレルディープフュージョン生成適応ネットワーク(PDF-GAN)をさらに設計する。 Hard-Negative Sentence ConstructorとSemantic Projectionの2つの新しいプラグイン・アンド・プレイコンポーネントを備えることで、提案されたPDF-GANは一貫性のないセマンティクスを緩和し、テキストイメージのセマンティクスギャップを埋めることができる。 一連の実験により、現在の最先端の手法とは対照的に、我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画質を維持しながら、テキスト画像の一貫性を著しく向上させることができることが示された。

Generating consistent and high-quality images from given texts is essential for visual-language understanding. Although impressive results have been achieved in generating high-quality images, text-image consistency is still a major concern in existing GAN-based methods. Particularly, the most popular metric $R$-precision may not accurately reflect the text-image consistency, often resulting in very misleading semantics in the generated images. Albeit its significance, how to design a better text-image consistency metric surprisingly remains under-explored in the community. In this paper, we make a further step forward to develop a novel CLIP-based metric termed as Semantic Similarity Distance (SSD), which is both theoretically founded from a distributional viewpoint and empirically verified on benchmark datasets. Benefiting from the proposed metric, we further design the Parallel Deep Fusion Generative Adversarial Networks (PDF-GAN), which can fuse semantic information at different granularities and capture accurate semantics. Equipped with two novel plug-and-play components: Hard-Negative Sentence Constructor and Semantic Projection, the proposed PDF-GAN can mitigate inconsistent semantics and bridge the text-image semantic gap. A series of experiments show that, as opposed to current state-of-the-art methods, our PDF-GAN can lead to significantly better text-image consistency while maintaining decent image quality on the CUB and COCO datasets.
翻訳日:2022-10-28 14:30:50 公開日:2022-10-27
# グループダンスチャレンジにおけるECCV 2022多人数追跡のための第1位ソリューション

The 1st-place Solution for ECCV 2022 Multiple People Tracking in Group Dance Challenge ( http://arxiv.org/abs/2210.15281v1 )

ライセンス: Link先を確認
Yuang Zhang and Tiancai Wang and Weiyao Lin and Xiangyu Zhang(参考訳) グループダンス多人数追跡チャレンジの1位となるソリューションを提示する。 MOTR: Transformer を用いたエンドツーエンド多目的追跡, 探索 1)クエリをアンカーとして検出する。 2) 照会としての追跡 3)CrowdHumanデータセットから生成された擬似ビデオクリップと共同トレーニング 4) 検出クエリのアンカー初期化にYOLOX検出提案を用いた。 本研究では,DanceTrack テストセット上で73.4% HOTAを達成し,第2位を+6.8% HOTA で上回った。

We present our 1st place solution to the Group Dance Multiple People Tracking Challenge. Based on MOTR: End-to-End Multiple-Object Tracking with Transformer, we explore: 1) detect queries as anchors, 2) tracking as query denoising, 3) joint training on pseudo video clips generated from CrowdHuman dataset, and 4) using the YOLOX detection proposals for the anchor initialization of detect queries. Our method achieves 73.4% HOTA on the DanceTrack test set, surpassing the second-place solution by +6.8% HOTA.
翻訳日:2022-10-28 14:30:23 公開日:2022-10-27
# 深層信念ネットワークに基づくニューロモルフィック視覚データ圧縮のための新しいアプローチ

A Novel Approach for Neuromorphic Vision Data Compression based on Deep Belief Network ( http://arxiv.org/abs/2210.15362v1 )

ライセンス: Link先を確認
Sally Khaidem and Mansi Sharma and Abhipraay Nevatia(参考訳) ニューロモルフィックカメラ(Neuromorphic camera)は、人間の目が局所的な明るさの変化だけを捉えているイメージセンサーである。 イベントカメラ、シリコン網膜、ダイナミックビジョンセンサー(DVS)として広く知られている。 dvsは、ピクセル毎の非同期な明るさ変化を記録し、その結果、明るさ変化の時間、位置、極性をエンコードするイベントのストリームを生成する。 dvsは消費電力が少なく、モーションボケや時間分解能が従来のフレームベースのカメラよりも高いダイナミックレンジをキャプチャできる。 この方法では従来のビデオキャプチャよりもビットレートが低いが、圧縮可能である。 本稿では,イベントデータに対する新しい深層学習に基づく圧縮方式を提案する。 深層信念ネットワーク(DBN)を用いて、高次元事象データを潜在表現に還元し、エントロピーベースの符号化技術を用いて符号化する。 提案手法は、イベント圧縮のためのディープラーニングを最初に組み込んだものである。 優れたコンストラクション品質を維持しながら、高い圧縮率を達成し、最先端のイベントデータコーダや他のロスレスベンチマーク技術よりも優れている。

A neuromorphic camera is an image sensor that emulates the human eyes capturing only changes in local brightness levels. They are widely known as event cameras, silicon retinas or dynamic vision sensors (DVS). DVS records asynchronous per-pixel brightness changes, resulting in a stream of events that encode the brightness change's time, location, and polarity. DVS consumes little power and can capture a wider dynamic range with no motion blur and higher temporal resolution than conventional frame-based cameras. Although this method of event capture results in a lower bit rate than traditional video capture, it is further compressible. This paper proposes a novel deep learning-based compression scheme for event data. Using a deep belief network (DBN), the high dimensional event data is reduced into a latent representation and later encoded using an entropy-based coding technique. The proposed scheme is among the first to incorporate deep learning for event compression. It achieves a high compression ratio while maintaining good reconstruction quality outperforming state-of-the-art event data coders and other lossless benchmark techniques.
翻訳日:2022-10-28 14:30:15 公開日:2022-10-27
# 2T-UNET:ロバストステレオ深さ推定のための深さ曲線付き2tower UNet

2T-UNET: A Two-Tower UNet with Depth Clues for Robust Stereo Depth Estimation ( http://arxiv.org/abs/2210.15374v1 )

ライセンス: Link先を確認
Rohit Choudhary and Mansi Sharma and Rithvik Anil(参考訳) ステレオ対応マッチングは多段ステレオ深度推定プロセスにおいて不可欠な部分である。 本稿では,単純な2層畳み込みニューラルネットワークを用いて,ステレオマッチングステップを回避し,深さ推定問題を再検討する。 提案アルゴリズムは2T-UNetと呼ばれる。 2T-UNetの背景にあるアイデアは、コストボリュームの構築を2つのコンボリューションタワーに置き換えることだ。 これらの塔は、その間に異なる重量を持つ。 また,2t-unetにおけるツインエンコーダの入力は,既存のステレオ方式と異なる。 一般的にステレオネットワークは、左右のイメージペアを入力としてシーン形状を決定する。 しかし、2t不均一モデルでは、右ステレオ画像を1つの入力とし、左ステレオ画像とその単眼深度手がかり情報とをもう1つの入力とする。 奥行きの手がかりは、予測されたシーンジオメトリの品質を高めるのに役立つ補完的な提案を提供する。 2t-unetは, 定量的かつ定性的に, 難易度の高いシーンフローデータセット上で, 最先端のモノクロおよびステレオ深度推定手法を上回っている。 アーキテクチャは複雑な自然のシーンで驚くほどよく機能し、様々なリアルタイムアプリケーションにその有用性を強調します。 トレーニング済みのウェイトとコードは、簡単に利用できる。

Stereo correspondence matching is an essential part of the multi-step stereo depth estimation process. This paper revisits the depth estimation problem, avoiding the explicit stereo matching step using a simple two-tower convolutional neural network. The proposed algorithm is entitled as 2T-UNet. The idea behind 2T-UNet is to replace cost volume construction with twin convolution towers. These towers have an allowance for different weights between them. Additionally, the input for twin encoders in 2T-UNet are different compared to the existing stereo methods. Generally, a stereo network takes a right and left image pair as input to determine the scene geometry. However, in the 2T-UNet model, the right stereo image is taken as one input and the left stereo image along with its monocular depth clue information, is taken as the other input. Depth clues provide complementary suggestions that help enhance the quality of predicted scene geometry. The 2T-UNet surpasses state-of-the-art monocular and stereo depth estimation methods on the challenging Scene flow dataset, both quantitatively and qualitatively. The architecture performs incredibly well on complex natural scenes, highlighting its usefulness for various real-time applications. Pretrained weights and code will be made readily available.
翻訳日:2022-10-28 14:29:58 公開日:2022-10-27
# LeNo:学習可能な雑音をもつ対向ロバスト能動物体検出ネットワーク

LeNo: Adversarial Robust Salient Object Detection Networks with Learnable Noise ( http://arxiv.org/abs/2210.15392v1 )

ライセンス: Link先を確認
He Tang and He Wang(参考訳) ディープニューラルネットワークを用いた画素ワイズ予測は、有能なオブジェクト検出(SOD)の有効なパラダイムとなり、再計算可能なパフォーマンスを実現している。 しかし、人間の視覚的注意には認識できない敵対的攻撃に対して堅牢なSODモデルはほとんどない。 以前の作業では、対向攻撃(ROSA)に対する堅牢なサルエント物体検出は、予め設定されたスーパーピクセルをシャッフルし、密結合されたCRFによって粗いサルエンシマップを洗練した。 本稿では,様々な前処理と後処理に依存するROSAと異なり,SODモデルに対する敵攻撃に対する軽量Learnble Noise (LeNo)を提案する。 LeNoは、逆画像とクリーン画像の両方でSODモデルの精度と推論速度を保存する。 一般にlenoは、任意のsodネットワークのエンコーダとデコーダに埋め込まれた単純な浅いノイズとノイズ推定で構成されている。 人間の視覚注意機構に先立つ中心に着想を得て, 逆攻撃に対する防御性を高めるために, ガウス分布を交互に配置することで, 浅い雑音を初期化する。 後処理のためのネットワークコンポーネントを追加する代わりに、提案したノイズ推定はデコーダの1つのチャネルだけを変更する。 最先端のRGBとRGB-D SODネットワークのノイズ分離トレーニングにより、LeNoは従来の敵画像だけでなくクリーン画像にも優れており、SODの強靭性に寄与している。

Pixel-wise predction with deep neural network has become an effective paradigm for salient object detection (SOD) and achieved remakable performance. However, very few SOD models are robust against adversarial attacks which are visually imperceptible for human visual attention. The previous work robust salient object detection against adversarial attacks (ROSA) shuffles the pre-segmented superpixels and then refines the coarse saliency map by the densely connected CRF. Different from ROSA that rely on various pre- and post-processings, this paper proposes a light-weight Learnble Noise (LeNo) to against adversarial attacks for SOD models. LeNo preserves accuracy of SOD models on both adversarial and clean images, as well as inference speed. In general, LeNo consists of a simple shallow noise and noise estimation that embedded in the encoder and decoder of arbitrary SOD networks respectively. Inspired by the center prior of human visual attention mechanism, we initialize the shallow noise with a cross-shaped gaussian distribution for better defense against adversarial attacks. Instead of adding additional network components for post-processing, the proposed noise estimation modifies only one channel of the decoder. With the deeply-supervised noise-decoupled training on state-of-the-art RGB and RGB-D SOD networks, LeNo outperforms previous works not only on adversarial images but also clean images, which contributes stronger robustness for SOD.
翻訳日:2022-10-28 14:29:38 公開日:2022-10-27
# 自己教師付き学習による遠隔生理計測

Video-based Remote Physiological Measurement via Self-supervised Learning ( http://arxiv.org/abs/2210.15401v1 )

ライセンス: Link先を確認
Zijie Yue, Miaojing Shi, Shuai Ding(参考訳) ビデオベースの遠隔生理学的測定は、人間の顔ビデオからリモート光胸腺撮影(rPPG)信号を推定し、rPPG信号から複数のバイタルサイン(心拍数、呼吸頻度など)を測定することを目的としている。 最近のアプローチでは、通常、豊富な顔ビデオと同期記録フォトプレチモグラフィ(ppg)信号を必要とするディープニューラルネットワークを訓練することで、これを達成している。 しかし、実際にはこれらの注釈付きコーパスの収集は困難である。 本稿では,真理PSG信号を必要とせずに,顔映像からrPPG信号を推定する,周波数にインスパイアされた自己教師型フレームワークを提案する。 ビデオサンプルが与えられたら、まず、元のサンプルと類似/相似信号周波数を含む複数の正/負のサンプルに拡大する。 具体的には、空間増強を用いて正のサンプルを生成する。 負のサンプルは学習可能な周波数拡張モジュールを介して生成され、視覚の外観を過度に変えることなく入力に対して非線形信号周波数変換を行う。 次に、拡張サンプルからrPPG信号を推定するために、局所的なrPPGエキスパートアグリゲーションモジュールを導入する。 異なる顔領域からの補足的な脈動情報を符号化し、1つのrppg予測に集約する。 最後に,複数の拡張映像から推定されたrppg信号の最適化のために,周波数コントラスト損失,周波数比一貫性損失,ビデオ間周波数整合損失など,周波数にインスパイアされた一連の損失を提案する。 4つの標準ベンチマークでrppgによる心拍数,心拍変動,呼吸周波数の推定を行う。 実験の結果,本手法は芸術の状態を大きなマージンで改善できることが確認された。

Video-based remote physiological measurement aims to estimate remote photoplethysmography (rPPG) signals from human face videos and then measure multiple vital signs (e.g. heart rate, respiration frequency) from rPPG signals. Recent approaches achieve it by training deep neural networks, which normally require abundant face videos and synchronously recorded photoplethysmography (PPG) signals for supervision. However, the collection of these annotated corpora is uneasy in practice. In this paper, we introduce a novel frequency-inspired self-supervised framework that learns to estimate rPPG signals from face videos without the need of ground truth PPG signals. Given a video sample, we first augment it into multiple positive/negative samples which contain similar/dissimilar signal frequencies to the original one. Specifically, positive samples are generated using spatial augmentation. Negative samples are generated via a learnable frequency augmentation module, which performs non-linear signal frequency transformation on the input without excessively changing its visual appearance. Next, we introduce a local rPPG expert aggregation module to estimate rPPG signals from augmented samples. It encodes complementary pulsation information from different face regions and aggregate them into one rPPG prediction. Finally, we propose a series of frequency-inspired losses, i.e. frequency contrastive loss, frequency ratio consistency loss, and cross-video frequency agreement loss, for the optimization of estimated rPPG signals from multiple augmented video samples and across temporally neighboring video samples. We conduct rPPG-based heart rate, heart rate variability and respiration frequency estimation on four standard benchmarks. The experimental results demonstrate that our method improves the state of the art by a large margin.
翻訳日:2022-10-28 14:29:09 公開日:2022-10-27
# radiance mappingによるポイントクラウドレンダリングの高速化

Boosting Point Clouds Rendering via Radiance Mapping ( http://arxiv.org/abs/2210.15107v1 )

ライセンス: Link先を確認
Xiaoyang Huang, Yi Zhang, Bingbing Ni, Teng Li, Kai Chen, Wenjun Zhang(参考訳) 近年,高品質なNeRF画像のレンダリング技術が急速に進歩していることが注目されている。 しかし、ポイント・クラウドのレンダリングは、どうにか探索が進んでいない。 密集した空間サンプリングに苦しむNeRFベースのレンダリングと比較して、ポイントクラウドレンダリングは計算集約性が低いため、モバイルコンピューティングデバイスへの展開が可能である。 本研究では,コンパクトモデル設計によるポイントクラウドレンダリングの画質向上に重点を置いている。 まず、点雲上のボリュームレンダリングの定式化の適応性を分析する。 解析に基づき,1ピクセルあたりの単一評価しか必要としない空間マッピング関数へのNeRF表現を単純化する。 さらに, レイマーキングの動機として, ノイズの多い原点雲を, 周波数崩壊や近傍の点乱を避けるために, クリード座標として線と表面の交点の推定値に修正する。 本手法はラスタライジング,空間マッピング,精細化の段階から成り,ポイントクラウドレンダリングにおける最先端のパフォーマンスを実現し,モデルサイズを小さくして,先行作品よりも優れた性能を得る。 我々は、NeRF合成で31.74、ScanNetで25.88、DTUで30.81のPSNRを得る。 コードとデータは間もなくリリースされる。

Recent years we have witnessed rapid development in NeRF-based image rendering due to its high quality. However, point clouds rendering is somehow less explored. Compared to NeRF-based rendering which suffers from dense spatial sampling, point clouds rendering is naturally less computation intensive, which enables its deployment in mobile computing device. In this work, we focus on boosting the image quality of point clouds rendering with a compact model design. We first analyze the adaption of the volume rendering formulation on point clouds. Based on the analysis, we simplify the NeRF representation to a spatial mapping function which only requires single evaluation per pixel. Further, motivated by ray marching, we rectify the the noisy raw point clouds to the estimated intersection between rays and surfaces as queried coordinates, which could avoid spatial frequency collapse and neighbor point disturbance. Composed of rasterization, spatial mapping and the refinement stages, our method achieves the state-of-the-art performance on point clouds rendering, outperforming prior works by notable margins, with a smaller model size. We obtain a PSNR of 31.74 on NeRF-Synthetic, 25.88 on ScanNet and 30.81 on DTU. Code and data would be released soon.
翻訳日:2022-10-28 14:22:46 公開日:2022-10-27
# ヒューマンオプティカルフローとポーズのブートストラップ

Bootstrapping Human Optical Flow and Pose ( http://arxiv.org/abs/2210.15121v1 )

ライセンス: Link先を確認
Aritro Roy Arko, Kwang Moo Yi and James J. Little(参考訳) 人間の光学的フローとポーズを高めるブートストラップフレームワークを提案する。 シーン内の人間を含むビデオでは,2つのタスクを同時に考慮することで,人間の光学的流れとポーズ推定品質の両方を向上できることを示す。 我々は、人間のポーズ推定に適合するように微調整することで、光学フロー推定を強化し、その逆も行う。 より詳しくは、ポーズと光フローネットワークを推論時に互いに一致するように最適化する。 この結果は、WildデータセットにおけるHuman 3.6Mと3D Posesの最先端結果と、人間の関節位置におけるポーズ推定精度と光学フロー精度の両方の観点から、Sintelデータセットの人間関連サブセットであることを示す。 コードはhttps://github.com/ubc-vision/bootstrapping-human-optical-flow-and-poseで利用可能

We propose a bootstrapping framework to enhance human optical flow and pose. We show that, for videos involving humans in scenes, we can improve both the optical flow and the pose estimation quality of humans by considering the two tasks at the same time. We enhance optical flow estimates by fine-tuning them to fit the human pose estimates and vice versa. In more detail, we optimize the pose and optical flow networks to, at inference time, agree with each other. We show that this results in state-of-the-art results on the Human 3.6M and 3D Poses in the Wild datasets, as well as a human-related subset of the Sintel dataset, both in terms of pose estimation accuracy and the optical flow accuracy at human joint locations. Code available at https://github.com/ubc-vision/bootstrapping-human-optical-flow-and-pose
翻訳日:2022-10-28 14:22:26 公開日:2022-10-27
# 映像ベースモーションキャプチャに先立つ変分運動の学習

Learning Variational Motion Prior for Video-based Motion Capture ( http://arxiv.org/abs/2210.15134v1 )

ライセンス: Link先を確認
Xin Chen, Zhuo Su, Lingbo Yang, Pei Cheng, Lan Xu, Bin Fu, and Gang Yu(参考訳) モノクロビデオからのモーションキャプチャは、人間がVR(Virtual Reality)やAR(Augmented Reality)で自然に体験し、相互に対話する上で、基本的で不可欠です。 しかし、既存の手法は、モデリング前の効果的な動きの欠如により、自己排除と複雑なポーズを含む難題に苦慮している。 本稿では,この問題を解決するために,ビデオベースモーションキャプチャーのための新しい変分動作先行学習手法を提案する。 映像と動き領域の対応性を直接構築する代わりに、すべての自然な動きの事前分布を捉えるための一般的な潜在空間を学習することを提案する。 先行空間の一般化能力を向上させるために,マーカーベースの3Dモキャップデータに事前学習したトランスフォーマーベースの変分オートエンコーダを提案する。 その後、個別のビデオエンコーダを予め訓練されたモーションジェネレータに取り付け、タスク固有のビデオデータセットをエンドツーエンドで微調整する。 既存の運動先行モデルと比較して,vmpモデルはフレーム毎のポーズ推定における時間的ジッタと故障モードを効果的に低減し,時間的に安定かつ視覚的なモーションキャプチャ結果をもたらす運動整流器として機能する。 さらに,vmpベースのフレームワークはシーケンスレベルで動作をモデル化し,フォワードパス内で直接モーションクリップを生成し,推論中にリアルタイムモーションキャプチャを実現する。 パブリックデータセットとインザワイルドビデオの両方に対する大規模な実験により、我々のフレームワークの有効性と一般化能力が実証された。

Motion capture from a monocular video is fundamental and crucial for us humans to naturally experience and interact with each other in Virtual Reality (VR) and Augmented Reality (AR). However, existing methods still struggle with challenging cases involving self-occlusion and complex poses due to the lack of effective motion prior modeling. In this paper, we present a novel variational motion prior (VMP) learning approach for video-based motion capture to resolve the above issue. Instead of directly building the correspondence between the video and motion domain, We propose to learn a generic latent space for capturing the prior distribution of all natural motions, which serve as the basis for subsequent video-based motion capture tasks. To improve the generalization capacity of prior space, we propose a transformer-based variational autoencoder pretrained over marker-based 3D mocap data, with a novel style-mapping block to boost the generation quality. Afterward, a separate video encoder is attached to the pretrained motion generator for end-to-end fine-tuning over task-specific video datasets. Compared to existing motion prior models, our VMP model serves as a motion rectifier that can effectively reduce temporal jittering and failure modes in frame-wise pose estimation, leading to temporally stable and visually realistic motion capture results. Furthermore, our VMP-based framework models motion at sequence level and can directly generate motion clips in the forward pass, achieving real-time motion capture during inference. Extensive experiments over both public datasets and in-the-wild videos have demonstrated the efficacy and generalization capability of our framework.
翻訳日:2022-10-28 14:22:10 公開日:2022-10-27
# クロスドメインおよびクロスモーダル3次元形状検索のための3次元形状知識グラフ

3D Shape Knowledge Graph for Cross-domain and Cross-modal 3D Shape Retrieval ( http://arxiv.org/abs/2210.15136v1 )

ライセンス: Link先を確認
Weizhi Nie, Rihao Chang, Tong Hao, Anan Liu(参考訳) 3次元モデリングと製作の発展に伴い、3次元形状検索がホットな話題となっている。 近年,この検索問題に対処する戦略がいくつか提案されている。 しかし、モダリティの自然な違いから、モダリティ間の3次元形状検索を扱うことは困難である。 本稿では,任意の3次元や2次元の実体を組み合わせて表現する基本要素である幾何学的単語を,同時にクロスドメインやクロスモーダル検索問題を扱うことができる,という革新的な概念を提案する。 まず、知識グラフを構築するために、幾何学的単語をノードとして使用し、次に3d形状のカテゴリと幾何学的属性を使用してノードを橋渡しする。 次に、知識グラフに基づいて、各エンティティの埋め込みを学習するユニークな方法を提供します。 最後に,クロスドメインおよびクロスモーダル3次元形状検索を扱うための効果的な類似性尺度を提案する。 具体的には、すべての3Dまたは2Dエンティティは、その幾何学用語を3D知識グラフに配置することができる。 そこで本手法は,クロスドメインとクロスモーダルな3次元形状検索を同時に実現する。 モデルNet40データセットとShapeNetCore55データセットを3次元形状検索タスクとクロスドメイン形状検索タスクの両方で評価した。 古典的クロスモーダルデータセット(MI3DOR)を用いて、クロスモーダルな3次元形状検索を評価する。 実験結果と最先端手法との比較により,本手法の優位性を示した。

With the development of 3D modeling and fabrication, 3D shape retrieval has become a hot topic. In recent years, several strategies have been put forth to address this retrieval issue. However, it is difficult for them to handle cross-modal 3D shape retrieval because of the natural differences between modalities. In this paper, we propose an innovative concept, namely, geometric words, which is regarded as the basic element to represent any 3D or 2D entity by combination, and assisted by which, we can simultaneously handle cross-domain or cross-modal retrieval problems. First, to construct the knowledge graph, we utilize the geometric word as the node, and then use the category of the 3D shape as well as the attribute of the geometry to bridge the nodes. Second, based on the knowledge graph, we provide a unique way for learning each entity's embedding. Finally, we propose an effective similarity measure to handle the cross-domain and cross-modal 3D shape retrieval. Specifically, every 3D or 2D entity could locate its geometric terms in the 3D knowledge graph, which serve as a link between cross-domain and cross-modal data. Thus, our approach can achieve the cross-domain and cross-modal 3D shape retrieval at the same time. We evaluated our proposed method on the ModelNet40 dataset and ShapeNetCore55 dataset for both the 3D shape retrieval task and cross-domain 3D shape retrieval task. The classic cross-modal dataset (MI3DOR) is utilized to evaluate cross-modal 3D shape retrieval. Experimental results and comparisons with state-of-the-art methods illustrate the superiority of our approach.
翻訳日:2022-10-28 14:21:41 公開日:2022-10-27
# ScoreMix: 限られたデータでGANをトレーニングするためのスケーラブルな拡張戦略

ScoreMix: A Scalable Augmentation Strategy for Training GANs with Limited Data ( http://arxiv.org/abs/2210.15137v1 )

ライセンス: Link先を確認
Jie Cao, Mandi Luo, Junchi Yu, Ming-Hsuan Yang, and Ran He(参考訳) GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。 GANトレーニングを容易にするため,本手法ではデータ固有の拡張手法を提案する。 有効性にもかかわらず、これらの手法を実用的な応用に拡張することは困難である。 本稿では,様々な画像合成タスクのための新しいスケーラブルなデータ拡張手法である scoremix を提案する。 まず、実サンプルの凸組み合わせを用いて、拡張サンプルを生成する。 次に,データスコアのノルム,すなわち対数密度関数の勾配を最小化することで拡張サンプルを最適化する。 この手順はデータ多様体に近い拡張サンプルを強制する。 スコアを推定するために,マルチスケールスコアマッチングを用いた深層推定ネットワークを訓練する。 異なる画像合成タスクに対して,スコア推定ネットワークを異なるデータを用いてトレーニングする。 ハイパーパラメータのチューニングやネットワークアーキテクチャの変更は必要ありません。 ScoreMix法はデータの多様性を効果的に増加させ、オーバーフィッティング問題を低減させる。 さらに、小さな修正を加えて既存のGANモデルに簡単に組み込むことができる。 多数のタスクに対する実験結果から,ScoreMix 法を用いた GAN モデルにより大幅な改善が得られた。

Generative Adversarial Networks (GANs) typically suffer from overfitting when limited training data is available. To facilitate GAN training, current methods propose to use data-specific augmentation techniques. Despite the effectiveness, it is difficult for these methods to scale to practical applications. In this work, we present ScoreMix, a novel and scalable data augmentation approach for various image synthesis tasks. We first produce augmented samples using the convex combinations of the real samples. Then, we optimize the augmented samples by minimizing the norms of the data scores, i.e., the gradients of the log-density functions. This procedure enforces the augmented samples close to the data manifold. To estimate the scores, we train a deep estimation network with multi-scale score matching. For different image synthesis tasks, we train the score estimation network using different data. We do not require the tuning of the hyperparameters or modifications to the network architecture. The ScoreMix method effectively increases the diversity of data and reduces the overfitting problem. Moreover, it can be easily incorporated into existing GAN models with minor modifications. Experimental results on numerous tasks demonstrate that GAN models equipped with the ScoreMix method achieve significant improvements.
翻訳日:2022-10-28 14:21:17 公開日:2022-10-27
# 凍結視覚言語モデルを用いた開語彙意味セグメンテーション

Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models ( http://arxiv.org/abs/2210.15138v1 )

ライセンス: Link先を確認
Chaofan Ma, Yuhuan Yang, Yanfeng Wang, Ya Zhang, Weidi Xie(参考訳) 十分な規模で訓練すると、自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。 本稿では,事前学習された基礎モデルから興味のある下流タスク,すなわちオープンボキャブラリーセマンティクスセグメンテーションへ適応するための,単純かつ効果的なアプローチについて検討する。 この目的のために、以下の貢献をしている。 (i)一握りの画像セグメンテーションデータを通して、凍結された視覚表現と言語概念を組み合わせる軽量なトランスフォーマーベースの融合モジュールであるfusionerを導入する。 その結果、このモデルは、セグメント新規カテゴリへのゼロショット転送の能力を得る。 一般性を欠くことなく,視覚のみのモデル (MoCo v3, DINO) や言語のみのモデル (BERT) ,視覚言語モデル (CLIP) など,様々なスキームで事前訓練された多種多様な自己教師型モデルを試行し,一様データのコーパスに事前訓練されたモデルでさえも,その融合アプローチが視覚と言語のいずれかのモデルに有効であることを示す。 三 提案するFusionerの臨界成分を分析するための徹底的なアブレーション研究を行い、PASCAL-5i や COCO-20i などの標準ベンチマークで評価しながら、凍結した視覚的特徴や言語的特徴にのみ訓練されているにもかかわらず、既存の最先端モデルを大きく上回っている。 (iv)視覚言語対応の学習におけるモデルの頑健性を測定するために,fss-1000のサンプルをモザイクして画像を構築する「モザイク4」という合成データセットについてさらに評価した。 Fusionerは以前のモデルよりも優れたパフォーマンスを示している。

When trained at a sufficient scale, self-supervised learning has exhibited a notable ability to solve a wide range of visual or language understanding tasks. In this paper, we investigate simple, yet effective approaches for adapting the pre-trained foundation models to the downstream task of interest, namely, open-vocabulary semantic segmentation. To this end, we make the following contributions: (i) we introduce Fusioner, with a lightweight, transformer-based fusion module, that pairs the frozen visual representation with language concept through a handful of image segmentation data. As a consequence, the model gains the capability of zero-shot transfer to segment novel categories; (ii) without loss of generality, we experiment on a broad range of self-supervised models that have been pre-trained with different schemes, e.g. visual-only models (MoCo v3, DINO), language-only models (BERT), visual-language model (CLIP), and show that, the proposed fusion approach is effective to any pair of visual and language models, even those pre-trained on a corpus of uni-modal data; (iii) we conduct thorough ablation studies to analyze the critical components in our proposed Fusioner, while evaluating on standard benchmarks, e.g. PASCAL-5i and COCO-20i , it surpasses existing state-of-the-art models by a large margin, despite only being trained on frozen visual and language features; (iv) to measure the model's robustness on learning visual-language correspondence, we further evaluate on synthetic dataset, named Mosaic-4, where images are constructed by mosaicking the samples from FSS-1000. Fusioner demonstrates superior performance over previous models.
翻訳日:2022-10-28 14:21:04 公開日:2022-10-27
# スケッチに基づく視覚理解の実践に向けて

Towards Practicality of Sketch-Based Visual Understanding ( http://arxiv.org/abs/2210.15146v1 )

ライセンス: Link先を確認
Ayan Kumar Bhunia(参考訳) スケッチは、先史時代の視覚物体の概念化や描写に用いられてきた。 スケッチの研究はこの10年間、特にタッチスクリーンデバイスの普及で盛んになった。 スケッチの活用の多くは、年齢、人種、言語、あるいはデモグラフィーに関係なく、視覚概念を普遍的に記述するために使用できるという事実に根ざしている。 スケッチのきめ細かいインタラクティブな性質は、画像検索、画像生成、編集、セグメンテーション、立体形状モデリングなど、様々な視覚的理解タスクへのスケッチの適用を促進する。 しかし、スケッチは個人の知覚に基づいて非常に抽象的で主観的である。 多くの人は、スケッチが視覚的なオブジェクトを描くためのきめ細かい制御を提供することに同意するが、多くの人は、テキストやタグのような他のクエリ/サポートモダリティと比較して、スケッチのスキルが限られているため、面倒なプロセスをスケッチすることを考える。 さらに、きめ細かいスケッチ写真アソシエーションの収集は、スケッチアプリケーションの商業化において重要なボトルネックとなっている。 そこで本論文は,より実用的に向けたスケッチベース視覚理解の進展を目標としている。

Sketches have been used to conceptualise and depict visual objects from pre-historic times. Sketch research has flourished in the past decade, particularly with the proliferation of touchscreen devices. Much of the utilisation of sketch has been anchored around the fact that it can be used to delineate visual concepts universally irrespective of age, race, language, or demography. The fine-grained interactive nature of sketches facilitates the application of sketches to various visual understanding tasks, like image retrieval, image-generation or editing, segmentation, 3D-shape modelling etc. However, sketches are highly abstract and subjective based on the perception of individuals. Although most agree that sketches provide fine-grained control to the user to depict a visual object, many consider sketching a tedious process due to their limited sketching skills compared to other query/support modalities like text/tags. Furthermore, collecting fine-grained sketch-photo association is a significant bottleneck to commercialising sketch applications. Therefore, this thesis aims to progress sketch-based visual understanding towards more practicality.
翻訳日:2022-10-28 14:20:29 公開日:2022-10-27
# 複雑な背景:バイナリセグメンテーションのための統一差分認識デコーダ

Towards Complex Backgrounds: A Unified Difference-Aware Decoder for Binary Segmentation ( http://arxiv.org/abs/2210.15156v1 )

ライセンス: Link先を確認
Jiepan Li, Wei He, and Hongyan Zhang(参考訳) バイナリセグメンテーションは、興味のあるオブジェクトと背景を区別するために使われ、畳み込みエンコーダ-デコーダネットワーク研究の活発な領域である。 現在のデコーダは、エンコーダとして共通のバックボーンに基づいた特定のオブジェクト向けに設計されているが、複雑なバックグラウンドを扱うことはできない。 本稿では,人間の目が興味のある物体を検出する方法に触発されて,差分認識デコーダと呼ばれる新しい統一型デュアルブランチデコーダパラダイムを提案し,前景と背景の違いを探索し,光学画像に対する関心対象を分離する。 差分認識デコーダは、エンコーダが出力する多レベル特徴を用いて、3段階の人間の目を模倣する。 ステージaでは、差分認識デコーダの第1分岐デコーダを使用してガイドマップを得る。 最高レベルの特徴は、新しいフィールド拡張モジュールと2つの残留アテンションモジュールで拡張され、最低レベルの特徴と組み合わせてガイドマップを得る。 ステージBでは、他のブランチデコーダが中間機能融合モジュールを採用して、テクスチャの詳細とセマンティック情報の間でトレードオフを行い、バックグラウンド認識機能を生成する。 cステージでは、差分誘導モデルと差分強調モジュールとからなる差分認識抽出器が、aステージからガイドマップとbステージから背景認識特徴とを融合させ、前景と背景との差を拡大し、最終検出結果を出力する。 その結果、差認識デコーダは、これらのタスクに対する他の最先端のバイナリセグメンテーション手法よりも高い精度で実現できることを示した。

Binary segmentation is used to distinguish objects of interest from background, and is an active area of convolutional encoder-decoder network research. The current decoders are designed for specific objects based on the common backbones as the encoders, but cannot deal with complex backgrounds. Inspired by the way human eyes detect objects of interest, a new unified dual-branch decoder paradigm named the difference-aware decoder is proposed in this paper to explore the difference between the foreground and the background and separate the objects of interest in optical images. The difference-aware decoder imitates the human eye in three stages using the multi-level features output by the encoder. In Stage A, the first branch decoder of the difference-aware decoder is used to obtain a guide map. The highest-level features are enhanced with a novel field expansion module and a dual residual attention module, and are combined with the lowest-level features to obtain the guide map. In Stage B, the other branch decoder adopts a middle feature fusion module to make trade-offs between textural details and semantic information and generate background-aware features. In Stage C, the proposed difference-aware extractor, consisting of a difference guidance model and a difference enhancement module, fuses the guide map from Stage A and the background-aware features from Stage B, to enlarge the differences between the foreground and the background and output a final detection result. The results demonstrate that the difference-aware decoder can achieve a higher accuracy than the other state-of-the-art binary segmentation methods for these tasks.
翻訳日:2022-10-28 14:20:12 公開日:2022-10-27
# ACES:機械翻訳メトリクス評価のための翻訳精度問題セット

ACES: Translation Accuracy Challenge Sets for Evaluating Machine Translation Metrics ( http://arxiv.org/abs/2210.15615v1 )

ライセンス: Link先を確認
Chantal Amrhein and Nikita Moghe and Liane Guillou(参考訳) 機械翻訳(MT)メトリクスは、毎年人間の判断との相関性を改善するため、セグメントレベルでのこれらの指標の限界を理解することが不可欠である。 特に、MTの精度誤差に直面するときの計量的挙動は、特定の状況(例えば、法律、医学)で危険な結果をもたらす可能性があるため、調査することが重要である。 単語/文字レベルでの単純な摂動から、談話と現実世界の知識に基づくより複雑な誤りまで、68の現象からなる翻訳精度チャレンジセットacesをキュレートした。 我々は、WMT 2022メトリクス共有タスクへの提出を含む幅広いMTメトリクスの評価にACESを使用し、メトリクス開発者に対する一般的な勧告につながるいくつかの分析を行う。 推奨する。 a)異なる強度でメトリクスを組み合わせること b) ソースに対してより重みを与え、参照と表面レベルの重なりを少なくするメトリクスを開発すること。 c) 言語固有の追加情報を、多言語埋め込みで利用できる範囲を超えて明示的にモデル化すること。

As machine translation (MT) metrics improve their correlation with human judgement every year, it is crucial to understand the limitations of such metrics at the segment level. Specifically, it is important to investigate metric behaviour when facing accuracy errors in MT because these can have dangerous consequences in certain contexts (e.g., legal, medical). We curate ACES, a translation accuracy challenge set, consisting of 68 phenomena ranging from simple perturbations at the word/character level to more complex errors based on discourse and real-world knowledge. We use ACES to evaluate a wide range of MT metrics including the submissions to the WMT 2022 metrics shared task and perform several analyses leading to general recommendations for metric developers. We recommend: a) combining metrics with different strengths, b) developing metrics that give more weight to the source and less to surface-level overlap with the reference and c) explicitly modelling additional language-specific information beyond what is available via multilingual embeddings.
翻訳日:2022-10-28 14:14:20 公開日:2022-10-27
# カスタマイズ可能な強化学習エージェントを目指して:オンライン語彙拡張による選好仕様の実現

Towards customizable reinforcement learning agents: Enabling preference specification through online vocabulary expansion ( http://arxiv.org/abs/2210.15096v1 )

ライセンス: Link先を確認
Utkarsh Soni, Sarath Sreedharan, Mudit Verma, Lin Guan, Matthew Marquez, Subbarao Kambhampati(参考訳) 人間と一緒に働く自動化エージェントの開発への関心が高まっている。 割り当てられたタスクの完了に加えて、そのようなエージェントは間違いなく、人間が好む方法で振る舞うことが期待されます。 これは、人間は自分の好みをエージェントに伝える必要がある。 これを実現するために、現在のアプローチでは、ユーザが報酬関数を指定するか、あるいは、ユーザがトラジェクトリを比較するよう求めるクエリから対話的に学習する。 前者のアプローチは、エージェントが使用する内部表現が人間にとって不可避である場合、後者がシンボリック用語でより容易に指定できる場合、ユーザにとって不必要である場合、困難である。 本研究では、ユーザが理解している概念の観点で好みを指定できるシステムであるPreSCA(PREference Specification through Concept Acquisition)を提案する。 PreSCAはそのような概念の集合を共有語彙で維持する。 関連する概念が共有語彙に含まれていない場合、学習される。 新しい概念をより効率的に学習するために、PreSCAはターゲット概念とすでに知られている概念の因果関係を活用する。 さらに、新しい概念を学習する努力は、将来の相互作用における嗜好仕様をサポートするための共有語彙に概念を追加することで償却される。 prescaをminecraft環境で使用することで評価し,エージェントをユーザの好みに合わせるために効果的に使用できることを示す。

There is a growing interest in developing automated agents that can work alongside humans. In addition to completing the assigned task, such an agent will undoubtedly be expected to behave in a manner that is preferred by the human. This requires the human to communicate their preferences to the agent. To achieve this, the current approaches either require the users to specify the reward function or the preference is interactively learned from queries that ask the user to compare trajectories. The former approach can be challenging if the internal representation used by the agent is inscrutable to the human while the latter is unnecessarily cumbersome for the user if their preference can be specified more easily in symbolic terms. In this work, we propose PRESCA (PREference Specification through Concept Acquisition), a system that allows users to specify their preferences in terms of concepts that they understand. PRESCA maintains a set of such concepts in a shared vocabulary. If the relevant concept is not in the shared vocabulary, then it is learned. To make learning a new concept more efficient, PRESCA leverages causal associations between the target concept and concepts that are already known. Additionally, the effort of learning the new concept is amortized by adding the concept to the shared vocabulary for supporting preference specification in future interactions. We evaluate PRESCA by using it on a Minecraft environment and show that it can be effectively used to make the agent align with the user's preference.
翻訳日:2022-10-28 14:14:04 公開日:2022-10-27
# ブラックボックスを白く塗る--XAIを心電図読解装置に応用した実験結果

Painting the black box white: experimental findings from applying XAI to an ECG reading setting ( http://arxiv.org/abs/2210.15236v1 )

ライセンス: Link先を確認
Federico Cabitza and Matteo Cameli and Andrea Campagner and Chiara Natali and Luca Ronzio(参考訳) シンボリックAIシステムからブラックボックス、サブシンボリック、統計システムへのシフトは、説明可能なAI(XAI)への関心の高まりを動機付けている。 しかし、我々は、常にブラックボックスを透明にするのではなく、これらのアプローチは、システムのユーザビリティと理解性を向上するレベルの透明性を提供できない、あるいは、新しいエラーを発生させるリスクがある、というリスクがある、と指摘する。 このようなユーザビリティに関する問題に対処するため,本研究では,ユーザによる説明認識の認知的次元とxaiシステムに着目した。 そこで我々は,AI支援ECG読解タスクにおいて,44人の心臓科医と専門医による質問紙調査を行った。 そこで我々は,ユーザの特性(専門知識など)とAIとXAIシステムに対する認識との関係について,信頼度,理解された説明の質,自動化プロセスの延期傾向(すなわち技術優位性),およびこれらの異なる側面間の相互関係など,さまざまな研究課題を考察した。 本研究は,人間とAIのインタラクション指向の観点からAIベースの支援システムの評価に寄与し,XAIのさらなる研究と,その意思決定とユーザエクスペリエンスへの影響を裏付けるものである。

The shift from symbolic AI systems to black-box, sub-symbolic, and statistical ones has motivated a rapid increase in the interest toward explainable AI (XAI), i.e. approaches to make black-box AI systems explainable to human decision makers with the aim of making these systems more acceptable and more usable tools and supports. However, we make the point that, rather than always making black boxes transparent, these approaches are at risk of \emph{painting the black boxes white}, thus failing to provide a level of transparency that would increase the system's usability and comprehensibility; or, even, at risk of generating new errors, in what we termed the \emph{white-box paradox}. To address these usability-related issues, in this work we focus on the cognitive dimension of users' perception of explanations and XAI systems. To this aim, we designed and conducted a questionnaire-based experiment by which we involved 44 cardiology residents and specialists in an AI-supported ECG reading task. In doing so, we investigated different research questions concerning the relationship between users' characteristics (e.g. expertise) and their perception of AI and XAI systems, including their trust, the perceived explanations' quality and their tendency to defer the decision process to automation (i.e. technology dominance), as well as the mutual relationships among these different dimensions. Our findings provide a contribution to the evaluation of AI-based support systems from a Human-AI interaction-oriented perspective and lay the ground for further investigation of XAI and its effects on decision making and user experience.
翻訳日:2022-10-28 14:13:42 公開日:2022-10-27
# 富の公理的誤りを克服する方法

How To Overcome Richness Axiom Fallacy ( http://arxiv.org/abs/2210.15507v1 )

ライセンス: Link先を確認
Mieczys{\l}aw A. K{\l}opotek and Robert A. K{\l}opotek(参考訳) 論文は、クラインベルクの公理系における豊かさ公理が示唆する悲嘆の問題を指摘し、解決法を提案する。 豊かさは一般に学習可能性の問題を引き起こし、一貫性の公理と矛盾する。 そこで, 学習可能性の制約や, 超球クラスタリングに対するクラスタリングの領域の集中的整合性, あるいは領域の制約について検討した。

The paper points at the grieving problems implied by the richness axiom in the Kleinberg's axiomatic system and suggests resolutions. The richness induces learnability problem in general and leads to conflicts with consistency axiom. As a resolution, learnability constraints and usage of centric consistency or restriction of the domain of considered clusterings to super-ball-clusterings is proposed.
翻訳日:2022-10-28 14:13:10 公開日:2022-10-27
# 関連するシーケンスルールに向けて

Towards Correlated Sequential Rules ( http://arxiv.org/abs/2210.15637v1 )

ライセンス: Link先を確認
Lili Chen, Wensheng Gan, Chien-Ming Chen(参考訳) 高ユーティリティシーケンシャルパターンマイニング(HUSPM)の目標は、多数のシーケンスにおいて、利益または有用なシーケンシャルパターンを効率的に発見することである。 しかし、単に実用可能なパターンに気付くだけでは予測には不十分である。 この欠損を補うために、高実用性シーケンシャルルールマイニング(HUSRM)は、セカンダリシーケンシャルパターンの出現に基づいて結果シーケンシャルパターンの発生を予測できる自信や確率を探索するように設計されている。 製品のレコメンデーションや天気予報など、多くの応用がある。 しかし、既存のアルゴリズムであるHUSRMは、生成された逐次規則間の相関を無視しながら、すべての許容規則を抽出することに制限されている。 本稿では,相関性の概念を husrm に組み込むために,cousr (correlationd high-utility sequential rule miner) と呼ばれる新しいアルゴリズムを提案する。 提案アルゴリズムは,各ルールに相関性を持たせるだけでなく,高ユーティリティシーケンシャルルールの先行パターンと連続パターンの相関性も要求する。 このアルゴリズムは複数のデータベーススキャンを避けるためにユーティリティリスト構造を採用している。 さらに、アルゴリズムの効率と性能を改善するためにいくつかのプルーニング戦略が用いられている。 いくつかの実世界のデータセットに基づいて、その後の実験では、CoUSRは演算時間とメモリ消費の点で効率的かつ効率的であることが示された。

The goal of high-utility sequential pattern mining (HUSPM) is to efficiently discover profitable or useful sequential patterns in a large number of sequences. However, simply being aware of utility-eligible patterns is insufficient for making predictions. To compensate for this deficiency, high-utility sequential rule mining (HUSRM) is designed to explore the confidence or probability of predicting the occurrence of consequence sequential patterns based on the appearance of premise sequential patterns. It has numerous applications, such as product recommendation and weather prediction. However, the existing algorithm, known as HUSRM, is limited to extracting all eligible rules while neglecting the correlation between the generated sequential rules. To address this issue, we propose a novel algorithm called correlated high-utility sequential rule miner (CoUSR) to integrate the concept of correlation into HUSRM. The proposed algorithm requires not only that each rule be correlated but also that the patterns in the antecedent and consequent of the high-utility sequential rule be correlated. The algorithm adopts a utility-list structure to avoid multiple database scans. Additionally, several pruning strategies are used to improve the algorithm's efficiency and performance. Based on several real-world datasets, subsequent experiments demonstrated that CoUSR is effective and efficient in terms of operation time and memory consumption.
翻訳日:2022-10-28 14:13:03 公開日:2022-10-27
# スパース点アノテーションを用いた電子顕微鏡の領域適応セグメンテーション

Domain Adaptive Segmentation of Electron Microscopy with Sparse Point Annotations ( http://arxiv.org/abs/2210.13109v3 )

ライセンス: Link先を確認
Dafei Qiu, Jiajin Yi, Jialin Peng(参考訳) オルガネラインスタンス(例えばミトコンドリア)の正確なセグメンテーションは電子顕微鏡解析に必須である。 完全な教師付きメソッドのパフォーマンスは優れているが、十分なピクセル毎の注釈データに依存しており、ドメインシフトに敏感である。 競合性能を持つ高度にアノテーション効率の高いアプローチを開発するために、オブジェクトインスタンスの小さなサブセットのみにスパースポイントアノテーションを要求する極端にスパースで弱いアノテーションのタイプを持つ弱教師付きドメイン適応(WDA)に焦点を当てる。 ドメインシフトによる性能劣化を低減するため,ドメイン不変度の異なるタスクピラミッドを構成する3つの相補的タスク,すなわちカウント,検出,セグメンテーションを実行することで,多段階の伝達可能な知識を探索する。 この背景にある直観は、関連するソースドメインを調査した後、ターゲットドメイン内で類似したオブジェクトを見つけることが、それらの細かい境界を示すよりもずっと容易であるということである。 具体的には、スパース監視による検出のグローバル制約としてカウント推定を強制し、セグメンテーションをさらに導く。 アノテーションのスパース性をさらに補うために、クロスポジションカット・アンド・ペースト拡張が導入される。 広範囲な検証によって、15%のポイントアノテーションしか持たないモデルが教師付きモデルと同等のパフォーマンスを達成でき、アノテーションの選択に堅牢性を示している。

Accurate segmentation of organelle instances, e.g., mitochondria, is essential for electron microscopy analysis. Despite the outstanding performance of fully supervised methods, they highly rely on sufficient per-pixel annotated data and are sensitive to domain shift. Aiming to develop a highly annotation-efficient approach with competitive performance, we focus on weakly-supervised domain adaptation (WDA) with a type of extremely sparse and weak annotation demanding minimal annotation efforts, i.e., sparse point annotations on only a small subset of object instances. To reduce performance degradation arising from domain shift, we explore multi-level transferable knowledge through conducting three complementary tasks, i.e., counting, detection, and segmentation, constituting a task pyramid with different levels of domain invariance. The intuition behind this is that after investigating a related source domain, it is much easier to spot similar objects in the target domain than to delineate their fine boundaries. Specifically, we enforce counting estimation as a global constraint to the detection with sparse supervision, which further guides the segmentation. A cross-position cut-and-paste augmentation is introduced to further compensate for the annotation sparsity. Extensive validations show that our model with only 15% point annotations can achieve comparable performance as supervised models and shows robustness to annotation selection.
翻訳日:2022-10-28 14:12:30 公開日:2022-10-27
# 幻覚による学習--弱い監督を伴う視覚言語事前学習

Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision ( http://arxiv.org/abs/2210.13591v2 )

ライセンス: Link先を確認
Tzu-Jui Julius Wang, Jorma Laaksonen, Tomas Langer, Heikki Arponen, and Tom E. Bishop(参考訳) 弱教師付き視覚言語 (V-L) 事前訓練 (W-VLP) は、画像やキャプションの整列など、ペア化されたデータが少ない、あるいは全くペア化されていないクロスモーダルアライメントを学習することを目的としている。 オブジェクトタグと視覚的特徴をペアリングする最近のW-VLP手法は、様々なV-L下流タスクで整列ペアで訓練された一部のVLPモデルと同等のパフォーマンスを達成する。 しかし、これはクロスモーダル検索(XMR)ではそうではない。 このようなW-VLPモデルの学習は、限定的な意味論のオブジェクトタグによって抑制され、偏りがあると主張する。 我々は,W-VLPモデルとして弱い監督によって訓練され,キャプションと組み合わせた画像を必要としない新しいビジュアル語彙ベースの特徴幻覚器 (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。 WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。 WFHは、例えばU-VisualBERT(U-VB)のような以前のW-VLPワークを、XMR、Visual Question Answeringなど様々なV-Lタスクで継続的に強化している。 recall@{1,5,10}でベンチマークした結果、flickr30kとmscocoという2つの人気データセットで、画像からテキストへのu-vbとテキストから画像への検索が一貫して改善されている。 一方、XMRタスクのクロスデータセットの一般化テストでは、少なくとも14.5%向上している。 さらに、他のV-L下流タスクでは、私たちのWFHモデルはペア化されたV-Lデータで訓練されたモデルと同等であり、未ペアデータの有用性を明らかにしている。 これらの結果はWFHを用いたW-VLPモデルのより一般化されたものである。

Weakly-supervised vision-language (V-L) pre-training (W-VLP) aims at learning cross-modal alignment with little or no paired data, such as aligned images and captions. Recent W-VLP methods, which pair visual features with object tags, help achieve performances comparable with some VLP models trained with aligned pairs in various V-L downstream tasks. This, however, is not the case in cross-modal retrieval (XMR). We argue that the learning of such a W-VLP model is curbed and biased by the object tags of limited semantics. We address the lack of paired V-L data for model supervision with a novel Visual Vocabulary based Feature Hallucinator (WFH), which is trained via weak supervision as a W-VLP model, not requiring images paired with captions. WFH generates visual hallucinations from texts, which are then paired with the originally unpaired texts, allowing more diverse interactions across modalities. Empirically, WFH consistently boosts the prior W-VLP works, e.g. U-VisualBERT (U-VB), over a variety of V-L tasks, i.e. XMR, Visual Question Answering, etc. Notably, benchmarked with recall@{1,5,10}, it consistently improves U-VB on image-to-text and text-to-image retrieval on two popular datasets Flickr30K and MSCOCO. Meanwhile, it gains by at least 14.5% in cross-dataset generalization tests on these XMR tasks. Moreover, in other V-L downstream tasks considered, our WFH models are on par with models trained with paired V-L data, revealing the utility of unpaired data. These results demonstrate greater generalization of the proposed W-VLP model with WFH.
翻訳日:2022-10-28 14:12:05 公開日:2022-10-27
# 双方向英語ニューラルマシン翻訳における正規化の効果

The Effect of Normalization for Bi-directional Amharic-English Neural Machine Translation ( http://arxiv.org/abs/2210.15224v1 )

ライセンス: Link先を確認
Tadesse Destaw Belay, Atnafu Lambebo Tonja, Olga Kolesnikova, Seid Muhie Yimam, Abinew Ali Ayele, Silesh Bogale Haile, Grigori Sidorov, Alexander Gelbukh(参考訳) 機械翻訳(MT)は、自然言語処理における主要なタスクの一つであり、その目的は、ある自然言語から別の自然言語へのテキストの自動翻訳である。 近年,深層ニューラルネットワークを用いたmtタスクが注目されている。 これらのネットワークは入力の抽象表現を学習し、連続ベクトルに格納するために多くのデータを必要とする。 本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。 これらのコンパイルデータを用いて、既存のFacebook M2M100事前学習モデルを微調整し、アムハラ英語32.74でBLEUスコア37.79を達成し、双方向のアムハラ英語翻訳モデルを構築する。 さらに,機械翻訳作業における音素正規化の効果について検討する。 その結果,同音素文字の正規化により,両方向のアムハーリック・イングリッシュ機械翻訳の性能が向上した。

Machine translation (MT) is one of the main tasks in natural language processing whose objective is to translate texts automatically from one natural language to another. Nowadays, using deep neural networks for MT tasks has received great attention. These networks require lots of data to learn abstract representations of the input and store it in continuous vectors. This paper presents the first relatively large-scale Amharic-English parallel sentence dataset. Using these compiled data, we build bi-directional Amharic-English translation models by fine-tuning the existing Facebook M2M100 pre-trained model achieving a BLEU score of 37.79 in Amharic-English 32.74 in English-Amharic translation. Additionally, we explore the effects of Amharic homophone normalization on the machine translation task. The results show that the normalization of Amharic homophone characters increases the performance of Amharic-English machine translation in both directions.
翻訳日:2022-10-28 14:05:00 公開日:2022-10-27
# BERT-Flow-VAE:マルチラベルテキスト分類のための弱教師付きモデル

BERT-Flow-VAE: A Weakly-supervised Model for Multi-Label Text Classification ( http://arxiv.org/abs/2210.15225v1 )

ライセンス: Link先を確認
Ziwen Liu, Josep Grau-Bove, Scott Allan Orr(参考訳) マルチラベルテキスト分類(MLTC)は、文書を1つ以上のトピックに分類するタスクである。 大量のデータと、そのタスクのさまざまなドメインを考えると、完全に教師ありの学習は、コストと時間を要する、手動で完全に注釈付きデータセットを必要とする。 本稿では,Wakly-Supervised Multi-Label Text Classification (WSMLTC)モデルであるBERT-Flow-VAE(BFV)を提案する。 本発明の新しいモデル(1)は、フローモデルを用いてBERT文の埋め込みと校正を行い、(2)シードされたスパーストピックモデルと、トピックの表面名とトピック毎の4-6のシードワードしか必要としないテキストentailmentモデルの結果を平均化することにより、初期トピック文書行列を生成し、(3)トピック文書行列のガイダンスに基づいて埋め込みを再構築するためのVAEフレームワークを採用する。 最後に、VAEアーキテクチャのエンコーダモデルによって生成された手段をMLTCの予測として使用する。 6つのマルチラベルデータセットの実験結果は、BFVが他のベースラインWSMLTCモデルをキーメトリクスで大幅に上回り、完全に教師されたモデルの約84%のパフォーマンスを達成することを示す。

Multi-label Text Classification (MLTC) is the task of categorizing documents into one or more topics. Considering the large volumes of data and varying domains of such tasks, fully supervised learning requires manually fully annotated datasets which is costly and time-consuming. In this paper, we propose BERT-Flow-VAE (BFV), a Weakly-Supervised Multi-Label Text Classification (WSMLTC) model that reduces the need for full supervision. This new model (1) produces BERT sentence embeddings and calibrates them using a flow model, (2) generates an initial topic-document matrix by averaging results of a seeded sparse topic model and a textual entailment model which only require surface name of topics and 4-6 seed words per topic, and (3) adopts a VAE framework to reconstruct the embeddings under the guidance of the topic-document matrix. Finally, (4) it uses the means produced by the encoder model in the VAE architecture as predictions for MLTC. Experimental results on 6 multi-label datasets show that BFV can substantially outperform other baseline WSMLTC models in key metrics and achieve approximately 84% performance of a fully-supervised model.
翻訳日:2022-10-28 14:04:43 公開日:2022-10-27
# ウズベク語の形態的・構文的タグ付きコーパスの作成

Creating a morphological and syntactic tagged corpus for the Uzbek language ( http://arxiv.org/abs/2210.15234v1 )

ライセンス: Link先を確認
Maksud Sharipov, Jamolbek Mattiev, Jasur Sobirov, Rustam Baltayev(参考訳) 現在、タグ付きコーパスの作成は自然言語処理(NLP)の最も重要なタスクの1つとなっている。 低リソースのUzbek言語のための機械学習モデルを構築するには、タグ付きコーパスが十分ではない。 本稿では,ウズベク語の構文的・形態的タグ付きコーパスを作成するために,音声の新たな部分(pos)と構文タグセットを開発し,そのギャップを埋めることを試みた。 この作業には、タグ付けに取り組むWebベースのアプリケーションの詳細な説明やプレゼンテーションも含まれている。 開発したアノテーションツールとソフトウェアを用いて,タグ付きコーパス作成の第1段階の経験結果を共有する。

Nowadays, creation of the tagged corpora is becoming one of the most important tasks of Natural Language Processing (NLP). There are not enough tagged corpora to build machine learning models for the low-resource Uzbek language. In this paper, we tried to fill that gap by developing a novel Part Of Speech (POS) and syntactic tagset for creating the syntactic and morphologically tagged corpus of the Uzbek language. This work also includes detailed description and presentation of a web-based application to work on a tagging as well. Based on the developed annotation tool and the software, we share our experience results of the first stage of the tagged corpus creation
翻訳日:2022-10-28 14:04:19 公開日:2022-10-27
# 科学NLIのための教師なし知識グラフ構築とイベント中心知識注入

Unsupervised Knowledge Graph Construction and Event-centric Knowledge Infusion for Scientific NLI ( http://arxiv.org/abs/2210.15248v1 )

ライセンス: Link先を確認
Chenglin Wang, Yucheng Zhou, Guodong Long, Xiaodong Wang, Xiaowei Xu(参考訳) 自然言語推論(NLI)の進歩により、NLIの要求は科学的テキストを扱うことになっている。 既存の手法は、ドメイン固有の知識を欠いた事前学習モデル(ptm)に依存している。 この欠点に対処するために,PTMを科学領域に一般化する科学知識グラフを導入する。 しかし、既存のナレッジグラフ構築アプローチでは、高価なラベル付きデータ、他のドメインへの適用の失敗、長い推論時間、大きなコーパスへの拡張の困難など、いくつかの欠点がある。 そこで本稿では,ラベル付きデータなしで科学知識グラフ(SKG)を構築するための教師なし知識グラフ構築手法を提案する。 さらに,skgからのノイズ効果を緩和し,文中の知識をより補完するために,文中のきめ細かな意味単位である各事象に外部知識を統合するイベント中心の知識注入手法を提案する。 実験の結果,skgの有効性と信頼性が得られた。

With the advance of natural language inference (NLI), a rising demand for NLI is to handle scientific texts. Existing methods depend on pre-trained models (PTM) which lack domain-specific knowledge. To tackle this drawback, we introduce a scientific knowledge graph to generalize PTM to scientific domain. However, existing knowledge graph construction approaches suffer from some drawbacks, i.e., expensive labeled data, failure to apply in other domains, long inference time and difficulty extending to large corpora. Therefore, we propose an unsupervised knowledge graph construction method to build a scientific knowledge graph (SKG) without any labeled data. Moreover, to alleviate noise effect from SKG and complement knowledge in sentences better, we propose an event-centric knowledge infusion method to integrate external knowledge into each event that is a fine-grained semantic unit in sentences. Experimental results show that our method achieves state-of-the-art performance and the effectiveness and reliability of SKG.
翻訳日:2022-10-28 14:04:08 公開日:2022-10-27
# 二レベルコントラスト学習による会話の絡み合い

Conversation Disentanglement with Bi-Level Contrastive Learning ( http://arxiv.org/abs/2210.15265v1 )

ライセンス: Link先を確認
Chengyu Huang, Zheng Zhang, Hao Fei, Lizi Liao(参考訳) Conversation Disentanglementは、発話を分離したセッションにグループ化することを目的としている。 既存の方法には2つの欠点がある。 まず、ペアワイズ発話関係を過度に強調するが、発話対コンテキスト関係モデルに不適切な注意を払う。 第二に、訓練には大量の人間の注釈データが必要であり、実際に取得するには費用がかかる。 これらの問題に対処するために,二レベルコントラスト学習に基づく一般的な異方性モデルを提案する。 同じセッションでより近い発話をもたらし、各発話が表現空間内のクラスタ化されたセッションプロトタイプの近くにあるように促します。 既存のアプローチとは異なり、当社の非角モデルはラベル付きデータを用いた教師付き設定と、そのようなデータが利用できない場合の教師なし設定の両方で動作する。 提案手法は,複数の公開データセットにまたがる両方の設定における最先端性能を実現する。

Conversation disentanglement aims to group utterances into detached sessions, which is a fundamental task in processing multi-party conversations. Existing methods have two main drawbacks. First, they overemphasize pairwise utterance relations but pay inadequate attention to the utterance-to-context relation modeling. Second, huge amount of human annotated data is required for training, which is expensive to obtain in practice. To address these issues, we propose a general disentangle model based on bi-level contrastive learning. It brings closer utterances in the same session while encourages each utterance to be near its clustered session prototypes in the representation space. Unlike existing approaches, our disentangle model works in both supervised setting with labeled data and unsupervised setting when no such data is available. The proposed method achieves new state-of-the-art performance on both settings across several public datasets.
翻訳日:2022-10-28 14:03:39 公開日:2022-10-27
# 潜在意味計算を用いた知識グラフを利用した科学的単語埋め込みの更新

Leveraging knowledge graphs to update scientific word embeddings using latent semantic imputation ( http://arxiv.org/abs/2210.15358v1 )

ライセンス: Link先を確認
Jason Hoelscher-Obermaier, Edward Stevinson, Valentin Stauber, Ivaylo Zhelev, Victor Botev, Ronin Wu, Jeremy Minton(参考訳) 科学文献で最も興味深い言葉は、しばしば珍しいか稀である。 このことは、しばしば、あるいは新しく現れる有用な用語に対する品質埋め込みベクトルを決定するために、科学的単語埋め込みモデルが課題となる。 我々は,従来の単語埋め込みモデルを維持しつつ,最新の知識グラフからドメイン固有語への埋め込みを示唆することにより,この問題にどのように対処できるかを実証する。 我々はMeSHナレッジグラフを用いて,バイオメディカル用語の埋め込みベクターをトレーニングせずに入力し,ドメイン固有の単語対類似性タスクへの埋め込みモデルの評価を行う。 lsiは生体医学領域のレアおよびオーブ項に対して信頼性の高い埋め込みベクターを生成できることを示した。

The most interesting words in scientific texts will often be novel or rare. This presents a challenge for scientific word embedding models to determine quality embedding vectors for useful terms that are infrequent or newly emerging. We demonstrate how \gls{lsi} can address this problem by imputing embeddings for domain-specific words from up-to-date knowledge graphs while otherwise preserving the original word embedding model. We use the MeSH knowledge graph to impute embedding vectors for biomedical terminology without retraining and evaluate the resulting embedding model on a domain-specific word-pair similarity task. We show that LSI can produce reliable embedding vectors for rare and OOV terms in the biomedical domain.
翻訳日:2022-10-28 14:03:21 公開日:2022-10-27
# 数学用語問題に対する自己整合性推論

Self-consistent Reasoning For Solving Math Word Problems ( http://arxiv.org/abs/2210.15373v1 )

ライセンス: Link先を確認
Jing Xiong, Zhongwei Wan, Xiping Hu, Min Yang, Chengming Li(参考訳) 数学語問題 (MWPs) は、テキスト中の数学問題から解表現を自動的に導出するタスクである。 従来の研究は、入力テキストと出力表現の相関性に支障をきたす。 この問題を軽減するために,SCRと呼ばれる自己整合性推論フレームワークを提案する。このフレームワークはプルーニング戦略を採用して,出力分布のシフトを補正し,これらの突発的相関サンプルを暗黙的に修正する。 具体的には、最初のroberta2treeモデルとprunedサブネットワーク間の出力分布のギャップを利用して、スプリアス相関サンプルを露出させるためにroberta2treeモデルをprunしてサブネットワークを得る。 次に,sprious相関を緩和するために,対称kullback-leiblerダイバージェンスを適用して出力分布シフトを校正する。 さらに、SCRは等価な表現を生成するため、元のテキストからのヒントに頼るのではなく、元のテキストのロジックをキャプチャする。 2つの大規模ベンチマークに関する広範囲な実験は、我々のモデルは強力なベースラインメソッドを実質的に上回っていることを示している。

Math word problems (MWPs) is a task that automatically derives solution expression from a giving math problems in text. The previous studies suffer from spurious correlations between input text and output expression. To mitigate this issue, we propose a self-consistent reasoning framework called SCR, which attempts to adopt a pruning strategy to correct the output distribution shift so as to implicitly fix those spurious correlative samples. Specifically, we firstly obtain a sub-network by pruning a roberta2tree model, for the sake to use the gap on output distribution between the original roberta2tree model and the pruned sub-network to expose spurious correlative samples. Then, we calibrate the output distribution shift by applying symmetric Kullback-Leibler divergence to alleviate spurious correlations. In addition, SCR generates equivalent expressions, thereby, capturing the original text's logic rather than relying on hints from original text. Extensive experiments on two large-scale benchmarks demonstrate that our model substantially outperforms the strong baseline methods.
翻訳日:2022-10-28 14:03:09 公開日:2022-10-27
# 英首相:対話の転換に向けたスタイル転換を検討-関係者

He Said, She Said: Style Transfer for Shifting the Perspective of Dialogues ( http://arxiv.org/abs/2210.15462v1 )

ライセンス: Link先を確認
Amanda Bertsch, Graham Neubig, Matthew R. Gormley(参考訳) そこで本研究では,テキストの形式的第1者から第3者への対話を再構成する視点シフトという,新たなスタイル移行タスクを定義する。 このタスクでは、コリファレンスの解決、感情の帰属、非公式なテキストの解釈に挑戦する必要がある。 本稿では,いくつかのベースラインアプローチを検討し,この課題を短い対話に適用する際の今後の方向性について考察する。 サンプルアプリケーションとして,対話要約データセット(SAMSum)への視点シフトの適用により,抽出ニュース要約モデルのゼロショット性能が大幅に向上することを示す。 さらに、教師付き抽出モデルは、元の対話よりも遠近偏移データで訓練した方が優れた性能を発揮する。 コードを公開しています。

In this work, we define a new style transfer task: perspective shift, which reframes a dialogue from informal first person to a formal third person rephrasing of the text. This task requires challenging coreference resolution, emotion attribution, and interpretation of informal text. We explore several baseline approaches and discuss further directions on this task when applied to short dialogues. As a sample application, we demonstrate that applying perspective shifting to a dialogue summarization dataset (SAMSum) substantially improves the zero-shot performance of extractive news summarization models on this data. Additionally, supervised extractive models perform better when trained on perspective shifted data than on the original dialogues. We release our code publicly.
翻訳日:2022-10-28 14:02:51 公開日:2022-10-27
# cost-eff:slenderized multi-exit language modelによる空間・時間効率の協調最適化

COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi-exit Language Models ( http://arxiv.org/abs/2210.15523v1 )

ライセンス: Link先を確認
Bowen Shen, Zheng Lin, Yuanxin Liu, Zhengxiao Liu, Lei Wang, Weiping Wang(参考訳) トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。 資源制約のあるデバイスでは、PLMの主要な容量を保持する空間的かつ時間的効率のよいモデルが必要である。 しかし、既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気付かず、単純で複雑な入力の冗長性と不適切な結果をもたらす可能性がある。 また、早期に脱出するミニチュアモデルでは、予測とより深い層へのサービスの間のトレードオフが問題となる。 このような考察により,静的モデル圧縮と動的推論加速度を統合したPLMの協調最適化を提案する。 具体的には、plmは深さが保たれながら幅が細くなり、層状の早期出口を補完して推論を動的に高速化する。 早期出口のトレードオフに対処するため,我々は,最終層のみでなく,各出口への結束構造を細分化し,保存する合同訓練手法を提案する。 GLUEベンチマークで実験を行い, BERTの1/8パラメータと1/19 FLOPを用いて, 高い圧縮・加速速度で提案手法のパレート最適性を検証した。

Transformer-based pre-trained language models (PLMs) mostly suffer from excessive overhead despite their advanced capacity. For resource-constrained devices, there is an urgent need for a spatially and temporally efficient model which retains the major capacity of PLMs. However, existing statically compressed models are unaware of the diverse complexities between input instances, potentially resulting in redundancy and inadequacy for simple and complex inputs. Also, miniature models with early exiting encounter challenges in the trade-off between making predictions and serving the deeper layers. Motivated by such considerations, we propose a collaborative optimization for PLMs that integrates static model compression and dynamic inference acceleration. Specifically, the PLM is slenderized in width while the depth remains intact, complementing layer-wise early exiting to speed up inference dynamically. To address the trade-off of early exiting, we propose a joint training approach that calibrates slenderization and preserves contributive structures to each exit instead of only the final layer. Experiments are conducted on GLUE benchmark and the results verify the Pareto optimality of our approach at high compression and acceleration rate with 1/8 parameters and 1/19 FLOPs of BERT.
翻訳日:2022-10-28 14:02:41 公開日:2022-10-27
# 用語-認識医療対話生成

Terminology-aware Medical Dialogue Generation ( http://arxiv.org/abs/2210.15551v1 )

ライセンス: Link先を確認
Chen Tang, Hongbo Zhang, Tyler Loakman, Chenghua Lin, Frank Guerin(参考訳) 医療対話生成は,医師と患者との対話の振り返りの履歴に応じて反応を生成することを目的としている。 オープンドメインの対話生成とは異なり、これは医療領域固有の背景知識を必要とする。 医療対話生成のための既存の生成フレームワークは、特に医療用語に関して、ドメイン固有の知識を取り入れていない。 本稿では,ドメイン特化語学を中心とした特徴を考慮した医療対話生成のための新しい枠組みを提案する。 本稿では,言語モデルを用いて用語表現を補助的用語認識タスクで学習することにより,用語中心の特徴を取り入れ,医学的背景知識と共通発話のセマンティックギャップを埋めるための注意機構を活用する。 提案手法が sota 言語モデルに匹敵する手法の有効性を実験的に実証した。 さらに,医療対話生成の研究を支援するために,医学用語アノテーションを備えた新たなデータセットを提供する。 私たちのデータセットとコードはhttps://github.com/tangg555/meddialogで利用可能です。

Medical dialogue generation aims to generate responses according to a history of dialogue turns between doctors and patients. Unlike open-domain dialogue generation, this requires background knowledge specific to the medical domain. Existing generative frameworks for medical dialogue generation fall short of incorporating domain-specific knowledge, especially with regard to medical terminology. In this paper, we propose a novel framework to improve medical dialogue generation by considering features centered on domain-specific terminology. We leverage an attention mechanism to incorporate terminologically centred features, and fill in the semantic gap between medical background knowledge and common utterances by enforcing language models to learn terminology representations with an auxiliary terminology recognition task. Experimental results demonstrate the effectiveness of our approach, in which our proposed framework outperforms SOTA language models. Additionally, we provide a new dataset with medical terminology annotations to support the research on medical dialogue generation. Our dataset and code are available at https://github.com/tangg555/meddialog.
翻訳日:2022-10-28 14:02:19 公開日:2022-10-27
# ペルソナ適応注意によるパーソナライズされた対話生成

Personalized Dialogue Generation with Persona-Adaptive Attention ( http://arxiv.org/abs/2210.15088v1 )

ライセンス: Link先を確認
Qiushi Huang, Yu Zhang, Tom Ko, Xubo Liu, Bo Wu, Wenwu Wang, Lilian Tang(参考訳) ペルソナベースの対話システムは、歴史的な文脈と予め定義されたパーソナに基づいて一貫した応答を生成することを目的としている。 従来の対話生成とは異なり、ペルソナベースの対話は対話コンテキストとペルソナの両方を考慮する必要があり、コヒーレントトレーニングの課題となっている。 具体的には、コンテキストとペルソナの微妙な重量バランスが必要です。 そこで本研究では,ペルソナ適応注意(PAA)を用いた効果的な枠組みを提案する。 さらに、PAAに動的マスキング機構を適用して、冗長情報をコンテキストやペルソナにドロップするだけでなく、オーバーフィッティングを回避するための正規化機構として機能する。 提案したPAAフレームワークは, 自動評価と人的評価の双方において, 強いベースラインよりも優れていることを示す実験結果を得た。 さらに,提案手法は,全データ設定でトレーニングされたモデルと比較して低リソース環境で同等の性能を発揮することができ,全データ設定でトレーニングされた大規模モデルと比較して20%から30%のデータしか得られない。 設計の有効性を最大限に活用するために,重み付けされた情報を異なる方法で扱うためのいくつかの変種を設計し,重み付けとマスキング設計の必要性と不十分さを示した。

Persona-based dialogue systems aim to generate consistent responses based on historical context and predefined persona. Unlike conventional dialogue generation, the persona-based dialogue needs to consider both dialogue context and persona, posing a challenge for coherent training. Specifically, this requires a delicate weight balance between context and persona. To achieve that, in this paper, we propose an effective framework with Persona-Adaptive Attention (PAA), which adaptively integrates the weights from the persona and context information via our designed attention. In addition, a dynamic masking mechanism is applied to the PAA to not only drop redundant information in context and persona but also serve as a regularization mechanism to avoid overfitting. Experimental results demonstrate the superiority of the proposed PAA framework compared to the strong baselines in both automatic and human evaluation. Moreover, the proposed PAA approach can perform equivalently well in a low-resource regime compared to models trained in a full-data setting, which achieve a similar result with only 20% to 30% of data compared to the larger models trained in the full-data setting. To fully exploit the effectiveness of our design, we designed several variants for handling the weighted information in different ways, showing the necessity and sufficiency of our weighting and masking designs.
翻訳日:2022-10-28 13:55:53 公開日:2022-10-27
# 自然言語構文は自由エネルギー原理に準拠する

Natural Language Syntax Complies with the Free-Energy Principle ( http://arxiv.org/abs/2210.15098v1 )

ライセンス: Link先を確認
Elliot Murphy, Emma Holmes, Karl Friston(参考訳) 自然言語構文は階層的に構造化された表現の非有界配列を生成する。 我々は、これらは、自由エネルギー原理(FEP)に従って、アクティブ推論のサービスに使用されると主張している。 モデリングやシミュレーションとともに概念的な進歩が音声のセグメンテーションと言語コミュニケーションをfepと結びつけようと試みているが、このプログラムは構文オブジェクトを生成する基礎となる計算に拡張されている。 我々は、最近提案された言語設計における経済の原則、例えば理論構文からの「最小探索」基準は、FEPに準拠していると主張している。 このことは、より高い言語機能に関して、FEPにより大きな説明力を与え、計算可能性に関して第一原理を基礎づける言語学を提供する。 木幾何学的深度とKolmogorov複雑性推定(Lempel-Ziv圧縮アルゴリズムの検索)の両方を用いて、変動自由エネルギー最小化の定式化と直接的に、構文的ワークスペース上の法的操作を正確に予測できることを示す。 これは、チューリング・チョムスキー圧縮(TCC)と呼ばれる言語設計の一般的な原則の動機付けに使用される。 我々は、理論言語学と精神言語学の証拠を、能動推論における効率的な構文計算の根本原理にマーシャリングすることで、言語学者の懸念をFEPによって提供される自己組織化の規範的説明と整合させるためにTCCを使用している。

Natural language syntax yields an unbounded array of hierarchically structured expressions. We claim that these are used in the service of active inference in accord with the free-energy principle (FEP). While conceptual advances alongside modelling and simulation work have attempted to connect speech segmentation and linguistic communication with the FEP, we extend this program to the underlying computations responsible for generating syntactic objects. We argue that recently proposed principles of economy in language design - such as "minimal search" criteria from theoretical syntax - adhere to the FEP. This affords a greater degree of explanatory power to the FEP - with respect to higher language functions - and offers linguistics a grounding in first principles with respect to computability. We show how both tree-geometric depth and a Kolmogorov complexity estimate (recruiting a Lempel-Ziv compression algorithm) can be used to accurately predict legal operations on syntactic workspaces, directly in line with formulations of variational free energy minimization. This is used to motivate a general principle of language design that we term Turing-Chomsky Compression (TCC). We use TCC to align concerns of linguists with the normative account of self-organization furnished by the FEP, by marshalling evidence from theoretical linguistics and psycholinguistics to ground core principles of efficient syntactic computation within active inference.
翻訳日:2022-10-28 13:55:29 公開日:2022-10-27
# TRScore: ASRセグメンテーションと句読解モデル評価と選択のための新しいGPTベースの可読性スコーラ

TRScore: A Novel GPT-based Readability Scorer for ASR Segmentation and Punctuation model evaluation and selection ( http://arxiv.org/abs/2210.15104v1 )

ライセンス: Link先を確認
Piyush Behre, Sharman Tan, Amy Shah, Harini Kesavamoorthy, Shuangyu Chang, Fei Zuo, Chris Basoglu, Sayan Pathak(参考訳) 句読点とセグメンテーションは、自動音声認識(asr)における可読性の鍵であり、しばしば高品質な人間の書き起こしを必要とし、可読性をよく反映しないf1スコアを用いて評価される。 人間の評価は高価であり、時間を要するため、特に厳密な文法構造を持たない会話音声では、サーバ間の変動が大きい。 大きな事前訓練されたモデルは文法構造の概念を捉えている。 本稿では,GPTモデルを用いた新しい可読性尺度 TRScore について述べる。 我々は人間の専門家によるアプローチを検証する。 さらに,従来の単語誤り率 (WER) とスロット誤り率 (SER) の指標が捕捉できない全体の可読性に対する,大文字化,逆テキスト正規化 (ITN) などのテキスト後処理手法の定量的評価を可能にする。 TRScoreは従来のF1とヒトの可読性スコアと強く相関しており、ピアソンの相関係数はそれぞれ0.67と0.98である。 また、モデル選択のための人間の転写の必要性をなくす。

Punctuation and Segmentation are key to readability in Automatic Speech Recognition (ASR), often evaluated using F1 scores that require high-quality human transcripts and do not reflect readability well. Human evaluation is expensive, time-consuming, and suffers from large inter-observer variability, especially in conversational speech devoid of strict grammatical structures. Large pre-trained models capture a notion of grammatical structure. We present TRScore, a novel readability measure using the GPT model to evaluate different segmentation and punctuation systems. We validate our approach with human experts. Additionally, our approach enables quantitative assessment of text post-processing techniques such as capitalization, inverse text normalization (ITN), and disfluency on overall readability, which traditional word error rate (WER) and slot error rate (SER) metrics fail to capture. TRScore is strongly correlated to traditional F1 and human readability scores, with Pearson's correlation coefficients of 0.67 and 0.98, respectively. It also eliminates the need for human transcriptions for model selection.
翻訳日:2022-10-28 13:55:03 公開日:2022-10-27
# キーワード重み付けを用いた多領域テキスト分類のためのカリキュラム学習手法

A Curriculum Learning Approach for Multi-domain Text Classification Using Keyword weight Ranking ( http://arxiv.org/abs/2210.15147v1 )

ライセンス: Link先を確認
Zilin Yuan, Yinghui Li, Yangning Li, Rui Xie, Wei Wu, Hai-Tao Zheng(参考訳) テキスト分類は非常に古典的なNLPタスクであるが、2つの顕著な欠点がある。 つまり、あるドメインのコーパスで訓練された分類器は、他のドメインではそれほどうまく機能しない。 一方、テキスト分類モデルは、トレーニングのために多くの注釈付きデータを必要とする。 しかし、いくつかのドメインでは、十分な注釈付きデータが存在しない場合がある。 したがって、各ドメインのモデルの性能を向上させるために、異なるドメインのテキストデータを効率的に活用する方法を検討することは重要である。 いくつかのマルチドメインテキスト分類モデルは、敵の訓練によって訓練され、すべてのドメインと各ドメインの特定の特徴の共有特徴を抽出する。 そこで本稿では,キーワード重み付けに基づくカリキュラム学習戦略を用いて,マルチドメインテキスト分類モデルの性能を向上させることを提案する。 amazon review と fdu-mtl データセットを用いた実験の結果, カリキュラム学習戦略は, 逆学習に基づくマルチドメインテキスト分類モデルの性能を効果的に改善し, 最先端手法を上回っている。

Text classification is a very classic NLP task, but it has two prominent shortcomings: On the one hand, text classification is deeply domain-dependent. That is, a classifier trained on the corpus of one domain may not perform so well in another domain. On the other hand, text classification models require a lot of annotated data for training. However, for some domains, there may not exist enough annotated data. Therefore, it is valuable to investigate how to efficiently utilize text data from different domains to improve the performance of models in various domains. Some multi-domain text classification models are trained by adversarial training to extract shared features among all domains and the specific features of each domain. We noted that the distinctness of the domain-specific features is different, so in this paper, we propose to use a curriculum learning strategy based on keyword weight ranking to improve the performance of multi-domain text classification models. The experimental results on the Amazon review and FDU-MTL datasets show that our curriculum learning strategy effectively improves the performance of multi-domain text classification models based on adversarial learning and outperforms state-of-the-art methods.
翻訳日:2022-10-28 13:54:40 公開日:2022-10-27
# ソーシャルメディアにおけるブラッグ分類のためのアンタングルとロバスト表現学習

Disentangled and Robust Representation Learning for Bragging Classification in Social Media ( http://arxiv.org/abs/2210.15180v1 )

ライセンス: Link先を確認
Xiang Li, Yucheng Zhou(参考訳) ソーシャルメディアにおけるブラッグ行動の研究は、計算言語学者の興味を喚起する。 しかし、既存のブラッグ分類データセットは深刻なデータ不均衡の問題に悩まされている。 データバランスデータセットのラベル付けは高価であるため、ほとんどの手法はモデル学習を改善するために外部知識を導入する。 それにもかかわらず、このような手法は必然的に外部知識からノイズや非関連情報を導入する。 この欠点を克服するために,ディスタングルに基づく表現増強とドメイン認識の敵対戦略を用いたブラッギング分類手法を提案する。 具体的には、モデルがディエントグルとリコンストラクションの表現を学習し、ディエントグルベースの表現拡張によって拡張された特徴を生成する。 さらに、ドメイン対応の敵戦略は、拡張機能のドメインを制約し、堅牢性を向上させることを目的としている。 実験により,本手法が他の手法と比較して最先端性能を実現することを示す。

Researching bragging behavior on social media arouses interest of computational (socio) linguists. However, existing bragging classification datasets suffer from a serious data imbalance issue. Because labeling a data-balance dataset is expensive, most methods introduce external knowledge to improve model learning. Nevertheless, such methods inevitably introduce noise and non-relevance information from external knowledge. To overcome the drawback, we propose a novel bragging classification method with disentangle-based representation augmentation and domain-aware adversarial strategy. Specifically, model learns to disentangle and reconstruct representation and generate augmented features via disentangle-based representation augmentation. Moreover, domain-aware adversarial strategy aims to constrain domain of augmented features to improve their robustness. Experimental results demonstrate that our method achieves state-of-the-art performance compared to other methods.
翻訳日:2022-10-28 13:54:21 公開日:2022-10-27
# 触るには脆すぎる: 軽量低リソースmtモデル開発に向けた量子化と蒸留の安定性の比較

Too Brittle To Touch: Comparing the Stability of Quantization and Distillation Towards Developing Lightweight Low-Resource MT Models ( http://arxiv.org/abs/2210.15184v1 )

ライセンス: Link先を確認
Harshita Diddee, Sandipan Dandapat, Monojit Choudhury, Tanuja Ganu, Kalika Bali(参考訳) 大規模多言語モデルによる共有学習を活用することで、最先端の機械翻訳モデルは、低リソース言語のデータに適応できることが多い。 しかし、このパフォーマンスは、実際にデプロイできないかなり肥大化したモデルのコストがかかる。 知識蒸留は、競争力のある軽量なモデルを開発するための一般的な手法である:本研究では、非常に限られた訓練データを持つ言語に焦点を当てたMTモデルを圧縮する手法を最初に評価する。 8言語にわたる分析から, 蒸留に使用する合成データの量, 学生建築, ハイパーパラメータの訓練, 教師モデルの信頼度など, 先行性に依存した蒸留モデルの性能のばらつきが, 蒸留を不安定な圧縮機構にすることがわかった。 これを軽減するために,これらのモデルの圧縮にポストトレーニング量子化を用いることを検討する。 ここでは, 蒸留が低リソース言語間で利益をもたらすのに対して, 量子化は, 対象言語全体, 特に, 対象言語の最低リソース言語に対して, より一貫したパフォーマンストレンドを提供する。

Leveraging shared learning through Massively Multilingual Models, state-of-the-art machine translation models are often able to adapt to the paucity of data for low-resource languages. However, this performance comes at the cost of significantly bloated models which are not practically deployable. Knowledge Distillation is one popular technique to develop competitive, lightweight models: In this work, we first evaluate its use to compress MT models focusing on languages with extremely limited training data. Through our analysis across 8 languages, we find that the variance in the performance of the distilled models due to their dependence on priors including the amount of synthetic data used for distillation, the student architecture, training hyperparameters and confidence of the teacher models, makes distillation a brittle compression mechanism. To mitigate this, we explore the use of post-training quantization for the compression of these models. Here, we find that while distillation provides gains across some low-resource languages, quantization provides more consistent performance trends for the entire range of languages, especially the lowest-resource languages in our target set.
翻訳日:2022-10-28 13:54:08 公開日:2022-10-27
# 言語モデルとしてのトランケーションサンプリング

Truncation Sampling as Language Model Desmoothing ( http://arxiv.org/abs/2210.15191v1 )

ライセンス: Link先を確認
John Hewitt, Christopher D. Manning, Percy Liang(参考訳) ニューラルネットワークモデルからのテキストの長いサンプルは、品質が劣る可能性がある。 切断サンプリングアルゴリズム--top-$p$またはtop-$k$ -- 各ステップで単語の確率をゼロにすることでこれに対処する。 この研究は、切り離しを目的としたフレーミングと、その目的のための改良されたアルゴリズムを提供する。 本稿では,真の分布と無限のパープレキシティを回避できる平滑化分布の混合として,ニューラルネットワークモデルを考える。 この光の中で、トランケーションアルゴリズムは、真の分布の支持の部分集合を推定し、デムースを行う。 優れたサブセットを見つけることが不可欠である。トップ$p$は、高確率な単語を不要に切り捨てる、例えば、ドナルドから始まる文書のために、トランプ以外のすべての単語を切り捨てる、など。 エントロピーに依存した確率閾値以下で単語を切り詰める$\eta$-samplingを導入する。 以前のアルゴリズムと比較すると、$\eta$-samplingは人間によってより可塑性の長い英文文書を生成し、繰り返しを壊すのに優れ、テスト分布のバッテリーでより合理的に振る舞う。

Long samples of text from neural language models can be of poor quality. Truncation sampling algorithms--like top-$p$ or top-$k$ -- address this by setting some words' probabilities to zero at each step. This work provides framing for the aim of truncation, and an improved algorithm for that aim. We propose thinking of a neural language model as a mixture of a true distribution and a smoothing distribution that avoids infinite perplexity. In this light, truncation algorithms aim to perform desmoothing, estimating a subset of the support of the true distribution. Finding a good subset is crucial: we show that top-$p$ unnecessarily truncates high-probability words, for example causing it to truncate all words but Trump for a document that starts with Donald. We introduce $\eta$-sampling, which truncates words below an entropy-dependent probability threshold. Compared to previous algorithms, $\eta$-sampling generates more plausible long English documents according to humans, is better at breaking out of repetition, and behaves more reasonably on a battery of test distributions.
翻訳日:2022-10-28 13:53:48 公開日:2022-10-27
# 解析線形化はposタグを高く評価する - しかし一部はエラーに不利である

Parsing linearizations appreciate PoS tags - but some are fussy about errors ( http://arxiv.org/abs/2210.15219v1 )

ライセンス: Link先を確認
Alberto Mu\~noz-Ortiz, Mark Anderson, David Vilares, Carlos G\'omez-Rodr\'iguez(参考訳) PoSタグは、かつては構文解析の有用な情報源として扱われていたが、深層学習の普及に伴い、より状況的になってきている。 グラフおよびトランジションベースのパーサに対するPoSタグの影響に関する最近の研究は、タグ付け精度が違法に高い場合や低リソースシナリオでのみ有用であることを示している。 しかし、このような解析は新たなシーケンスラベリング構文解析パラダイムに欠けており、一部のモデルではエンコーディングとデコードにposタグを明示的に使っているため、特に関係がある。 私たちは研究を行い、いくつかの傾向を明らかにする。 その中でも、PoSタグは他のパラダイムよりもシーケンスラベリングパーサに有用であるが、その精度の影響は高いエンコーディングに依存しており、タグ付け精度とリソース可用性の両方が高い場合にのみ、PoSベースのヘッドセレクションエンコーディングが最適である。

PoS tags, once taken for granted as a useful resource for syntactic parsing, have become more situational with the popularization of deep learning. Recent work on the impact of PoS tags on graph- and transition-based parsers suggests that they are only useful when tagging accuracy is prohibitively high, or in low-resource scenarios. However, such an analysis is lacking for the emerging sequence labeling parsing paradigm, where it is especially relevant as some models explicitly use PoS tags for encoding and decoding. We undertake a study and uncover some trends. Among them, PoS tags are generally more useful for sequence labeling parsers than for other paradigms, but the impact of their accuracy is highly encoding-dependent, with the PoS-based head-selection encoding being best only when both tagging accuracy and resource availability are high.
翻訳日:2022-10-28 13:53:27 公開日:2022-10-27
# $\text{MTP}_2$図形モデルの適応推定

Adaptive Estimation of $\text{MTP}_2$ Graphical Models ( http://arxiv.org/abs/2210.15471v1 )

ライセンス: Link先を確認
Jiaxi Ying, Jos\'e Vin\'icius de M. Cardoso, Daniel P. Palomar(参考訳) ガウス図形モデルにおけるm行列を精度行列として推定する問題を考える。 このようなモデルは近年注目を集めており、基礎となる次元に関係なく最大確率推定器が2つ以下の観測値で存在するなど、興味深い性質を示している。 本稿では,複数の段階からなる適応的推定法を提案する。第1段階では$\ell_1$-regularized maximum likelihood estimation problemを解いて初期推定を行い,その後,重み付き$\ell_1$-regularized 問題の列を解いて,初期推定を反復的に洗練する。 さらに,最適化誤差と統計誤差からなる推定誤差に関する理論的保証を確立する。 最適化誤差は線形速度でゼロに減衰し、その後の段階で見積もりが反復的に洗練されることを示し、統計誤差は統計率を特徴づける。 提案手法は,合成および金融時系列データセットで証明されるように,精度行列の推定とグラフエッジの同定において最先端手法よりも優れている。

We consider the problem of estimating (diagonally dominant) M-matrices as precision matrices in Gaussian graphical models. Such models have received increasing attention in recent years, and have shown interesting properties, e.g., the maximum likelihood estimator exists with as little as two observations regardless of the underlying dimension. In this paper, we propose an adaptive estimation method, which consists of multiple stages: In the first stage, we solve an $\ell_1$-regularized maximum likelihood estimation problem, which leads to an initial estimate; in the subsequent stages, we iteratively refine the initial estimate by solving a sequence of weighted $\ell_1$-regularized problems. We further establish the theoretical guarantees on the estimation error, which consists of optimization error and statistical error. The optimization error decays to zero at a linear rate, indicating that the estimate is refined iteratively in subsequent stages, and the statistical error characterizes the statistical rate. The proposed method outperforms state-of-the-art methods in estimating precision matrices and identifying graph edges, as evidenced by synthetic and financial time-series data sets.
翻訳日:2022-10-28 13:47:37 公開日:2022-10-27
# 浅層ニューラルネットワークを用いた単一インデックスモデル学習

Learning Single-Index Models with Shallow Neural Networks ( http://arxiv.org/abs/2210.15651v1 )

ライセンス: Link先を確認
Alberto Bietti, Joan Bruna, Clayton Sanford, Min Jae Song(参考訳) シングルインデックスモデル(single-index model)は、入力の未知一次元射影に適用される未知の不定値 ``link''' 関数によって与えられる関数のクラスである。 これらのモデルは、学習アルゴリズムが適応すべき低次元構造が存在する場合、特に高次元において関係がある。 このモデルのいくつかの統計的側面、例えば関連する(一次元)部分空間を復元するサンプルの複雑さはよく理解されているが、それらは対象関数の特定の構造を利用するアルゴリズムに依存する。 本稿では,浅層ニューラルネットワークの自然クラスを紹介し,勾配流による単一インデックスモデル学習能力について検討する。 より正確には、ニューロンのバイアスがランダム初期化時に凍結される浅いネットワークを考える。 対応する最適化ランドスケープが良性であることを示し、それによって専用半パラメトリック手法の準最適サンプル複雑性に一致するような一般化を保証する。

Single-index models are a class of functions given by an unknown univariate ``link'' function applied to an unknown one-dimensional projection of the input. These models are particularly relevant in high dimension, when the data might present low-dimensional structure that learning algorithms should adapt to. While several statistical aspects of this model, such as the sample complexity of recovering the relevant (one-dimensional) subspace, are well-understood, they rely on tailored algorithms that exploit the specific structure of the target function. In this work, we introduce a natural class of shallow neural networks and study its ability to learn single-index models via gradient flow. More precisely, we consider shallow networks in which biases of the neurons are frozen at random initialization. We show that the corresponding optimization landscape is benign, which in turn leads to generalization guarantees that match the near-optimal sample complexity of dedicated semi-parametric methods.
翻訳日:2022-10-28 13:47:15 公開日:2022-10-27
# 多様体仮説による適応的テスト時間防御

Adaptive Test-Time Defense with the Manifold Hypothesis ( http://arxiv.org/abs/2210.14404v2 )

ライセンス: Link先を確認
Zhaoyuan Yang, Zhiwei Xu, Jing Zhang, Richard Hartley, Peter Tu(参考訳) 本研究では, 多様体仮説を用いて, 対向ロバスト性の新たな枠組みを定式化する。 我々の枠組みは敵の例に対する防御に十分な条件を提供する。 定式化と変分推論によるテスト時間防御手法を開発した。 提案手法は, 多様体学習とベイズフレームワークを組み合わせることで, 対角的学習を必要とせずに, 対角的堅牢性を実現する。 提案手法は,攻撃者がテスト時間防衛の存在を知っていても,敵対的ロバスト性を提供できることを示す。 さらに,本手法は可変オートエンコーダのテスト時間防御機構としても機能する。

In this work, we formulate a novel framework of adversarial robustness using the manifold hypothesis. Our framework provides sufficient conditions for defending against adversarial examples. We develop a test-time defense method with our formulation and variational inference. The developed approach combines manifold learning with the Bayesian framework to provide adversarial robustness without the need for adversarial training. We show that our proposed approach can provide adversarial robustness even if attackers are aware of existence of test-time defense. In additions, our approach can also serve as a test-time defense mechanism for variational autoencoders.
翻訳日:2022-10-28 13:46:59 公開日:2022-10-27
# 肺癌悪性度予測のためのCAEとSWIn変換器の時空間ハイブリッド核融合

Spatio-Temporal Hybrid Fusion of CAE and SWIn Transformers for Lung Cancer Malignancy Prediction ( http://arxiv.org/abs/2210.15297v1 )

ライセンス: Link先を確認
Sadaf Khademi, Shahin Heidarian, Parnian Afshar, Farnoosh Naderkhani, Anastasia Oikonomou, Konstantinos Plataniotis, Arash Mohammadi(参考訳) 胸部ct(non-thin chest ct)スライスから抽出された時間的特徴と空間的特徴を同時に統合して肺腺癌(luac)の悪性度を最小の専門的関与で予測する,新しいハイブリッドディスカバリーラジオミックフレームワークを提案する。 肺がんは世界中でがんによる死亡の主な原因であり、様々な組織型があり、LUACは近年最も普及している。 LUACは、前侵襲性、最小侵襲性、および浸潤性腺癌に分類される。 肺結節悪性症のタイムリーかつ正確な知識は適切な治療計画をもたらし、不必要な手術や遅発のリスクを低減する。 現在,胸部CTはLUACの浸潤度を評価し,予測する主要な画像モダリティである。 しかし,CT画像に基づく放射線医の診断は主観的であり,外科的切除後の病態レビューに比べて精度が低い。 提案されたハイブリッドフレームワークはCAET-SWinと呼ばれ、2つの並列パスで構成されている。 一 改良されたトランスフォーマーアーキテクチャにより、スライス間関係に関連する情報的特徴を抽出し、取得する畳み込み自動エンコーダ(CAE)トランスフォーマーパス (ii)シフトウインドウトランス路(シフトウインドウトランスパス)は、ボリュームctスキャンからnodulesの関連する空間的特徴を抽出する階層的視覚トランスフォーマーである。 抽出時間(CAETパスから)と空間(Swinパスから)は融合経路を介して融合してLUACを分類する。 その結果,caet-swinは82.65%の精度,83.66%の感度,10倍のクロスバリデーションを用いて81.66%の特異性を達成し,侵襲性予測タスクの信頼性を著しく向上した。

The paper proposes a novel hybrid discovery Radiomics framework that simultaneously integrates temporal and spatial features extracted from non-thin chest Computed Tomography (CT) slices to predict Lung Adenocarcinoma (LUAC) malignancy with minimum expert involvement. Lung cancer is the leading cause of mortality from cancer worldwide and has various histologic types, among which LUAC has recently been the most prevalent. LUACs are classified as pre-invasive, minimally invasive, and invasive adenocarcinomas. Timely and accurate knowledge of the lung nodules malignancy leads to a proper treatment plan and reduces the risk of unnecessary or late surgeries. Currently, chest CT scan is the primary imaging modality to assess and predict the invasiveness of LUACs. However, the radiologists' analysis based on CT images is subjective and suffers from a low accuracy compared to the ground truth pathological reviews provided after surgical resections. The proposed hybrid framework, referred to as the CAET-SWin, consists of two parallel paths: (i) The Convolutional Auto-Encoder (CAE) Transformer path that extracts and captures informative features related to inter-slice relations via a modified Transformer architecture, and; (ii) The Shifted Window (SWin) Transformer path, which is a hierarchical vision transformer that extracts nodules' related spatial features from a volumetric CT scan. Extracted temporal (from the CAET-path) and spatial (from the Swin path) are then fused through a fusion path to classify LUACs. Experimental results on our in-house dataset of 114 pathologically proven Sub-Solid Nodules (SSNs) demonstrate that the CAET-SWin significantly improves reliability of the invasiveness prediction task while achieving an accuracy of 82.65%, sensitivity of 83.66%, and specificity of 81.66% using 10-fold cross-validation.
翻訳日:2022-10-28 13:46:50 公開日:2022-10-27
# MSF3DDETR:自律運転用マルチセンサフュージョン3D検出トランス

MSF3DDETR: Multi-Sensor Fusion 3D Detection Transformer for Autonomous Driving ( http://arxiv.org/abs/2210.15316v1 )

ライセンス: Link先を確認
Gopi Krishna Erabati and Helder Araujo(参考訳) 3Dオブジェクト検出は、自動運転にとって重要なタスクである。 近年、視覚トランスフォーマの進歩に伴い、2次元物体検出問題はセット・ツー・セットの損失で処理されている。 これらの2次元物体検出手法と多視点3次元物体検出手法detr3dに着想を得て,msf3ddetr:multi-sensor fusion 3d detection transformerアーキテクチャを提案する。 我々のエンドツーエンドのシングルステージ、アンカーフリー、NMSフリーネットワークは、マルチビューイメージとLiDARポイントクラウドを取り込み、3Dバウンディングボックスを予測する。 まず、新しいMSF3DDETRクロスアテンションブロックを用いて、データから学習したオブジェクトクエリと画像とLiDAR特徴をリンクする。 第二に、オブジェクトクエリはマルチヘッドの自己アテンションブロックで相互に相互作用する。 最後に、MSF3DDETRブロックはオブジェクトクエリを洗練するために、何度も$L$で繰り返される。 MSF3DDETRネットワークは、DeTRにインスパイアされたハンガリーのアルゴリズムに基づくバイパーティイトマッチングとセット・ツー・セット・ロスを使用して、nuScenesデータセット上でエンドツーエンドにトレーニングされている。 最先端のアプローチと競合する定量的および定性的な結果を示す。

3D object detection is a significant task for autonomous driving. Recently with the progress of vision transformers, the 2D object detection problem is being treated with the set-to-set loss. Inspired by these approaches on 2D object detection and an approach for multi-view 3D object detection DETR3D, we propose MSF3DDETR: Multi-Sensor Fusion 3D Detection Transformer architecture to fuse image and LiDAR features to improve the detection accuracy. Our end-to-end single-stage, anchor-free and NMS-free network takes in multi-view images and LiDAR point clouds and predicts 3D bounding boxes. Firstly, we link the object queries learnt from data to the image and LiDAR features using a novel MSF3DDETR cross-attention block. Secondly, the object queries interacts with each other in multi-head self-attention block. Finally, MSF3DDETR block is repeated for $L$ number of times to refine the object queries. The MSF3DDETR network is trained end-to-end on the nuScenes dataset using Hungarian algorithm based bipartite matching and set-to-set loss inspired by DETR. We present both quantitative and qualitative results which are competitive to the state-of-the-art approaches.
翻訳日:2022-10-28 13:46:15 公開日:2022-10-27
# インタラクティブな医用画像登録のためのメタラーニング初期化

Meta-Learning Initializations for Interactive Medical Image Registration ( http://arxiv.org/abs/2210.15371v1 )

ライセンス: Link先を確認
Zachary M.C. Baum, Yipeng Hu, Dean Barratt(参考訳) インタラクティブな医用画像登録のためのメタラーニングフレームワークを提案する。 提案フレームワークは,学習に基づく医用画像登録アルゴリズム,推論時の登録を洗練するユーザインタラクションの形式,適応性の高いネットワーク初期化を学習するメタラーニングプロトコルの3つのコンポーネントから構成される。 本稿では,mr画像の対話的取得,スパースサンプリングした経直腸超音波(trus)画像へのレジストレーション,相互作用,メタラーニングプロトコルを実装したアルゴリズムについて述べる。 提案手法は,データの一部しか必要とせず,取得時にリアルタイムに発生する,最も優れた非対話型学習ベース3D-to-3D法(3.97 mm)と同等の登録誤差(4.26 mm)を得る。 少量のサンプルデータを非インタラクティブな方法に適用すると、より高い登録誤差(6.26mm)が得られ、インタラクティブMR-TRUS登録の有効性が証明される。

We present a meta-learning framework for interactive medical image registration. Our proposed framework comprises three components: a learning-based medical image registration algorithm, a form of user interaction that refines registration at inference, and a meta-learning protocol that learns a rapidly adaptable network initialization. This paper describes a specific algorithm that implements the registration, interaction and meta-learning protocol for our exemplar clinical application: registration of magnetic resonance (MR) imaging to interactively acquired, sparsely-sampled transrectal ultrasound (TRUS) images. Our approach obtains comparable registration error (4.26 mm) to the best-performing non-interactive learning-based 3D-to-3D method (3.97 mm) while requiring only a fraction of the data, and occurring in real-time during acquisition. Applying sparsely sampled data to non-interactive methods yields higher registration errors (6.26 mm), demonstrating the effectiveness of interactive MR-TRUS registration, which may be applied intraoperatively given the real-time nature of the adaptation process.
翻訳日:2022-10-28 13:45:53 公開日:2022-10-27
# 中国の文法的誤り訂正に必要なのはフォーカス

Focus Is What You Need For Chinese Grammatical Error Correction ( http://arxiv.org/abs/2210.12692v3 )

ライセンス: Link先を確認
Jingheng Ye, Yinghui Li, Shirong Ma, Rui Xie, Wei Wu, Hai-Tao Zheng(参考訳) 中国語文法誤り訂正(英語: Chinese Grammatical Error Correction, CGEC)は、中国語テキストに含まれる文法的誤りを自動的に検出し、訂正することを目的としている。 長期的には、研究者はCGECをある種の不確実性のあるタスク、すなわち非文法的な文がしばしば複数の参照を持つものと見なしている。 しかし、これは非常に合理的な仮説であるにもかかわらず、この時代の主流モデルの知性には厳しすぎると論じる。 本稿では,まず,複数の参照がモデル学習に肯定的な利益をもたらしないことを示す。 それとは対照的に、cgecモデルでは、トレーニングプロセス中にモデルが小さいが不可欠なデータに注意を払うことができれば有益である。 さらに, CGECモデルのフォーカス能力を向上し, CGEC性能を向上させるため, OneTarget と呼ばれる簡易かつ効果的なトレーニング戦略を提案する。 広範な実験と詳細な分析により,本手法の正確性と有効性が示された。

Chinese Grammatical Error Correction (CGEC) aims to automatically detect and correct grammatical errors contained in Chinese text. In the long term, researchers regard CGEC as a task with a certain degree of uncertainty, that is, an ungrammatical sentence may often have multiple references. However, we argue that even though this is a very reasonable hypothesis, it is too harsh for the intelligence of the mainstream models in this era. In this paper, we first discover that multiple references do not actually bring positive gains to model training. On the contrary, it is beneficial to the CGEC model if the model can pay attention to small but essential data during the training process. Furthermore, we propose a simple yet effective training strategy called OneTarget to improve the focus ability of the CGEC models and thus improve the CGEC performance. Extensive experiments and detailed analyses demonstrate the correctness of our discovery and the effectiveness of our proposed method.
翻訳日:2022-10-28 13:45:17 公開日:2022-10-27
# Virtual Adversarial Perturbation による不確かさサンプリング

Uncertainty Sentence Sampling by Virtual Adversarial Perturbation ( http://arxiv.org/abs/2210.14576v2 )

ライセンス: Link先を確認
Hanshan Zhang and Zhen Zhang and Hongfei Jiang and Yang Song(参考訳) 文理解のためのアクティブラーニングは、最も有意義な例を特定することによってアノテーションコストを削減しようとする。 アクティブラーニングの一般的な方法は、プールベースのシナリオで不確実性または多様性サンプリングを使用する。 本研究では,予測的不確実性とサンプルの多様性の両方を組み込むため,仮想逆摂動をモデル不確実性表現として用いる,不確実性と多様性の組み合わせフレームワークvapal(virtual adversarial perturbation for active learning)を提案する。 VAPALは、4つの文理解データセット(AGNEWS, IMDB, PUBMED, SST-2)の強力なベースラインよりも、一貫した、あるいはそれ以上のパフォーマンスを実現している。

Active learning for sentence understanding attempts to reduce the annotation cost by identifying the most informative examples. Common methods for active learning use either uncertainty or diversity sampling in the pool-based scenario. In this work, to incorporate both predictive uncertainty and sample diversity, we propose Virtual Adversarial Perturbation for Active Learning (VAPAL) , an uncertainty-diversity combination framework, using virtual adversarial perturbation (Miyato et al., 2019) as model uncertainty representation. VAPAL consistently performs equally well or even better than the strong baselines on four sentence understanding datasets: AGNEWS, IMDB, PUBMED, and SST-2, offering a potential option for active learning on sentence understanding tasks.
翻訳日:2022-10-28 13:44:59 公開日:2022-10-27
# 知識グラフ改良作業におけるWikidataの編集履歴の活用

Leveraging Wikidata's edit history in knowledge graph refinement tasks ( http://arxiv.org/abs/2210.15495v1 )

ライセンス: Link先を確認
Alejandro Gonzalez-Hevia, Daniel Gayo-Avello(参考訳) 知識グラフは様々な目的のために様々な分野に採用されている。 これらのアプリケーションのほとんどは、結果を提供するために有効で完全なデータに依存しており、知識グラフの質を改善する必要性を迫られている。 ルールベースのアプローチから確率的手法の使用まで、多くの解決策が提案されているが、まだ検討されていない要素がある:グラフの編集履歴である。 共同知識グラフ(Wikidataなど)の場合、これらの編集は、コミュニティが各エンティティを最もよく表す情報に対して、何らかのファジィで分散した合意に達する過程を表し、知識グラフの精査方法によって使用される潜在的に興味深い情報を保持できる。 本稿では,ウィキデータからの編集履歴情報を用いて,型予測手法の性能を向上させる手法を提案する。 そのため、私たちはまず、Wikidataで最も重要な100のクラスからすべてのインスタンスの編集履歴を含むJSONデータセットを構築しました。 この履歴情報を編集して分析し、知識グラフ精錬タスクにおける潜在的な適用性に焦点を当てる。 最後に,タイプ予測タスクのための知識グラフ埋め込みモデルにおいて,この編集履歴情報を活用するための2つの新しい手法を提案し,評価する。 本研究は,現在のアプローチに対する提案手法の1つを改善し,知識グラフリファインメントタスクにおける編集情報の利用の可能性を示し,この分野に新たな有望な研究ラインを開く。

Knowledge graphs have been adopted in many diverse fields for a variety of purposes. Most of those applications rely on valid and complete data to deliver their results, pressing the need to improve the quality of knowledge graphs. A number of solutions have been proposed to that end, ranging from rule-based approaches to the use of probabilistic methods, but there is an element that has not been considered yet: the edit history of the graph. In the case of collaborative knowledge graphs (e.g., Wikidata), those edits represent the process in which the community reaches some kind of fuzzy and distributed consensus over the information that best represents each entity, and can hold potentially interesting information to be used by knowledge graph refinement methods. In this paper, we explore the use of edit history information from Wikidata to improve the performance of type prediction methods. To do that, we have first built a JSON dataset containing the edit history of every instance from the 100 most important classes in Wikidata. This edit history information is then explored and analyzed, with a focus on its potential applicability in knowledge graph refinement tasks. Finally, we propose and evaluate two new methods to leverage this edit history information in knowledge graph embedding models for type prediction tasks. Our results show an improvement in one of the proposed methods against current approaches, showing the potential of using edit information in knowledge graph refinement tasks and opening new promising research lines within the field.
翻訳日:2022-10-28 13:38:25 公開日:2022-10-27
# GammaE: 知識グラフの論理的クエリのためのガンマ埋め込み

GammaE: Gamma Embeddings for Logical Queries on Knowledge Graphs ( http://arxiv.org/abs/2210.15578v1 )

ライセンス: Link先を確認
Dong Yang, Peijun Qing, Yang Li, Haonan Lu, Xiaodong Lin(参考訳) マルチホップ論理推論のための知識グラフ(KG)の埋め込みは多くのKGの大規模かつ複雑な構造のために難しい問題である。 近年、多くの有望な作品が、効率的に答えを見つけるために、エンティティやクエリを幾何学空間に投影している。 しかし、ネゲーションとユニオン演算子のモデル化は依然として困難である。 否定演算子は厳密な境界を持たず、重なり合う埋め込みを生成し、あいまいな答えを得る。 追加の制限は、ユニオン作用素が非閉化であり、一連のユニオン作用素を扱うモデルが弱まることである。 これらの問題に対処するため、我々は新しい確率的埋め込みモデル、すなわちガンマ埋め込み(Gamma Embeddings, GammaE)を提案し、エンティティとクエリを符号化し、KG上で異なるタイプのFOLクエリに応答する。 我々はガンマ分布の線形特性と強い境界サポートを利用して、エンティティやクエリのより多くの特徴をキャプチャし、モデルの不確実性を劇的に低減する。 さらに、gammaeは、クローズドユニオン演算子を設計するためにガンマ混合法を実装している。 GammaEの性能は3つの大きな論理クエリデータセットで検証される。 実験結果から,GammaEは公開ベンチマークにおいて最先端モデルよりも有意に優れていた。

Embedding knowledge graphs (KGs) for multi-hop logical reasoning is a challenging problem due to massive and complicated structures in many KGs. Recently, many promising works projected entities and queries into a geometric space to efficiently find answers. However, it remains challenging to model the negation and union operator. The negation operator has no strict boundaries, which generates overlapped embeddings and leads to obtaining ambiguous answers. An additional limitation is that the union operator is non-closure, which undermines the model to handle a series of union operators. To address these problems, we propose a novel probabilistic embedding model, namely Gamma Embeddings (GammaE), for encoding entities and queries to answer different types of FOL queries on KGs. We utilize the linear property and strong boundary support of the Gamma distribution to capture more features of entities and queries, which dramatically reduces model uncertainty. Furthermore, GammaE implements the Gamma mixture method to design the closed union operator. The performance of GammaE is validated on three large logical query datasets. Experimental results show that GammaE significantly outperforms state-of-the-art models on public benchmarks.
翻訳日:2022-10-28 13:37:59 公開日:2022-10-27
# プライベートで信頼性の高いニューラルネットワーク推論

Private and Reliable Neural Network Inference ( http://arxiv.org/abs/2210.15614v1 )

ライセンス: Link先を確認
Nikola Jovanovi\'c, Marc Fischer, Samuel Steffen, Martin Vechev(参考訳) 信頼性ニューラルネットワーク(NN)は、公正性や堅牢性といった重要な推論時の信頼性を保証する。 補完的に、プライバシ保存nn推論は、クライアントデータのプライバシを保護する。 これまでのところ、これらの2つの新興地域は大部分が切り離されているが、それらの組み合わせはますます重要になるだろう。 本研究では,信頼性の高いNN上でのプライバシ保護推論を可能にする最初のシステムを提案する。 我々のキーとなる考え方は、信頼度の高いモデルを得るための最先端技術であるランダム化スムーシングのアルゴリズム構築ブロックに対して、効率的な完全同型暗号化(FHE)を設計することである。 要求される制御フローの欠如は、na\" ソリューションが許容できないランタイムにつながるため、これを要求すべきタスクにする。 我々はこれらのビルディングブロックを用いて、Phoenixと呼ばれるシステムにおいて、堅牢性と公正性を保証するプライバシー保護NN推論を可能にする。 実験により,フェニックスは禁止レイテンシーを伴わずに目標を達成することを示した。 私たちの知る限り、これはクライアントデータのプライバシとNNの信頼性保証の領域を橋渡しする最初の作業です。

Reliable neural networks (NNs) provide important inference-time reliability guarantees such as fairness and robustness. Complementarily, privacy-preserving NN inference protects the privacy of client data. So far these two emerging areas have been largely disconnected, yet their combination will be increasingly important. In this work, we present the first system which enables privacy-preserving inference on reliable NNs. Our key idea is to design efficient fully homomorphic encryption (FHE) counterparts for the core algorithmic building blocks of randomized smoothing, a state-of-the-art technique for obtaining reliable models. The lack of required control flow in FHE makes this a demanding task, as na\"ive solutions lead to unacceptable runtime. We employ these building blocks to enable privacy-preserving NN inference with robustness and fairness guarantees in a system called Phoenix. Experimentally, we demonstrate that Phoenix achieves its goals without incurring prohibitive latencies. To our knowledge, this is the first work which bridges the areas of client data privacy and reliability guarantees for NNs.
翻訳日:2022-10-28 13:37:39 公開日:2022-10-27
# プライベートイソトニック回帰

Private Isotonic Regression ( http://arxiv.org/abs/2210.15175v1 )

ライセンス: Link先を確認
Badih Ghazi and Pritish Kamath and Ravi Kumar and Pasin Manurangsi(参考訳) 本稿では,等方性回帰に対する差分プライベート(DP)アルゴリズムの問題点について考察する。 部分順序集合 (poset) $\mathcal{X}$ と任意のリプシッツ損失関数に対するイソトニック回帰の最も一般的な問題に対して、$n$の入力点が与えられたとき、約$\mathrm{width}(\mathcal{X}) \cdot \log|\mathcal{X}| / n$ の過剰な経験的リスクが期待される純粋DPアルゴリズムを得る。 対照的に、およそ$(\mathrm{width}(\mathcal{X}) + \log |\mathcal{X}|) / n$ の近似DPアルゴリズムに対しても、ほぼ一致する下界も得られる。 さらに, 上記の境界は, ポゼットのさらなる構造を使わずに得られる最良値であることを示す。 完全順序集合の特別な場合と$\ell_1$ と $\ell_2^2$ の損失の場合、このアルゴリズムは線形に近い実行時間で実装できる。

In this paper, we consider the problem of differentially private (DP) algorithms for isotonic regression. For the most general problem of isotonic regression over a partially ordered set (poset) $\mathcal{X}$ and for any Lipschitz loss function, we obtain a pure-DP algorithm that, given $n$ input points, has an expected excess empirical risk of roughly $\mathrm{width}(\mathcal{X}) \cdot \log|\mathcal{X}| / n$, where $\mathrm{width}(\mathcal{X})$ is the width of the poset. In contrast, we also obtain a near-matching lower bound of roughly $(\mathrm{width}(\mathcal{X}) + \log |\mathcal{X}|) / n$, that holds even for approximate-DP algorithms. Moreover, we show that the above bounds are essentially the best that can be obtained without utilizing any further structure of the poset. In the special case of a totally ordered set and for $\ell_1$ and $\ell_2^2$ losses, our algorithm can be implemented in near-linear running time; we also provide extensions of this algorithm to the problem of private isotonic regression with additional structural constraints on the output function.
翻訳日:2022-10-28 13:36:38 公開日:2022-10-27
# 平均アンサンブルモデルにおける確率鏡像

Stochastic Mirror Descent in Average Ensemble Models ( http://arxiv.org/abs/2210.15323v1 )

ライセンス: Link先を確認
Taylan Kargin, Fariborz Salehi, Babak Hassibi(参考訳) 確率的ミラー降下(SMD)アルゴリズムは、特別の場合として、確率的勾配降下(SGD)を含む訓練アルゴリズムの一般的なクラスである。 ミラーポテンシャルを利用してトレーニングアルゴリズムの暗黙のバイアスに影響を与える。 本稿では,平均場アンサンブルモデルにおけるSMDイテレーションの性能について検討する。 以上の結果から,SGDで得られた先行モデルを一般化した。 パラメータの分布の進化は確率分布の空間における連続時間過程にマッピングされる。 我々の主な結果は, 連続時間過程が大規模ネットワークの漸近的構造に収束する非線形偏微分方程式を与える。 ミラーポテンシャルの影響は、ヘッセンの逆元と等しく、適切に定義されたリーマン多様体上の勾配流れを定義するものとして解釈できる乗法項を通じて現れる。 本研究では,smdで学習したネットワークの性能に対するミラーポテンシャルの影響を,二元分類問題に対して検討し,特徴付ける数値シミュレーションを行う。

The stochastic mirror descent (SMD) algorithm is a general class of training algorithms, which includes the celebrated stochastic gradient descent (SGD), as a special case. It utilizes a mirror potential to influence the implicit bias of the training algorithm. In this paper we explore the performance of the SMD iterates on mean-field ensemble models. Our results generalize earlier ones obtained for SGD on such models. The evolution of the distribution of parameters is mapped to a continuous time process in the space of probability distributions. Our main result gives a nonlinear partial differential equation to which the continuous time process converges in the asymptotic regime of large networks. The impact of the mirror potential appears through a multiplicative term that is equal to the inverse of its Hessian and which can be interpreted as defining a gradient flow over an appropriately defined Riemannian manifold. We provide numerical simulations which allow us to study and characterize the effect of the mirror potential on the performance of networks trained with SMD for some binary classification problems.
翻訳日:2022-10-28 13:36:08 公開日:2022-10-27
# 潜伏変数を持つサンプル特異的ルート因果推論

Sample-Specific Root Causal Inference with Latent Variables ( http://arxiv.org/abs/2210.15340v1 )

ライセンス: Link先を確認
Eric V. Strobl, Thomas A. Lasko(参考訳) ルート因果解析は、望ましくない結果を引き起こす初期摂動の集合を同定しようとする。 先行研究では, 構造方程式モデルで診断を予測する外来誤差項を用いて, 病原性疾患のサンプル特異的根因を定義した。 我々はShapley値を用いて予測率を厳格に定量化した。 しかし、根を推論するための関連するアルゴリズムは、潜伏する欠点を含まない。 我々はこの仮定を、予測者間の相反を許すことで緩和する。 次に,線形非ガウス非巡回モデルにおいて,ある経路上の頂点による汚染による誤差項を回復するために,eel(extract error with latents)と呼ばれる対応する手順を導入する。 EELはまた、Shapley値の高速な計算のための依存誤差の最小セットを特定する。 このアルゴリズムは、両方のケースで基礎となる因果グラフを推定する難しい問題をバイパスする。 実験は、前者と比較してEELの精度と堅牢性を強調している。

Root causal analysis seeks to identify the set of initial perturbations that induce an unwanted outcome. In prior work, we defined sample-specific root causes of disease using exogenous error terms that predict a diagnosis in a structural equation model. We rigorously quantified predictivity using Shapley values. However, the associated algorithms for inferring root causes assume no latent confounding. We relax this assumption by permitting confounding among the predictors. We then introduce a corresponding procedure called Extract Errors with Latents (EEL) for recovering the error terms up to contamination by vertices on certain paths under the linear non-Gaussian acyclic model. EEL also identifies the smallest sets of dependent errors for fast computation of the Shapley values. The algorithm bypasses the hard problem of estimating the underlying causal graph in both cases. Experiments highlight the superior accuracy and robustness of EEL relative to its predecessors.
翻訳日:2022-10-28 13:35:55 公開日:2022-10-27
# COCO-DR: 相対的・分布的ロバスト学習によるゼロショット高密度検索における分配シフトの圧縮

COCO-DR: Combating Distribution Shifts in Zero-Shot Dense Retrieval with Contrastive and Distributionally Robust Learning ( http://arxiv.org/abs/2210.15212v1 )

ライセンス: Link先を確認
Yue Yu, Chenyan Xiong, Si Sun, Chao Zhang, Arnold Overwijk(参考訳) 本研究では,ゼロショット高密度検索 (zero-shot dense retrieval, coco-dr) 法を提案する。 文書の違いの影響を軽減するため、COCO-DRは目標コーパス上で言語モデルを事前訓練し、Cotinuous Cotrastive Learningを介して目標分布に適応させる。 未確認のターゲットクエリの準備として、COCO-DRは暗黙の分散ロバスト最適化(iDRO)を活用して、異なるソースクエリクラスタからのサンプルを再重み付けすることで、微調整時の稀なクエリに対するモデルロバスト性を改善する。 COCO-DR はゼロショットベンチマークベンチマーク BEIR において高い平均性能を達成する。 BERTベーススケールでは、COCO-DRベースは他のZeroDRモデルよりも60倍大きいサイズである。 BERT Large Scaleでは、COCO-DR Largeは500倍のパラメータを持つ巨大なGPT-3埋め込みモデルより優れている。 本分析は,COCO-DRの分散シフト対策効果とゼロショット精度の向上の相関関係を示す。 我々のコードとモデルは \url{https://github.com/OpenMatch/COCO-DR} で見ることができる。

We present a new zero-shot dense retrieval (ZeroDR) method, COCO-DR, to improve the generalization ability of dense retrieval by combating the distribution shifts between source training tasks and target scenarios. To mitigate the impact of document differences, COCO-DR continues pretraining the language model on the target corpora to adapt the model to target distributions via COtinuous COtrastive learning. To prepare for unseen target queries, COCO-DR leverages implicit Distributionally Robust Optimization (iDRO) to reweight samples from different source query clusters for improving model robustness over rare queries during fine-tuning. COCO-DR achieves superior average performance on BEIR, the zero-shot retrieval benchmark. At BERT Base scale, COCO-DR Base outperforms other ZeroDR models with 60x larger size. At BERT Large scale, COCO-DR Large outperforms the giant GPT-3 embedding model which has 500x more parameters. Our analysis show the correlation between COCO-DR's effectiveness in combating distribution shifts and improving zero-shot accuracy. Our code and model can be found at \url{https://github.com/OpenMatch/COCO-DR}.
翻訳日:2022-10-28 13:30:18 公開日:2022-10-27
# wav2vec Feature Encoderのブラックボックスを開く

Opening the Black Box of wav2vec Feature Encoder ( http://arxiv.org/abs/2210.15386v1 )

ライセンス: Link先を確認
Kwanghee Choi, Eun Jung Yeo(参考訳) 自己教師型モデル、すなわちwav2vecとその変種は、音声領域における様々な下流タスクにおいて有望な結果を示している。 しかし、その内部動作はよく分かっておらず、モデルが何を学ぶかについて詳細な分析を要求している。 本稿では,その潜在空間が離散音響単位を表すものとしてしばしば推測される畳み込み特徴エンコーダに着目する。 埋め込み空間を還元的に解析するため,単純な正弦波の和である合成音声信号を供給した。 広範な実験により,(1)基本周波数,(2)フォルマント,(3)振幅といった特徴エンコーダ表現の中に,(4)十分な時間的詳細を詰め込んだ様々な情報が埋め込まれていると結論づけた。 さらに、潜在表現の内部に組み込まれた情報はスペクトログラムに似ているが、基本的な違いがある: 潜在表現は距離空間を構築し、より密接な表現は音響的類似性を意味する。

Self-supervised models, namely, wav2vec and its variants, have shown promising results in various downstream tasks in the speech domain. However, their inner workings are poorly understood, calling for in-depth analyses on what the model learns. In this paper, we concentrate on the convolutional feature encoder where its latent space is often speculated to represent discrete acoustic units. To analyze the embedding space in a reductive manner, we feed the synthesized audio signals, which is the summation of simple sine waves. Through extensive experiments, we conclude that various information is embedded inside the feature encoder representations: (1) fundamental frequency, (2) formants, and (3) amplitude, packed with (4) sufficient temporal detail. Further, the information incorporated inside the latent representations is analogous to spectrograms but with a fundamental difference: latent representations construct a metric space so that closer representations imply acoustic similarity.
翻訳日:2022-10-28 13:29:56 公開日:2022-10-27
# UAVおよびIRS支援IoTデータ収集システムにおける展開と軌道の併用最適化

Joint Optimization of Deployment and Trajectory in UAV and IRS-Assisted IoT Data Collection System ( http://arxiv.org/abs/2210.15203v1 )

ライセンス: Link先を確認
Li Dong, Zhibin Liu, Feibo Jiang, Kezhi Wang(参考訳) 無人航空機(UAV)は、データ収集プラットフォームとして、スマートファームなどの多くのモノのインターネット(IoT)システムに適用することができる。 しかし、UAV-IoT無線チャネルは時折木や高層建築物によってブロックされることがある。 インテリジェント反射面(irs)は、多数の低コスト受動反射素子を介して信号をスマートに反射することにより、無線チャネル品質を向上させることができる。 本稿では,UAVの展開と軌道を最適化することで,システムのエネルギー消費を最小化することを目的とする。 この問題は混合整数・非線形プログラミング (MINLP) として定式化されており、解は局所最適に陥る可能性があるため、従来の解決法では解決が難しい。 そこで本研究では,uavの展開を最適化するための適応的鯨最適化アルゴリズム(awoa)と,uavの軌道を最適化するための弾性環自己組織化マップ(ersom)を提案する。 具体的には、AWOAにおいて、最適な停止点数を求めるために可変長集団戦略を適用し、探索と利用のバランスをとるために非線形パラメータaと部分突然変異規則を導入する。 ERSOMでは、競合学習によりUAVの軌道を学習するために競合ニューラルネットワークも導入され、軌道交叉を避けるためにリング構造が提示される。 提案するJOLTフレームワークの有効性を示すため,大規模な実験を行った。

Unmanned aerial vehicles (UAVs) can be applied in many Internet of Things (IoT) systems, e.g., smart farms, as a data collection platform. However, the UAV-IoT wireless channels may be occasionally blocked by trees or high-rise buildings. An intelligent reflecting surface (IRS) can be applied to improve the wireless channel quality by smartly reflecting the signal via a large number of low-cost passive reflective elements. This article aims to minimize the energy consumption of the system by jointly optimizing the deployment and trajectory of the UAV. The problem is formulated as a mixed-integer-and-nonlinear programming (MINLP), which is challenging to address by the traditional solution, because the solution may easily fall into the local optimal. To address this issue, we propose a joint optimization framework of deployment and trajectory (JOLT), where an adaptive whale optimization algorithm (AWOA) is applied to optimize the deployment of the UAV, and an elastic ring self-organizing map (ERSOM) is introduced to optimize the trajectory of the UAV. Specifically, in AWOA, a variable-length population strategy is applied to find the optimal number of stop points, and a nonlinear parameter a and a partial mutation rule are introduced to balance the exploration and exploitation. In ERSOM, a competitive neural network is also introduced to learn the trajectory of the UAV by competitive learning, and a ring structure is presented to avoid the trajectory intersection. Extensive experiments are carried out to show the effectiveness of the proposed JOLT framework.
翻訳日:2022-10-28 13:29:07 公開日:2022-10-27
# FedClassAvg:異種ニューラルネットワークを用いた個人化フェデレーション学習のための局所表現学習

FedClassAvg: Local Representation Learning for Personalized Federated Learning on Heterogeneous Neural Networks ( http://arxiv.org/abs/2210.14226v2 )

ライセンス: Link先を確認
Jaehee Jang, Heonseok Ha, Dahuin Jung, Sungroh Yoon(参考訳) パーソナライズド・フェデレーション・ラーニング(Personalized Federated Learning)は、プライベートデータを交換することなく、コミュニケーション効率のよいコミュニケーショントレーニングをしながら、多数のクライアントがパーソナライズド・モデルのトレーニングを可能にすることを目的としている。 しかし、多くのパーソナライズされた連合学習アルゴリズムは、クライアントが同じニューラルネットワークアーキテクチャを持っていると仮定しており、異種モデルの学習は未検討のままである。 本研究では,フェデレーション型分類器平均化(FedClassAvg)と呼ばれる,個人化型学習手法を提案する。 教師付き学習タスクのためのディープニューラルネットワークは、特徴抽出層と分類層で構成される。 FedClassAvgは、特徴空間上の決定境界に関する合意として分類器の重みを集約するので、独立して同じ分散データを持たないクライアントは、不足ラベルについて学ぶことができる。 さらに、決定境界を安定させ、クライアントの局所特徴抽出機能を改善するために、局所特徴表現学習を適用した。 既存の手法では補助データやモデル重みを収集して対応する層を生成する必要があるが、feedclassavgはクライアントが複数の完全接続層と通信することしか必要とせず、通信効率が高い。 さらに、FedClassAvgは、計算オーバーヘッドの集中を要する知識伝達のような、余分な最適化問題を必要としない。 我々はfeedclassavgを広範囲な実験を通して評価し,そのアルゴリズムがヘテロジニアス・パーソナライズド・フェデレーション・ラーニングタスクに匹敵することを示した。

Personalized federated learning is aimed at allowing numerous clients to train personalized models while participating in collaborative training in a communication-efficient manner without exchanging private data. However, many personalized federated learning algorithms assume that clients have the same neural network architecture, and those for heterogeneous models remain understudied. In this study, we propose a novel personalized federated learning method called federated classifier averaging (FedClassAvg). Deep neural networks for supervised learning tasks consist of feature extractor and classifier layers. FedClassAvg aggregates classifier weights as an agreement on decision boundaries on feature spaces so that clients with not independently and identically distributed (non-iid) data can learn about scarce labels. In addition, local feature representation learning is applied to stabilize the decision boundaries and improve the local feature extraction capabilities for clients. While the existing methods require the collection of auxiliary data or model weights to generate a counterpart, FedClassAvg only requires clients to communicate with a couple of fully connected layers, which is highly communication-efficient. Moreover, FedClassAvg does not require extra optimization problems such as knowledge transfer, which requires intensive computation overhead. We evaluated FedClassAvg through extensive experiments and demonstrated it outperforms the current state-of-the-art algorithms on heterogeneous personalized federated learning tasks.
翻訳日:2022-10-28 13:28:44 公開日:2022-10-27
# 学生中心の学習管理システム活動と学業成績モデル--因果関係から因果関係へ

Student-centric Model of Learning Management System Activity and Academic Performance: from Correlation to Causation ( http://arxiv.org/abs/2210.15430v1 )

ライセンス: Link先を確認
Varun Mandalapu, Lujie Karen Chen, Sushruta Shetty, Zhiyuan Chen, Jiaqi Gong(参考訳) 近年,メタ認知や自己統制といった学習行動パターンを理解するために,学生の学習管理システム(LMS)におけるデジタルトレースをモデル化することへの関心が高まっている。 しかし、この目標を達成するには、既存の文献を考えると、対処すべき主な課題が2つある。 第一に、現在の研究のほとんどは、学生中心ではなくコース中心(すなわち、特定のコースのデータからモデルを構築する)であり、第二に、モデルの大多数は因果関係ではなく相関関係にある。 これらの問題は、キャンパス全体の学術的支援のほとんどが設計されている学生レベルで、最も有望な介入の要因を特定するのに困難である。 本稿では,LMS活動データを対象とした学生中心分析フレームワークについて検討し,観察データから抽出した相関性だけでなく因果的洞察も提供する。 2019年秋の1学期に米国の公立大学での主要学生を1651人のデータセットで計算することで,このアプローチを実証した。 このデータセットには、学生の詳細なLMSインタラクションログと、人口統計学や学業成績などの管理データが含まれている。 さらに、ログインの時間(例えば、chronotype)を特徴付けることができるように、lms行動指標のリポジトリを拡張します。 分析の結果,学生のログイン量は,他のログイン行動指標と比較して,学生の成績に強く相関し,因果関係があることが明らかとなった。 これらの知見が学生支援グループにとって、効果的でスケーラブルな介入を学生中心で目標とする活動を開始するための証拠となると期待している。

In recent years, there is a lot of interest in modeling students' digital traces in Learning Management System (LMS) to understand students' learning behavior patterns including aspects of meta-cognition and self-regulation, with the ultimate goal to turn those insights into actionable information to support students to improve their learning outcomes. In achieving this goal, however, there are two main issues that need to be addressed given the existing literature. Firstly, most of the current work is course-centered (i.e. models are built from data for a specific course) rather than student-centered; secondly, a vast majority of the models are correlational rather than causal. Those issues make it challenging to identify the most promising actionable factors for intervention at the student level where most of the campus-wide academic support is designed for. In this paper, we explored a student-centric analytical framework for LMS activity data that can provide not only correlational but causal insights mined from observational data. We demonstrated this approach using a dataset of 1651 computing major students at a public university in the US during one semester in the Fall of 2019. This dataset includes students' fine-grained LMS interaction logs and administrative data, e.g. demographics and academic performance. In addition, we expand the repository of LMS behavior indicators to include those that can characterize the time-of-the-day of login (e.g. chronotype). Our analysis showed that student login volume, compared with other login behavior indicators, is both strongly correlated and causally linked to student academic performance, especially among students with low academic performance. We envision that those insights will provide convincing evidence for college student support groups to launch student-centered and targeted interventions that are effective and scalable.
翻訳日:2022-10-28 13:27:36 公開日:2022-10-27
# 病院における多発性硬化病変の分別 : スクラッチからの学習か訓練か

Segmentation of Multiple Sclerosis Lesions across Hospitals: Learn Continually or Train from Scratch? ( http://arxiv.org/abs/2210.15091v1 )

ライセンス: Link先を確認
Enamundram Naga Karthik, Anne Kerbrat, Pierre Labauge, Tobias Granberg, Jason Talbott, Daniel S. Reich, Massimo Filippi, Rohit Bakshi, Virginie Callot, Sarath Chandar, Julien Cohen-Adad(参考訳) 多発性硬化症 (MS) 病変の分離は困難である。 近年,ディープラーニングに基づく手法がいくつか提案されている。 しかし、ほとんどのメソッドは静的である傾向がある。つまり、大きな特殊なデータセットでトレーニングされた単一のモデルであり、うまく一般化しない。 モデルでは、病変の特性を連続的に構築することにより、異なる病院から順次到着するデータセットを学習する必要がある。 そこで本研究では,8つの異なる病院の複数コントラストデータにまたがるms病変分割の文脈において,よく知られた連続学習手法であるexperience replayについて検討する。 実験の結果,リプレイは連続的な微調整に比べて,前向きの後方移動を達成でき,破滅的忘れを低減できることがわかった。 さらに、リプレイはマルチドメイントレーニングを上回り、ms病変の分節化に有望な解決策として出現する。 コードは、このリンクで入手できる。 https://github.com/naga-karthik/continual-learning-ms

Segmentation of Multiple Sclerosis (MS) lesions is a challenging problem. Several deep-learning-based methods have been proposed in recent years. However, most methods tend to be static, that is, a single model trained on a large, specialized dataset, which does not generalize well. Instead, the model should learn across datasets arriving sequentially from different hospitals by building upon the characteristics of lesions in a continual manner. In this regard, we explore experience replay, a well-known continual learning method, in the context of MS lesion segmentation across multi-contrast data from 8 different hospitals. Our experiments show that replay is able to achieve positive backward transfer and reduce catastrophic forgetting compared to sequential fine-tuning. Furthermore, replay outperforms the multi-domain training, thereby emerging as a promising solution for the segmentation of MS lesions. The code is available at this link: https://github.com/naga-karthik/continual-learning-ms
翻訳日:2022-10-28 13:20:18 公開日:2022-10-27
# 低次元特徴写像の投影学習の改善

Improved Projection Learning for Lower Dimensional Feature Maps ( http://arxiv.org/abs/2210.15170v1 )

ライセンス: Link先を確認
Ilan Price and Jared Tanner(参考訳) 畳み込みニューラルネットワーク(CNN)を用いた推論において、大きな特徴マップをオンチップで繰り返し移動させることは、エネルギーと時間の両方の観点から高いコストを課す。 本研究では,事前学習されたcnnの機能マップを,所定の制限値以下まで圧縮する改良手法について検討する。 これは、エンドツーエンドの微調整を通じてトレーニングされた学習されたプロジェクションによって行われる。 また, 完全にオンチップで推論を行うという今後の目標の観点から, これらの手法を評価する 'ceiling compression' フレームワークも紹介する。

The requirement to repeatedly move large feature maps off- and on-chip during inference with convolutional neural networks (CNNs) imposes high costs in terms of both energy and time. In this work we explore an improved method for compressing all feature maps of pre-trained CNNs to below a specified limit. This is done by means of learned projections trained via end-to-end finetuning, which can then be folded and fused into the pre-trained network. We also introduce a new `ceiling compression' framework in which evaluate such techniques in view of the future goal of performing inference fully on-chip.
翻訳日:2022-10-28 13:20:00 公開日:2022-10-27
# Text2Model:タスク記述を用いたゼロショット一般化のためのモデル誘導

Text2Model: Model Induction for Zero-shot Generalization Using Task Descriptions ( http://arxiv.org/abs/2210.15182v1 )

ライセンス: Link先を確認
Ohad Amosy, Tomer Volk, Eyal Ben-David, Roi Reichart and Gal Chechik(参考訳) 視覚サンプルのないテキスト記述から学習不要なタスク依存型視覚分類器を生成する問題について検討する。 この textit{Text-to-Model} (T2M) 問題はゼロショット学習と密接に関連しているが、以前の研究とは異なり、T2M モデルはタスクのすべてのクラスを考慮してタスクに適したモデルを推論する。 我々は, t2m の対称性を分析し, 対応するモデルの等分散性と不変性を特徴付ける。 これらの特性に照らして,ゼロショットクラスから画像を分類するオブジェクト認識モデルの重みを予測する,新しいクラス記述のセットが与えられたハイパーネットワークに基づくアーキテクチャを設計する。 我々は,画像中のテキスト記述からのゼロショット学習と,さまざまなタイプのテキスト記述を用いたポイントクラウド分類を比べて,このアプローチの利点を実証する。

We study the problem of generating a training-free task-dependent visual classifier from text descriptions without visual samples. This \textit{Text-to-Model} (T2M) problem is closely related to zero-shot learning, but unlike previous work, a T2M model infers a model tailored to a task, taking into account all classes in the task. We analyze the symmetries of T2M, and characterize the equivariance and invariance properties of corresponding models. In light of these properties, we design an architecture based on hypernetworks that given a set of new class descriptions predicts the weights for an object recognition model which classifies images from those zero-shot classes. We demonstrate the benefits of our approach compared to zero-shot learning from text descriptions in image and point-cloud classification using various types of text descriptions: From single words to rich text descriptions.
翻訳日:2022-10-28 13:19:49 公開日:2022-10-27
# 対向訓練における効率的かつ効果的な強化戦略

Efficient and Effective Augmentation Strategy for Adversarial Training ( http://arxiv.org/abs/2210.15318v1 )

ライセンス: Link先を確認
Sravanti Addepalli, Samyak Jain, R.Venkatesh Babu(参考訳) ディープニューラルネットワークのadversarial trainingは、標準的なトレーニングと比べて、はるかにデータ不足であることが知られている。 さらに、画像分類器の標準トレーニングが大幅に向上したオートオーグメントのような複雑なデータ拡張は、敵対的なトレーニングでは成功していない。 まず,訓練中の強化をドメイン一般化の課題としてとらえることで,この対比行動を説明し,さらに多様な強化型合同敵訓練 (dajat) を提案し,敵訓練におけるデータ強化を効果的に活用する。 訓練中のバッチ正規化レイヤを分離して,単純かつ複雑な拡張を組み合わせることで,トレーニングデータセットの多様性の向上と,テスト分布に近いデータとのトレーニングという,相反する目標の処理を目指す。 我々はさらに、Jensen-Shannon分散損失を利用して、多種多様な拡張の合同学習を促進することにより、単純な拡張が複雑な学習のガイドとなる。 最後に,提案手法の計算効率を向上させるために,エプシロンスケジュールの増大と重み空間の平滑化を利用して勾配マスキングを防止できる2段階の防御法 Ascending Constraint Adversarial Training (ACAT) を提案する。 提案手法は,ResNet-18 と WideResNet-34-10 上のRobustBench Leaderboard の既存の手法と比較して,ロバスト性-精度トレードオフを著しく向上させる。 DAJATの実装コードは以下の通りである。

Adversarial training of Deep Neural Networks is known to be significantly more data-hungry when compared to standard training. Furthermore, complex data augmentations such as AutoAugment, which have led to substantial gains in standard training of image classifiers, have not been successful with Adversarial Training. We first explain this contrasting behavior by viewing augmentation during training as a problem of domain generalization, and further propose Diverse Augmentation-based Joint Adversarial Training (DAJAT) to use data augmentations effectively in adversarial training. We aim to handle the conflicting goals of enhancing the diversity of the training dataset and training with data that is close to the test distribution by using a combination of simple and complex augmentations with separate batch normalization layers during training. We further utilize the popular Jensen-Shannon divergence loss to encourage the joint learning of the diverse augmentations, thereby allowing simple augmentations to guide the learning of complex ones. Lastly, to improve the computational efficiency of the proposed method, we propose and utilize a two-step defense, Ascending Constraint Adversarial Training (ACAT), that uses an increasing epsilon schedule and weight-space smoothing to prevent gradient masking. The proposed method DAJAT achieves substantially better robustness-accuracy trade-off when compared to existing methods on the RobustBench Leaderboard on ResNet-18 and WideResNet-34-10. The code for implementing DAJAT is available here: https://github.com/val-iisc/DAJAT.
翻訳日:2022-10-28 13:19:35 公開日:2022-10-27
# Li3DeTr: LiDARベースの3D検出変換器

Li3DeTr: A LiDAR based 3D Detection Transformer ( http://arxiv.org/abs/2210.15365v1 )

ライセンス: Link先を確認
Gopi Krishna Erabati and Helder Araujo(参考訳) 物体検出のための視覚変換器の最近の進歩に触発されて,LiDARを用いた自律走行用3D検出トランスであるLi3DeTrを提案する。 LiDARの局所的特徴とグローバルな特徴はそれぞれスパース畳み込みとマルチスケールの変形可能な注意を使って符号化される。 このデコーダヘッドでは、まず、新しいLi3DeTrクロスアテンションブロックにおいて、データから学習したオブジェクトクエリのスパースセットを活用することで、LiDARのグローバルな特徴を3D予測にリンクする。 第二に、オブジェクトクエリの相互作用はマルチヘッド自己アテンションを用いて定式化される。 最後に、デコーダ層はオブジェクトクエリを洗練させるために、何度も$L_{dec}$の回数を繰り返す。 DETRにインスパイアされた私たちは、Li3DeTrネットワークのトレーニングにセット・ツー・セットの損失を採用しました。 ベルとホイッスルがなければ、Li3DeTrネットワークは61.3%のmAPと67.6%のNDSを達成し、nuScenesデータセット上で非最大抑圧(NMS)を伴う最先端の手法を上回り、KITTIデータセット上での競合性能も達成している。 また,ネットワークの性能をわずかに向上させる教師モデルと学生モデルを用いて知識蒸留(KD)を行っている。

Inspired by recent advances in vision transformers for object detection, we propose Li3DeTr, an end-to-end LiDAR based 3D Detection Transformer for autonomous driving, that inputs LiDAR point clouds and regresses 3D bounding boxes. The LiDAR local and global features are encoded using sparse convolution and multi-scale deformable attention respectively. In the decoder head, firstly, in the novel Li3DeTr cross-attention block, we link the LiDAR global features to 3D predictions leveraging the sparse set of object queries learnt from the data. Secondly, the object query interactions are formulated using multi-head self-attention. Finally, the decoder layer is repeated $L_{dec}$ number of times to refine the object queries. Inspired by DETR, we employ set-to-set loss to train the Li3DeTr network. Without bells and whistles, the Li3DeTr network achieves 61.3% mAP and 67.6% NDS surpassing the state-of-the-art methods with non-maximum suppression (NMS) on the nuScenes dataset and it also achieves competitive performance on the KITTI dataset. We also employ knowledge distillation (KD) using a teacher and student model that slightly improves the performance of our network.
翻訳日:2022-10-28 13:19:07 公開日:2022-10-27
# 初期のセマンティックセグメンテーションネットワークにおけるクラスベース閾値

Class Based Thresholding in Early Exit Semantic Segmentation Networks ( http://arxiv.org/abs/2210.15621v1 )

ライセンス: Link先を確認
Alperen G\"ormez and Erdem Koyuncu(参考訳) そこで我々は,初期出口セマンティックセグメンテーションモデルの計算コストを低減し,mIoU(Universal Over Union)の性能を平均的に保ちながら,クラスベーススレッショニング(Class Based Thresholding, CBT)を提案する。 CBTの鍵となる考え方は、自然に発生する神経崩壊現象を活用することである。 具体的には、トレーニングセットの各クラスの平均予測確率を計算することで、CBTは各クラスに異なるマスキング閾値を割り当て、容易に予測可能なクラスに属するピクセルに対して、より早く計算を終了させることができる。 CBTがCityscapesおよびADE20Kデータセットに与える影響を示す。 cbtは、従来の最先端のアーリーエグジットモデルと比較して、計算コストを23\%削減できる。

We propose Class Based Thresholding (CBT) to reduce the computational cost of early exit semantic segmentation models while preserving the mean intersection over union (mIoU) performance. A key idea of CBT is to exploit the naturally-occurring neural collapse phenomenon. Specifically, by calculating the mean prediction probabilities of each class in the training set, CBT assigns different masking threshold values to each class, so that the computation can be terminated sooner for pixels belonging to easy-to-predict classes. We show the effectiveness of CBT on Cityscapes and ADE20K datasets. CBT can reduce the computational cost by $23\%$ compared to the previous state-of-the-art early exit models.
翻訳日:2022-10-28 13:18:38 公開日:2022-10-27
# ProContEXT: トラッキングのためのプログレッシブコンテキストトランスフォーマーの探索

ProContEXT: Exploring Progressive Context Transformer for Tracking ( http://arxiv.org/abs/2210.15511v1 )

ライセンス: Link先を確認
Jin-Peng Lan, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Xu Bao, Wangmeng Xiang, Yifeng Geng, Xuansong Xie(参考訳) 既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。 これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。 そこで我々は,プログレッシブ・コンテクスト・エンコーディング・トランスフォーマー(ProContEXT)によるトラッキング・フレームワークを改良し,空間的・時間的コンテキストを利用して物体の動きの軌跡を予測する。 具体的には、procontextはコンテキスト対応のセルフアテンションモジュールを使用して、空間的および時間的コンテキストをエンコードし、マルチスケールの静的および動的テンプレートを改良および更新し、正確なトラッキングを行う。 時間的文脈と時間的文脈の相補性を探求し、トランスフォーマーベースのトラッカーのためのマルチコンテキストモデリングへの新しい経路を提起する。 さらに、ProContEXTは計算複雑性を低減するためにトークンプルーニング手法を改訂した。 GOT-10kやTrackingNetのような一般的なベンチマークデータセットに対する大規模な実験は、提案されたProContEXTが最先端のパフォーマンスを達成することを示した。

Existing Visual Object Tracking (VOT) only takes the target area in the first frame as a template. This causes tracking to inevitably fail in fast-changing and crowded scenes, as it cannot account for changes in object appearance between frames. To this end, we revamped the tracking framework with Progressive Context Encoding Transformer Tracker (ProContEXT), which coherently exploits spatial and temporal contexts to predict object motion trajectories. Specifically, ProContEXT leverages a context-aware self-attention module to encode the spatial and temporal context, refining and updating the multi-scale static and dynamic templates to progressively perform accurate tracking. It explores the complementary between spatial and temporal context, raising a new pathway to multi-context modeling for transformer-based trackers. In addition, ProContEXT revised the token pruning technique to reduce computational complexity. Extensive experiments on popular benchmark datasets such as GOT-10k and TrackingNet demonstrate that the proposed ProContEXT achieves state-of-the-art performance.
翻訳日:2022-10-28 13:18:26 公開日:2022-10-27
# LongShortNet: ストリーミング知覚における時間的特徴と意味的特徴の融合を探る

LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception ( http://arxiv.org/abs/2210.15518v1 )

ライセンス: Link先を確認
Chenyang Li, Zhi-Qi Cheng, Jun-Yan He, Pengyu Li, Bin Luo, Han-Yuan Chen, Yifeng Geng, Jin-Peng Lan, Xuansong Xie(参考訳) ストリーミング知覚は、自動操縦システムのレイテンシと精度をコヒーレントに考慮した、自律運転の現状を報告するタスクである。 しかし、既存のストリーミング知覚は、現在の2フレームと隣接する2フレームのみを使用して、実際の複雑なシーンをモデル化できない動きパターンを学習する。 この問題を解決するために、LongShortNetと呼ばれるエンドツーエンドのデュアルパスネットワークを提案する。 さらに, 長短核融合モジュール (LSFM) を用いて時空間的特徴融合を探索し, ストリーミング知覚における時間的長期化を初めて行った。 提案したLongShortNetを評価し,ベンチマークデータセットArgoverse-HDの既存手法と比較した。 その結果,提案したLongShortNetは,他の最先端手法よりも計算コストが低い。

Streaming perception is a task of reporting the current state of autonomous driving, which coherently considers the latency and accuracy of autopilot systems. However, the existing streaming perception only uses the current and adjacent two frames as input for learning the movement patterns, which cannot model actual complex scenes, resulting in failed detection results. To solve this problem, we propose an end-to-end dual-path network dubbed LongShortNet, which captures long-term temporal motion and calibrates it with short-term spatial semantics for real-time perception. Moreover, we investigate a Long-Short Fusion Module (LSFM) to explore spatiotemporal feature fusion, which is the first work to extend long-term temporal in streaming perception. We evaluate the proposed LongShortNet and compare it with existing methods on the benchmark dataset Argoverse-HD. The results demonstrate that the proposed LongShortNet outperforms the other state-of-the-art methods with almost no extra computational cost.
翻訳日:2022-10-28 13:18:04 公開日:2022-10-27
# グループ精度格差改善のためのアウトリアアウェアトレーニング

Outlier-Aware Training for Improving Group Accuracy Disparities ( http://arxiv.org/abs/2210.15183v1 )

ライセンス: Link先を確認
Li-Kuang Chen, Canasai Kruengkrai, Junichi Yamagishi(参考訳) Just Train Twice (JTT, arXiv:2107.09044v2) のような急激な相関に対処する手法では、最悪のグループ精度を最大化するためにトレーニングセットのサブセットを再重み付けする。 しかし、再重み付けされた例には、モデルの学習を妨げる未学習の例が含まれる可能性がある。 我々は,トレーニングセットの外れ値を検出し,再重み付け前に取り除くことで,これを軽減することを提案する。 実験の結果,本手法はJTTと比較して精度が向上し,JTTで再重み付けされたサブセットのアノテーションエラーを検出・除去できることがわかった。

Methods addressing spurious correlations such as Just Train Twice (JTT, arXiv:2107.09044v2) involve reweighting a subset of the training set to maximize the worst-group accuracy. However, the reweighted set of examples may potentially contain unlearnable examples that hamper the model's learning. We propose mitigating this by detecting outliers to the training set and removing them before reweighting. Our experiments show that our method achieves competitive or better accuracy compared with JTT and can detect and remove annotation errors in the subset being reweighted in JTT.
翻訳日:2022-10-28 13:17:35 公開日:2022-10-27
# 確率的ブロックモデルに適合するトランスフォーマー:データ適応性とコストによる注意

Transformers meet Stochastic Block Models: Attention with Data-Adaptive Sparsity and Cost ( http://arxiv.org/abs/2210.15541v1 )

ライセンス: Link先を確認
Sungjun Cho, Seonwoo Min, Jinwoo Kim, Moontae Lee, Honglak Lee, Seunghoon Hong(参考訳) 二次的な自己注意のコストを克服するために、最近の研究は様々な疎い注意モジュールを提案しており、そのほとんどは2つのグループのうちの1つに該当する。 1)手作りの模様の下のまばらな注意 2) フルアテンションに続いて$\alpha$-entmaxなどのソフトマックスのスパース変種が続く。 残念ながら、第1グループはデータへの適応性に欠けており、第2グループはトレーニングに2次的なコストを必要とする。 本研究では,SBM-Transformerを提案する。このモデルでは,各アテンションヘッドに混合メンバーシップ確率ブロックモデル(SBM)を付与することにより,両方の問題を解決する。 そして、各アテンションヘッドが二部グラフをデータ順にサンプリングし、その隣接度を各入力のアテンションマスクとして使用する。 バックプロパゲーションの間、ストレートスルー推定器は離散サンプリングステップを超えて勾配を流し、予測損失に基づいてサンプルエッジの確率を調整する。 したがって、前方コストと後方コストはエッジ数に線形であり、各注意ヘッドは入力に基づいて柔軟に選択することもできる。 グラフの分布を評価することにより、SBM-Transformer が期待される任意の順序列列関数の普遍近似であることを示す。 LRA と GLUE のベンチマークによる実証的な評価により,本モデルが従来の効率のよい変種やトランスフォーマーよりも優れていることが示された。 私たちの実装はhttps://github.com/sc782/SBM-Transformerで確認できます。

To overcome the quadratic cost of self-attention, recent works have proposed various sparse attention modules, most of which fall under one of two groups: 1) sparse attention under a hand-crafted patterns and 2) full attention followed by a sparse variant of softmax such as $\alpha$-entmax. Unfortunately, the first group lacks adaptability to data while the second still requires quadratic cost in training. In this work, we propose SBM-Transformer, a model that resolves both problems by endowing each attention head with a mixed-membership Stochastic Block Model (SBM). Then, each attention head data-adaptively samples a bipartite graph, the adjacency of which is used as an attention mask for each input. During backpropagation, a straight-through estimator is used to flow gradients beyond the discrete sampling step and adjust the probabilities of sampled edges based on the predictive loss. The forward and backward cost are thus linear to the number of edges, which each attention head can also choose flexibly based on the input. By assessing the distribution of graphs, we theoretically show that SBM-Transformer is a universal approximator for arbitrary sequence-to-sequence functions in expectation. Empirical evaluations under the LRA and GLUE benchmarks demonstrate that our model outperforms previous efficient variants as well as the original Transformer with full attention. Our implementation can be found in https://github.com/sc782/SBM-Transformer .
翻訳日:2022-10-28 13:11:50 公開日:2022-10-27
# 予測性能のための選択後の信頼境界

Post-Selection Confidence Bounds for Prediction Performance ( http://arxiv.org/abs/2210.13206v2 )

ライセンス: Link先を確認
Pascal Rink and Werner Brannath(参考訳) 機械学習では、潜在的に多くの競合モデルからの有望なモデルの選択と、その一般化性能の評価が、慎重に考慮する必要がある重要なタスクである。 通常、モデル選択と評価は厳密に分離された作業であり、サンプルをトレーニング、検証、評価セットに分割し、最終選択モデルの予測性能に対する単一の信頼区間のみを算出する。 そこで本研究では,選択問題を同時推論問題として解釈し,その予測性能に基づいて選択した複数のモデルに対する信頼度率の有効値を計算するアルゴリズムを提案する。 ブートストラップ傾きと最大T型多重度補正を用いる。 このアプローチは、予測モデル、任意のモデル選択戦略、および重みを受け入れる予測性能尺度の組み合わせに普遍的に適用できる。 提案手法は, 従来の手法に比べて信頼度が低く, 信頼性が低く, 公称範囲の確率に確実に到達できることを示すため, 様々なシミュレーション実験を行った。 さらに, サンプルサイズが小さい場合, 提案手法は, 評価対象とする1つのモデルのみの既定選択よりも優れた予測モデルが得られる。

In machine learning, the selection of a promising model from a potentially large number of competing models and the assessment of its generalization performance are critical tasks that need careful consideration. Typically, model selection and evaluation are strictly separated endeavors, splitting the sample at hand into a training, validation, and evaluation set, and only compute a single confidence interval for the prediction performance of the final selected model. We however propose an algorithm how to compute valid lower confidence bounds for multiple models that have been selected based on their prediction performances in the evaluation set by interpreting the selection problem as a simultaneous inference problem. We use bootstrap tilting and a maxT-type multiplicity correction. The approach is universally applicable for any combination of prediction models, any model selection strategy, and any prediction performance measure that accepts weights. We conducted various simulation experiments which show that our proposed approach yields lower confidence bounds that are at least comparably good as bounds from standard approaches, and that reliably reach the nominal coverage probability. In addition, especially when sample size is small, our proposed approach yields better performing prediction models than the default selection of only one model for evaluation does.
翻訳日:2022-10-28 13:11:23 公開日:2022-10-27
# グラフ表現学習におけるスパーシティと高三角密度の影響

Implications of sparsity and high triangle density for graph representation learning ( http://arxiv.org/abs/2210.15277v1 )

ライセンス: Link先を確認
Hannah Sansford, Alexander Modell, Nick Whiteley, Patrick Rubin-Delanchy(参考訳) 近年の研究では、多くの三角形を含むスパースグラフは、リンク確率が内積であるノードの有限次元表現を使って再現できないことが示されている。 ここでは、ノード表現が低次元多様体上にある無限次元内積モデルを用いてそのようなグラフを再現できることを示す。 多様体の大域的な表現の復元はスパース状態では不可能である。 しかし、低次元表現が可能である局所的な近傍を拡大することができる。 我々の構成では、点が多様体上に一様分布することを許すので、三角形がコミュニティ構造を暗示しているという共通の認識に対する証拠を見出す。

Recent work has shown that sparse graphs containing many triangles cannot be reproduced using a finite-dimensional representation of the nodes, in which link probabilities are inner products. Here, we show that such graphs can be reproduced using an infinite-dimensional inner product model, where the node representations lie on a low-dimensional manifold. Recovering a global representation of the manifold is impossible in a sparse regime. However, we can zoom in on local neighbourhoods, where a lower-dimensional representation is possible. As our constructions allow the points to be uniformly distributed on the manifold, we find evidence against the common perception that triangles imply community structure.
翻訳日:2022-10-28 13:10:40 公開日:2022-10-27
# 多変量時間点過程における時間とマーク間の相互依存のモデル化

Modeling Inter-Dependence Between Time and Mark in Multivariate Temporal Point Processes ( http://arxiv.org/abs/2210.15294v1 )

ライセンス: Link先を確認
Govind Waghmare, Ankur Debnath, Siddhartha Asthana, Aakarsh Malhotra(参考訳) テンポラリポイントプロセス(tpp)は確率論的生成フレームワークである。 連続時間で局所化された離散イベントシーケンスをモデル化する。 一般的に、現実の出来事はマークとして知られる記述的な情報を明らかにする。 マーク付きTPPは、実際の関連性のために、イベントの時間とマークを一緒にモデル化します。 過去のイベントを条件として、マーク付きTPPは、時刻と次のイベントのマークの同時分布を学習することを目的としている。 単純性のために、条件付き独立なTPPモデルは時間とマークが与えられたイベント履歴から独立していると仮定する。 彼らは時間とマークの条件付き結合分布を個々の条件分布の積に分解する。 TPPモデルの設計におけるこの構造的制限は、絡み合った時間とマークの相互作用における予測性能を損なう。 本研究では,条件付き独立モデルの限界を克服するために,時間とマークの条件付き相互依存をモデル化する。 過去のイベントに加えて,現在のイベントマークに時間分布を条件とした多変量TPPを構築する。 条件付き関節分布の従来の強度に基づくモデルに加えて、文献からフレキシブルな強度のないTPPモデルも取り上げている。 提案するtppモデルは, 標準予測タスクにおいて条件依存および従属モデルを上回る。 複数の評価指標を用いた各種データセットの実験は,提案手法のメリットを浮き彫りにする。

Temporal Point Processes (TPP) are probabilistic generative frameworks. They model discrete event sequences localized in continuous time. Generally, real-life events reveal descriptive information, known as marks. Marked TPPs model time and marks of the event together for practical relevance. Conditioned on past events, marked TPPs aim to learn the joint distribution of the time and the mark of the next event. For simplicity, conditionally independent TPP models assume time and marks are independent given event history. They factorize the conditional joint distribution of time and mark into the product of individual conditional distributions. This structural limitation in the design of TPP models hurt the predictive performance on entangled time and mark interactions. In this work, we model the conditional inter-dependence of time and mark to overcome the limitations of conditionally independent models. We construct a multivariate TPP conditioning the time distribution on the current event mark in addition to past events. Besides the conventional intensity-based models for conditional joint distribution, we also draw on flexible intensity-free TPP models from the literature. The proposed TPP models outperform conditionally independent and dependent models in standard prediction tasks. Our experimentation on various datasets with multiple evaluation metrics highlights the merit of the proposed approach.
翻訳日:2022-10-28 13:10:30 公開日:2022-10-27
# 制約付き変分不等式に対するACVI法の再検討

Revisiting the ACVI Method for Constrained Variational Inequalities ( http://arxiv.org/abs/2210.15659v1 )

ライセンス: Link先を確認
Tatjana Chavdarova, Matteo Pagliardini, Tong Yang, Michael I. Jordan(参考訳) ACVIは変分不等式(VIs)を一般制約で解くための一階法である。 yang et al. (2022) は、演算子が$l$-lipschitz, monotoneであり、少なくとも1つの制約がアクティブであるとき、最後のイテレートのギャップ関数は$\mathcal{o}(\frac{1}{\sqrt{k}})$の割合で減少することを示した。 本研究では、演算子が単調である場合に限り、同じ保証が成り立つことを示す。 我々の知る限り、これは一般単調 VI に対する解析的に導出された最後の点収束率であり、全体として作用素が$L$-Lipschitzであるという仮定に依存しない。 さらに, acviのサブ問題がほぼ解決された場合, 標準ウォームスタート手法を用いることで, 誤差が適切な速度で減少するならば, 収束率が同じであることを示す。 我々はさらに,後者の実装に関する経験的分析と洞察を提供する。

ACVI is a recently proposed first-order method for solving variational inequalities (VIs) with general constraints. Yang et al. (2022) showed that the gap function of the last iterate decreases at a rate of $\mathcal{O}(\frac{1}{\sqrt{K}})$ when the operator is $L$-Lipschitz, monotone, and at least one constraint is active. In this work, we show that the same guarantee holds when only assuming that the operator is monotone. To our knowledge, this is the first analytically derived last-iterate convergence rate for general monotone VIs, and overall the only one that does not rely on the assumption that the operator is $L$-Lipschitz. Furthermore, when the sub-problems of ACVI are solved approximately, we show that by using a standard warm-start technique the convergence rate stays the same, provided that the errors decrease at appropriate rates. We further provide empirical analyses and insights on its implementation for the latter case.
翻訳日:2022-10-28 13:09:52 公開日:2022-10-27
# 調音gan:調音学習の教師なしモデリング

Articulation GAN: Unsupervised modeling of articulatory learning ( http://arxiv.org/abs/2210.15173v1 )

ライセンス: Link先を確認
Ga\v{s}per Begu\v{s}, Alan Zhou, Peter Wu, Gopala K Anumanchipalli(参考訳) 生成型ディープニューラルネットワークは音声合成に広く使われているが、既存のモデルのほとんどは直接波形やスペクトル出力を生成する。 しかし、人間は調音器を制御することによって発声し、音の伝搬の物理的性質を通じて発声する。 本稿では,音声生成/合成の教師なし生成モデルを提案する。 本稿では,Articulatory Generatorをジェネレーティブ・アドバイサル・ネットワークのパラダイムに導入する。 Articulatory Generatorは、EMAデータにアクセスすることなく、完全に教師なしの方法で調音表現を生成することを学ぶ必要がある。 別個の事前訓練された物理モデル(ema2wav)が生成されたEMA表現を音声波形に変換し、評価のためにディスクリミネータに送信する。 生成したEMA表現の調音解析は、音声生成中に人間の調音を忠実に追従する方法で、ネットワークが調音器を制御することを学ぶことを示唆している。 出力の音響解析は、トレーニングデータの一部である単語を学習し、トレーニングデータに欠けている革新的な単語を生成することを示唆している。 提案アーキテクチャにより,生音声入力から深層ニューラルネットワークによる調音学習を,教師なしでモデル化することができる。 また、人間の言語と音声技術の認知モデルに対する調音表現の影響についても論じる。

Generative deep neural networks are widely used for speech synthesis, but most existing models directly generate waveforms or spectral outputs. Humans, however, produce speech by controlling articulators, which results in the production of speech sounds through physical properties of sound propagation. We propose a new unsupervised generative model of speech production/synthesis that includes articulatory representations and thus more closely mimics human speech production. We introduce the Articulatory Generator to the Generative Adversarial Network paradigm. The Articulatory Generator needs to learn to generate articulatory representations (electromagnetic articulography or EMA) in a fully unsupervised manner without ever accessing EMA data. A separate pre-trained physical model (ema2wav) then transforms the generated EMA representations to speech waveforms, which get sent to the Discriminator for evaluation. Articulatory analysis of the generated EMA representations suggests that the network learns to control articulators in a manner that closely follows human articulators during speech production. Acoustic analysis of the outputs suggest that the network learns to generate words that are part of training data as well as novel innovative words that are absent from training data. Our proposed architecture thus allows modeling of articulatory learning with deep neural networks from raw audio inputs in a fully unsupervised manner. We additionally discuss implications of articulatory representations for cognitive models of human language and speech technology in general.
翻訳日:2022-10-28 13:03:15 公開日:2022-10-27
# マルチタスク学習を用いた自己教師付きモデルによる構音障害の重症度自動評価

Automatic Severity Assessment of Dysarthric speech by using Self-supervised Model with Multi-task Learning ( http://arxiv.org/abs/2210.15387v1 )

ライセンス: Link先を確認
Eun Jung Yeo, Kwanghee Choi, Sunhee Kim, Minhwa Chung(参考訳) 変形性音声の自動評価は持続的治療とリハビリテーションに不可欠である。 しかし、非典型的音声の取得は困難であり、しばしばデータ不足の問題を引き起こす。 そこで本研究では,マルチタスク学習を併用した自己教師付きモデルを用いて,構音障害の重症度自動評価手法を提案する。 Wav2vec 2.0 XLS-Rは重度レベル分類と補助的自動音声認識(ASR)という2つのタスクで共同で訓練されている。 基礎実験では,egemapや言語的特徴,svm,mlp,xgboost分類器などの手作り特徴を用いた。 韓国産dysarthric speech qoltデータベースについて検討した結果,本モデルは従来のベースライン法を上回っており,分類精度は4.79%であった。 さらに、提案モデルは、ASRヘッドなしで訓練されたモデルを超え、10.09%の相対パーセンテージ改善を達成した。 さらに,マルチタスク学習が潜在表現と正規化効果を分析し,重度分類性能にどのように影響するかを示す。

Automatic assessment of dysarthric speech is essential for sustained treatments and rehabilitation. However, obtaining atypical speech is challenging, often leading to data scarcity issues. To tackle the problem, we propose a novel automatic severity assessment method for dysarthric speech, using the self-supervised model in conjunction with multi-task learning. Wav2vec 2.0 XLS-R is jointly trained for two different tasks: severity level classification and an auxilary automatic speech recognition (ASR). For the baseline experiments, we employ hand-crafted features such as eGeMaps and linguistic features, and SVM, MLP, and XGBoost classifiers. Explored on the Korean dysarthric speech QoLT database, our model outperforms the traditional baseline methods, with a relative percentage increase of 4.79% for classification accuracy. In addition, the proposed model surpasses the model trained without ASR head, achieving 10.09% relative percentage improvements. Furthermore, we present how multi-task learning affects the severity classification performance by analyzing the latent representations and regularization effect.
翻訳日:2022-10-28 13:02:53 公開日:2022-10-27
# 深部ニューラルネットワークの不変関数への近似と複雑性について

On the Approximation and Complexity of Deep Neural Networks to Invariant Functions ( http://arxiv.org/abs/2210.15279v1 )

ライセンス: Link先を確認
Gao Zhang, Jin-Hui Wu, Shao-Qun Zhang(参考訳) 近年、様々な領域でディープニューラルネットワークのホットウェーブが観測されているが、理論的にはよく分かっていない。 ディープニューラルネットワークの理論的特徴付けは、その近似能力と複雑性、すなわち、関連するタスクを処理するのに十分なアーキテクチャとサイズを示すべきである。 この研究は、ディープニューラルネットワークの不変関数への近似と複雑性を理論的に研究することで、この方向への一歩を踏み出す。 まず、この不変関数がディープニューラルネットワークによって普遍的に近似できることを示す。 そこで, 複雑な評価ニューラルネットワーク, 畳み込みニューラルネットワーク, ベイズニューラルネットワークなどを含むニューラルネットワークモデルを用いて, パラメータの多項式数や最適化繰り返しを用いて, 幅広い不変関数を漸近的に近似できることを示す。 また,高分解能信号のパラメータ推定と予測を理論的結論と結びつけることが可能なアプリケーションを提案する。 シミュレーション実験により得られた実験結果は,本手法の有効性を示す。

Recent years have witnessed a hot wave of deep neural networks in various domains; however, it is not yet well understood theoretically. A theoretical characterization of deep neural networks should point out their approximation ability and complexity, i.e., showing which architecture and size are sufficient to handle the concerned tasks. This work takes one step on this direction by theoretically studying the approximation and complexity of deep neural networks to invariant functions. We first prove that the invariant functions can be universally approximated by deep neural networks. Then we show that a broad range of invariant functions can be asymptotically approximated by various types of neural network models that includes the complex-valued neural networks, convolutional neural networks, and Bayesian neural networks using a polynomial number of parameters or optimization iterations. We also provide a feasible application that connects the parameter estimation and forecasting of high-resolution signals with our theoretical conclusions. The empirical results obtained on simulation experiments demonstrate the effectiveness of our method.
翻訳日:2022-10-28 13:00:00 公開日:2022-10-27
# グラフニューラルネットワークにおける説明者の説明 : 比較研究

Explaining the Explainers in Graph Neural Networks: a Comparative Study ( http://arxiv.org/abs/2210.15304v1 )

ライセンス: Link先を確認
Antonio Longa, Steve Azzolin, Gabriele Santin, Giulia Cencetti, Pietro Li\`o, Bruno Lepri and Andrea Passerini(参考訳) グラフベースの学習における迅速な最初のブレークスルーに続いて、グラフニューラルネットワーク(gnn)は多くの科学や工学の分野で広く応用され、意思決定プロセスを理解する方法の必要性が高まっている。 gnnの解説は近年登場し始めており、他のドメインから新規あるいは適応した手法が数多く存在する。 この多くの代替アプローチを整理するために、様々な説明可能性指標を用いて異なる説明者のパフォーマンスをベンチマークした。 しかしながら、これらの初期の作品は、異なるgnnアーキテクチャが多かれ少なかれ説明可能である理由や、ある設定でどの説明者が望ましいかについての洞察を提供しようとはしていない。 そこで本研究では、6つのグラフとノードの分類データセットでトレーニングされた8つの代表的なアーキテクチャについて10の解説者をテストする体系的な実験研究を考案し,これらのギャップを埋める。 結果から,GNN説明器の選択と適用性に関する重要な知見が得られ,使用性と成功を可能にする重要なコンポーネントを分離し,一般的な解釈の落とし穴を避けるための推奨事項を提供する。 結論として,今後の研究の方向性と今後の課題を強調する。

Following a fast initial breakthrough in graph based learning, Graph Neural Networks (GNNs) have reached a widespread application in many science and engineering fields, prompting the need for methods to understand their decision process. GNN explainers have started to emerge in recent years, with a multitude of methods both novel or adapted from other domains. To sort out this plethora of alternative approaches, several studies have benchmarked the performance of different explainers in terms of various explainability metrics. However, these earlier works make no attempts at providing insights into why different GNN architectures are more or less explainable, or which explainer should be preferred in a given setting. In this survey, we fill these gaps by devising a systematic experimental study, which tests ten explainers on eight representative architectures trained on six carefully designed graph and node classification datasets. With our results we provide key insights on the choice and applicability of GNN explainers, we isolate key components that make them usable and successful and provide recommendations on how to avoid common interpretation pitfalls. We conclude by highlighting open questions and directions of possible future research.
翻訳日:2022-10-28 12:59:42 公開日:2022-10-27
# 顔行動単位検出のためのグローバル・ローカルな表現認識埋め込み

Global-to-local Expression-aware Embeddings for Facial Action Unit Detection ( http://arxiv.org/abs/2210.15160v1 )

ライセンス: Link先を確認
Rudong An, Wei Zhang, Hao Zeng, Wei Chen, Zhigang Deng, Yu Ding(参考訳) 表情と顔行動単位 (AUs) は2つのレベルの顔行動記述子である。 表現補助情報は、AU検出性能を改善するために広く利用されている。 しかし、既存の表現表現のほとんどは、事前決定された離散的なカテゴリ(例えば、怒り、嫌悪感、幸福、悲しみなど)のみを記述でき、ausのような微妙な表現変換をキャプチャできない。 本稿では, 微妙で連続的な顔の動きを捉え, AU検出を促進するための, 微粒な \textsl{Global Expression Expression Encoder} を提案する。 このようなグローバルな表現表現を得るために,グローバルな表現類似度に応じて,大規模な表現データセット上に表現埋め込みモデルをトレーニングすることを提案する。 さらに、AUの局所的な定義を考えると、局所的なAUの特徴を抽出することが不可欠である。 そこで我々は,各AUの局所的な特徴を生成するために, \textsl{Local AU Features Module} を設計する。 具体的には、AU特徴マップ抽出器と対応するAUマスク抽出器とから構成される。 まず、2つの抽出器がそれぞれグローバル表現表現をAU特徴写像とマスクに変換する。 次に、AU特徴マップとその対応するAUマスクを乗じて、局所的な顔領域に焦点を当てたAUマスク特徴を生成する。 最後に、AUマスクされた特徴をAU分類器に入力し、AU発生を判定する。 実験の結果,提案手法の優位性を実証した。 提案手法は, BP4D, DISFA, BP4D+など, 広く使われている顔データに対して, 従来よりも精度良く, 最先端の性能を実現する。

Expressions and facial action units (AUs) are two levels of facial behavior descriptors. Expression auxiliary information has been widely used to improve the AU detection performance. However, most existing expression representations can only describe pre-determined discrete categories (e.g., Angry, Disgust, Happy, Sad, etc.) and cannot capture subtle expression transformations like AUs. In this paper, we propose a novel fine-grained \textsl{Global Expression representation Encoder} to capture subtle and continuous facial movements, to promote AU detection. To obtain such a global expression representation, we propose to train an expression embedding model on a large-scale expression dataset according to global expression similarity. Moreover, considering the local definition of AUs, it is essential to extract local AU features. Therefore, we design a \textsl{Local AU Features Module} to generate local facial features for each AU. Specifically, it consists of an AU feature map extractor and a corresponding AU mask extractor. First, the two extractors transform the global expression representation into AU feature maps and masks, respectively. Then, AU feature maps and their corresponding AU masks are multiplied to generate AU masked features focusing on local facial region. Finally, the AU masked features are fed into an AU classifier for judging the AU occurrence. Extensive experiment results demonstrate the superiority of our proposed method. Our method validly outperforms previous works and achieves state-of-the-art performances on widely-used face datasets, including BP4D, DISFA, and BP4D+.
翻訳日:2022-10-28 12:54:21 公開日:2022-10-27
# ERNIE-ViLG 2.0:知識強化型混合型画像拡散モデルの改良

ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts ( http://arxiv.org/abs/2210.15257v1 )

ライセンス: Link先を確認
Zhida Feng, Zhenyu Zhang, Xintong Yu, Yewei Fang, Lanxin Li, Xuyi Chen, Yuxiang Lu, Jiaxiang Liu, Weichong Yin, Shikun Feng, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang(参考訳) 拡散モデルの最近の進歩は、テキスト・画像生成の一般的な技術に革命をもたらした。 既存のアプローチでは、テキスト条件でフォトリアリスティックな高解像度画像を生成することができるが、解決すべき未解決の問題がいくつかあるため、画像の忠実度とテキスト関連性のさらなる改善が制限されている。 本稿では,(1)シーンにおける重要要素の細かなテキスト的,視覚的な知識を取り入れること,(2)異なる弁別段階における異なる弁別専門家の活用などにより,生成画像の品質を段階的に向上させる,中国の大規模テキスト間拡散モデルであるernie-vilg 2.0を提案する。 提案したメカニズムにより,ERNIE-ViLG 2.0 はゼロショット FID スコア 6.75 の MS-COCO 上での最先端を達成できるだけでなく,画像の忠実度や画像テキストのアライメントにおいて,バイリンガルプロンプトセット ViLG-300 を並べて評価することで,最近のモデルよりも大幅に優れていた。

Recent progress in diffusion models has revolutionized the popular technology of text-to-image generation. While existing approaches could produce photorealistic high-resolution images with text conditions, there are still several open problems to be solved, which limits the further improvement of image fidelity and text relevancy. In this paper, we propose ERNIE-ViLG 2.0, a large-scale Chinese text-to-image diffusion model, which progressively upgrades the quality of generated images~by: (1) incorporating fine-grained textual and visual knowledge of key elements in the scene, and (2) utilizing different denoising experts at different denoising stages. With the proposed mechanisms, ERNIE-ViLG 2.0 not only achieves the state-of-the-art on MS-COCO with zero-shot FID score of 6.75, but also significantly outperforms recent models in terms of image fidelity and image-text alignment, with side-by-side human evaluation on the bilingual prompt set ViLG-300.
翻訳日:2022-10-28 12:53:54 公開日:2022-10-27
# プロジェクタアンサンブルによる高機能蒸留

Improved Feature Distillation via Projector Ensemble ( http://arxiv.org/abs/2210.15274v1 )

ライセンス: Link先を確認
Yudong Chen, Sen Wang, Jiajun Liu, Xuwei Xu, Frank de Hoog, Zi Huang(参考訳) 知識蒸留においては, 従来の特徴蒸留法は主に損失関数の設計と蒸留層の選択に焦点をあてるが, 生徒と教師間の特徴プロジェクタの効果は未検討のままである。 本稿では,まず,実験的なエビデンスを用いて,プロジェクタの妥当な機構を考察し,さらに性能向上のためにプロジェクタアンサンブルに基づく新しい特徴蒸留法を提案する。 生徒ネットワークは,生徒と教師の特徴次元が同じであっても,プロジェクタからメリットを享受できる。 プロジェクタなしで生徒のバックボーンを訓練することはマルチタスク学習プロセス、すなわち、分類のための識別的特徴抽出と、蒸留のための教師と教師との特徴マッチングを同時に行うことができる。 我々は、プロジェクタなしでは、異なるアーキテクチャと重み付け初期化があるにもかかわらず、学生ネットワークが教師の特徴分布に過度に適合する傾向があることを仮定し、実証的に検証する。 これにより、最終的に分類に使用される生徒の深い特徴の品質が低下する。 一方,プロジェクタを追加することで,2つの学習課題を解消し,プロジェクタによる指導として教師機能を利用することができながら,学生ネットワークが主要な特徴抽出タスクにもっと集中するのに役立つ。 特徴蒸留におけるプロジェクターの肯定的な効果を動機として,学生の特徴の質を高めるために,プロジェクターのアンサンブルを提案する。 教師と学生のペアの異なるデータセットに対する実験結果から,提案手法の有効性が示された。

In knowledge distillation, previous feature distillation methods mainly focus on the design of loss functions and the selection of the distilled layers, while the effect of the feature projector between the student and the teacher remains under-explored. In this paper, we first discuss a plausible mechanism of the projector with empirical evidence and then propose a new feature distillation method based on a projector ensemble for further performance improvement. We observe that the student network benefits from a projector even if the feature dimensions of the student and the teacher are the same. Training a student backbone without a projector can be considered as a multi-task learning process, namely achieving discriminative feature extraction for classification and feature matching between the student and the teacher for distillation at the same time. We hypothesize and empirically verify that without a projector, the student network tends to overfit the teacher's feature distributions despite having different architecture and weights initialization. This leads to degradation on the quality of the student's deep features that are eventually used in classification. Adding a projector, on the other hand, disentangles the two learning tasks and helps the student network to focus better on the main feature extraction task while still being able to utilize teacher features as a guidance through the projector. Motivated by the positive effect of the projector in feature distillation, we propose an ensemble of projectors to further improve the quality of student features. Experimental results on different datasets with a series of teacher-student pairs illustrate the effectiveness of the proposed method.
翻訳日:2022-10-28 12:53:31 公開日:2022-10-27
# モダリティを欠いたロバストなマルチモーダル感情認識のためのモダリティ不変特徴の活用

Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities ( http://arxiv.org/abs/2210.15359v1 )

ライセンス: Link先を確認
Haolin Zuo, Rui Liu, Jinming Zhao, Guanglai Gao, Haizhou Li(参考訳) マルチモーダル感情認識は、パフォーマンスを得るためにモダリティ間の補完的情報を活用する。 しかし、すべてのモダリティのデータが実際に常に存在することは保証できない。 モダリティにまたがるデータの欠落を予測する研究において、不均質なモダリティ、すなわちモダリティギャップの間の本質的な差が課題となっている。 これを解決するために,2つの新しいメカニズムを含むモダリティ・イマジネーション・ネットワーク (IF-MMIN) に不変な特徴を用いることを提案する。 1) 完全モダリティシナリオにおける中心モーメント不一致(cmd)距離に基づく不変特徴学習戦略 2) 欠落モダリティ予測中のモダリティギャップを緩和する不変特徴に基づくイマジネーション加群(if-im)により,マルチモーダル結合表現のロバスト性が向上する。 ベンチマークデータセットIEMOCAPの総合的な実験により、提案モデルはすべてのベースラインを上回り、不確実なモダリティ条件下で全体の感情認識性能を不変に向上することを示した。 コードについては、https://github.com/ZhuoYulang/IF-MMIN.comで公開しています。

Multimodal emotion recognition leverages complementary information across modalities to gain performance. However, we cannot guarantee that the data of all modalities are always present in practice. In the studies to predict the missing data across modalities, the inherent difference between heterogeneous modalities, namely the modality gap, presents a challenge. To address this, we propose to use invariant features for a missing modality imagination network (IF-MMIN) which includes two novel mechanisms: 1) an invariant feature learning strategy that is based on the central moment discrepancy (CMD) distance under the full-modality scenario; 2) an invariant feature based imagination module (IF-IM) to alleviate the modality gap during the missing modalities prediction, thus improving the robustness of multimodal joint representation. Comprehensive experiments on the benchmark dataset IEMOCAP demonstrate that the proposed model outperforms all baselines and invariantly improves the overall emotion recognition performance under uncertain missing-modality conditions. We release the code at: https://github.com/ZhuoYulang/IF-MMIN.
翻訳日:2022-10-28 12:53:04 公開日:2022-10-27
# 画像異常定位のためのマスク変圧器

Masked Transformer for image Anomaly Localization ( http://arxiv.org/abs/2210.15540v1 )

ライセンス: Link先を確認
Axel De Nardin, Pankaj Mishra, Gian Luca Foresti, Claudio Piciarelli(参考訳) 画像異常検出は、データセットのほとんどのサンプルと視覚的に異なる画像または画像部分を検出することで構成される。 この課題は、バイオメディカル画像分析、産業生産における視覚検査、銀行、交通管理など、様々な実生活の応用において実際に重要である。 現在のディープラーニングアプローチのほとんどは、イメージ再構成に依存しており、入力されたイメージは、ある潜在空間に投影され、通常データに基づいてトレーニングされたネットワークが、異常部分の再構築を行なえないことを前提に、再構成される。 しかし、この仮定は常に成り立つとは限らない。 入力画像は複数のパッチに分割され、各パッチは周囲のデータからのみ再構成されるため、パッチ自体に含まれる可能性のある異常情報を無視する。 次に,マルチレゾリューションパッチとその集合埋め込みは,従来の正方形パッチの排他的使用と比較して,モデルの性能に大きな改善をもたらすことを示す。 提案モデルはMVTecや頭部CTなどの一般的な異常検出データセットでテストされ,他の最先端手法と比較して良好な結果が得られた。

Image anomaly detection consists in detecting images or image portions that are visually different from the majority of the samples in a dataset. The task is of practical importance for various real-life applications like biomedical image analysis, visual inspection in industrial production, banking, traffic management, etc. Most of the current deep learning approaches rely on image reconstruction: the input image is projected in some latent space and then reconstructed, assuming that the network (mostly trained on normal data) will not be able to reconstruct the anomalous portions. However, this assumption does not always hold. We thus propose a new model based on the Vision Transformer architecture with patch masking: the input image is split in several patches, and each patch is reconstructed only from the surrounding data, thus ignoring the potentially anomalous information contained in the patch itself. We then show that multi-resolution patches and their collective embeddings provide a large improvement in the model's performance compared to the exclusive use of the traditional square patches. The proposed model has been tested on popular anomaly detection datasets such as MVTec and head CT and achieved good results when compared to other state-of-the-art approaches.
翻訳日:2022-10-28 12:52:28 公開日:2022-10-27
# 画素優先手書き文書レイアウト解析のための能率的少数ショット学習

Efficient few-shot learning for pixel-precise handwritten document layout analysis ( http://arxiv.org/abs/2210.15570v1 )

ライセンス: Link先を確認
Axel De Nardin, Silvia Zottin, Matteo Paier, Gian Luca Foresti, Emanuela Colombi, Claudio Piciarelli(参考訳) レイアウト解析は手書き文書解析において最も重要なタスクであり、光学文字認識や自動転写といったその後のタスクの簡略化に向けた基本的なステップである。 しかし、この問題を解決するために採用されたアプローチの多くは、完全に教師付き学習パラダイムに依存している。 これらのシステムは、このタスクで非常に優れたパフォーマンスを達成する一方で、トレーニングセット全体のピクセル精度のテキストラベリングは非常に時間を要するため、現実のシナリオでは、この種の情報はめったに利用できない。 本稿では,現在公開されているDIVA-HisDBデータセット上で,最先端の完全教師付き手法に匹敵する性能を実現する,効率的な数ショット学習フレームワークを提案することにより,この問題に対処する。

Layout analysis is a task of uttermost importance in ancient handwritten document analysis and represents a fundamental step toward the simplification of subsequent tasks such as optical character recognition and automatic transcription. However, many of the approaches adopted to solve this problem rely on a fully supervised learning paradigm. While these systems achieve very good performance on this task, the drawback is that pixel-precise text labeling of the entire training set is a very time-consuming process, which makes this type of information rarely available in a real-world scenario. In the present paper, we address this problem by proposing an efficient few-shot learning framework that achieves performances comparable to current state-of-the-art fully supervised methods on the publicly available DIVA-HisDB dataset.
翻訳日:2022-10-28 12:52:01 公開日:2022-10-27
# 辞書による教師付きコントラスト学習

Dictionary-Assisted Supervised Contrastive Learning ( http://arxiv.org/abs/2210.15172v1 )

ライセンス: Link先を確認
Patrick Y. Wu, Richard Bonneau, Joshua A. Tucker, Jonathan Nagler(参考訳) 社会科学におけるテキスト分析は、しばしば、経済に関する認識やソーシャルメディアへの虐待といった抽象概念を推論するために専門辞書を使用する。 これらの辞書により、研究者はドメイン知識を付与し、興味のある概念に関連する単語の微妙な用法を注記することができる。 本稿では,辞書支援型教師付きコントラスト学習(DASCL)の目的について紹介する。 共通の固定トークンは、関心の概念に関連する辞書(ies)に現れるコーパス内の任意の単語を置き換える。 微調整の間、教師付きコントラスト目的は、異なるクラスの埋め込みをさらに分離しながら、同じクラスのオリジナルテキストとキーワードで単純化されたテキストの埋め込みをより近くに引き込む。 同じクラスのキーワードで単純化されたテキストは、元のテキストよりもテキスト的に類似しており、同時に同じクラスの埋め込みも近い。 dasclとcross-entropyの組み合わせは、クロスエントロピー単独と代替のコントラストとデータ拡張法と比較して、マイナショット学習設定と社会科学アプリケーションにおける分類パフォーマンスメトリクスを改善する。

Text analysis in the social sciences often involves using specialized dictionaries to reason with abstract concepts, such as perceptions about the economy or abuse on social media. These dictionaries allow researchers to impart domain knowledge and note subtle usages of words relating to a concept(s) of interest. We introduce the dictionary-assisted supervised contrastive learning (DASCL) objective, allowing researchers to leverage specialized dictionaries when fine-tuning pretrained language models. The text is first keyword simplified: a common, fixed token replaces any word in the corpus that appears in the dictionary(ies) relevant to the concept of interest. During fine-tuning, a supervised contrastive objective draws closer the embeddings of the original and keyword-simplified texts of the same class while pushing further apart the embeddings of different classes. The keyword-simplified texts of the same class are more textually similar than their original text counterparts, which additionally draws the embeddings of the same class closer together. Combining DASCL and cross-entropy improves classification performance metrics in few-shot learning settings and social science applications compared to using cross-entropy alone and alternative contrastive and data augmentation methods.
翻訳日:2022-10-28 12:50:46 公開日:2022-10-27
# TASA:ツインアンサー・センテンス攻撃による質問回答モデル廃止

TASA: Deceiving Question Answering Models by Twin Answer Sentences Attack ( http://arxiv.org/abs/2210.15221v1 )

ライセンス: Link先を確認
Yu Cao, Dianqi Li, Meng Fang, Tianyi Zhou, Jun Gao, Yibing Zhan, Dacheng Tao(参考訳) 質問応答(QA)モデルに対して,ゴールドの回答を維持しつつ,流動的で文法的な相手コンテキストを生成する攻撃手法としてTASA(Twin Answer Sentences Attack)を提案する。 一般敵攻撃の驚くべき進展にもかかわらず、QAモデルに特化した脆弱性と攻撃を調査した研究はほとんどない。 本研究では,まず既存のモデルにおけるバイアスを探索し,質問と文脈のキーワードマッチングに主に依存していることを発見し,関連する文脈関係を無視して回答予測を行う。 上述の2つのバイアスに基づいて、TASAは、(1)ゴールド回答に対するモデルの信頼度を摂動回答文で下げること、(2)間違った回答文でモデルを間違った回答へ誘導すること、の2つの折り返しでターゲットモデルを攻撃する。 設計されたビームサーチとフィルタリング手法により、TASAは5つのQAデータセットと人間の評価に関する広範な実験において、コンテキストの品質を維持しながら、既存のテキストアタック手法よりも効果的なアタックを生成することができる。

We present Twin Answer Sentences Attack (TASA), an adversarial attack method for question answering (QA) models that produces fluent and grammatical adversarial contexts while maintaining gold answers. Despite phenomenal progress on general adversarial attacks, few works have investigated the vulnerability and attack specifically for QA models. In this work, we first explore the biases in the existing models and discover that they mainly rely on keyword matching between the question and context, and ignore the relevant contextual relations for answer prediction. Based on two biases above, TASA attacks the target model in two folds: (1) lowering the model's confidence on the gold answer with a perturbed answer sentence; (2) misguiding the model towards a wrong answer with a distracting answer sentence. Equipped with designed beam search and filtering methods, TASA can generate more effective attacks than existing textual attack methods while sustaining the quality of contexts, in extensive experiments on five QA datasets and human evaluations.
翻訳日:2022-10-28 12:44:39 公開日:2022-10-27
# 中国語シークエンスラベリングのための教師なし境界認識言語モデル

Unsupervised Boundary-Aware Language Model Pretraining for Chinese Sequence Labeling ( http://arxiv.org/abs/2210.15231v1 )

ライセンス: Link先を確認
Peijie Jiang, Dingkun Long, Yanzhao Zhang, Pengjun Xie, Meishan Zhang, Min Zhang(参考訳) 境界情報は、単語分割、音声タグ付け、名前付きエンティティ認識など、さまざまな中国語処理タスクにおいて重要である。 従来の研究は、レキシコンアイテムが明確な境界情報を提供する高品質な外部レキシコンの使用に頼っていた。 しかし、レキシコンの品質を確保するためには、人間の努力が常に必要であり、一般的に無視されている。 本研究では,教師なしの統計的境界情報を提案するとともに,事前学習された言語モデルに直接情報をエンコードするアーキテクチャを提案する。 BABERTを中国語シーケンスラベリングタスクの特徴誘導に適用する。 中国語の配列ラベリングの10のベンチマークでの実験結果は、babertがすべてのデータセットに対して一貫した改善を提供できることを示している。 さらに,提案手法は,従来の監視型レキシコン探索を補完し,外部レキシコン情報と統合することでさらなる改善を実現することができる。

Boundary information is critical for various Chinese language processing tasks, such as word segmentation, part-of-speech tagging, and named entity recognition. Previous studies usually resorted to the use of a high-quality external lexicon, where lexicon items can offer explicit boundary information. However, to ensure the quality of the lexicon, great human effort is always necessary, which has been generally ignored. In this work, we suggest unsupervised statistical boundary information instead, and propose an architecture to encode the information directly into pre-trained language models, resulting in Boundary-Aware BERT (BABERT). We apply BABERT for feature induction of Chinese sequence labeling tasks. Experimental results on ten benchmarks of Chinese sequence labeling demonstrate that BABERT can provide consistent improvements on all datasets. In addition, our method can complement previous supervised lexicon exploration, where further improvements can be achieved when integrated with external lexicon information.
翻訳日:2022-10-28 12:44:20 公開日:2022-10-27
# 言語中心の科学AIを目指して

Towards Language-centric Scientific AI ( http://arxiv.org/abs/2210.15327v1 )

ライセンス: Link先を確認
Jos\'e Manuel G\'omez-P\'erez(参考訳) AIの最近の革命的発展、特に言語理解と生成にインスパイアされた私たちは、人間の能力に挑戦して新しい発見を行う複雑な科学的タスクに対処できるAIシステムを設計することにしました。 私たちのアプローチの中心は、自然言語を科学AIと人間科学者のコア表現、推論、交換フォーマットとして捉えています。 本稿では,このようなビジョンを実現するための主な研究課題を整理し,議論する。

Inspired by recent and revolutionary developments in AI, particularly in language understanding and generation, we set about designing AI systems that are able to address complex scientific tasks that challenge human capabilities to make new discoveries. Central to our approach is the notion of natural language as core representation, reasoning, and exchange format between scientific AI and human scientists. In this paper, we identify and discuss some of the main research challenges to accomplish such vision.
翻訳日:2022-10-28 12:44:05 公開日:2022-10-27
# Dial2vec: 教師なし対話埋め込みの自己指導型コントラスト学習

Dial2vec: Self-Guided Contrastive Learning of Unsupervised Dialogue Embeddings ( http://arxiv.org/abs/2210.15332v1 )

ライセンス: Link先を確認
Che Liu, Rui Wang, Junfeng Jiang, Yongbin Li, Fei Huang(参考訳) 本稿では,教師なしの対話埋め込みを学習するタスクについて述べる。 プリトレーニングされた単語や文の埋め込み、プリトレーニングされた言語モデル(plm)によるエンコーディングを組み合わせるといった簡単なアプローチが、このタスクに実現可能であることが示されている。 しかし、これらのアプローチは一般的に対話者間の会話のやりとりを無視し、結果としてパフォーマンスが低下する。 この問題に対処するため,我々はDial2vecという自己指導型コントラスト学習手法を提案した。 Dial2vecは対話を情報交換プロセスとみなしている。 インターロケータ間の会話の相互作用パターンをキャプチャし、それらを利用して各インターロケータに対応する埋め込みの学習をガイドする。 対話埋め込みは、すべての対話者からの埋め込みの集約によって得られる。 提案手法を検証するために,6つの対話データセットからなる総合ベンチマークを構築した。 ドメイン分類,意味的関連性,対話検索の3つの評価課題を検討した。 Dial2vecは、平均8.7、9.0、13.8ポイントで、純度、スピアマンの相関、平均平均精度(MAP)をそれぞれ3つのタスクで最強のベースラインに対して絶対的に改善する。 さらなる分析により、diard2vecは対話的相互作用の指導のもと、双方の対話者に対して情報的および識別的埋め込みを取得し、対話者レベルのプーリング戦略を通じてそれらを集約する際に最高のパフォーマンスを達成することが示されている。 すべてのコードとデータはhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/dial2vecで公開されている。

In this paper, we introduce the task of learning unsupervised dialogue embeddings. Trivial approaches such as combining pre-trained word or sentence embeddings and encoding through pre-trained language models (PLMs) have been shown to be feasible for this task. However, these approaches typically ignore the conversational interactions between interlocutors, resulting in poor performance. To address this issue, we proposed a self-guided contrastive learning approach named dial2vec. Dial2vec considers a dialogue as an information exchange process. It captures the conversational interaction patterns between interlocutors and leverages them to guide the learning of the embeddings corresponding to each interlocutor. The dialogue embedding is obtained by an aggregation of the embeddings from all interlocutors. To verify our approach, we establish a comprehensive benchmark consisting of six widely-used dialogue datasets. We consider three evaluation tasks: domain categorization, semantic relatedness, and dialogue retrieval. Dial2vec achieves on average 8.7, 9.0, and 13.8 points absolute improvements in terms of purity, Spearman's correlation, and mean average precision (MAP) over the strongest baseline on the three tasks respectively. Further analysis shows that dial2vec obtains informative and discriminative embeddings for both interlocutors under the guidance of the conversational interactions and achieves the best performance when aggregating them through the interlocutor-level pooling strategy. All codes and data are publicly available at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/dial2vec.
翻訳日:2022-10-28 12:43:57 公開日:2022-10-27
# MorphTE: テンソル化インプラントにモルフォロジーを注入する

MorphTE: Injecting Morphology in Tensorized Embeddings ( http://arxiv.org/abs/2210.15379v1 )

ライセンス: Link先を確認
Guobing Gan, Peng Zhang, Sunzhu Li, Xiuqing Lu, Benyou Wang(参考訳) ディープラーニングの時代においては、テキストタスクを扱うには単語の埋め込みが不可欠である。 しかし、これらの埋め込みの保存とアクセスには大量のスペースが必要です。 これは、リソース制限されたデバイスへのこれらのモデルのデプロイには影響しない。 テンソル製品の強力な圧縮能力を組み合わせることで,モルフォロジー強化型テンソル化エンベディング (MorphTE) を用いた単語埋め込み圧縮手法を提案する。 単語は1つ以上の形態素から成り、意味を持つ最小の単位または文法的な機能を持つ。 MorphTE は、テンソル積を通じてその形態素ベクトルの絡み合った形式として埋め込みを表現し、埋め込みの学習に事前の意味的知識と文法的知識を注入する。 さらに、モーフィムベクトルの次元性とモーフィムの数は単語の次元よりもはるかに小さく、単語埋め込みのパラメータを大幅に減少させる。 機械翻訳や質問応答などのタスクについて実験を行う。 異なる言語の4つの翻訳データセットの実験結果は、モーフィトが単語埋め込みパラメータをパフォーマンスの損失なしに約20倍圧縮できることを示し、関連する埋め込み圧縮法を著しく上回っている。

In the era of deep learning, word embeddings are essential when dealing with text tasks. However, storing and accessing these embeddings requires a large amount of space. This is not conducive to the deployment of these models on resource-limited devices. Combining the powerful compression capability of tensor products, we propose a word embedding compression method with morphological augmentation, Morphologically-enhanced Tensorized Embeddings (MorphTE). A word consists of one or more morphemes, the smallest units that bear meaning or have a grammatical function. MorphTE represents a word embedding as an entangled form of its morpheme vectors via the tensor product, which injects prior semantic and grammatical knowledge into the learning of embeddings. Furthermore, the dimensionality of the morpheme vector and the number of morphemes are much smaller than those of words, which greatly reduces the parameters of the word embeddings. We conduct experiments on tasks such as machine translation and question answering. Experimental results on four translation datasets of different languages show that MorphTE can compress word embedding parameters by about 20 times without performance loss and significantly outperforms related embedding compression methods.
翻訳日:2022-10-28 12:43:32 公開日:2022-10-27
# ファシオン型マスクドビジョンランゲージ変圧器

Masked Vision-Language Transformer in Fashion ( http://arxiv.org/abs/2210.15110v1 )

ライセンス: Link先を確認
Ge-Peng Ji, Mingcheng Zhuge, Dehong Gao, Deng-Ping Fan, Christos Sakaridis, Luc Van Gool(参考訳) ファッション特有のマルチモーダル表現のためのマスク付き視覚言語変換器(MVLT)を提案する。 技術的には、単にビジョントランスフォーマーアーキテクチャを使用して、事前学習モデルのBERTを置き換えることで、MVLTがファッションドメインの最初のエンドツーエンドフレームワークとなる。 また,ファッションのきめ細かい理解のために,マスク画像再構成(MIR)を設計した。 MVLTは拡張可能で便利なアーキテクチャであり、余分な事前処理モデル(ResNetなど)なしで生のマルチモーダル入力を許容し、視覚言語アライメントを暗黙的にモデル化する。 さらに重要なのは、MVLTが様々なマッチングおよび生成タスクに容易に一般化できることだ。 実験結果は、Fashion-Gen 2018の勝者Kaleido-BERTに対する検索(rank@5: 17%)と認識(精度: 3%)タスクの明らかな改善を示している。 コードはhttps://github.com/GewelsJI/MVLTで公開されている。

We present a masked vision-language transformer (MVLT) for fashion-specific multi-modal representation. Technically, we simply utilize vision transformer architecture for replacing the BERT in the pre-training model, making MVLT the first end-to-end framework for the fashion domain. Besides, we designed masked image reconstruction (MIR) for a fine-grained understanding of fashion. MVLT is an extensible and convenient architecture that admits raw multi-modal inputs without extra pre-processing models (e.g., ResNet), implicitly modeling the vision-language alignments. More importantly, MVLT can easily generalize to various matching and generative tasks. Experimental results show obvious improvements in retrieval (rank@5: 17%) and recognition (accuracy: 3%) tasks over the Fashion-Gen 2018 winner Kaleido-BERT. Code is made available at https://github.com/GewelsJI/MVLT.
翻訳日:2022-10-28 12:42:53 公開日:2022-10-27
# クロスモーダル相互知識伝達による視覚的回答定位

Visual Answer Localization with Cross-modal Mutual Knowledge Transfer ( http://arxiv.org/abs/2210.14823v2 )

ライセンス: Link先を確認
Yixuan Weng and Bin Li(参考訳) ビデオ中の視覚的応答ローカライゼーション(VAL)の目的は、与えられた自然言語質問に対する答えとして、ビデオから関連性があり簡潔なタイムクリップを取得することである。 初期手法は、映像とテキスト間の相互作用をモデル化し、視覚的予測器による視覚的応答を予測する。 後に、VALの字幕付きテキスト予測器の使用はより正確であることが証明された。 しかし、これらの既存の手法は、視覚フレームやテキスト字幕からのクロスモーダル知識の逸脱をまだ持っている。 本稿では,知識の偏りを低減するために,モーダルな相互知識伝達を局所化(MutualSL)法を提案する。 MutualSLには視覚予測器とテキスト予測器の両方があり、これらの予測結果が一致し、相互モダリティ間の意味的知識理解を促進することが期待できる。 そこで本研究では,知識伝達の割合を動的に調整する一方向動的損失関数を設計する。 評価のための3つの公開データセットについて広範な実験を行った。 実験結果から,本手法は他のSOTA法よりも優れた性能を示し,その有効性を示した。

The goal of visual answering localization (VAL) in the video is to obtain a relevant and concise time clip from a video as the answer to the given natural language question. Early methods are based on the interaction modelling between video and text to predict the visual answer by the visual predictor. Later, using the textual predictor with subtitles for the VAL proves to be more precise. However, these existing methods still have cross-modal knowledge deviations from visual frames or textual subtitles. In this paper, we propose a cross-modal mutual knowledge transfer span localization (MutualSL) method to reduce the knowledge deviation. MutualSL has both visual predictor and textual predictor, where we expect the prediction results of these both to be consistent, so as to promote semantic knowledge understanding between cross-modalities. On this basis, we design a one-way dynamic loss function to dynamically adjust the proportion of knowledge transfer. We have conducted extensive experiments on three public datasets for evaluation. The experimental results show that our method outperforms other competitive state-of-the-art (SOTA) methods, demonstrating its effectiveness.
翻訳日:2022-10-28 12:42:36 公開日:2022-10-27
# mmfl-net: クロスドメインファッション検索のためのマルチスケール・マルチグラニュラリティ特徴学習

MMFL-Net: Multi-scale and Multi-granularity Feature Learning for Cross-domain Fashion Retrieval ( http://arxiv.org/abs/2210.15128v1 )

ライセンス: Link先を確認
Chen Bao, Xudong Zhang, Jiazhou Chen, Yongwei Miao(参考訳) 実際のビジュアルファッション検索の重要性が高まっているため、ファッションにおけるインスタンスレベルの画像検索は難しい問題である。 クロスドメインファッション検索は、制約のない顧客イメージを、小売業者が提供した写真のクェリに合わせることを目的としているが、多種多様な消費者間(C2S)ドメインの相違や、衣料品画像が様々な非剛性変形に弱いことを考えると、難しい作業である。 そこで本研究では,C2Sファッションの視覚的類似性を考慮したクロスドメインモデルのトレーニングを目的とした,衣服画像のグローバルな集約特徴表現を統一的なフレームワークで共同学習可能な,マルチスケール・マルチグラニュラリティ特徴学習ネットワーク(MMFL-Net)を提案する。 まず、トップダウンとボトムアップの双方向特徴融合を適用して、意味空間間ギャップを埋める新しい意味空間特徴融合部を設計する。 次に,大域的,部分的,局所的な詳細な情報を収集し,粗粒間埋め込みの類似性学習と多粒度を統合してロバストおよび識別特徴埋め込みを抽出するために,マルチブランチ深層ネットワークアーキテクチャを導入する。 最後に、MMFL-Netでは、クラス内とクラス間距離を協調的に最適化し、特徴学習のための視覚的表現間のクラス内コンパクト性とクラス間識別性を明確に向上させることができる。 さらに,提案モデルでは,マルチタスク属性認識と分類モジュールを多ラベル意味属性と製品IDラベルに組み合わせた。 実験の結果,提案したMMFL-Netは,DeepFashion-C2SとStreet2Shopの2つのデータセットの最先端手法よりも大幅に改善されていることがわかった。

Instance-level image retrieval in fashion is a challenging issue owing to its increasing importance in real-scenario visual fashion search. Cross-domain fashion retrieval aims to match the unconstrained customer images as queries for photographs provided by retailers; however, it is a difficult task due to a wide range of consumer-to-shop (C2S) domain discrepancies and also considering that clothing image is vulnerable to various non-rigid deformations. To this end, we propose a novel multi-scale and multi-granularity feature learning network (MMFL-Net), which can jointly learn global-local aggregation feature representations of clothing images in a unified framework, aiming to train a cross-domain model for C2S fashion visual similarity. First, a new semantic-spatial feature fusion part is designed to bridge the semantic-spatial gap by applying top-down and bottom-up bidirectional multi-scale feature fusion. Next, a multi-branch deep network architecture is introduced to capture global salient, part-informed, and local detailed information, and extracting robust and discrimination feature embedding by integrating the similarity learning of coarse-to-fine embedding with the multiple granularities. Finally, the improved trihard loss, center loss, and multi-task classification loss are adopted for our MMFL-Net, which can jointly optimize intra-class and inter-class distance and thus explicitly improve intra-class compactness and inter-class discriminability between its visual representations for feature learning. Furthermore, our proposed model also combines the multi-task attribute recognition and classification module with multi-label semantic attributes and product ID labels. Experimental results demonstrate that our proposed MMFL-Net achieves significant improvement over the state-of-the-art methods on the two datasets, DeepFashion-C2S and Street2Shop.
翻訳日:2022-10-28 12:42:00 公開日:2022-10-27
# shortest edit path crossover: 進化的ニューラルアーキテクチャ探索における置換問題に対する理論駆動解

Shortest Edit Path Crossover: A Theory-driven Solution to the Permutation Problem in Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2210.14016v2 )

ライセンス: Link先を確認
Xin Qiu, Risto Miikkulainen(参考訳) 進化的アルゴリズム(EA)は最近、ニューラルアーキテクチャサーチ(NAS)の成功により注目を集めている。 しかしながら、伝統的なEAはクロスオーバー操作から多くのパワーを引き出す一方、ほとんどの進化的NASメソッドは突然変異演算子のみをデプロイする。 伝統的なグラフ表現における遺伝子型と表現型の間のマッピングは多対一であり、標準クロスオーバーの破壊的な効果をもたらす。 本研究はNAS文脈におけるクロスオーバーと突然変異の挙動に関する最初の理論的解析を行い,グラフ空間における最短編集パス(SEP)に基づく新たなクロスオーバー演算子を提案する。 SEPクロスオーバーは置換問題を克服することが示され、その結果、SEPクロスオーバーによって生成された子孫は、突然変異や標準クロスオーバーに比べて、グラフ編集距離から大域的最適までの改善が期待されることが理論的に証明された。 さらに実験により、SEPクロスオーバーは3つの最先端NASベンチマークで突然変異と標準クロスオーバーを著しく上回っていることが示された。 したがって、SEPのクロスオーバーはNASの進化を最大限に活用することができる。

Evolutionary algorithms (EAs) have gained attention recently due to their success in neural architecture search (NAS). However, whereas traditional EAs draw much power from crossover operations, most evolutionary NAS methods deploy only mutation operators. The main reason is the permutation problem: The mapping between genotype and phenotype in traditional graph representations is many-to-one, leading to a disruptive effect of standard crossover. This work conducts the first theoretical analysis of the behaviors of crossover and mutation in the NAS context, and proposes a new crossover operator based on the shortest edit path (SEP) in graph space. The SEP crossover is shown to overcome the permutation problem, and as a result, offspring generated by the SEP crossover is theoretically proved to have a better expected improvement in terms of graph edit distance to global optimum, compared to mutation and standard crossover. Experiments further show that the SEP crossover significantly outperforms mutation and standard crossover on three state-of-the-art NAS benchmarks. The SEP crossover therefore allows taking full advantage of evolution in NAS, and potentially other similar design problems as well.
翻訳日:2022-10-28 12:35:53 公開日:2022-10-27
# FAS-UNet: 変分画像セグメンテーションを学習する新しいFAS駆動Unet

FAS-UNet: A Novel FAS-driven Unet to Learn Variational Image Segmentation ( http://arxiv.org/abs/2210.15164v1 )

ライセンス: Link先を確認
Hui Zhu, Shi Shu and Jianping Zhang(参考訳) 隠れ物理学で変分画像分割問題を解くことはしばしば高価であり、異なるアルゴリズムを必要とし、手動でモデルパラメータをチューニングする。 U-Net構造に基づく深層学習手法は、多くの異なる医用画像セグメンテーションタスクにおいて優れた性能を得たが、そのようなネットワークの設計には多くのパラメータと訓練データが必要である。 本稿では,従来の多相連接モデルであるMumford-Shah変分モデルと完全近似スキーム(FAS)にインスパイアされ,そのモデルとアルゴリズムを用いてマルチスケール特徴を抽出する新しい変分モデルインフォームドネットワーク(FAS-Unet)を提案する。 提案するモデルインフォームドネットワークは,画像データと数理モデルを統合し,いくつかの畳み込みカーネルを学習して実装する。 まず, 変分理論とfasアルゴリズムに基づき, モデル駆動非線形システムを解くための特徴抽出サブネットワーク (fas-solution module) を設計した。 次に,前段から抽出した特徴を融合させる畳み込みブロックの設計を行い,最終セグメント化の可能性を示す。 3つの異なる医用画像分割タスクの実験結果から,fas-unetは質的,定量的,モデル複雑度評価において,他の最先端手法と非常に競合することが示された。 さらに、他の画像問題における数学や物理法則を自動で満たす特殊なネットワークアーキテクチャを訓練することも可能であり、精度の向上、より高速なトレーニング、一般化の改善が期待できる。

Solving variational image segmentation problems with hidden physics is often expensive and requires different algorithms and manually tunes model parameter. The deep learning methods based on the U-Net structure have obtained outstanding performances in many different medical image segmentation tasks, but designing such networks requires a lot of parameters and training data, not always available for practical problems. In this paper, inspired by traditional multi-phase convexity Mumford-Shah variational model and full approximation scheme (FAS) solving the nonlinear systems, we propose a novel variational-model-informed network (denoted as FAS-Unet) that exploits the model and algorithm priors to extract the multi-scale features. The proposed model-informed network integrates image data and mathematical models, and implements them through learning a few convolution kernels. Based on the variational theory and FAS algorithm, we first design a feature extraction sub-network (FAS-Solution module) to solve the model-driven nonlinear systems, where a skip-connection is employed to fuse the multi-scale features. Secondly, we further design a convolution block to fuse the extracted features from the previous stage, resulting in the final segmentation possibility. Experimental results on three different medical image segmentation tasks show that the proposed FAS-Unet is very competitive with other state-of-the-art methods in qualitative, quantitative and model complexity evaluations. Moreover, it may also be possible to train specialized network architectures that automatically satisfy some of the mathematical and physical laws in other image problems for better accuracy, faster training and improved generalization.
翻訳日:2022-10-28 12:35:32 公開日:2022-10-27
# ドメインマップの深さ予測精度への適応によるドローンのロバスト単眼位置推定

Robust Monocular Localization of Drones by Adapting Domain Maps to Depth Prediction Inaccuracies ( http://arxiv.org/abs/2210.15559v1 )

ライセンス: Link先を確認
Priyesh Shukla, Sureshkumar S., Alex C. Stutts, Sathya Ravi, Theja Tulabandhula, and Amit R. Trivedi(参考訳) 本稿では,深層学習に基づく深さ予測とベイズフィルタリングに基づくポーズ推論を併用した新しい単眼定位フレームワークを提案する。 提案するクロスモーダルフレームワークは,モデルのスケーラビリティと環境変動に対する耐性に関して,ディープラーニングのみの予測を著しく上回っている。 具体的には,軽量深度予測器から推定される極めて低い深度であっても,ポーズ精度の劣化はほとんどないことを示す。 また,本フレームワークは,ドメイン適応が明示的でない場合でも,標準の深層学習と比較して,極端な照明変動における高いポーズ精度を維持している。 マップと中間機能マップ(深さ推定など)をオープンに表現することで、我々のフレームワークはより高速な更新と障害回避などの他のタスクの中間予測の再利用を可能にし、リソース効率が大幅に向上する。

We present a novel monocular localization framework by jointly training deep learning-based depth prediction and Bayesian filtering-based pose reasoning. The proposed cross-modal framework significantly outperforms deep learning-only predictions with respect to model scalability and tolerance to environmental variations. Specifically, we show little-to-no degradation of pose accuracy even with extremely poor depth estimates from a lightweight depth predictor. Our framework also maintains high pose accuracy in extreme lighting variations compared to standard deep learning, even without explicit domain adaptation. By openly representing the map and intermediate feature maps (such as depth estimates), our framework also allows for faster updates and reusing intermediate predictions for other tasks, such as obstacle avoidance, resulting in much higher resource efficiency.
翻訳日:2022-10-28 12:35:03 公開日:2022-10-27
# ノイズリミックス訓練と2段階推論を用いた教師なし音声強調のための教師・学生フレームワーク

A Teacher-student Framework for Unsupervised Speech Enhancement Using Noise Remixing Training and Two-stage Inference ( http://arxiv.org/abs/2210.15368v1 )

ライセンス: Link先を確認
Li-Wei Chen, Yao-Fei Cheng, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang(参考訳) クリーンスピーチの欠如は、音声強調システムの開発における実践的な課題であり、ニューラルネットワークモデルのトレーニングは教師なしの方法で行う必要があり、トレーニング基準と評価基準との間には必然的なミスマッチがある。 この不利な状況に対応するために,先述した雑音目標訓練(nytt)の改善により,主観的・目的的音声品質指標を学習基準として必要としない教師・生徒の学習戦略を提案する。 ドメイン内雑音と外雑音の均一性がNyTTの有効性の鍵となるため,教師モデルの推定した音声と雑音を,クリーンターゲットトレーニングや生雑音の訓練と教師モデルの推定した雑音とを混合することにより,様々な学生モデルを訓練する。 NyTTモデルを初期教師モデルとして使用する。 実験の結果,提案手法は,ブートストラップモデルと最終学生モデルを用いてクリーン音声を逐次導出する2段階推論において,いくつかのベースラインよりも優れていた。

The lack of clean speech is a practical challenge to the development of speech enhancement systems, which means that the training of neural network models must be done in an unsupervised manner, and there is an inevitable mismatch between their training criterion and evaluation metric. In response to this unfavorable situation, we propose a teacher-student training strategy that does not require any subjective/objective speech quality metrics as learning reference by improving the previously proposed noisy-target training (NyTT). Because homogeneity between in-domain noise and extraneous noise is the key to the effectiveness of NyTT, we train various student models by remixing the teacher model's estimated speech and noise for clean-target training or raw noisy speech and the teacher model's estimated noise for noisy-target training. We use the NyTT model as the initial teacher model. Experimental results show that our proposed method outperforms several baselines, especially with two-stage inference, where clean speech is derived successively through the bootstrap model and the final student model.
翻訳日:2022-10-28 12:34:49 公開日:2022-10-27
# CasNet: 音声分離のためのチャネルロバスト性の調査

CasNet: Investigating Channel Robustness for Speech Separation ( http://arxiv.org/abs/2210.15370v1 )

ライセンス: Link先を確認
Fan-Lin Wang, Yao-Fei Cheng, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang(参考訳) 学習条件とテスト条件のチャネルミスマッチは,音声分離において深刻な問題となっている。 この状況は分離性能を大幅に低下させ、日常の使用要件を満たせない。 本研究では,これまでに構築したtat-2mixコーパスを継承し,チャネル認識型音声分離ネットワーク(casnet)を提案することで,チャネルミスマッチ問題に対処する。 CasNetはTasNet上に実装されている。 チャンネルエンコーダが生成するチャネル埋め込み(複数の発話の混合でチャネル情報をキャラクタライズする)をFiLM技術により分離モジュールに導入する。 2つのトレーニング戦略を通じて、チャネル埋め込みが果たす2つの役割を探求する。 1) 実生活騒音の乱れ, モデルをより堅牢にする, あるいは 2) 所望のチャネル情報を保持するように分離モデルを指示するガイド。 TAT-2mixの実験結果は、両方のトレーニング戦略でトレーニングされたCasNetが、チャネル埋め込みを使用しないTasNetベースラインを上回っていることを示している。

Recording channel mismatch between training and testing conditions has been shown to be a serious problem for speech separation. This situation greatly reduces the separation performance, and cannot meet the requirement of daily use. In this study, inheriting the use of our previously constructed TAT-2mix corpus, we address the channel mismatch problem by proposing a channel-aware audio separation network (CasNet), a deep learning framework for end-to-end time-domain speech separation. CasNet is implemented on top of TasNet. Channel embedding (characterizing channel information in a mixture of multiple utterances) generated by Channel Encoder is introduced into the separation module by the FiLM technique. Through two training strategies, we explore two roles that channel embedding may play: 1) a real-life noise disturbance, making the model more robust, or 2) a guide, instructing the separation model to retain the desired channel information. Experimental results on TAT-2mix show that CasNet trained with both training strategies outperforms the TasNet baseline, which does not use channel embeddings.
翻訳日:2022-10-28 12:34:28 公開日:2022-10-27
# LyricJam Sonic: リアルタイム作曲と音楽改善のための生成システム

LyricJam Sonic: A Generative System for Real-Time Composition and Musical Improvisation ( http://arxiv.org/abs/2210.15638v1 )

ライセンス: Link先を確認
Olga Vechtomova, Gaurav Sahu(参考訳) 電子音楽アーティストと音響デザイナーは、音楽情報検索と創造性支援ツールを開発するための特別なアプローチを必要とするユニークなワークフローの実践を持っている。 さらに、モジュラーシンセサイザーのような電子楽器は、ほぼ無限の音生成可能性を持ち、ユニークな複雑なオーディオパスを作るために組み合わせることができる。 興味深い音を見つけるプロセスは、しばしばセレンディピタイトであり、複製が不可能である。 そのため、多くの電子ジャンルのミュージシャンがスタジオで働いている間、常にオーディオ出力を記録している。 その後、アーティストが何千時間もの録音から、彼らの作曲に適するであろうオーディオセグメントを再発見することは困難である。 本稿では,LyricJam Sonicについて述べる。LyricJam Sonicはミュージシャンが以前の録音を再発見し,他の録音とテクスチャ化し,オリジナル楽曲をリアルタイムで作成するための,新しい創造ツールである。 バイモーダルAI駆動のアプローチでは、生成されたリリックラインを使用して、アーティストの過去のスタジオ録音から一致するオーディオクリップを探し出し、それらを使用して新しいリリックラインを生成し、それによって他のクリップを探し出し、連続的で進化する音楽と歌詞のストリームを生成する。 その意図は、アーティストが過去のオーディオセグメントを故意に検索する分析的・批判的な状態に陥るのではなく、創造的な流れを音楽創造に導くことにある。 システムは、ユーザー入力なしで完全に自律的なモードか、アーティストがライブ音楽を演奏するライブパフォーマンスモードのいずれかで動作し、システムは「リスン」し、応答して音楽と歌詞の連続的なストリームを生成する。

Electronic music artists and sound designers have unique workflow practices that necessitate specialized approaches for developing music information retrieval and creativity support tools. Furthermore, electronic music instruments, such as modular synthesizers, have near-infinite possibilities for sound creation and can be combined to create unique and complex audio paths. The process of discovering interesting sounds is often serendipitous and impossible to replicate. For this reason, many musicians in electronic genres record audio output at all times while they work in the studio. Subsequently, it is difficult for artists to rediscover audio segments that might be suitable for use in their compositions from thousands of hours of recordings. In this paper, we describe LyricJam Sonic -- a novel creative tool for musicians to rediscover their previous recordings, re-contextualize them with other recordings, and create original live music compositions in real-time. A bi-modal AI-driven approach uses generated lyric lines to find matching audio clips from the artist's past studio recordings, and uses them to generate new lyric lines, which in turn are used to find other clips, thus creating a continuous and evolving stream of music and lyrics. The intent is to keep the artists in a state of creative flow conducive to music creation rather than taking them into an analytical/critical state of deliberately searching for past audio segments. The system can run in either a fully autonomous mode without user input, or in a live performance mode, where the artist plays live music, while the system "listens" and creates a continuous stream of music and lyrics in response.
翻訳日:2022-10-28 12:34:13 公開日:2022-10-27
# 多目的施設配置のためのグラフニューラルネットワークによる終端パレートセット予測

End-to-End Pareto Set Prediction with Graph Neural Networks for Multi-objective Facility Location ( http://arxiv.org/abs/2210.15220v1 )

ライセンス: Link先を確認
Shiqing Liu, Xueming Yan, Yaochu Jin(参考訳) 施設配置問題(英: facility location problem、flps)は、サプライチェーンやロジスティクスで広く見られるnp-hard combinatorial optimization problemの典型クラスである。 FLPを最適化するために多くの数学的およびヒューリスティックなアルゴリズムが開発されている。 輸送コストに加えて、現実の用途には相反する複数の目的がある。 したがって、paretoソリューションのセットを効率的に探索コストなしで見つけるアルゴリズムを設計することが望ましい。 本稿では,システム全体のコストを最小化し,システムの信頼性を最大化する多目的設備配置問題(mo-flp)を考える。 与えられた問題に対するパレート集合全体の分布確率を予測するための学習に基づくアプローチを開発する。 この目的のために、MO-FLPを二部グラフ最適化問題としてモデル化し、2つのグラフニューラルネットワークを構築し、ノードとエッジの暗黙グラフ表現を学習する。 ネットワーク出力はパレート集合の確率分布に変換され、そこから非支配解の集合を非自己回帰的にサンプリングすることができる。 異なるスケールのMO-FLPインスタンスに対する実験結果から,提案手法は探索の計算コストを大幅に削減しつつ,解の質の観点から広く用いられている多目的進化アルゴリズムに匹敵する性能を示した。

The facility location problems (FLPs) are a typical class of NP-hard combinatorial optimization problems, which are widely seen in the supply chain and logistics. Many mathematical and heuristic algorithms have been developed for optimizing the FLP. In addition to the transportation cost, there are usually multiple conflicting objectives in realistic applications. It is therefore desirable to design algorithms that find a set of Pareto solutions efficiently without enormous search cost. In this paper, we consider the multi-objective facility location problem (MO-FLP) that simultaneously minimizes the overall cost and maximizes the system reliability. We develop a learning-based approach to predicting the distribution probability of the entire Pareto set for a given problem. To this end, the MO-FLP is modeled as a bipartite graph optimization problem and two graph neural networks are constructed to learn the implicit graph representation on nodes and edges. The network outputs are then converted into the probability distribution of the Pareto set, from which a set of non-dominated solutions can be sampled non-autoregressively. Experimental results on MO-FLP instances of different scales show that the proposed approach achieves a comparable performance to a widely used multi-objective evolutionary algorithm in terms of the solution quality while significantly reducing the computational cost for search.
翻訳日:2022-10-28 12:33:44 公開日:2022-10-27
# 韓国の文法的誤り訂正の標準化に向けて:データセットと注釈

Towards standardizing Korean Grammatical Error Correction: Datasets and Annotation ( http://arxiv.org/abs/2210.14389v2 )

ライセンス: Link先を確認
Soyoung Yoon, Sungjoon Park, Gyuwan Kim, Junhee Cho, Kihyo Park, Gyu Tae Kim, Minjoon Seo and Alice Oh(参考訳) 韓国語文法誤り訂正(GEC)の研究は、英語や中国語など他の主要言語と比較して限られている。 この問題は、慎重に設計された韓国評価ベンチマークの欠如によるものである。 そこで本研究では,まず異なるソース(Kor-Lang8,Kor-Native,Kor-Learner)から3つのデータセットを収集し,広範囲のエラータイプをカバーし,新たに提案したKAGAS(Korea Automatic Grammatical error Annotation System)を用いて注釈付けを行う。 KAGASは、ソース文とターゲット文のアライメントを生成する韓国語の性質を考慮し、各アライメント編集におけるエラータイプを識別する、慎重に設計された編集アライメントと分類ツールである。 また、データセット上で微調整されたベースラインモデルも提示します。 我々のデータセットでトレーニングしたモデルは、より広い範囲のエラータイプにおいて、パブリック統計GECシステム(Hanspell)よりも大幅に優れており、データセットの多様性と有用性を示している。

Research on Korean grammatical error correction (GEC) is limited compared to other major languages such as English and Chinese. We attribute this problematic circumstance to the lack of a carefully designed evaluation benchmark for Korean. Thus, in this work, we first collect three datasets from different sources (Kor-Lang8, Kor-Native, and Kor-Learner) to cover a wide range of error types and annotate them using our newly proposed tool called Korean Automatic Grammatical error Annotation System (KAGAS). KAGAS is a carefully designed edit alignment & classification tool that considers the nature of Korean on generating an alignment between a source sentence and a target sentence, and identifies error types on each aligned edit. We also present baseline models fine-tuned over our datasets. We show that the model trained with our datasets significantly outperforms the public statistical GEC system (Hanspell) on a wider range of error types, demonstrating the diversity and usefulness of the datasets.
翻訳日:2022-10-28 12:33:10 公開日:2022-10-27
# 未訓練確率層を有する多層判別制限ボルツマン機

Multi-layered Discriminative Restricted Boltzmann Machine with Untrained Probabilistic Layer ( http://arxiv.org/abs/2210.15434v1 )

ライセンス: Link先を確認
Yuri Kanno and Muneki Yasuda(参考訳) 極端な学習機械(ELM)は、訓練前にランダムに決定される未訓練パラメータを持つ3層フィードフォワードニューラルネットワークである。 確率的ELM(probabilistic-ELM, PELM)層と呼ばれる確率的未学習層を提案し, 分類問題を解くための確率的3層ニューラルネットワークである識別的制限ボルツマンマシン(DRBM)と組み合わせた。 提案モデルは,PELM層上にDRBMを積み重ねることで得られる。 結果モデル(すなわち多層drbm(mdrbm))は確率的4層ニューラルネットワークを形成する。 MDRBMでは、PELM層のパラメータはガウス・ベルヌーリ制限ボルツマンマシンを用いて決定できる。 PELM層により、MDRBMは入力のノイズに対する強い免疫を得るが、これはMDRBMの最も重要な利点の1つである。 いくつかのベンチマークデータセット(MNIST、Fashion-MNIST、Urban Land Cover、CIFAR-10)を用いた数値実験では、MDRBMは他の既存のモデルよりも優れていることが示されている。

An extreme learning machine (ELM) is a three-layered feed-forward neural network having untrained parameters, which are randomly determined before training. Inspired by the idea of ELM, a probabilistic untrained layer called a probabilistic-ELM (PELM) layer is proposed, and it is combined with a discriminative restricted Boltzmann machine (DRBM), which is a probabilistic three-layered neural network for solving classification problems. The proposed model is obtained by stacking DRBM on the PELM layer. The resultant model (i.e., multi-layered DRBM (MDRBM)) forms a probabilistic four-layered neural network. In MDRBM, the parameters in the PELM layer can be determined using Gaussian-Bernoulli restricted Boltzmann machine. Owing to the PELM layer, MDRBM obtains a strong immunity against noise in inputs, which is one of the most important advantages of MDRBM. Numerical experiments using some benchmark datasets, MNIST, Fashion-MNIST, Urban Land Cover, and CIFAR-10, demonstrate that MDRBM is superior to other existing models, particularly, in terms of the noise-robustness property (or, in other words, the generalization property).
翻訳日:2022-10-28 12:27:10 公開日:2022-10-27
# Lifelong Bandit Optimization:前も後もなし、レグレットなし

Lifelong Bandit Optimization: No Prior and No Regret ( http://arxiv.org/abs/2210.15513v1 )

ライセンス: Link先を確認
Felix Schur, Parnian Kassraie, Jonas Rothfuss, Andreas Krause(参考訳) 実用的な応用において、機械学習アルゴリズムは、しばしば同様の構造を持つ問題に繰り返し適用される。 我々は,バンディット最適化タスクの系列の解き方に着目し,過去の経験から学習し,その過程でよりサンプル効率の高い環境適応アルゴリズムであるliboを開発した。 カーネルが未知だがすべてのタスク間で共有されるカーネル構造を仮定する。 LiBOは、真核を近似したカーネルを順次メタ学習し、最新のカーネル推定で入ってくるタスクを同時に解決する。 このアルゴリズムは任意のカーネル化されたbanditアルゴリズムとペアリングでき、oracleの最適性能を保証する。つまり、より多くのタスクが解決されると、各タスクにおけるliboの後悔は、oracleの真のカーネルに関する知識を持つbanditアルゴリズムの後悔に収束する。 当然、sublinear banditアルゴリズムとペアリングすれば、liboはsublinear lifelong regretとなる。 また,各タスクからのデータへの直接アクセスは,サブリニアな後悔を実現するために必要ではないことを示す。 これにより、各タスクのデータをプライベートに保ちながら、生涯の問題を解決することができる。

In practical applications, machine learning algorithms are often repeatedly applied to problems with similar structure over and over again. We focus on solving a sequence of bandit optimization tasks and develop LiBO, an algorithm which adapts to the environment by learning from past experience and becoming more sample-efficient in the process. We assume a kernelized structure where the kernel is unknown but shared across all tasks. LiBO sequentially meta-learns a kernel that approximates the true kernel and simultaneously solves the incoming tasks with the latest kernel estimate. Our algorithm can be paired with any kernelized bandit algorithm and guarantees oracle optimal performance, meaning that as more tasks are solved, the regret of LiBO on each task converges to the regret of the bandit algorithm with oracle knowledge of the true kernel. Naturally, if paired with a sublinear bandit algorithm, LiBO yields a sublinear lifelong regret. We also show that direct access to the data from each task is not necessary for attaining sublinear regret. The lifelong problem can thus be solved in a federated manner, while keeping the data of each task private.
翻訳日:2022-10-28 12:26:51 公開日:2022-10-27
# 返却を超えて: ユーザ特定誤差測定分布に基づく非政治関数推定

Beyond the Return: Off-policy Function Estimation under User-specified Error-measuring Distributions ( http://arxiv.org/abs/2210.15543v1 )

ライセンス: Link先を確認
Audrey Huang, Nan Jiang(参考訳) オフ・ポリティィ・アセスメント(英語: Off-policy evaluation)は、政策の期待された回帰を推定し、その値関数(あるいは密度比のような他の関心の関数)を推定する2つの関連するタスクを指す。 ミサライズされた重要度サンプリング(MIS)に関する最近の研究は、前者は実現可能な関数近似の下で証明可能な保証を享受できることを示しているが、後者は、禁制的な表現的判別器のようなより強い仮定の下でのみ実現可能であることが知られている。 本研究では、MISの目的に対して適切な正規化を課すことにより、実現可能性のみに基づく非政治関数推定の保証を提供する。 misでよく使われる正規化と比較して、我々の正規化器はずっと柔軟で、学習された関数が基部に近いような任意のユーザ指定分布を考慮できる。 我々は、値関数学習の場合のデータ被覆仮定を決定する識別器クラスによって実現する必要がある最適双対解の正確な特徴付けを提供する。 別の驚くべき観察として、正則化器はデータカバレッジ要件を緩和し、強い側情報を持つ理想的なケースで完全に排除することができる。

Off-policy evaluation often refers to two related tasks: estimating the expected return of a policy and estimating its value function (or other functions of interest, such as density ratios). While recent works on marginalized importance sampling (MIS) show that the former can enjoy provable guarantees under realizable function approximation, the latter is only known to be feasible under much stronger assumptions such as prohibitively expressive discriminators. In this work, we provide guarantees for off-policy function estimation under only realizability, by imposing proper regularization on the MIS objectives. Compared to commonly used regularization in MIS, our regularizer is much more flexible and can account for an arbitrary user-specified distribution, under which the learned function will be close to the groundtruth. We provide exact characterization of the optimal dual solution that needs to be realized by the discriminator class, which determines the data-coverage assumption in the case of value-function learning. As another surprising observation, the regularizer can be altered to relax the data-coverage requirement, and completely eliminate it in the ideal case with strong side information.
翻訳日:2022-10-28 12:26:32 公開日:2022-10-27
# グラフはそのノード以上である:グラフ上の構造化不確実性認識学習に向けて

A Graph Is More Than Its Nodes: Towards Structured Uncertainty-Aware Learning on Graphs ( http://arxiv.org/abs/2210.15575v1 )

ライセンス: Link先を確認
Hans Hao-Hsun Hsu, Yuesong Shen, Daniel Cremers(参考訳) グラフ上のノード分類に取り組む現在のグラフニューラルネットワーク(GNN)は、ノードワイズスコアのみに着目し、ノードワイズメトリクスによってのみ評価される傾向にある。 これは、辺辺がグラフ構造を与えられたジョイント分布を完全に特徴付けるわけではないため、グラフ上の不確かさの推定を制限する。 本研究では,エッジワイドキャリブレーション誤差(ECE)とアライアンス/ディスアグリーECEという,ノードワイド設定以上のグラフの不確実性推定基準を提供する新しいエッジワイドメトリクスを提案する。 実験により,提案するエッジワイズメトリクスがノードワイズの結果を補完し,さらなる洞察を得ることができることを示した。 さらに,グラフ上の構造的予測問題を考慮したGNNモデルでは不確実性の推定が向上する傾向にあり,ノードワイド設定を超える利点が示される。

Current graph neural networks (GNNs) that tackle node classification on graphs tend to only focus on nodewise scores and are solely evaluated by nodewise metrics. This limits uncertainty estimation on graphs since nodewise marginals do not fully characterize the joint distribution given the graph structure. In this work, we propose novel edgewise metrics, namely the edgewise expected calibration error (ECE) and the agree/disagree ECEs, which provide criteria for uncertainty estimation on graphs beyond the nodewise setting. Our experiments demonstrate that the proposed edgewise metrics can complement the nodewise results and yield additional insights. Moreover, we show that GNN models which consider the structured prediction problem on graphs tend to have better uncertainty estimations, which illustrates the benefit of going beyond the nodewise setting.
翻訳日:2022-10-28 12:26:11 公開日:2022-10-27
# 視覚意味解析:画像から抽象的意味表現へ

Visual Semantic Parsing: From Images to Abstract Meaning Representation ( http://arxiv.org/abs/2210.14862v2 )

ライセンス: Link先を確認
Mohamed Ashraf Abdelsalam, Zhan Shi, Federico Fancellu, Kalliopi Basioti, Dhaivat J. Bhatt, Vladimir Pavlovic and Afsaneh Fazly(参考訳) 視覚的なシーン理解のためのシーングラフの成功は、視覚的な入力(画像など)を構造化された表現に抽象化することで、エンティティ(人とオブジェクト)がエッジによって接続されたノードとなるというメリットに注目されている。 しかし、これらの表現を構築するには、シーングラフやフレームとペアリングした画像の形で、高価な手動アノテーションが必要である。 これらの形式主義は、彼らが捕らえることのできる実体や関係の性質に制限がある。 本稿では,自然言語処理の分野で広く使われている抽象的意味表現(abstract meaning representation, amr)を活用し,これらの欠点を解決することを提案する。 空間的関係を強調するシーングラフと比較すると、視覚的なamrグラフはより言語的にインフォームメントされ、視覚入力から高レベルな意味概念に焦点が当てられる。 さらに、メタAMRグラフを生成し、複数の画像記述に含まれる情報を1つの表現で統一する。 実験と分析により,既存のテキスト・トゥ・AMRパーサを再利用し,画像をAMRに解析できることが実証された。 本研究は,シーン理解の改善に向けた今後の重要な研究方向を示すものである。

The success of scene graphs for visual scene understanding has brought attention to the benefits of abstracting a visual input (e.g., image) into a structured representation, where entities (people and objects) are nodes connected by edges specifying their relations. Building these representations, however, requires expensive manual annotation in the form of images paired with their scene graphs or frames. These formalisms remain limited in the nature of entities and relations they can capture. In this paper, we propose to leverage a widely-used meaning representation in the field of natural language processing, the Abstract Meaning Representation (AMR), to address these shortcomings. Compared to scene graphs, which largely emphasize spatial relationships, our visual AMR graphs are more linguistically informed, with a focus on higher-level semantic concepts extrapolated from visual input. Moreover, they allow us to generate meta-AMR graphs to unify information contained in multiple image descriptions under one representation. Through extensive experimentation and analysis, we demonstrate that we can re-purpose an existing text-to-AMR parser to parse images into AMRs. Our findings point to important future research directions for improved scene understanding.
翻訳日:2022-10-28 12:25:54 公開日:2022-10-27
# 畳み込みニューラルネットワークを用いた視覚探索における視覚の注意力と歪みの予測

Predicting Visual Attention and Distraction During Visual Search Using Convolutional Neural Networks ( http://arxiv.org/abs/2210.15093v1 )

ライセンス: Link先を確認
Manoosh Samiei, James J. Clark(参考訳) 視覚的注意の計算モデルにおけるほとんどの研究は、画像のタスクレス観察を含んでいる。 自由視聴の敬礼は日常生活の限られたシナリオを考慮に入れる。 ほとんどの視覚活動はゴール指向であり、多くのトップダウンの注意制御を必要とします。 ビジュアル検索タスクは、フリービューに比べて、よりトップダウンの注意制御を必要とする。 本稿では,視覚探索中の観察者の注意をモデル化する2つのアプローチを提案する。 最初のアプローチでは,COCO-Search18データセットを用いた2ストリーム畳み込みエンコーダ・デコーダネットワークを用いて,人間の眼球運動者の眼球修正密度マップを検索画像のピクセル上で予測する。 この方法は、特定のターゲットを探す際に、どの場所がより注意をそらすかを予測する。 AUC-Judd=0.95, AUC-Borji=0.85, sAUC=0.84, NSS=4.64, KLD=0.93, CC=0.72, SIM=0.54, IG=2.59。 第2のアプローチはオブジェクトベースであり、視覚検索中の乱れや対象物を予測する。 ディトラクタは、オブザーバが検索中に固定するターゲット以外はすべてオブジェクトである。 この方法は、MS-COCOで事前訓練された、COCO-Search18データセットで微調整されたMask-RCNNセグメンテーションネットワークを使用する。 ボトル,ボウル,カーの3つのカテゴリを対象に,COCO-Search18のターゲットとイントラクタのセグメンテーションアノテーションをリリースする。 F1スコア=0.64、MAP(iou:0.5)=0.57、MAR(iou:0.5)=0.73である。 Tensorflowの実装コードはhttps://github.com/ManooshSamiei/Distraction-Visual-Searchで公開されています。

Most studies in computational modeling of visual attention encompass task-free observation of images. Free-viewing saliency considers limited scenarios of daily life. Most visual activities are goal-oriented and demand a great amount of top-down attention control. Visual search task demands more top-down control of attention, compared to free-viewing. In this paper, we present two approaches to model visual attention and distraction of observers during visual search. Our first approach adapts a light-weight free-viewing saliency model to predict eye fixation density maps of human observers over pixels of search images, using a two-stream convolutional encoder-decoder network, trained and evaluated on COCO-Search18 dataset. This method predicts which locations are more distracting when searching for a particular target. Our network achieves good results on standard saliency metrics (AUC-Judd=0.95, AUC-Borji=0.85, sAUC=0.84, NSS=4.64, KLD=0.93, CC=0.72, SIM=0.54, and IG=2.59). Our second approach is object-based and predicts the distractor and target objects during visual search. Distractors are all objects except the target that observers fixate on during search. This method uses a Mask-RCNN segmentation network pre-trained on MS-COCO and fine-tuned on COCO-Search18 dataset. We release our segmentation annotations of targets and distractors in COCO-Search18 for three target categories: bottle, bowl, and car. The average scores over the three categories are: F1-score=0.64, MAP(iou:0.5)=0.57, MAR(iou:0.5)=0.73. Our implementation code in Tensorflow is publicly available at https://github.com/ManooshSamiei/Distraction-Visual-Search .
翻訳日:2022-10-28 12:25:34 公開日:2022-10-27
# トロイの木馬のリバースエンジニアリング再考

Rethinking the Reverse-engineering of Trojan Triggers ( http://arxiv.org/abs/2210.15127v1 )

ライセンス: Link先を確認
Zhenting Wang, Kai Mei, Hailun Ding, Juan Zhai, Shiqing Ma(参考訳) ディープニューラルネットワークはトロイの木馬(あるいはバックドア)攻撃に弱い。 リバースエンジニアリング手法はトリガーを再構築し、影響のあるモデルを特定する。 既存のリバースエンジニアリング手法は入力空間の制約、例えば入力空間のトリガーサイズのみを考慮する。 具体的には、トリガーは入力空間の静的パターンであると仮定し、画像変換のような特徴空間トリガーを持つモデルを検出することができない。 入力空間と特徴空間の両方のトロイの木は特徴空間超平面と関連している。 本研究は, 逆エンジントリガに対する特徴空間制約を利用して, 新たなリバースエンジニアリング手法を設計する。 4つのデータセットと7つの異なる攻撃の結果、我々のソリューションは入力空間と特徴空間の両方を効果的に防御することを示した。 トロイの木馬のモデル検出および緩和タスクにおいて、最先端のリバースエンジニアリング手法やその他の防御方法よりも優れている。 平均して,本手法の検出精度は93\%である。 トロイの木馬対策では, BA(良精度)がほぼ変わらず, ASR(攻撃成功率)を0.26\%に抑えることができる。 私たちのコードはhttps://github.com/RU-System-Software-and-Security/FeatureREで確認できます。

Deep Neural Networks are vulnerable to Trojan (or backdoor) attacks. Reverse-engineering methods can reconstruct the trigger and thus identify affected models. Existing reverse-engineering methods only consider input space constraints, e.g., trigger size in the input space. Expressly, they assume the triggers are static patterns in the input space and fail to detect models with feature space triggers such as image style transformations. We observe that both input-space and feature-space Trojans are associated with feature space hyperplanes. Based on this observation, we design a novel reverse-engineering method that exploits the feature space constraint to reverse-engineer Trojan triggers. Results on four datasets and seven different attacks demonstrate that our solution effectively defends both input-space and feature-space Trojans. It outperforms state-of-the-art reverse-engineering methods and other types of defenses in both Trojaned model detection and mitigation tasks. On average, the detection accuracy of our method is 93\%. For Trojan mitigation, our method can reduce the ASR (attack success rate) to only 0.26\% with the BA (benign accuracy) remaining nearly unchanged. Our code can be found at https://github.com/RU-System-Software-and-Security/FeatureRE.
翻訳日:2022-10-28 12:25:04 公開日:2022-10-27
# SAM-RL:微分物理学に基づくモデルに基づく強化学習とレンダリング

SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via Differentiable Physics-Based Simulation and Rendering ( http://arxiv.org/abs/2210.15185v1 )

ライセンス: Link先を確認
Jun Lv, Yunhai Feng, Cheng Zhang, Shuang Zhao, Lin Shao, Cewu Lu(参考訳) モデルベース強化学習 (MBRL) は, モデルフリーRLよりも試料効率が高い可能性が認められた。 特に複雑な環境やタスクにおいて、生の感覚入力(画像など)から正確なモデルを自動かつ効率的に開発する方法は、現実世界におけるMBRLの広範な適用を妨げる難しい問題である。 本研究では,SAM-RLと呼ばれる感性認識モデルに基づく強化学習システムを提案する。 差別化可能な物理シミュレーションとレンダリングを活用することで、SAM-RLはレンダリングされた画像と実際の生画像を比較してモデルを自動的に更新し、ポリシーを効率的に生成する。 センシング・アウェア学習パイプラインにより、sam-rlはロボットがタスクプロセスを監視するための情報的視点を選択することができる。 我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作を実世界の実験に適用する。 SAM-RLの有効性を実験的に検証した。 追加資料とビデオはプロジェクトのWebページ https://sites.google.com/view/sam-rl.com で公開されている。

Model-based reinforcement learning (MBRL) is recognized with the potential to be significantly more sample efficient than model-free RL. How an accurate model can be developed automatically and efficiently from raw sensory inputs (such as images), especially for complex environments and tasks, is a challenging problem that hinders the broad application of MBRL in the real world. In this work, we propose a sensing-aware model-based reinforcement learning system called SAM-RL. Leveraging the differentiable physics-based simulation and rendering, SAM-RL automatically updates the model by comparing rendered images with real raw images and produces the policy efficiently. With the sensing-aware learning pipeline, SAM-RL allows a robot to select an informative viewpoint to monitor the task process. We apply our framework to real-world experiments for accomplishing three manipulation tasks: robotic assembly, tool manipulation, and deformable object manipulation. We demonstrate the effectiveness of SAM-RL via extensive experiments. Supplemental materials and videos are available on our project webpage at https://sites.google.com/view/sam-rl.
翻訳日:2022-10-28 12:24:43 公開日:2022-10-27
# 1枚の画像から2次元ランドマークの3次元形状を復元するディープMDSフレームワーク

Deep-MDS Framework for Recovering the 3D Shape of 2D Landmarks from a Single Image ( http://arxiv.org/abs/2210.15200v1 )

ライセンス: Link先を確認
Shima Kamyab, Zohreh Azimifar(参考訳) 本稿では,非メトリック多次元スケーリング(non-metric multi-dimensional scaling, nmds)法を用いた低パラメータ深層学習フレームワークを提案する。 したがって、nmdsアプローチは、2次元ランドマーク空間から対応する3次元形状空間へのマッピングを確立するために初めて用いられる。 深層ニューラルネットワークは、入力画像上で対応する2Dランドマークの2次元ユークリッド距離を学習することを目的として、NMDSアプローチで使用される2Dランドマーク間のペア方向の相似性を学習する。 このスキームは対称異方性行列となり、ランクが2より大きいため、NMDSアプローチは対応する2次元ランドマークの3次元形状を適切に復元する。 入力画像のオクルージョンを引き起こす視点投影のような複雑な画像形成過程やポーズ画像の場合、提案手法におけるオートエンコーダ成分を、人間の顔の異なる入力ビューをプロファイルビューに変換するオクルージョン除去部として考慮する。 Besel Face Model (BFM)、CelebA、CoMA - FLAME、CASIA-3Dなど、さまざまな人工顔と実世界の顔のデータセットを用いた性能評価の結果は、少数のトレーニングパラメータにもかかわらず、その効率と正確性の観点から、関連する最先端の3D再構成手法を用いて、提案フレームワークの同等の性能を示している。

In this paper, a low parameter deep learning framework utilizing the Non-metric Multi-Dimensional scaling (NMDS) method, is proposed to recover the 3D shape of 2D landmarks on a human face, in a single input image. Hence, NMDS approach is used for the first time to establish a mapping from a 2D landmark space to the corresponding 3D shape space. A deep neural network learns the pairwise dissimilarity among 2D landmarks, used by NMDS approach, whose objective is to learn the pairwise 3D Euclidean distance of the corresponding 2D landmarks on the input image. This scheme results in a symmetric dissimilarity matrix, with the rank larger than 2, leading the NMDS approach toward appropriately recovering the 3D shape of corresponding 2D landmarks. In the case of posed images and complex image formation processes like perspective projection which causes occlusion in the input image, we consider an autoencoder component in the proposed framework, as an occlusion removal part, which turns different input views of the human face into a profile view. The results of a performance evaluation using different synthetic and real-world human face datasets, including Besel Face Model (BFM), CelebA, CoMA - FLAME, and CASIA-3D, indicates the comparable performance of the proposed framework, despite its small number of training parameters, with the related state-of-the-art and powerful 3D reconstruction methods from the literature, in terms of efficiency and accuracy.
翻訳日:2022-10-28 12:24:24 公開日:2022-10-27
# 精神療法対話分類のためのワーキングアライアンストランスフォーマー

Working Alliance Transformer for Psychotherapy Dialogue Classification ( http://arxiv.org/abs/2210.15603v1 )

ライセンス: Link先を確認
Baihan Lin, Guillermo Cecchi, Djallel Bouneffouf(参考訳) 精神療法における治療結果の予測尺度として、作業同盟は、患者とセラピストの同意を、その結合、課題、目標の観点から測定する。 患者とセラピストの自己評価レポートから推定される臨床量であり,各治療セッションで書き起こされた対話において,自然言語処理技術を用いて作業同盟をよりよく特徴付けることができると信じている。 本稿では,対話の埋め込みがワーキングアライアンスの臨床的インベントリの埋め込みスペースに反映されることを予測して,ワーキングアライアンスのスコアを推定する心理状態エンコーダを備えたトランスをベースとする分類モデルであるworking alliance transformer(wat)を提案する。 本研究は,不安,抑うつ,統合失調症,自殺患者の950件以上の治療セッションを実世界のデータセットで評価し,心理療法対話のシーケンス分類タスクにおいて,治療状態に関する情報を用いた経験的優位性を示す。

As a predictive measure of the treatment outcome in psychotherapy, the working alliance measures the agreement of the patient and the therapist in terms of their bond, task and goal. Long been a clinical quantity estimated by the patients' and therapists' self-evaluative reports, we believe that the working alliance can be better characterized using natural language processing technique directly in the dialogue transcribed in each therapy session. In this work, we propose the Working Alliance Transformer (WAT), a Transformer-based classification model that has a psychological state encoder which infers the working alliance scores by projecting the embedding of the dialogues turns onto the embedding space of the clinical inventory for working alliance. We evaluate our method in a real-world dataset with over 950 therapy sessions with anxiety, depression, schizophrenia and suicidal patients and demonstrate an empirical advantage of using information about the therapeutic states in this sequence classification task of psychotherapy dialogues.
翻訳日:2022-10-28 12:23:55 公開日:2022-10-27
# マルチモーダル・アスペクト・センシティメント分析によるソーシャルメディア上のユーザ生成コンテンツの構築

Structuring User-Generated Content on Social Media with Multimodal Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2210.15377v1 )

ライセンス: Link先を確認
Miriam Ansch\"utz, Tobias Eder, Georg Groh(参考訳) 人々は自分の意見や経験をソーシャルメディアに投稿し、エンドユーザの感情の豊富なデータベースを生み出します。 本稿では、機械学習がこれらのデータベースをどの程度分析し、構造化できるかを示す。 自動データ分析パイプラインがデプロイされ、他のドメインの研究者のためにユーザ生成コンテンツに関する洞察を提供する。 まず、ドメインエキスパートは、画像と関心期間を選択することができる。 そして、このパイプラインは画像検索を用いて、類似した内容を示すすべての画像を探し出し、アスペクトベースの感情分析を適用して、選択した用語に関するユーザの意見を概説する。 建築とコンピュータサイエンスの研究者の間の学際的なプロジェクトの一環として、ハンブルクのエルブフィルハーモニーに関する実証研究が、flickrから「hamburg」というハッシュタグで3万の投稿で伝えられた。 画像検索手法は、エルブフィルハーモニーを表示する15万以上の画像のサブセットを生成する。 これらの投稿は、主に中立的あるいは肯定的な感情を伝えています。 このパイプラインでは,アーキテクチャ領域の専門家などエンドユーザの意見に新たな洞察を提供する,新たなビッグデータ分析手法を提案する。

People post their opinions and experiences on social media, yielding rich databases of end users' sentiments. This paper shows to what extent machine learning can analyze and structure these databases. An automated data analysis pipeline is deployed to provide insights into user-generated content for researchers in other domains. First, the domain expert can select an image and a term of interest. Then, the pipeline uses image retrieval to find all images showing similar contents and applies aspect-based sentiment analysis to outline users' opinions about the selected term. As part of an interdisciplinary project between architecture and computer science researchers, an empirical study of Hamburg's Elbphilharmonie was conveyed on 300 thousand posts from the platform Flickr with the hashtag 'hamburg'. Image retrieval methods generated a subset of slightly more than 1.5 thousand images displaying the Elbphilharmonie. We found that these posts mainly convey a neutral or positive sentiment towards it. With this pipeline, we suggest a new big data analysis method that offers new insights into end-users opinions, e.g., for architecture domain experts.
翻訳日:2022-10-28 12:17:52 公開日:2022-10-27
# 物理世界における等尺的3次元逆転例

Isometric 3D Adversarial Examples in the Physical World ( http://arxiv.org/abs/2210.15291v1 )

ライセンス: Link先を確認
Yibo Miao, Yinpeng Dong, Jun Zhu, Xiao-Shan Gao(参考訳) 3次元深層学習モデルは、2次元モデルと同じくらい敵の例に弱いことが示されている。 しかし、既存の攻撃方法はまだステルス状態にあり、物理的な世界では深刻な性能低下に苦しめられている。 3次元データは高度に構造化されているが、ユークリッド空間の単純な測度で摂動を束縛することは困難である。 本稿では,3次元物体の幾何学的性質と物理変換の不均一性を考慮して,自然かつ頑健な3次元逆例を生成する,新たな$\epsilon$-isometric ($\epsilon$-iso)攻撃を提案する。 自然性については、ガウス曲率を理論解析によって保証される代理計量として採用することにより、逆例を元のものに対して$\epsilon$-isometricに制限する。 物理的変換に対する不変性については,ランダム変換よりも最も有害な変換を積極的に探索し,生成した逆例を物理的な世界でより頑健なものにするmaxot(maxa over transformation)法を提案する。 典型的なポイントクラウド認識モデルを用いた実験により,本手法は最先端の攻撃手法よりも,生成した3次元攻撃例のアタック成功率と自然性が著しく向上することを確認した。

3D deep learning models are shown to be as vulnerable to adversarial examples as 2D models. However, existing attack methods are still far from stealthy and suffer from severe performance degradation in the physical world. Although 3D data is highly structured, it is difficult to bound the perturbations with simple metrics in the Euclidean space. In this paper, we propose a novel $\epsilon$-isometric ($\epsilon$-ISO) attack to generate natural and robust 3D adversarial examples in the physical world by considering the geometric properties of 3D objects and the invariance to physical transformations. For naturalness, we constrain the adversarial example to be $\epsilon$-isometric to the original one by adopting the Gaussian curvature as a surrogate metric guaranteed by a theoretical analysis. For invariance to physical transformations, we propose a maxima over transformation (MaxOT) method that actively searches for the most harmful transformations rather than random ones to make the generated adversarial example more robust in the physical world. Experiments on typical point cloud recognition models validate that our approach can significantly improve the attack success rate and naturalness of the generated 3D adversarial examples than the state-of-the-art attack methods.
翻訳日:2022-10-28 12:17:35 公開日:2022-10-27
# コントラストデコーディング:最適化としてのオープンエンドテキスト生成

Contrastive Decoding: Open-ended Text Generation as Optimization ( http://arxiv.org/abs/2210.15097v1 )

ライセンス: Link先を確認
Xiang Lisa Li, Ari Holtzman, Daniel Fried, Percy Liang, Jason Eisner, Tatsunori Hashimoto, Luke Zettlemoyer, Mike Lewis(参考訳) Likelihoodは、トレーニング損失として有用であるが、言語モデル(LM)からオープンエンドジェネレーションを導くための検索目標としては不十分である。 既存の生成アルゴリズムは、非一貫性の文字列と、短く反復的な文字列の両方を避ける必要がある。 我々は,大規模なLM(例えば,OPT-13b)と小さなLM(例えば,OPT-125m)との差を返却する,より信頼性の高い探索目的であるコントラストデコーディング(CD)を提案する。 CDは、より大きなLMの失敗がより小さいLMでさらに多いことや、この差がどのテキストを好むべきかを正確に示しているという事実に着想を得ている。 CDはゼロのトレーニングを必要とし、より大きなLMからの復号化よりも高品質なテキストを生成する。 また、モデルタイプ(OPTとGPT2)をまたいで一般化し、自動および人的評価において4つの強力な復号アルゴリズムを大幅に上回っている。

Likelihood, although useful as a training loss, is a poor search objective for guiding open-ended generation from language models (LMs). Existing generation algorithms must avoid both unlikely strings, which are incoherent, and highly likely ones, which are short and repetitive. We propose contrastive decoding (CD), a more reliable search objective that returns the difference between likelihood under a large LM (called the expert, e.g. OPT-13b) and a small LM (called the amateur, e.g. OPT-125m). CD is inspired by the fact that the failures of larger LMs are even more prevalent in smaller LMs, and that this difference signals exactly which texts should be preferred. CD requires zero training, and produces higher quality text than decoding from the larger LM alone. It also generalizes across model types (OPT and GPT2) and significantly outperforms four strong decoding algorithms in automatic and human evaluations.
翻訳日:2022-10-28 12:16:56 公開日:2022-10-27
# テキスト・画像生成モデルはいかに倫理的自然言語干渉を理解することができるか?

How well can Text-to-Image Generative Models understand Ethical Natural Language Interventions? ( http://arxiv.org/abs/2210.15230v1 )

ライセンス: Link先を確認
Hritik Bansal, Da Yin, Masoud Monajatipoor, Kai-Wei Chang(参考訳) テキストから画像への生成モデルは、自然言語記述に基づく高品質な画像の生成において、前例のない成功を収めた。 しかし、これらのモデルでは、中立的なテキスト記述(例えば「弁護士の写真」)によって特定の社会的グループを好む傾向がある。 Zhao et al. (2021) に続いて, インプットプロンプトにおいて, 公平な判断を支持する倫理的介入(例えば, 「すべての個人が, 性別によらず弁護士になれる」など)を加える際の, 生成画像の多様性への影響について検討した。 そこで本研究では,3つの社会軸(性別,肌の色,文化)にまたがる倫理的介入を条件とした画像世代変化を評価するために,テキスト・ツー・イメージ・ジェネレーション(ENTIGEN)ベンチマークデータセットを提案する。 ENIGENフレームワークを通じて,minDALL.E,DALL.E-mini,Stable Diffusionの各世代が,画像の品質を維持しながら多様な社会集団をカバーしていることがわかった。 予備研究は、モデル予測の大きな変化が、倫理的介入における性バイアスの文脈における「性別の無視」のような特定のフレーズによって引き起こされることを示している。 私たちはhttps://github.com/hritikbansal/entigen_emnlpでコードと注釈付きデータをリリースします。

Text-to-image generative models have achieved unprecedented success in generating high-quality images based on natural language descriptions. However, it is shown that these models tend to favor specific social groups when prompted with neutral text descriptions (e.g., 'a photo of a lawyer'). Following Zhao et al. (2021), we study the effect on the diversity of the generated images when adding ethical intervention that supports equitable judgment (e.g., 'if all individuals can be a lawyer irrespective of their gender') in the input prompts. To this end, we introduce an Ethical NaTural Language Interventions in Text-to-Image GENeration (ENTIGEN) benchmark dataset to evaluate the change in image generations conditional on ethical interventions across three social axes -- gender, skin color, and culture. Through ENTIGEN framework, we find that the generations from minDALL.E, DALL.E-mini and Stable Diffusion cover diverse social groups while preserving the image quality. Preliminary studies indicate that a large change in the model predictions is triggered by certain phrases such as 'irrespective of gender' in the context of gender bias in the ethical interventions. We release code and annotated data at https://github.com/Hritikbansal/entigen_emnlp.
翻訳日:2022-10-28 12:16:38 公開日:2022-10-27
# 言語モデルは再帰的にネストされた文法構造を扱えるか? モデルと人間の比較に関する事例研究

Can language models handle recursively nested grammatical structures? A case study on comparing models and humans ( http://arxiv.org/abs/2210.15303v1 )

ライセンス: Link先を確認
Andrew Kyle Lampinen(参考訳) 言語モデルと人間の能力を比較するには? ここでは,再帰的にネストした文法構造の処理というケーススタディについて考察する。 先行研究によると、言語モデルは、人間ができる限り確実にこれらの構造を処理できない。 しかし、人間は評価される前に指導と訓練を受け、言語モデルはゼロショットで評価された。 ですから私は,少ないプロンプトで言語モデルを提供することで,評価パラダイムをより密接に一致させようとしています。 簡単なプロンプトは、人間のトレーニングよりも内容がかなり少ないが、大きな言語モデルは人間の結果より一貫して優れている。 同じプロンプトは、ヒトでテストされたものよりも、より深い条件で外挿を許す。 さらに、以前のヒト実験の再分析では、ヒトは最初は難しい構造でそれ以上の確率で実行できないことが示唆されている。 これらの結果から, 大規模言語モデルでは, 帰納的にネストした文法構造を人間に相性よく処理できることが示唆された。 このケーススタディでは、実験固有の文脈における相違が、言語モデルと人間の比較にどのように影響するかを強調した。 このケーススタディは、人間とモデルの能力を比較するという幅広い課題を反映し、特定の現象の認知モデルの評価と広く訓練されたモデルの評価との間に重要な違いがあることを示唆するものです。

How should we compare the capabilities of language models and humans? Here, I consider a case study: processing of recursively nested grammatical structures. Prior work has suggested that language models cannot handle these structures as reliably as humans can. However, the humans were provided with instructions and training before being evaluated, while the language models were evaluated zero-shot. I therefore attempt to more closely match the evaluation paradigms by providing language models with few-shot prompts. A simple prompt, which contains substantially less content than the human training, allows large language models to consistently outperform the human results. The same prompt even allows extrapolation to more-deeply-nested conditions than have been tested in humans. Further, a reanalysis of the prior human experiments suggests that the humans may not perform above chance at the difficult structures initially. These results suggest that large language models can in fact process recursively nested grammatical structures comparably to humans. This case study highlights how discrepancies in the quantity of experiment-specific context can confound comparisons of language models and humans. I use this case study to reflect on the broader challenge of comparing human and model capabilities, and to suggest that there is an important difference between evaluating cognitive models of a specific phenomenon and evaluating broadly-trained models.
翻訳日:2022-10-28 12:16:17 公開日:2022-10-27
# GPUが100万時間あればトレーニングできる言語モデルは?

What Language Model to Train if You Have One Million GPU Hours? ( http://arxiv.org/abs/2210.15424v1 )

ライセンス: Link先を確認
Teven Le Scao, Thomas Wang, Daniel Hesslow, Lucile Saulnier, Stas Bekman, M Saiful Bari, Stella Bideman, Hady Elsahar, Niklas Muennighoff, Jason Phang, Ofir Press, Colin Raffel, Victor Sanh, Sheng Shen, Lintang Sutawika, Jaesung Tae, Zheng Xin Yong, Julien Launay, Iz Beltagy(参考訳) トランスフォーマーアーキテクチャ周辺のモデリング手法の結晶化は、実践者にとって朗報である。 シンプルでモチベーションのよいアーキテクチャのバリエーションは、タスクやスケールをまたいで移行し、モデリング研究の影響を増大させます。 しかし、最先端の100b+パラメータモデルの出現により、大規模な言語モデルの設計と訓練はますます高価になっている。 特筆すべきは、モデリングの意思決定が創発的な能力にどのように影響するかを評価するのが難しいことである。 BLOOM(Big Science Large Open-science Open- Access Multilingual Language Model)の構築プロセスにおいて、私たちのゴールは、アーキテクチャとトレーニングのセットアップを特定し、私たちの1000,000 A100-GPU-hours予算を最大限に活用することにあります。 具体的には,異なるモデリング手法とゼロショット一般化への影響を比較した10億パラメータスケールでのアブレーション研究を行う。 さらに, 各種事前学習コーパスがゼロショット一般化に及ぼす影響について検討した。 また、多言語モデルの性能と、英語のみとの比較についても検討する。 最後に、トランスフォーマーのスケーリング挙動を検討し、ターゲットモデルのサイズ、形状、トレーニング設定を選択する。 すべてのモデルとコードはhttps://huggingface.co/bigscience でオープンソース化されています。

The crystallization of modeling methods around the Transformer architecture has been a boon for practitioners. Simple, well-motivated architectural variations can transfer across tasks and scale, increasing the impact of modeling research. However, with the emergence of state-of-the-art 100B+ parameters models, large language models are increasingly expensive to accurately design and train. Notably, it can be difficult to evaluate how modeling decisions may impact emergent capabilities, given that these capabilities arise mainly from sheer scale alone. In the process of building BLOOM--the Big Science Large Open-science Open-access Multilingual language model--our goal is to identify an architecture and training setup that makes the best use of our 1,000,000 A100-GPU-hours budget. Specifically, we perform an ablation study at the billion-parameter scale comparing different modeling practices and their impact on zero-shot generalization. In addition, we study the impact of various popular pre-training corpora on zero-shot generalization. We also study the performance of a multilingual model and how it compares to the English-only one. Finally, we consider the scaling behaviour of Transformers to choose the target model size, shape, and training setup. All our models and code are open-sourced at https://huggingface.co/bigscience .
翻訳日:2022-10-28 12:15:55 公開日:2022-10-27
# エネルギーベース再ランキングによる抽象要約の改善

Improving abstractive summarization with energy-based re-ranking ( http://arxiv.org/abs/2210.15553v1 )

ライセンス: Link先を確認
Diogo Pernes, Afonso Mendes, Andr\'e F.T. Martins(参考訳) 現在の抽象的な要約システムは、関連する情報の排除や事実的矛盾(幻覚)の発生など、現実世界のアプリケーションへの展開を妨げる重要な弱点を提示している。 同時に,CTCスコアなどの自動評価指標も提案されており,ROUGEなどの従来の語彙オーバーラップ指標よりも人間の判断と高い相関性を示している。 本研究では,要約メトリクスの最近の進歩を活用して,品質を意識した要約要約を作成することで,ループを閉鎖する。 すなわち、これらの指標の1つまたは1つの組み合わせに従って要約を並べ替えることを学ぶエネルギーベースモデルを提案する。 我々は、エネルギーベースのリランカのトレーニングにいくつかの指標を用いて実験を行い、予測されたサマリーによって達成されるスコアを一貫して改善することを示す。 それにもかかわらず、人間評価の結果は、利用可能なメトリクスがこの目的に十分信頼できないため、高度に抽象的な要約に注意して再ランク付けアプローチを使用するべきであることを示している。

Current abstractive summarization systems present important weaknesses which prevent their deployment in real-world applications, such as the omission of relevant information and the generation of factual inconsistencies (also known as hallucinations). At the same time, automatic evaluation metrics such as CTC scores have been recently proposed that exhibit a higher correlation with human judgments than traditional lexical-overlap metrics such as ROUGE. In this work, we intend to close the loop by leveraging the recent advances in summarization metrics to create quality-aware abstractive summarizers. Namely, we propose an energy-based model that learns to re-rank summaries according to one or a combination of these metrics. We experiment using several metrics to train our energy-based re-ranker and show that it consistently improves the scores achieved by the predicted summaries. Nonetheless, human evaluation results show that the re-ranking approach should be used with care for highly abstractive summaries, as the available metrics are not yet sufficiently reliable for this purpose.
翻訳日:2022-10-28 12:15:34 公開日:2022-10-27
# LAD:強化学習のための言語拡張拡散

LAD: Language Augmented Diffusion for Reinforcement Learning ( http://arxiv.org/abs/2210.15629v1 )

ライセンス: Link先を確認
Edwin Zhang, Yujie Lu, William Wang, Amy Zhang(参考訳) 言語からスキルを学ぶことは強化学習の一般化に強力な道を開くが、言語、行動、状態の間の複雑な相互依存性をエージェントが捉える必要があるため、依然として困難な課題である。 本稿では,lad(planner conditioned on language)として言語拡張拡散モデルを活用することを提案する。 我々は,ロボット工学に特化した帰納的バイアスを含まず,平均成功率 (sr) を76%と比較した場合,ladとcalvin language robotics benchmarkの最先端のパフォーマンスを比較検討した。 また,強化学習における言語条件付き拡散の特性の解析を行った。

Learning skills from language provides a powerful avenue for generalization in reinforcement learning, although it remains a challenging task as it requires agents to capture the complex interdependencies between language, actions, and states. In this paper, we propose leveraging Language Augmented Diffusion models as a planner conditioned on language (LAD). We demonstrate the comparable performance of LAD with the state-of-the-art on the CALVIN language robotics benchmark with a much simpler architecture that contains no inductive biases specialized to robotics, achieving an average success rate (SR) of 72% compared to the best performance of 76%. We also conduct an analysis on the properties of language conditioned diffusion in reinforcement learning.
翻訳日:2022-10-28 12:15:18 公開日:2022-10-27
# バックプロパゲーションによる離散非巡回グラフの学習

Learning Discrete Directed Acyclic Graphs via Backpropagation ( http://arxiv.org/abs/2210.15353v1 )

ライセンス: Link先を確認
Andrew J. Wren, Pasquale Minervini, Luca Franceschi and Valentina Zantedeschi(参考訳) 近年、組合せ最適化の代わりにバックプロパゲーションによりデータからDAG(Directed Acyclic Graphs)を学習するために連続緩和法が提案されている。 しかし、完全な離散的なバックプロパゲーションのための多くの技術を適用することができた。 本稿では,DAGを離散バックプロパゲーションにより学習するフレームワークであるDAG-DBを提案する。 Implicit Maximum Likelihood Estimation [I-MLE, arXiv:2106.01798] のアーキテクチャに基づいて、DAG-DBはこの問題に対する確率的アプローチを採用し、暗黙の確率分布から二項隣接行列をサンプリングする。 DAG-DBは、各サンプルから得られた損失から分布のパラメータを学習し、完全に離散的な2つのバックプロパゲーション手法、すなわちI-MLEとStraight-Through Estimationを用いて競合的に実行する。

Recently continuous relaxations have been proposed in order to learn Directed Acyclic Graphs (DAGs) from data by backpropagation, instead of using combinatorial optimization. However, a number of techniques for fully discrete backpropagation could instead be applied. In this paper, we explore that direction and propose DAG-DB, a framework for learning DAGs by Discrete Backpropagation. Based on the architecture of Implicit Maximum Likelihood Estimation [I-MLE, arXiv:2106.01798], DAG-DB adopts a probabilistic approach to the problem, sampling binary adjacency matrices from an implicit probability distribution. DAG-DB learns a parameter for the distribution from the loss incurred by each sample, performing competitively using either of two fully discrete backpropagation techniques, namely I-MLE and Straight-Through Estimation.
翻訳日:2022-10-28 12:15:04 公開日:2022-10-27