このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221029となっている論文です。

PDF登録状況(公開日: 20221029)

TitleAuthorsAbstract論文公表日・翻訳日
# 高精度アストロメトリーのための2光子振幅干渉計

Two-photon amplitude interferometry for precision astrometry ( http://arxiv.org/abs/2010.09100v6 )

ライセンス: Link先を確認
Paul Stankus, Andrei Nomerotski, An\v{z}e Slosar, Stephen Vintskevich(参考訳) 天体からの光子の量子センシングの改善は、一般相対性理論、ダークマター研究、宇宙論など多くの分野の恩恵を受ける光学における高分解能の観測をもたらす可能性がある。 光干渉計のステーションは、代わりに量子力学的に絡み合ったペアの源を提供することができれば、位相安定な光リンクを必要としないことが近年提案されている。 異なるソースからの2つの光子を2つの分離された分離されたステーションで干渉し、それらの間の古典的な情報リンクを遅くする。 観測可能量を厳密に計算し、この新しい干渉法をハンベリー・ブラウン・アンド・twiss強度干渉法と対比する。 この手法は、2つの光源の相対的アストロメトリーの高精度測定を可能にする可能性がある。 基本的な計算では、相対開口角が10$~マイクロ秒の角度での角精度は、2つの明るい恒星の1晩の観測で達成できる。

Improved quantum sensing of photons from astronomical objects could provide high resolution observations in the optical benefiting numerous fields, including general relativity, dark matter studies, and cosmology. It has been recently proposed that stations in optical interferometers would not require a phase-stable optical link if instead sources of quantum-mechanically entangled pairs could be provided to them, potentially enabling hitherto prohibitively long baselines. A new refinement of this idea is developed, in which two photons from different sources are interfered at two separate and decoupled stations, requiring only a slow classical information link between them. We rigorously calculate the observables and contrast this new interferometric technique with the Hanbury Brown & Twiss intensity interferometry. We argue this technique could allow robust high-precision measurements of the relative astrometry of the two sources. A basic calculation suggests that angular precision on the order of $10$~microarcsecond in the relative opening angle could be achieved in a single night's observation of two bright stars.
翻訳日:2023-04-28 17:51:03 公開日:2022-10-29
# 超伝導共振器の誘電損失のモデル化:nb/酸化物界面における原子2レベル系の相互作用の証拠

Modelling dielectric loss in superconducting resonators: Evidence for interacting atomic two-level systems at the Nb/oxide interface ( http://arxiv.org/abs/2203.05054v3 )

ライセンス: Link先を確認
N. Gorgichuk, T. Junginger, R. de Sousa(参考訳) アモルファス表面や界面の2レベルシステム(TLS)欠陥が超伝導共振器や量子ビットのエネルギー緩和の原因であると主張する実験もあるが、従来の非相互作用TLSモデルではそのデータの定量的な説明はできない。 そこで, 対話型TLS損失接点と非対話型TLS損失接点を補間するモデルを提案し, 実験データの数値解析を行い, TLSパラメータとその分布に関する情報を抽出する。 原理の証明として、モデルは内部に1つの損失物質、ニオブ/酸化ニオブ界面を含むTESLAキャビティに適用される。 最適適合性は、薄い(5nm)および厚い(100nm)酸化物の電気双極子モーメントの鋭いモーメントと相互作用するTLSを示し、TLSは「ガラス」ではなく「原子」であることを示している。 提案手法は, 共振器および量子ビットのエネルギー損失の原因となるTLSの性質を明らかにすることを目的として, 複数の材料界面と基板を持つ他のデバイスに適用することができる。

While several experiments claim that two-level system (TLS) defects in amorphous surfaces/interfaces are responsible for energy relaxation in superconducting resonators and qubits, none can provide quantitative explanation of their data in terms of the conventional noninteracting TLS model. Here a model that interpolates between the interacting and noninteracting TLS loss tangent is proposed to perform numerical analysis of experimental data and extract information about TLS parameters and their distribution. As a proof of principle, the model is applied to TESLA cavities that contain only a single lossy material in their interior, the niobium/niobium oxide interface. The best fits show interacting TLSs with a sharp modulus of electric dipole moment for both thin (5 nm) and thick (100 nm) oxides, indicating that the TLSs are "atomic" instead of "glassy". The proposed method can be applied to other devices with multiple material interfaces and substrates, with the goal of elucidating the nature of TLSs causing energy loss in resonators and qubits.
翻訳日:2023-02-22 19:16:53 公開日:2022-10-29
# DMI-St.のデジタルリテラシーと読書習慣 ユージーン大学学生

Digital Literacy and Reading Habits of The DMI-St. Eugene University Students ( http://arxiv.org/abs/2211.05831v1 )

ライセンス: Link先を確認
Subaveerapandiyan A, Priyanka Sinha(参考訳) デジタルリテラシーとは、デジタル技術を用いて情報を見つけ、評価し、消費し、生成する技術である。 本研究は,大学生のデジタル読書の習慣とスキルを理解することを試みた。 また、物理的な資料やデジタル資料を含む、生徒のお気に入りの読書資料を垣間見ることもできる。 DMI-StのBScとBEコンピュータサイエンスの学生について検討した。 ザンビアのユージーン大学出身。 このツールは構造化されたアンケートで、WhatsApp経由で配布された。 調査の結果、ほとんどの学生はデジタルツールや使い方を十分に理解しているが、ウェブサイトやポートフォリオを構築するスキルが不足していることが判明した。 学生115人のうち、全員がコンピュータを学習目的に使ったことに同意した。 一般的にデジタル環境の使用は、情報検索にWorld Wide Webを使用していた。 さらに、ほとんどの学生は電子書籍を読むことを好むにもかかわらず、中級のデジタル応用技術を持っている。 その結果,学生の性別や教育水準は,デジタルリテラシーと統計的に有意な関係を示したが,年齢は統計的に関連した予測因子ではなかった。 その結果,教育,特に読書の面では,学生や読者の最優先事項は電子的資源であり,印刷書籍の嗜好は減少していることがわかった。

Digital literacy is the skill of finding, evaluating, consuming, and generating information using digital technologies. The study attempted to comprehend university students' digital reading habits and skills. It also provides a glimpse of the pupils' favorite reading materials, including physical and digital sources. We examined BSc and BE Computer Science students of DMI-St. Eugene University, Zambia. The tool was a structured questionnaire that was distributed through WhatsApp. The study's findings revealed that most students thoroughly understand digital tools and how to use them but lack the skills to build their websites and portfolio. Out of 115 students, all agreed they used computers for learning purposes. Usage of digital environments, generally, they used the World Wide Web for searching for information. Additionally, most students have medium digital application skills, despite their preference for reading electronic books. The results indicate that students' gender and level of education had a statistically significant link with their digital literacy, whereas age wasn't shown to be a statistically relevant predictor. The findings show that, in terms of education, especially reading, students' or readers' top priorities are electronic resources; print book preferences are reduced.
翻訳日:2023-02-19 12:20:55 公開日:2022-10-29
# コンピューティングにおけるジェンダーバイアス

Gender Bias in Computing ( http://arxiv.org/abs/2210.16449v1 )

ライセンス: Link先を確認
Thomas J. Misa(参考訳) 本稿では,アメリカの計算労働力におけるジェンダーバイアスの歴史的次元について検討する。 1970年代の国勢調査データが登場する前に、コンピューティングの労働力に関する新しい量的データを提供する。 コンピュータユーザグループ(SHARE, Inc. や Mark IV ソフトウェアユーザグループを含む)は、コンピュータ労働者のクロスセクションとして扱われる。 1950年代以降の計算における男女の参加を推定するために, ジェンダー分析の新しい手法が開発された。 このデータは、1965-1985年の女子学生の増加をコンピュータサイエンスの学部生プログラムに示す有名なNSF統計と一致している。 これらの発見は「プログラミングの男性」の論文に挑戦し、初期のコンピュータプログラミングに女性の参加にしばしば言及される非現実的に高い数値を正すのに役立つ。 今日のコンピューティングにおけるジェンダーバイアスは、1960年代の専門化ではなく、1980年代以降の文化的変化にさかのぼる。

This paper examines the historical dimension of gender bias in the US computing workforce. It offers new quantitative data on the computing workforce prior to the availability of US Census data in the 1970s. Computer user groups (including SHARE, Inc., and the Mark IV software user group) are taken as a cross-section of the computing workforce. A novel method of gender analysis is developed to estimate women's and men's participation in computing beginning in the 1950s. The data presented here are consistent with well-known NSF statistics that show computer science undergraduate programs enrolling increasing numbers of women students during 1965-1985. These findings challenge the 'making programming masculine' thesis, and serve to correct the unrealistically high figures often cited for women's participation in early computer programming. Gender bias in computing today is traced not to 1960s professionalization but to cultural changes in the 1980s and beyond.
翻訳日:2023-02-19 12:07:09 公開日:2022-10-29
# デジタル経済とWeb3.0: アプリケーションと課題

When Digital Economy Meets Web3.0: Applications and Challenges ( http://arxiv.org/abs/2210.08993v3 )

ライセンス: Link先を確認
Chuan Chen, Lei Zhang, Yihao Li, Tianchi Liao, Siran Zhao, Zibin Zheng, Huawei Huang, Jiajing Wu(参考訳) web 技術の継続的な発展により,web 3.0 はそのユニークな分散特性から,かなりの注目を集めている。 デジタル経済は高品質な経済発展の重要な原動力であり、現在急速な発展段階にある。 デジタル経済のシナリオでは、インターネットの中央集権的な性質やその他の特徴は、通常、侵害やプライバシーの漏えいなどのセキュリティ問題を引き起こす。 したがって、デジタル経済とweb3.0の重要技術を完全に探求し、デジタル経済の発展において生じる問題点を解決するために、web3.0技術をどのように利用するかを検討する必要がある。 本稿では,Web3.0の最近の進歩を機械学習,ファイナンス,データ管理で検証することにより,デジタル経済と統合されるべき Web3.0 の側面について論じる。 この研究は、学術と産業の両方に関わる人たちを刺激し、デジタル経済のための好適なエコロジーの構築に役立てることを願っている。

With the continuous development of web technology, Web3.0 has attracted a considerable amount of attention due to its unique decentralized characteristics. The digital economy is an important driver of high-quality economic development and is currently in a rapid development stage. In the digital economy scenario, the centralized nature of the Internet and other characteristics usually bring about security issues such as infringement and privacy leakage. Therefore, it is necessary to investigate how to use Web3.0 technologies to solve the pain points encountered in the development of the digital economy by fully exploring the critical technologies of digital economy and Web3.0. In this paper, we discuss the aspects of Web3.0 that should be integrated with the digital economy to better find the entry point to solve the problems by examining the latest advances of Web3.0 in machine learning, finance, and data management. We hope this research will inspire those who are involved in both academia and industry, and finally help to build a favourable ecology for the digital economy.
翻訳日:2023-02-19 11:48:20 公開日:2022-10-29
# 3つの量子マネースキームのクリプトアナリシス

Cryptanalysis of Three Quantum Money Schemes ( http://arxiv.org/abs/2205.10488v2 )

ライセンス: Link先を確認
Andriyan Bilyk and Javad Doliskani and Zhiyong Gong(参考訳) 3つの公開鍵量子マネースキームのセキュリティ仮定について検討する。 アーロンソンとクリスティアンは2012年にベクトル空間 $\mathbb{F}_2^n$ の隠れ部分空間に基づくスキームを提案した。 2015年にペナらは、このスキームの根底にある難しい問題を準多項式時間で解くことができると推測した。 多項式時間量子アルゴリズムを基礎問題に適用することにより、この予想を裏付ける。 アルゴリズムは隠れ部分空間内のランダム点のザリスキ接空間を計算することに基づいている。 zhandryは2017年に多変量ハッシュ関数に基づくスキームを提案した。 確率の高い貨幣状態をクローンするための多項式時間量子アルゴリズムを与える。 本アルゴリズムは,提案方式の検証回路を用いて,与えられたシリアル番号から紙幣を生成する。 ケーン、シャリフ、シルバーバーグは2021年に四元環に基づくスキームを提案した。 彼らのスキームの根底にある問題は、ヘッケ作用素の集合の固有ベクトルを表す量子状態のクローンである。 この難しい問題から線形代数問題への多項式時間量子還元を与える。 後者の問題は理解しやすく、我々の削減が、このスキームの将来の暗号解読への新しい道を開くことを期待している。

We investigate the security assumptions behind three public-key quantum money schemes. Aaronson and Christiano proposed a scheme based on hidden subspaces of the vector space $\mathbb{F}_2^n$ in 2012. It was conjectured by Pena et al in 2015 that the hard problem underlying the scheme can be solved in quasi-polynomial time. We confirm this conjecture by giving a polynomial time quantum algorithm for the underlying problem. Our algorithm is based on computing the Zariski tangent space of a random point in the hidden subspace. Zhandry proposed a scheme based on multivariate hash functions in 2017. We give a polynomial time quantum algorithm for cloning a money state with high probability. Our algorithm uses the verification circuit of the scheme to produce a banknote from a given serial number. Kane, Sharif and Silverberg proposed a scheme based on quaternion algebras in 2021. The underlying hard problem in their scheme is cloning a quantum state that represents an eigenvector of a set of Hecke operators. We give a polynomial time quantum reduction from this hard problem to a linear algebra problem. The latter problem is much easier to understand, and we hope that our reduction opens new avenues to future cryptanalyses of this scheme.
翻訳日:2023-02-12 05:33:50 公開日:2022-10-29
# 有限温度テンソルネットワークによる無限正方格子上のハバード模型の研究

Finite temperature tensor network study of the Hubbard model on an infinite square lattice ( http://arxiv.org/abs/2209.00985v2 )

ライセンス: Link先を確認
Aritra Sinha, Marek M. Rams, Piotr Czarnik, and Jacek Dziarmaga(参考訳) ハバードモデルは強い相関電子の理論における長年の問題であり、超低温フェルミオン原子の実験において非常に活発な問題である。 現在および将来の量子シミュレーションに動機づけられ、熱力学的極限で直接働く近傍テンソル更新アルゴリズムによって仮想時間に進化した無限に投影された絡み合ったペア状態である2次元テンソルネットワークを適用する。 u(1)xu(1)対称性と29までの結合次元では、ホッピング速度の0.17倍の温度まで熱状態を生成する。 境界効果の影響を受けないスピン・電荷相関器の結果を得た。 スピンコリエーターは、熱力学的限界に接近しようとする超低温原子の実験で測定可能であり、わずかにドープされたハバード模型における移動孔による反強磁性背景の破壊の証拠を提供する。 電荷相関器は、半分の充填付近にホール-ダブルロン対の存在とドーピングにおけるホール-ホール反発のサインを明らかにする。 我々はまた、わずかにドープされた状態でも特定の熱を得る。

The Hubbard model is a longstanding problem in the theory of strongly correlated electrons and a very active one in the experiments with ultracold fermionic atoms. Motivated by current and prospective quantum simulations, we apply a two-dimensional tensor network, an infinite projected entangled pair state, evolved in imaginary time by the neighborhood tensor update algorithm working directly in the thermodynamic limit. With U(1)xU(1) symmetry and the bond dimensions up to 29, we generate thermal states down to the temperature of 0.17 times the hopping rate. We obtain results for spin and charge correlators, unaffected by boundary effects. The spin correlators, measurable in prospective ultracold atoms experiments attempting to approach the thermodynamic limit, provide evidence of disruption of the antiferromagnetic background with mobile holes in a slightly doped Hubbard model. The charge correlators reveal the presence of hole-doublon pairs near half filling and signatures of hole-hole repulsion on doping. We also obtain specific heat in the slightly doped regime.
翻訳日:2023-02-04 12:44:27 公開日:2022-10-29
# ボース・アインシュタイン凝縮体の励起状態発見への制約された穏やかな昇華ダイナミクスとその応用

A constrained gentlest ascent dynamics and its applications to finding excited states of Bose-Einstein condensates ( http://arxiv.org/abs/2209.04684v2 )

ライセンス: Link先を確認
Wei Liu, Ziqing Xie, Yongjun Yuan(参考訳) 本稿では,[W.E, X. Zhou, linearity, 24 (2011), pp. 1831--1842] で発達した緩やかな昇華ダイナミクス (GAD) を制約された緩やかな昇華ダイナミクス (CGAD) に拡張し,任意のモルス指数で制約されたサドル点を求める。 提案した CGAD の線形安定状態は、正確にはモース指数を持つ非退化制約サドル点であることが証明された。 一方、理想化されたCGADの対応する指標を持つ非退化制約サドル点付近での局所指数収束も検証される。 CGADは、正規化制約の下で機能するグロス-ピタエフスキーエネルギー関数の制約されたサドル点の計算を通して、モース指数の順序で単成分ボース-アインシュタイン凝縮(BECs)の励起状態を求めるために適用される。 さらに、線形/非線形の場合におけるBECの励起状態の性質を数学的・数値的に研究する。 その結果,本手法の有効性とロバスト性を示し,いくつかの興味深い物理結果が得られた。

In this paper, the gentlest ascent dynamics (GAD) developed in [W. E and X. Zhou, Nonlinearity, 24 (2011), pp. 1831--1842] is extended to a constrained gentlest ascent dynamics (CGAD) to find constrained saddle points with any specified Morse indices. It is proved that the linearly stable steady state of the proposed CGAD is exactly a nondegenerate constrained saddle point with a corresponding Morse index. Meanwhile, the locally exponential convergence of an idealized CGAD near nondegenerate constrained saddle points with corresponding indices is also verified. The CGAD is then applied to find excited states of single-component Bose--Einstein condensates (BECs) in the order of their Morse indices via computing constrained saddle points of the corresponding Gross--Pitaevskii energy functional under the normalization constraint. In addition, properties of the excited states of BECs in the linear/nonlinear cases are mathematically/numerically studied. Extensive numerical results are reported to show the effectiveness and robustness of our method and demonstrate some interesting physics.
翻訳日:2023-01-27 02:54:53 公開日:2022-10-29
# 超低温原子を用いた分数量子ホール状態の実現

Realization of a fractional quantum Hall state with ultracold atoms ( http://arxiv.org/abs/2210.10919v2 )

ライセンス: Link先を確認
Julian L\'eonard, Sooshin Kim, Joyce Kwan, Perrin Segura, Fabian Grusdt, C\'ecile Repellin, Nathan Goldman, and Markus Greiner(参考訳) 強く相互作用するトポロジカルな物質は、量子情報技術における潜在的な応用と根本的に新しい現象を示す。 エンブレマティックな例は分数量子ホール状態であり、磁場と強い相互作用の相互作用は分数荷電準粒子、長距離の絡み合い、およびアノニオン交換統計をもたらす。 工学的な合成磁場の進歩は、制御量子系においてこれらのエキゾチックな状態を作り出すことを期待している。 しかし、最近のラーリン状態を除くと、工学系における分数量子ホール状態の作成はいまだに解明されていない。 ここでは、光学格子中の超低温原子を持つ分数量子ホール(FQH)状態を実現する。 この状態は16箇所に2つの粒子を持つボソニックの$\nu=1/2$ laughlin状態の格子型である。 この最小限のシステムは、既にラウリン型FQH状態の多くの特徴を捉えている: 2体相互作用の抑制を観察し、密度相関に特徴的な渦構造を発見し、磁気摂動に対するバルク応答により、$\sigma_\text{H}/\sigma_0= 0.6(2)$の分数的ホール伝導度を測定する。 さらに、磁場をチューニングすることにより、多体ギャップの分光プローブを通して、通常のFQH状態とFQH状態の遷移点をマッピングする。 本研究は超低温原子を用いた高度に絡み合ったトポロジー物質の探索の出発点となる。

Strongly interacting topological matter exhibits fundamentally new phenomena with potential applications in quantum information technology. Emblematic instances are fractional quantum Hall states, where the interplay of magnetic fields and strong interactions gives rise to fractionally charged quasi-particles, long-ranged entanglement, and anyonic exchange statistics. Progress in engineering synthetic magnetic fields has raised the hope to create these exotic states in controlled quantum systems. However, except for a recent Laughlin state of light, preparing fractional quantum Hall states in engineered systems remains elusive. Here, we realize a fractional quantum Hall (FQH) state with ultracold atoms in an optical lattice. The state is a lattice version of a bosonic $\nu=1/2$ Laughlin state with two particles on sixteen sites. This minimal system already captures many hallmark features of Laughlin-type FQH states: we observe a suppression of two-body interactions, we find a distinctive vortex structure in the density correlations, and we measure a fractional Hall conductivity of $\sigma_\text{H}/\sigma_0= 0.6(2)$ via the bulk response to a magnetic perturbation. Furthermore, by tuning the magnetic field we map out the transition point between the normal and the FQH regime through a spectroscopic probe of the many-body gap. Our work provides a starting point for exploring highly entangled topological matter with ultracold atoms.
翻訳日:2023-01-22 01:28:29 公開日:2022-10-29
# 連続可変量子バッテリにおけるマルチモードアドバンテージ

Multimode advantage in continuous variable quantum battery ( http://arxiv.org/abs/2210.16528v1 )

ライセンス: Link先を確認
Tanoy Kanti Konar, Ayan Patra, Rivu Gupta, Srijon Ghosh, Aditi Sen De(参考訳) 連続可変(CV)システムの枠組みに基づくマルチモード量子電池(QB)のアーキテクチャを提供する。 電池の性能をマルチモード初期状態のジェネリッククラスを用いて検証し,パラメータを調整して分離可能および絡み合った状態を生成し,ガウスのユニタリ操作により局所的にもグローバル的にも充電できることを示す。 解析計算により、エネルギー変化の2番目の瞬間として、相分離状態が2モードおよび3モード電池の絡み合った状態と等しく有利であることが示された。 任意の数のモードからなる安定な量子電池を生成するために、エネルギーゆらぎのコンパクトな解析形式を導出し、マルチモード分離可能なガウス初期状態において、モード数の増加に伴ってゆらぎが減少することを証明することにより、スケーリング解析を得る。 さらに, 帯電器としての局所変位は, スクイーズするユニタリ動作よりもエネルギーの変動を最小限に抑える方がよいことを示した。

We provide an architecture for a multimode quantum battery (QB) based on the framework of continuous variable (CV) systems. We examine the performance of the battery by using a generic class of multimode initial states whose parameters can be tuned to produce separable as well as entangled states and that can be charged locally as well as globally by Gaussian unitary operations. Analytical calculations show that a separable state is equally advantageous as an entangled one for two- and three-mode batteries when taking the figures of merit as the second moments of the change in energy. In order to produce a stable quantum battery consisting of an arbitrary number of modes, we derive compact analytical forms of the energy fluctuations and prove that for a multimode separable Gaussian initial state, fluctuations decrease as the number of modes increases, thereby obtaining a scaling analysis. Moreover, we demonstrate that local displacement as a charger is better to minimize the fluctuations in energy than that involving the squeezing unitary operation.
翻訳日:2023-01-21 03:08:24 公開日:2022-10-29
# ViSNet:分子動力学シミュレーションのためのスケーラブルで正確な幾何学的深層学習ポテンシャル

ViSNet: a scalable and accurate geometric deep learning potential for molecular dynamics simulation ( http://arxiv.org/abs/2210.16518v1 )

ライセンス: Link先を確認
Yusong Wang, Shaoning Li, Xinheng He, Mingyu Li, Zun Wang, Nanning Zheng, Bin Shao, Tong Wang and Tie-Yan Liu(参考訳) 幾何学的深層学習は10年以上にわたって分子動力学シミュレーションの分野に革命をもたらした。 最先端のニューラルネットワークモデルはエネルギーと力の予測の開始精度に近づいているが、幾何情報の不十分な利用と高い計算コストは、分子動力学シミュレーションにおけるそれらの応用を妨げる。 本稿では,計算コストの低い方向情報を十分に活用する,visnetと呼ばれる深層学習ポテンシャルを提案する。 ViSNetはMD17の分子の最先端のアプローチと改訂されたMD17データセットを上回り、QM9上の12の量子特性のうち11の最良の予測スコアを達成している。 さらに、ViSNetは数百の原子を含むタンパク質分子にスケールでき、分子セグメンテーションなしで初期精度に達する。 一連の評価とケーススタディを通じて、ViSNetは構造空間を効率的に探索し、幾何学的表現を分子構造にマッピングするための合理的な解釈性を提供する。

Geometric deep learning has been revolutionizing the molecular dynamics simulation field over a decade. Although the state-of-the-art neural network models are approaching ab initio accuracy for energy and force prediction, insufficient utilization of geometric information and high computational costs hinder their applications in molecular dynamics simulations. Here we propose a deep learning potential, called ViSNet that sufficiently exploits directional information with low computational costs. ViSNet outperforms the state-of-the-art approaches on the molecules in the MD17 and revised MD17 datasets and achieves the best prediction scores for 11 of 12 quantum properties on QM9. Furthermore, ViSNet can scale to protein molecules containing hundreds of atoms and reach to ab initio accuracy without molecular segmentation. Through a series of evaluations and case studies, ViSNet can efficiently explore the conformational space and provide reasonable interpretability to map geometric representations to molecular structures.
翻訳日:2023-01-21 03:08:05 公開日:2022-10-29
# モーダル空間重なりを用いたバイフォトン工学

Biphoton engineering using modal spatial overlap on-chip ( http://arxiv.org/abs/2210.16505v1 )

ライセンス: Link先を確認
Xiangyan Ding, Jing Ma, Liying Tan, Amr S. Helmy, and Dongpeng Kang(参考訳) 自発的パラメトリックダウン変換によって生成される光子対は、双光子状態の品質が性能に不可欠である光量子情報処理に不可欠である。 バイフォトン波動関数(BWF)をオンチップで設計するために、ポンプエンベロープ関数と位相整合関数は一般に調整されるが、モード場オーバーラップは周波数範囲における定数と見なされている。 本研究では,結合導波路系におけるモード結合を利用して,双光子工学における新しい自由度としてモード場重なりを探求する。 本報告では, 偏光絡み合った光子のオンチップ世代と, 遮蔽された単一光子の設計例について述べる。 この戦略は異なる材料や構造の導波路に適用することができ、フォトニック量子状態工学の新しい可能性を提供する。

Photon pairs generated by spontaneous parametric down-conversion are essential for optical quantum information processing, in which the quality of biphoton states is crucial for the performance. To engineer the biphoton wavefunction (BWF) on-chip, the pump envelope function and the phase matching function are commonly adjusted, while the modal field overlap has been considered as a constant in the frequency range of interest. In this work, by utilizing modal coupling in a system of coupled waveguides, we explore the modal field overlap as a new degree of freedom for biphoton engineering. We provide design examples for on-chip generations of polarization entangled photons and heralded single photons, respectively. This strategy can be applied to waveguides of different materials and structures, offering new possibilities for photonic quantum state engineering.
翻訳日:2023-01-21 03:07:05 公開日:2022-10-29
# 香港-ウー-マンデル干渉実験における絡み合った2光子吸収効果のスペクトル的考察

Spectral considerations of Entangled two-photon absorption effects in Hong-Ou-Mandel interference experiments ( http://arxiv.org/abs/2210.16500v1 )

ライセンス: Link先を確認
Freiman Triana-Arango, Gabriel Ramos-Ortiz, and Roberto Ram\'irez-Alarc\'on(参考訳) 近年, 様々な材料における絡み合った2光子吸収(ETPA)現象を検出するための実験方法が報告されている。 本研究は,Hong-Ou-Mandelインターフェログラム(HOM)の可視性の変化に基づいて,ETPAプロセスの異なるアプローチについて検討する。 Rhodamine Bの有機溶液を自然パラメトリックダウン変換(SPDC)タイプ-IIで生成した800nm領域の絡み合った光子と相互作用する非線形物質のモデルとして使用することにより、ETPA上のHOM干渉計の可視性の変化を検出できる条件について検討した。 本研究は, ETPAのエネルギー保存条件を満たすスペクトルフィルタリング機能として, 実験結果の良好な説明を可能にするモデルを提案することによって, 実験結果の議論を支援する。 この研究は、超感度量子干渉法とプロセスの詳細な数学的モデルを用いて、ETPA相互作用を研究するための新しい視点を表していると信じている。

Recently, different experimental methods intended to detect the entangled two-photon absorption (ETPA) phenomenon in a variety of materials have been reported. The present work explores a different approach on which the ETPA process is studied based on the changes induced in the visibility of a Hong-Ou-Mandel (HOM) interferogram. By using an organic solution of Rhodamine B as a model of nonlinear material interacting with entangled photons at 800 nm region produced by spontaneous parametric down conversion (SPDC) Type-II, the conditions that make possible to detect changes in the visibility of a HOM interferogram upon ETPA are investigated. We support the discussion of our results by presenting a model in which the sample is considered as a spectral filtering function which fulfills the energy conservation conditions required by ETPA, allowing to explain the experimental observations with good agreement. We believe that this work represents a new perspective to studying the ETPA interaction, by using an ultra-sensitive quantum interference technique and a detailed mathematical model of the process.
翻訳日:2023-01-21 03:06:51 公開日:2022-10-29
# Ib型ダイヤモンドの注入による近地窒素空孔中心アンサンブルの創製について

On the creation of near-surface nitrogen-vacancy centre ensembles by implantation of type Ib diamond ( http://arxiv.org/abs/2210.16469v1 )

ライセンス: Link先を確認
A. J. Healey, S. C. Scholten, A. Nadarajah, P. Singh, N. Dontschuk, L. C. L. Hollenberg, D. A. Simpson, J.-P. Tetienne(参考訳) ダイヤモンド中の窒素空白(nv)中心の密度の高い(10nm以内の)表面のアンサンブルは、高速変動する磁気信号のイメージングから核超分極の促進まで、様々な用途のワークホースとして急速に進歩している。 バルクのアンサンブルとは異なり、準表面のアンサンブルは電荷安定性の問題に悩まされ、ダイヤモンド表面がアニール中の空孔シンクとその後の電子シンクとしての役割により、NV生成効率が低下する。 この目的のために、この体制で高品質なアンサンブルを作るための最良の方法を決定する作業が進行中である。 本稿では,高バルク窒素密度を生かして表面誘起帯の曲げに対抗すべく,窒素リッチ型ibダイヤモンドを電子供与体に注入することにより,安価に製造できるアンサンブルの開発の可能性を検討する。 このアプローチは以前より深いアンサンブルを作ることに成功したが、近い将来、純粋なダイヤモンド基板への窒素の注入よりも利益が少ないことが判明した。 以上の結果から,アニール中におけるダイヤモンド表面の終端の制御は,高収率に近いNVアンサンブルの創出に成功するための鍵となることが示唆された。

Dense, near-surface (within 10 nm) ensembles of nitrogen-vacancy (NV) centres in diamond are rapidly moving into prominence as the workhorse of a variety of envisaged applications, ranging from the imaging of fast-fluctuating magnetic signals to the facilitation of nuclear hyperpolarisation. Unlike their bulk counterparts, near-surface ensembles suffer from charge stability issues and reduced NV formation efficiency due to the diamond surface's role as a vacancy sink during annealing and an electron sink afterwards. To this end, work is ongoing to determine the best methods for producing high-quality ensembles in this regime. Here we examine the prospects for creating such ensembles cost-effectively by implanting nitrogen-rich type Ib diamond with electron donors, aiming to exploit the high bulk nitrogen density to combat surface-induced band bending in the process. This approach has previously been successful at creating deeper ensembles, however we find that in the near-surface regime there are fewer benefits over nitrogen implantation into pure diamond substrates. Our results suggest that control over diamond surface termination during annealing is key to successfully creating high-yield near-surface NV ensembles generally, and implantation into type Ib diamond may be worth revisiting once that has been accomplished.
翻訳日:2023-01-21 03:06:26 公開日:2022-10-29
# 多電子問題による量子回路の高効率平均場シミュレーション

Efficient Mean-Field Simulation of Quantum Circuits Inspired by the Many-Electron Problem ( http://arxiv.org/abs/2210.16465v1 )

ライセンス: Link先を確認
Marco Bernardi(参考訳) 古典的なシミュレーションは量子回路の正確な波動関数(QC)を提供することができるが、現在はメモリと計算コストのために$\sim$50 qubitsに制限されている。 量子ハードウェアが数百の相互作用する量子ビットに向かうにつれて、近似qcシミュレーションのための信頼性の高いスキームの開発が優先事項となっている。 本稿では、多電子系の研究に広く用いられている密度汎関数理論(DFT)にインスパイアされたQCの効率的なシミュレーションを示す。 我々は,ノートパソコンの計算のみで,最大10億量子ビットのゲートセットを持つ様々なQCの正確なシミュレーションを実演する。 本シミュレーションは,sqpsの形式的指数関数的コストにもかかわらず,キュービット数に線形なメモリと計算資源を用いて,90%以上の精度で限界1量子ビット確率(sqps)を予測できる。 これらの結果は、QCの平均場記述を採用し、QCの波動関数を計算せずにSQPを進化させるために、DFT$-$の交換相関関数のアナログを最適1ビットと2ビットのゲート関数として定式化する。 本研究は, 大規模QCの正確なシミュレーション方法と, 電子構造法をQCシミュレーションに適用するための青写真を提供するものである。

Classical simulations can provide the exact wave function of quantum circuits (QCs), but are currently limited to $\sim$50 qubits due to their memory and computational cost, which scale exponentially with qubit number. As quantum hardware advances toward hundreds of interacting qubits, developing reliable schemes for approximate QC simulations has become a priority. Here we show efficient simulations of QCs with a method inspired by density functional theory (DFT), a widely used approach to study many-electron systems. We demonstrate accurate simulations of various QCs with universal gate sets, reaching up to a billion qubits in size, using only laptop calculations. Our simulations can predict marginal single-qubit probabilities (SQPs) with over 90\% accuracy, using memory and computational resources linear in qubit number despite the formal exponential cost of SQPs. We achieve these results by adopting a mean-field description of QCs, and formulating optimal single- and two-qubit gate functionals $-$ analogs of exchange-correlation functionals in DFT $-$ to evolve the SQPs without computing the QC wave function. Our findings pave the way for accurate simulations of large QCs and provide a blueprint to adapt electronic structure methods to QC simulations.
翻訳日:2023-01-21 03:06:01 公開日:2022-10-29
# 短期量子ハードウェアにおける量子ポアソン方程式のスケールと高精度解法

Advancing Algorithm to Scale and Accurately Solve Quantum Poisson Equation on Near-term Quantum Hardware ( http://arxiv.org/abs/2210.16668v1 )

ライセンス: Link先を確認
Kamal K. Saha, Walter Robson, Connor Howington, In-Saeng Suh, Zhimin Wang, and Jaroslaw Nabrzyski(参考訳) ポアソン方程式は、科学と工学の幅広い分野に多くの応用がある。 ポアソン解法のためのほとんどの量子アルゴリズムは、正確さの欠如に悩まされているか、あるいは非常に小さな大きさに制限されているため、実用的な使用法がない。 本稿では,ポアソン方程式を高精度かつ動的に調整可能な問題サイズで解くための高度な量子アルゴリズムを提案する。 有限差分法を用いてポアソン方程式を線形系へ変換した後、hhlアルゴリズムを基本枠組みとして採用する。 特に本研究では,hhlアルゴリズムにおいて重要な要素である制御回転角係数の精度を向上させることで,固有値増幅による非接点固有値を実装することにより,解の精度を保証する高度な回路を提案する。 その結果,増幅レベルが増大するにつれて高い成功確率を実現しつつ,溶液の相対誤差を劇的に低減することができる。 我々は,NISQデバイスにおける問題サイズを動的に制御することにより,解の精度を高めるだけでなく,より実用的でスケーラブルな回路を構成することを示す。 シミュレーション結果と実験結果の両方を示し,誤差の発生源について考察する。 最後に、既存のNISQハードウェアの全体的な結果はCNOTゲートの誤差に支配されているが、この研究は、短期量子ハードウェア上で多次元ポアソン解法を実現するための道を開く。

The Poisson equation has many applications across the broad areas of science and engineering. Most quantum algorithms for the Poisson solver presented so far either suffer from lack of accuracy and/or are limited to very small sizes of the problem, and thus have no practical usage. Here we present an advanced quantum algorithm for solving the Poisson equation with high accuracy and dynamically tunable problem size. After converting the Poisson equation to a linear system through the finite difference method, we adopt the HHL algorithm as the basic framework. Particularly, in this work we present an advanced circuit that ensures the accuracy of the solution by implementing non-truncated eigenvalues through eigenvalue amplification, as well as by increasing the accuracy of the controlled rotation angular coefficients, which are the critical factors in the HHL algorithm. Consequently, we are able to drastically reduce the relative error in the solution while achieving higher success probability as the amplification level is increased. We show that our algorithm not only increases the accuracy of the solutions but also composes more practical and scalable circuits by dynamically controlling problem size in NISQ devices. We present both simulated and experimental results and discuss the sources of errors. Finally, we conclude that though overall results on the existing NISQ hardware are dominated by the error in the CNOT gates, this work opens a path to realizing a multidimensional Poisson solver on near-term quantum hardware.
翻訳日:2023-01-21 03:00:00 公開日:2022-10-29
# 光モード乗算のない光子数分解能

Photon number resolution without optical mode multiplication ( http://arxiv.org/abs/2210.16653v1 )

ライセンス: Link先を確認
Anton N. Vetlugin, Filippo Martinelli, Shuyu Dong, and Cesare Soci(参考訳) 光子数分解の一般的な方法は、時間モードや空間モードの多重化と共に高速なオンオフ単光子検出器に依存する。 しかし、これらの手法は、光子数識別の効率と光子検出率との間に固有のトレードオフがある。 本稿では,モード多重化を分散検出器アレイにおける単一光モードのコヒーレント吸収に置き換えることで,これらの制約を克服する光子数解法を提案する。 分散コヒーレント吸収は、構成検出器間の光の完全かつ均一な吸収を保証し、高速かつ効率的な光子数分解を可能にする。 概念実証として、現実的なパラメータを持つ超伝導ナノワイヤ単光子検出器の分散配列を考えると、アレイ内の検出器数を増やすことで、決定論的吸収と任意に高い光子数判別効率が得られることを示す。 光モード乗算のない光子数分解は、オンオフ検出器の大きな配列やより小さなモード多重検出器の配列において任意の数の光子を識別する、単純かつ効果的な方法を提供する。

Common methods to achieve photon number resolution rely on fast on-off single-photon detectors in conjunction with temporal or spatial mode multiplexing. Yet, these methods suffer from an inherent trade-off between the efficiency of photon number discrimination and photon detection rate. Here, we introduce a method of photon number resolving detection that overcomes these limitations by replacing mode multiplexing with coherent absorption of a single optical mode in a distributed detector array. Distributed coherent absorption ensures complete and uniform absorption of light among the constituent detectors, enabling fast and efficient photon number resolution. As a proof-of-concept, we consider the case of a distributed array of superconducting nanowire single-photon detectors with realistic parameters and show that deterministic absorption and arbitrarily high photon number discrimination efficiency can be achieved by increasing the number of detectors in the array. Photon number resolution without optical mode multiplication provides a simple yet effective method to discriminate an arbitrary number of photons in large arrays of on-off detectors or in smaller arrays of mode multiplexed detectors.
翻訳日:2023-01-21 02:59:35 公開日:2022-10-29
# 量子状態崩壊におけるランダム性検証

Certifying randomness in quantum state collapse ( http://arxiv.org/abs/2210.16632v1 )

ライセンス: Link先を確認
Liang-Liang Sun, Xingjian Zhang, Xiang Zhou, Zheng-Da Li, Xiongfeng Ma, Jingyun Fan, and Sixia Yu(参考訳) 量子測定による状態崩壊の予測不可能なプロセスは、量子ランダムネスの生成を可能にする。 本稿では, ランダムネス生成と状態崩壊の定量的関係を考察し, (I) ソースと測定装置の独立性, (II) 崩壊状態に対するL\"{u}dersの規則を仮定したランダムネス検証プロトコルを提案する。 重い数学的機械を伴わずに、生成した量子ランダムネスの量は、状態崩壊に起因する外乱効果によって直接推定することができる。 このプロトコルでは、完全に信頼できない一般的な測定値を用いることができる。 信頼射影測定を組み込んだランダムネス生成性能をさらに最適化することができる。 また,本プロトコルは高い効率を示し,不確実性関係に基づく場合よりも高いランダム性生成率を示す。 我々は、量子ランダムネスの理解と生成のための新しい洞察を提供すると期待している。

The unpredictable process of state collapse caused by quantum measurements makes the generation of quantum randomness possible. In this paper, we explore the quantitive connection between the randomness generation and the state collapse and provide a randomness verification protocol under the assumptions: (I) independence between the source and the measurement devices and (II) the L\"{u}ders' rule for collapsing state. Without involving heavy mathematical machinery, the amount of genereted quantum randomness can be directly estimated with the disturbance effect originating from the state collapse. In the protocol, we can employ general measurements that are not fully trusted. Equipped with trusted projection measurements, we can further optimize the randomness generation performance. Our protocol also shows a high efficiency and yields a higher randomness generation rate than the one based on uncertainty relation. We expect our results to provide new insights for understanding and generating quantum randomness
翻訳日:2023-01-21 02:59:16 公開日:2022-10-29
# エバネッセント定常波電位によるボース・アインシュタイン凝縮体の反射と回折

Retroreflection and diffraction of a Bose-Einstein condensate by evanescent standing wave potential ( http://arxiv.org/abs/2210.16630v1 )

ライセンス: Link先を確認
Javed Akram and Khan Qasim and Lei Wei(参考訳) 表面上の加速ボース・アインシュタイン凝縮(BEC)原子の角分布の特徴は、数学的モデリング法を用いて設計されている。 本研究では,エバネッセント定在波ポテンシャル(eswp)からbecの逆反射と回折を研究するアイデアを提案した。 ESWPは、重力の影響下でプリズムの表面からレーザービームの多重反射によって形成される。 BECの反射と回折の後、BECの密度虹パターンは周期的に崩壊するエバネッセント場とモデル化する表面構造に依存する干渉によって発達する。 加速されたボゾン原子と表面との相互作用は、表面構造を実証したり、表面粗さを判定したり、将来の高空間分解能と2次元システムにおける高感度磁界センサを構築するのに役立つ。

The characteristic of the angular distributions of accelerated Bose-Einstein condensate (BEC) atoms incidence on the surface is designed using the mathematical modeling method. Here, we proposed the idea to study the retroreflection and diffraction of a BEC from an evanescent standing wave potential (ESWP). The ESWP is formed by multiple reflections of the laser beam from the surface of the prism under the influence of gravity. After BEC's reflection and diffraction, the so-called BEC's density rainbow patterns develop due to the interference which depends on the surface structure which we model with the periodic decaying evanescent field. The interaction of accelerated bosonic atoms with a surface can help to demonstrate surface structures or to determine surface roughness, or to build future high spatial resolution and high sensitivity magnetic-field sensors in two-dimensional systems.
翻訳日:2023-01-21 02:59:04 公開日:2022-10-29
# 対称および非対称ポテンシャルトラップ下でのグレイ/ダークソリトン挙動と個体群

Gray/dark soliton behavior and population under a symmetric and asymmetric potential trap ( http://arxiv.org/abs/2210.16625v1 )

ライセンス: Link先を確認
Jameel Hussain and Javed Akram and Farhan Saif(参考訳) ガウス障壁の高さと幅が対称・非対称ポテンシャルトラップにおける灰色のソリトン個体群に与える影響を数値的に検討した。 灰色のソリトンは密度工学法によって二重ウェルポテンシャルで生成される。 2つの同一のボース・アインシュタイン凝縮片が閉じ込められ、二重ウェルポテンシャルでガウス障壁を切替えることで衝突させる。 灰色のソリトン個体群はガウス障壁の高さと幅で操作できることがわかった。 また,灰色ソリトン集団の結合強度依存性についても検討した。 さらに、二重井戸ポテンシャルに存在する非対称性の影響についても検討する。 このような非対称性が常に灰色のソリトン同士の衝突点を揺らしているのを観察する。 その後、位相インプリンティング法により静止ダークソリトンが生成され、ダブルウェルポテンシャルトラップにおける初期非対称性がダークソリトンを振動させるのが観察される。

We numerically study the impact of Gaussian barrier height and width on the gray solitons population in a symmetric and asymmetric potential trap. The gray solitons are created in a double-well potential by the density engineering method. Two identical Bose-Einstein condensate fragments are confined and made to collide by switching off the Gaussian barrier in a double-well potential. We find that the gray solitons population can be manipulated by Gaussian barrier height and width. We also study the gray solitons population dependence on the coupling strength. Moreover, we also study the impact of an asymmetry present in the double-well potential. We observe that such an asymmetry always swings the point of collision of the gray solitons. Later, a stationary dark soliton is created by the phase imprinting method and we observe that the initial asymmetry in the double-well potential trap sets the dark soliton into oscillation.
翻訳日:2023-01-21 02:58:51 公開日:2022-10-29
# 消滅する類似性問題を解決する量子フィッシャー核

Quantum Fisher kernel for mitigating the vanishing similarity issue ( http://arxiv.org/abs/2210.16581v1 )

ライセンス: Link先を確認
Yudai Suzuki, Hideaki Kawaguchi, Naoki Yamamoto(参考訳) 量子カーネル法(quantum kernel method)は、量子コンピュータを利用してデータ間の類似性を測定する量子カーネル(qks)を計算する機械学習モデルである。 この手法の潜在的な量子的優位性にもかかわらず、一般的に使用される忠実度に基づくQKは、減少する類似性問題と呼ばれる有害な問題に悩まされ、期待値の指数関数的減少とQKの分散により、データ間の差の検出が困難になる。 これは、忠実度ベースのものに代わるQKを設計する必要があることを意味する。 本研究では、データソースの幾何学的構造を考慮した量子フィッシャーカーネル(QFK)と呼ばれる新しいQKのクラスを提案する。 反対称対数微分 (aldqfk) に基づくqfkは, 交互層型アンサッツ (alas) を用いた場合の問題を回避できるが, 忠実性に基づくqkはalasにさえ対応できない。 さらに、フーリエ解析により、ALDQFKが忠実度に基づくQKに匹敵する表現性を持つことが判明した。 これらの結果はQFKが量子機械学習の実践的な応用の道を開くことを示唆している。

Quantum kernel method is a machine learning model exploiting quantum computers to calculate the quantum kernels (QKs) that measure the similarity between data. Despite the potential quantum advantage of the method, the commonly used fidelity-based QK suffers from a detrimental issue, which we call the vanishing similarity issue; detecting the difference between data becomes hard with the increase of the number of qubits, due to the exponential decrease of the expectation and the variance of the QK. This implies the need to design QKs alternative to the fidelity-based one. In this work, we propose a new class of QKs called the quantum Fisher kernels (QFKs) that take into account the geometric structure of the data source. We analytically and numerically demonstrate that the QFK based on the anti-symmetric logarithmic derivatives (ALDQFK) can avoid the issue when the alternating layered ansatzs (ALAs) are used, while the fidelity-based QK cannot even with the ALAs. Moreover, the Fourier analysis numerically elucidates that the ALDQFK can have expressivity comparable to that of the fidelity-based QK. These results indicate that the QFK paves the way for practical applications of quantum machine learning with possible quantum advantages.
翻訳日:2023-01-21 02:58:19 公開日:2022-10-29
# 長距離イジングモデルにおける$\mathcal{N}$相互作用スピン-$\mathtt{s}$の幾何学的、位相的、動的記述とその量子エンタングルメントとの相互作用

Geometrical, topological and dynamical description of $\mathcal{N}$ interacting spin-$\mathtt{s}$ under long-range Ising model and their interplay with quantum entanglement ( http://arxiv.org/abs/2210.16578v1 )

ライセンス: Link先を確認
Brahim Amghar, Abdallah Slaoui, Jamal Elfakir, and Mohammed Daoud(参考訳) 積分可能量子系の幾何学的、位相的、動的構造と量子情報タスクで活用可能な量子現象との接続を補完することは、幾何学情報科学において大きな問題である。 本研究では、長距離イジングモデルの下で相互作用するスピン-$\mathtt{s}$の物理系において、これらの問題を考察する。 関連するダイナミクスを発見し、対応する量子位相空間を特定し、関連するフビニ・スタディ計量を導出する。 ガウス・ボンネットの定理の適用とガウス曲率の導出により、この力学が球面位相多様体上で起こることが証明された。 その後,任意の周期的進化過程の下で得られた幾何学的位相を解析し,時間-最適進化を定め,量子ブラヒストローネ問題を解く。 さらに, 2 つのスピン-\mathtt{s}$ 系に系を絞り込むことにより, 2 つの異なる視点から関連する絡み合いを探索する; 1 つは自然界における幾何学的性質であり, 絡み合い次数とフービニ-スタディ計量, ガウス曲率, 幾何学的位相といった幾何学的構造との相互作用を考察する。 2つ目は自然界の力学であり、進化速度と測地線距離に対する絡み合い効果に取り組む。 さらに, 量子ブラキストロン問題をエンタングルメント次数に基づいて解く。

Comprehending the connections between the geometric, topological, and dynamical structures of integrable quantum systems with quantum phenomena exploitable in quantum information tasks, such as quantum entanglement, is a major problem in geometric information science. In this work we investigate these issues in a physical system of $\mathcal{N}$ interacting spin-$\mathtt{s}$ under long-range Ising model. We discover the relevant dynamics, identify the corresponding quantum phase space and we derive the associated Fubini-Study metric. Through the application of the Gauss-Bonnet theorem and the derivation of the Gaussian curvature, we have proved that the dynamics occurs on a spherical topology manifold. Afterwards, we analyze the gained geometrical phase under the arbitrary and cyclic evolution processes and solve the quantum brachistochrone problem by establishing the time-optimal evolution. Moreover, by narrowing the system to a two spin-$\mathtt{s}$ system, we explore the relevant entanglement from two different perspectives; The first is geometrical in nature and involves the investigation of the interplay between the entanglement degree and the geometrical structures, such as the Fubini-Study metric, the Gaussian curvature and the geometrical phase. The second is dynamical in nature and tackles the entanglement effect on the evolution speed and geodesic distance. Additionally, we resolve the quantum brachistochrone problem based on the entanglement degree.
翻訳日:2023-01-21 02:57:54 公開日:2022-10-29
# 不確実性関係に基づく混合状態の強い絡み合い基準

Strong entanglement criteria for mixed states, based on uncertainty relations ( http://arxiv.org/abs/2210.16551v1 )

ライセンス: Link先を確認
Manju Maan, Asoka Biswas, and Shubhrangshu Dasgupta(参考訳) 本研究では,不確実性関係とウィグナー・ヤネーゼスキュー情報に基づく混合状態に特化して設計された絡み合い基準を提案する。 この不確実性関係における分散は古典的な混合の不確かさを含まないので、純粋に量子力学的性質である。 混合絡み合った状態が私たちの基準によって特徴づけられることを示す。 我々は, ウェルナー状態を含むいくつかの一般化された混合絡み合い状態に対するその有用性を示すとともに, 絡み合いに関連するパラメータの正しい領域を特定する上で, 他の既知の基準よりも強いことが判明した。 提案された基準は純粋な状態に対するシュロディンガー・ロバートソンの不等式に還元される。

We propose an entanglement criterion, specially designed for mixed states, based on uncertainty relation and the Wigner-Yanase skew information. The variances in this uncertainty relation does not involve any classical mixing uncertainty, and thus turns out to be purely of quantum mechanical nature. We show that any mixed entangled state can be characterized by our criterion. We demonstrate its utility for several generalized mixed entangled state including Werner states and it turns out to be stronger than any other known criterion in identifying the correct domain of relevant parameters for entanglement. The proposed criterion reduces to the Schrodinger-Robertson inequality for pure states.
翻訳日:2023-01-21 02:57:29 公開日:2022-10-29
# モデルXによる条件付き独立試験のパワーについて

On the power of conditional independence testing under model-X ( http://arxiv.org/abs/2005.05506v5 )

ライセンス: Link先を確認
Eugene Katsevich and Aaditya Ramdas(参考訳) 最近導入されたモデルX(MX)フレームワークは、応答Yと共変量Zの条件独立性(CI)をテストするために、特にMXノックオフの文脈において、アクティブな方法論研究の対象となり、ゲノムワイド・アソシエーション研究に成功している。 本稿では,MX CIテストのパワーについて検討し,機械学習の役割について定量的に考察し,確率に基づく統計学を実践する上で有利な証拠を提供する。 条件付きランダム化テスト (conditional randomization test, crt) に焦点をあて、その条件付き推論モードによって、x の条件付き分布を伴う点ヌル仮説をテストとして再評価することができることを見出した。 また,mxノックオフの最適化結果も得られた。 共変量次元を任意に拡大する漸近的枠組みに切り替えることにより、テスト統計がベースとなる機械学習アルゴリズムの予測誤差の観点から、局所半パラメトリック代替品に対するcrtの制限パワーの表現を導出する。 最後に、Z が与えられた X の最初の 2 つのモーメントのみが知られているという仮定の下で、一様漸近型 Type-I エラー制御を持つサンプリング不要なテストを示す。

For testing conditional independence (CI) of a response Y and a predictor X given covariates Z, the recently introduced model-X (MX) framework has been the subject of active methodological research, especially in the context of MX knockoffs and their successful application to genome-wide association studies. In this paper, we study the power of MX CI tests, yielding quantitative insights into the role of machine learning and providing evidence in favor of using likelihood-based statistics in practice. Focusing on the conditional randomization test (CRT), we find that its conditional mode of inference allows us to reformulate it as testing a point null hypothesis involving the conditional distribution of X. The Neyman-Pearson lemma then implies that a likelihood-based statistic yields the most powerful CRT against a point alternative. We also obtain a related optimality result for MX knockoffs. Switching to an asymptotic framework with arbitrarily growing covariate dimension, we derive an expression for the limiting power of the CRT against local semiparametric alternatives in terms of the prediction error of the machine learning algorithm on which its test statistic is based. Finally, we exhibit a resampling-free test with uniform asymptotic Type-I error control under the assumption that only the first two moments of X given Z are known, a significant relaxation of the MX assumption.
翻訳日:2022-12-03 19:44:15 公開日:2022-10-29
# 制約付き最適化による新しい政策

Novel Policy Seeking with Constrained Optimization ( http://arxiv.org/abs/2005.10696v3 )

ライセンス: Link先を確認
Hao Sun, Zhenghao Peng, Bo Dai, Jian Guo, Dahua Lin, Bolei Zhou(参考訳) 問題解決では、人間は同じ問題に対して複数の新しい解決策を思いつくことができる。 しかし、強化学習アルゴリズムは、累積報酬を最大化するが多様性と新規性を欠く単調なポリシーの集合しか生成できない。 本研究では,強化学習タスクにおける新しいポリシー作成の問題に対処する。 既存の手法で使用される多目的フレームワークに従う代わりに,制約付き最適化という新たな視点の下で問題を再考する。 まず,政策間の差異を評価するための新しい指標を導入し,新しい視点に従って2つの実用的な政策生成手法を設計する。 制約付きタスク・ノベル・バイセクタ(ctnb)と内的政策分化(ipd)という2つの手法は、制約付き最適化文献で一般的に知られている実現可能な方向法と内的点法に由来する。 MuJoCo コントロールスイートを用いた実験結果から,従来の新規検索手法に比べて,ポリシーの新規性とプライマリタスクにおける性能の両面で大幅な改善が達成できた。

In problem-solving, we humans can come up with multiple novel solutions to the same problem. However, reinforcement learning algorithms can only produce a set of monotonous policies that maximize the cumulative reward but lack diversity and novelty. In this work, we address the problem of generating novel policies in reinforcement learning tasks. Instead of following the multi-objective framework used in existing methods, we propose to rethink the problem under a novel perspective of constrained optimization. We first introduce a new metric to evaluate the difference between policies and then design two practical novel policy generation methods following the new perspective. The two proposed methods, namely the Constrained Task Novel Bisector (CTNB) and the Interior Policy Differentiation (IPD), are derived from the feasible direction method and the interior point method commonly known in the constrained optimization literature. Experimental comparisons on the MuJoCo control suite show our methods can achieve substantial improvement over previous novelty-seeking methods in terms of both the novelty of policies and their performances in the primal task.
翻訳日:2022-11-30 22:36:00 公開日:2022-10-29
# 深層学習モデルにおける軌道情報と原子特性の活用

Leveraging Orbital Information and Atomic Feature in Deep Learning Model ( http://arxiv.org/abs/2211.11543v1 )

ライセンス: Link先を確認
Xiangrui Yang(参考訳) 材料のミクロ構造に基づく材料特性の予測は、長い間困難であった。 近年,材料特性予測のための深層学習法が数多く開発されている。 本研究では,原子記述子生成とグラフ表現学習という2つの部分からなる結晶表現学習フレームワーク,Orbital CrystalNet, OCrystalNetを提案する。 ocrystalnetでは、まずオービタルフィールドマトリックス(ofm)と原子の特徴を組み込んでofm-feature atomic descriptorを構築し、次にアトミックディスクリプタをアトム埋め込みとして、結晶グラフの位相構造を利用して結晶表現を学ぶ。 OCrystalNetの能力を実証するため、Material ProjectデータセットとJARVISデータセット上で多くの予測タスクを実行し、我々のモデルを他のベースラインやアート手法と比較した。 OCrystalNetの有効性をさらに明らかにするため,我々はアブレーション研究とモデルケーススタディを行った。 その結果,我々のモデルは,他の芸術モデルと比較して様々な利点があることがわかった。

Predicting material properties base on micro structure of materials has long been a challenging problem. Recently many deep learning methods have been developed for material property prediction. In this study, we propose a crystal representation learning framework, Orbital CrystalNet, OCrystalNet, which consists of two parts: atomic descriptor generation and graph representation learning. In OCrystalNet, we first incorporate orbital field matrix (OFM) and atomic features to construct OFM-feature atomic descriptor, and then the atomic descriptor is used as atom embedding in the atom-bond message passing module which takes advantage of the topological structure of crystal graphs to learn crystal representation. To demonstrate the capabilities of OCrystalNet we performed a number of prediction tasks on Material Project dataset and JARVIS dataset and compared our model with other baselines and state of art methods. To further present the effectiveness of OCrystalNet, we conducted ablation study and case study of our model. The results show that our model have various advantages over other state of art models.
翻訳日:2022-11-27 13:34:21 公開日:2022-10-29
# 識別モデルを用いた非侵襲脳波からのユーザインテントの再帰的推定

Recursive Estimation of User Intent from Noninvasive Electroencephalography using Discriminative Models ( http://arxiv.org/abs/2211.02630v1 )

ライセンス: Link先を確認
Niklas Smedemark-Margulies, Basak Celik, Tales Imbiriba, Aziz Kocanaogullari, and Deniz Erdogmus(参考訳) 重度音声・身体障害(SSPI)患者のコミュニケーションを回復するために,非侵襲脳波(EEG)からユーザ意図を推定する問題について検討した。 本研究の焦点はタイピング作業における後部シンボル確率の推定を改善することである。 型付け手順の各イテレーションで、現在の確率推定に基づいて次のクエリのためにシンボルのサブセットが選択されます。 ユーザの応答に関する証拠は、あるシンボルが事前定義された信頼しきい値を超えるまで、シンボル確率を更新するために、イベント関連電位(erp)から収集される。 このタスクを記述したグラフィカルモデルを提供し、ニューラルネットワーク分類器を用いて近似した各クエリのラベルベクトルに対する識別確率に基づいて再帰的ベイズ更新ルールを導出する。 提案手法を模擬型入力タスクで評価し, 生成モデルに基づく従来の手法よりも優れていることを示す。

We study the problem of inferring user intent from noninvasive electroencephalography (EEG) to restore communication for people with severe speech and physical impairments (SSPI). The focus of this work is improving the estimation of posterior symbol probabilities in a typing task. At each iteration of the typing procedure, a subset of symbols is chosen for the next query based on the current probability estimate. Evidence about the user's response is collected from event-related potentials (ERP) in order to update symbol probabilities, until one symbol exceeds a predefined confidence threshold. We provide a graphical model describing this task, and derive a recursive Bayesian update rule based on a discriminative probability over label vectors for each query, which we approximate using a neural network classifier. We evaluate the proposed method in a simulated typing task and show that it outperforms previous approaches based on generative modeling.
翻訳日:2022-11-13 23:46:35 公開日:2022-10-29
# 自己教師付き表現学習による野生動物認識

Rare Wildlife Recognition with Self-Supervised Representation Learning ( http://arxiv.org/abs/2211.05636v1 )

ライセンス: Link先を確認
Xiaochen Zheng(参考訳) 航空画像による動物の自動国勢調査は野生生物保護にとって重要な要素である。 最近のモデルは一般に教師付き学習に基づいており、大量のトレーニングデータを必要とする。 その希少さと極小さのため、空中画像中の動物に注釈をつけることは非常に面倒なプロセスである。 本稿では,自己指導型事前学習に頼って,必要なトレーニングデータの量を削減する手法を提案する。 具体的には,モメンタムコントラスト (moco) やクロスレベルインスタンスグループ識別 (cld) といった近年のコントラスト学習手法を組み合わせて,ラベルを必要とせず,航空画像にモデルを条件付けする手法について検討した。 MoCo, CLD, および幾何拡張の組み合わせは, ImageNetで事前訓練された従来のモデルよりも大きなマージンで優れていることを示す。 一方、教師付き学習におけるラベルや予測分布の平滑化戦略は、モデルが過度に適合することを防ぐのに有用であることが証明されている。 自己教師付きコントラストモデルと画像混合戦略を組み合わせることで、より堅牢な視覚表現の学習に有用であることが分かる。 重要な点は、トレーニング動物の数を10%に減らしても、私たちの手法はそれでも良い結果をもたらし、その時点で最高のモデルスコアは、同じ精度でベースラインのリコールの2倍になります。 これにより、非常に困難な設定で精度の高いモデルをトレーニングしながら、必要なアノテーションの数を分数に減らすことができる。

Automated animal censuses with aerial imagery are a vital ingredient towards wildlife conservation. Recent models are generally based on supervised learning and thus require vast amounts of training data. Due to their scarcity and minuscule size, annotating animals in aerial imagery is a highly tedious process. In this project, we present a methodology to reduce the amount of required training data by resorting to self-supervised pretraining. In detail, we examine a combination of recent contrastive learning methodologies like Momentum Contrast (MoCo) and Cross-Level Instance-Group Discrimination (CLD) to condition our model on the aerial images without the requirement for labels. We show that a combination of MoCo, CLD, and geometric augmentations outperforms conventional models pretrained on ImageNet by a large margin. Meanwhile, strategies for smoothing label or prediction distribution in supervised learning have been proven useful in preventing the model from overfitting. We combine the self-supervised contrastive models with image mixup strategies and find that it is useful for learning more robust visual representations. Crucially, our methods still yield favorable results even if we reduce the number of training animals to just 10%, at which point our best model scores double the recall of the baseline at similar precision. This effectively allows reducing the number of required annotations to a fraction while still being able to train high-accuracy models in such highly challenging settings.
翻訳日:2022-11-13 23:36:27 公開日:2022-10-29
# 重み付き二成分リンク推薦に対する二段階アプローチ

A Two Step Approach to Weighted Bipartite Link Recommendations ( http://arxiv.org/abs/2211.01153v1 )

ライセンス: Link先を確認
Nathan Ma(参考訳) 多くの現実世界の人/人/製品間の関係はグラフィカルにモデル化できる。 より具体的には、2つの非結合群を含むシナリオをモデル化する場合、二部グラフは特に有用である。 その結果,従来のリンクレコメンデーション問題に対して2部グラフを用いた論文が多数存在する。 本稿では,二成分グラフの原理を用いて,共通辺間の頻度と類似性を考慮した2段階のアルゴリズムを用いて,この問題に対する別のアプローチを提案する。 このアプローチは、EpinionsとMovielensのデータソースから収集した2部データを用いてテストし、約14%の誤差で実行し、ベースライン結果を改善する。 これは有望な結果であり、さらに正確なレコメンデーションを生成するために洗練することができる。

Many real world person-person or person-product relationships can be modeled graphically. More specifically, bipartite graphs can be especially useful when modeling scenarios that involve two disjoint groups. As a result, many existing papers have utilized bipartite graphs for the classical link recommendation problem. In this paper, using the principle of bipartite graphs, we present another approach to this problem with a two step algorithm that takes into account frequency and similarity between common edges to make recommendations. We test this approach with bipartite data gathered from the Epinions and Movielens data sources, and find it to perform with roughly 14 percent error, which improves upon baseline results. This is a promising result, and can be refined to generate even more accurate recommendations.
翻訳日:2022-11-03 14:58:14 公開日:2022-10-29
# cascadexml: 極端マルチラベル分類におけるエンドツーエンドマルチレゾリューショントレーニングのためのトランスフォーマー再考

CascadeXML: Rethinking Transformers for End-to-end Multi-resolution Training in Extreme Multi-label Classification ( http://arxiv.org/abs/2211.00640v1 )

ライセンス: Link先を確認
Siddhant Kharbanda and Atmadeep Banerjee and Erik Schultheis and Rohit Babbar(参考訳) Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連するラベルのサブセットで入力を割り当てることができる分類器を学習する。 XR-TransformerやLightXMLといった最近のアプローチでは、トランスフォーマーインスタンスを活用して最先端のパフォーマンスを実現している。 しかし、このプロセスでは、これらの手法は性能と計算要求の間で様々なトレードオフを行う必要がある。 Bi-LSTMベースのAttentionXMLと比較して、大きな欠点は、ラベルツリーの各解像度に別々の特徴表現を保持することができないことである。 そこで我々は,トランスフォーマーモデルの多層アーキテクチャを利用して,異なる特徴表現を持つラベル解像度に対応する,エンドツーエンドのマルチレゾリューション学習パイプラインであるCascadeXMLを提案する。 CascadeXMLは、最大300万のラベルからなるベンチマークデータセットで得られた非自明なゲインで、既存のすべてのアプローチを大幅に上回っている。 CascadeXML のコードは \url{https://github.com/xmc-aalto/cascadexml} で公開されている。

Extreme Multi-label Text Classification (XMC) involves learning a classifier that can assign an input with a subset of most relevant labels from millions of label choices. Recent approaches, such as XR-Transformer and LightXML, leverage a transformer instance to achieve state-of-the-art performance. However, in this process, these approaches need to make various trade-offs between performance and computational requirements. A major shortcoming, as compared to the Bi-LSTM based AttentionXML, is that they fail to keep separate feature representations for each resolution in a label tree. We thus propose CascadeXML, an end-to-end multi-resolution learning pipeline, which can harness the multi-layered architecture of a transformer model for attending to different label resolutions with separate feature representations. CascadeXML significantly outperforms all existing approaches with non-trivial gains obtained on benchmark datasets consisting of up to three million labels. Code for CascadeXML will be made publicly available at \url{https://github.com/xmc-aalto/cascadexml}.
翻訳日:2022-11-03 11:59:04 公開日:2022-10-29
# 工場のデジタル双生児のための複合現実感インタフェース

Mixed Reality Interface for Digital Twin of Plant Factory ( http://arxiv.org/abs/2211.00597v1 )

ライセンス: Link先を確認
Byunghyun Ban(参考訳) 工場のデジタルツインには、より簡単で直感的なインターフェースアーキテクチャが必要である。 スマート農業のデジタル双生児モデルのための没入的でインタラクティブな複合現実インタフェースを、コンポーネントのシミュレーションではなくリモートワークに提案する。 この環境は、プラント工場にあるカメラ装置から撮影されたリアルタイムシーンである、uiディスプレイとストリーミング背景シーンで構築され、変形可能な神経放射野で処理される。 ユーザーはhmdまたは2dディスプレイに基づく混合現実環境を用いて遠隔プラント工場施設を監視および制御することができる。 本稿では,提案する複合現実インタフェースを実装するシステムアーキテクチャについても述べる。

An easier and intuitive interface architecture is necessary for digital twin of plant factory. I suggest an immersive and interactive mixed reality interface for digital twin models of smart farming, for remote work rather than simulation of components. The environment is constructed with UI display and a streaming background scene, which is a real time scene taken from camera device located in the plant factory, processed with deformable neural radiance fields. User can monitor and control the remote plant factory facilities with HMD or 2D display based mixed reality environment. This paper also introduces detailed concept and describes the system architecture to implement suggested mixed reality interface.
翻訳日:2022-11-02 15:11:10 公開日:2022-10-29
# 書籍・ビデオ・動画ライブラリーからの因果DAG抽出

Causal DAG extraction from a library of books or videos/movies ( http://arxiv.org/abs/2211.00486v1 )

ライセンス: Link先を確認
Robert R. Tucci(参考訳) 因果DAG (directed acyclic graph) を検討中の問題に対して決定することは、統計学においてJudea Pearl's Causal Inference (CI)を行う際の主要な障害である。 人工知能(AI)と機械学習(ML)でCIを行う場合も同様の問題が発生する。 科学における多くの問題と同様に、自然はこの問題に対する効果的な解決策を見出したと考えている。 我々は、ヒトと動物の脳は、CIを行うための明示的なエンジンを含み、そのようなエンジンは、因果DAGのアトラス(すなわち、収集)として使用されると主張している。 本論文は,本や動画・動画のライブラリからアトラスを構築するための簡易アルゴリズムを提案する。 ランダムに生成されたTic-Tac-Toeゲームのデータベースに適用し,本手法について述べる。 このTic-Tac-Toeサンプルを生成するソフトウェアはオープンソースでGitHubで公開されている。

Determining a causal DAG (directed acyclic graph) for a problem under consideration, is a major roadblock when doing Judea Pearl's Causal Inference (CI) in Statistics. The same problem arises when doing CI in Artificial Intelligence (AI) and Machine Learning (ML). As with many problems in Science, we think Nature has found an effective solution to this problem. We argue that human and animal brains contain an explicit engine for doing CI, and that such an engine uses as input an atlas (i.e., collection) of causal DAGs. We propose a simple algorithm for constructing such an atlas from a library of books or videos/movies. We illustrate our method by applying it to a database of randomly generated Tic-Tac-Toe games. The software used to generate this Tic-Tac-Toe example is open source and available at GitHub.
翻訳日:2022-11-02 14:02:01 公開日:2022-10-29
# 近似最適化を用いたニューラルネットワーク量子状態:変分モンテカルロに基づく基底状態探索法

Neural network quantum state with proximal optimization: a ground-state searching scheme based on variational Monte Carlo ( http://arxiv.org/abs/2210.16493v1 )

ライセンス: Link先を確認
Feng Chen and Ming Xue(参考訳) 変分モンテカルロ法(VMC)を取り入れたニューラルネットワーク量子状態(NQS)は、量子多体物理学を研究するための有望な方法である。 バニラVMC法はサンプル毎に1つの勾配更新を行うのに対し、近位最適化(PO)を備えた新しい目的関数を導入し、ミスマッチしたサンプルを再利用することで複数の更新を可能にする。 我々のVMC-PO法は,従来の重要サンプリング勾配最適化アルゴリズム [L。 Yang, {\it et al}, Phys。 Rev. Research {\bf 2}, 012039(R)(2020)] サンプル状態を効率的に利用する。 POは、確率再構成(SR)法に類似したネットワーク更新時の数値不安定性を緩和するが、計算の複雑さを低減した代替的でシンプルな実装を実現する。 1次元横磁場イジングモデルと2次元ハイゼンベルク反強磁性体を用いた基底状態探索のためのvmc-poアルゴリズムの性能について検討し,到達した基底状態エネルギーが最先端結果に匹敵することを示した。

Neural network quantum states (NQS), incorporating with variational Monte Carlo (VMC) method, are shown to be a promising way to investigate quantum many-body physics. Whereas vanilla VMC methods perform one gradient update per sample, we introduce a novel objective function with proximal optimization (PO) that enables multiple updates via reusing the mismatched samples. Our VMC-PO method keeps the advantage of the previous importance sampling gradient optimization algorithm [L. Yang, {\it et al}, Phys. Rev. Research {\bf 2}, 012039(R)(2020)] that efficiently uses sampled states. PO mitigates the numerical instabilities during network updates, which is similar to stochastic reconfiguration (SR) methods, but achieves an alternative and simpler implement with lower computational complexity. We investigate the performance of our VMC-PO algorithm for ground-state searching with a 1-dimensional transverse-field Ising model and 2-dimensional Heisenberg antiferromagnet on a square lattice, and demonstrate that the reached ground-state energies are comparable to state-of-the-art results.
翻訳日:2022-11-01 20:06:42 公開日:2022-10-29
# 株式リターンの動的ネットワークのモニタリング

Monitoring the Dynamic Networks of Stock Returns ( http://arxiv.org/abs/2210.16679v1 )

ライセンス: Link先を確認
Elena Farahbakhsh Touli, Hoang Nguyen and Olha Bodnar(参考訳) 本稿では,スウェーデンの資本市場における企業間の関係について考察する。 市場指標OMX30の決定に含まれる28の企業について検討する。 市場のネットワーク構造は、企業間の距離を決定する異なる方法を用いて構築されている。 各ウィンドウ内の企業間の関係を見出すために,階層的クラスタリング手法を用いる。 次に、市場における企業間の時間的関係の変化を反映したクラスタリングツリー間の距離の1次元時系列を得る。 金融市場の異常変化を検出するために、これらの時系列に統計処理制御の方法、すなわちシェハート制御チャートを適用する。

In this paper, we study the connection between the companies in the Swedish capital market. We consider 28 companies included in the determination of the market index OMX30. The network structure of the market is constructed using different methods to determine the distance between the companies. We use hierarchical clustering methods to find the relation among the companies in each window. Next, we obtain one-dimensional time series of the distances between the clustering trees that reflect the changes in the relationship between the companies in the market over time. The method of statistical process control, namely the Shewhart control chart, is applied to those time series to detect abnormal changes in the financial market.
翻訳日:2022-11-01 19:58:41 公開日:2022-10-29
# 2次元ctと3次元ctによる胃癌の特徴比較:多施設共同研究

2D and 3D CT Radiomic Features Performance Comparison in Characterization of Gastric Cancer: A Multi-center Study ( http://arxiv.org/abs/2210.16640v1 )

ライセンス: Link先を確認
Lingwei Meng, Di Dong, Xin Chen, Mengjie Fang, Rongpin Wang, Jing Li, Zaiyi Liu, Jie Tian(参考訳) 目的: 医用画像解析の新しいツールである放射線は胃癌(gc)を正確に特徴付ける可能性がある。 ワンスライス2Dアノテーションや全ボリューム3Dアノテーションを使うことは、特に異種GCについては、長年にわたる議論である。 3つのタスクを通して,gcに関する2次元および3次元放射能特徴の表現と識別能力を包括的に比較した。 方法: 4センターの539人のgc患者を振り返りに登録し,トレーニングと検証コホートに分けた。 放射線医が注釈した2D領域および3D領域(ROI)から放射線学的特徴を抽出した。 特徴選択とモデル構築手順は、2つのモード(2Dまたは3D)と3つのタスクの組み合わせごとにカスタマイズされた。 その後,6つの機械学習モデル (Model_2D^LNM, Model_3D^LNM, Model_2D^LVI, Model_3D^LVI, Model_2D^pT, Model_3D^pT) を導出し,GCの特性評価を行った。 さらに,再サンプリング間隔が異なる場合のモダリティ性能を評価するための補助実験を行った。 結果: 曲線 (AUCs) 下の収率領域は, Model_2D^LNM の 0.712 (95%信頼区間, 0.613-0.811), Model_3D^LNM の 0.680 (0.584-0.775), Model_2D^LVI の 0.677 (0.595-0.761), Model_3D^LVI の 0.615 (0.528-0.703), Model_2D^pT の 0.840 (0.779-0.901), Model_3D^pT の 0.813 (0.747-0.879) である。 さらに, 補助実験により, モデル2dは, 異なる再サンプリング間隔を持つモデル3dよりも統計的に有利であることが示された。 結論: 2次元放射能特性を持つモデルでは,gcを特徴付ける3次元特徴を持つモデルと同等の性能を示した。 意義:我々の研究は、時間節約の2dアノテーションがgcのより良い選択であると示し、さらなる放射線工学に基づく研究に関連した参考文献を提供した。

Objective: Radiomics, an emerging tool for medical image analysis, is potential towards precisely characterizing gastric cancer (GC). Whether using one-slice 2D annotation or whole-volume 3D annotation remains a long-time debate, especially for heterogeneous GC. We comprehensively compared 2D and 3D radiomic features' representation and discrimination capacity regarding GC, via three tasks. Methods: Four-center 539 GC patients were retrospectively enrolled and divided into the training and validation cohorts. From 2D or 3D regions of interest (ROIs) annotated by radiologists, radiomic features were extracted respectively. Feature selection and model construction procedures were customed for each combination of two modalities (2D or 3D) and three tasks. Subsequently, six machine learning models (Model_2D^LNM, Model_3D^LNM; Model_2D^LVI, Model_3D^LVI; Model_2D^pT, Model_3D^pT) were derived and evaluated to reflect modalities' performances in characterizing GC. Furthermore, we performed an auxiliary experiment to assess modalities' performances when resampling spacing is different. Results: Regarding three tasks, the yielded areas under the curve (AUCs) were: Model_2D^LNM's 0.712 (95% confidence interval, 0.613-0.811), Model_3D^LNM's 0.680 (0.584-0.775); Model_2D^LVI's 0.677 (0.595-0.761), Model_3D^LVI's 0.615 (0.528-0.703); Model_2D^pT's 0.840 (0.779-0.901), Model_3D^pT's 0.813 (0.747-0.879). Moreover, the auxiliary experiment indicated that Models_2D are statistically more advantageous than Models3D with different resampling spacings. Conclusion: Models constructed with 2D radiomic features revealed comparable performances with those constructed with 3D features in characterizing GC. Significance: Our work indicated that time-saving 2D annotation would be the better choice in GC, and provided a related reference to further radiomics-based researches.
翻訳日:2022-11-01 19:49:52 公開日:2022-10-29
# ミニマックスゲームにおける再帰推論:レベル$k$グラディエントプレイ法

Recursive Reasoning in Minimax Games: A Level $k$ Gradient Play Method ( http://arxiv.org/abs/2210.16482v1 )

ライセンス: Link先を確認
Zichu Liu, Lacra Pavel(参考訳) 視覚に訴える画像の生成にgans(generative adversarial networks)が成功したにもかかわらず、彼らは訓練が難しいことで悪名高い。 ミニマックスゲームにおける学習ダイナミクスを安定化するために,新しい再帰的推論アルゴリズム,level $k$gradient play (lv.$k$ gp) を提案する。 多くの既存アルゴリズムとは対照的に、我々のアルゴリズムは洗練されたヒューリスティックや曲率情報を必要としない。 k$が上がるにつれ、lvは増加する。 k$ gpはプレイヤーの将来戦略を正確に推定するために漸近的に収束する。 さらに、我々はそのLvを正当化する。 $\infty$ GP は、予測更新に依存する証明可能な収束ゲーム力学の行を自然に一般化する。 さらに、非凸非凸ゼロサムゲームにおける局所収束特性と双線型および二次ゲームにおける大域収束性を提供する。 Lvと組み合わせる。 提案アルゴリズムは,Adam Optimizationr を用いた GP の$k$ GP で,他の手法と比較して,性能と計算オーバーヘッドの面で明らかな優位性を示す。 CIFAR-10の1つのNvidia RTX3090 GPUとBigGANの30倍のパラメータを使用すれば、30時間以内に無条件画像生成のためのFIDが10.17になる。

Despite the success of generative adversarial networks (GANs) in generating visually appealing images, they are notoriously challenging to train. In order to stabilize the learning dynamics in minimax games, we propose a novel recursive reasoning algorithm: Level $k$ Gradient Play (Lv.$k$ GP) algorithm. In contrast to many existing algorithms, our algorithm does not require sophisticated heuristics or curvature information. We show that as $k$ increases, Lv.$k$ GP converges asymptotically towards an accurate estimation of players' future strategy. Moreover, we justify that Lv.$\infty$ GP naturally generalizes a line of provably convergent game dynamics which rely on predictive updates. Furthermore, we provide its local convergence property in nonconvex-nonconcave zero-sum games and global convergence in bilinear and quadratic games. By combining Lv.$k$ GP with Adam optimizer, our algorithm shows a clear advantage in terms of performance and computational overhead compared to other methods. Using a single Nvidia RTX3090 GPU and 30 times fewer parameters than BigGAN on CIFAR-10, we achieve an FID of 10.17 for unconditional image generation within 30 hours, allowing GAN training on common computational resources to reach state-of-the-art performance.
翻訳日:2022-11-01 19:24:46 公開日:2022-10-29
# サイクリックアグリゲーションによる高速コンバージェントフェデレーション学習

Fast-Convergent Federated Learning via Cyclic Aggregation ( http://arxiv.org/abs/2210.16520v1 )

ライセンス: Link先を確認
Youngjoon Lee, Sangwoo Park, Joonhyuk Kang(参考訳) フェデレートラーニング(FL)は、複数のエッジデバイス上で共有グローバルモデルを最適化することを目的として、中央サーバに(プライベート)データを送信しない。 理論上は、FLは、中央サーバですべてのエッジデバイスデータの可用性を前提として、最適なモデル - 集中的に訓練されたモデルを生成することはよく知られているが、実際は、収束するまで、特に統計的・計算的不均一性の存在下で、大量のイテレーションを必要とすることが多い。 本稿では,サーバ側での循環学習率を用いて,サーバ側とエッジ側の両方の計算コストを伴わずに,性能向上によるトレーニングイテレーションの回数を削減する。 数値的な結果から,提案する循環集約を既存のflアルゴリズムにプラグインするだけで,効率が向上したトレーニングイテレーション数を効果的に削減できることを確認した。

Federated learning (FL) aims at optimizing a shared global model over multiple edge devices without transmitting (private) data to the central server. While it is theoretically well-known that FL yields an optimal model -- centrally trained model assuming availability of all the edge device data at the central server -- under mild condition, in practice, it often requires massive amount of iterations until convergence, especially under presence of statistical/computational heterogeneity. This paper utilizes cyclic learning rate at the server side to reduce the number of training iterations with increased performance without any additional computational costs for both the server and the edge devices. Numerical results validate that, simply plugging-in the proposed cyclic aggregation to the existing FL algorithms effectively reduces the number of training iterations with improved performance.
翻訳日:2022-11-01 19:24:25 公開日:2022-10-29
# MinUn:マイクロコントローラの正確なML推論

MinUn: Accurate ML Inference on Microcontrollers ( http://arxiv.org/abs/2210.16556v1 )

ライセンス: Link先を確認
Shikhar Jaiswal, Rahul Kiran Kranti Goli, Aayan Kumar, Vivek Seshadri and Rahul Sharma(参考訳) TinyMLとして知られる小さなデバイスで機械学習推論を実行することは、新たな研究分野である。 このタスクは、標準的なmlフレームワークが不適切なメモリを使用する推論コードを生成する必要がある。 TinyMLのデプロイメントフレームワークは必須でなければならない a) 数値表現におけるパラメトリックは、ポジットのような新興表現を利用する。 b) モデル精度を維持しつつ、ほとんどのテンソルを低精度で保持できるように、いくつかのテンソルに高精度を慎重に割り当てること。 c) メモリの断片化を避ける。 MinUnは、ARMマイクロコントローラ(Arduino Uno、Due、STM32H747など)の効率的なコードを生成するために、これらの問題を解決する最初のTinyMLフレームワークである。

Running machine learning inference on tiny devices, known as TinyML, is an emerging research area. This task requires generating inference code that uses memory frugally, a task that standard ML frameworks are ill-suited for. A deployment framework for TinyML must be a) parametric in the number representation to take advantage of the emerging representations like posits, b) carefully assign high-precision to a few tensors so that most tensors can be kept in low-precision while still maintaining model accuracy, and c) avoid memory fragmentation. We describe MinUn, the first TinyML framework that holistically addresses these issues to generate efficient code for ARM microcontrollers (e.g., Arduino Uno, Due and STM32H747) that outperforms the prior TinyML frameworks.
翻訳日:2022-11-01 19:24:08 公開日:2022-10-29
# Track2Vec:GPUのないカスタマイズ可能なフレームワークによるフェアネスミュージックレコメンデーション

Track2Vec: fairness music recommendation with a GPU-free customizable-driven framework ( http://arxiv.org/abs/2210.16590v1 )

ライセンス: Link先を確認
Wei-Wei Du, Wei-Yao Wang, Wen-Chih Peng(参考訳) 推薦システムは,過去の行動に基づいてユーザの嗜好を特徴づける上で,大きな進歩を示した。 正確な推薦の有効性にもかかわらず、フェアネス、多様性、限られた資源など、推薦システムの様々な側面を評価するのに不可欠な要素はいくつか存在する。 これらの問題に対処するため、フェアネス音楽レコメンデーションのためのGPUフリーのカスタマイズ可能なフレームワークであるTrack2Vecを提案する。 精度と公平性を両面から考慮するために,我々のソリューションは,3つのモジュール,設定可能な設定に基づいて異なる特徴をモデリングするためのカスタマイズされたフェアネス対応グループ,より良いユーザ埋め込みを学習するためのトラック表現学習モジュール,異なるトラック表現学習モジュールから推薦結果をランキングするアンサンブルモジュールからなる。 さらに, 自然言語処理に広く用いられているTF-IDFに触発されて, ミスレート - 逆接地真実周波数 (MR-ITF) と呼ばれる測定基準を導入する。 広範な実験により,evalrs @ cikm 2022チャレンジにおいて,gpuフリー環境での4番目の価格ランキングを達成できることが実証された。 さらに, アブレーション研究は, グループごとに正確かつ公平な推薦を得ることの必要性を示した。

Recommendation systems have illustrated the significant progress made in characterizing users' preferences based on their past behaviors. Despite the effectiveness of recommending accurately, there exist several factors that are essential but unexplored for evaluating various facets of recommendation systems, e.g., fairness, diversity, and limited resources. To address these issues, we propose Track2Vec, a GPU-free customizable-driven framework for fairness music recommendation. In order to take both accuracy and fairness into account, our solution consists of three modules, a customized fairness-aware groups for modeling different features based on configurable settings, a track representation learning module for learning better user embedding, and an ensemble module for ranking the recommendation results from different track representation learning modules. Moreover, inspired by TF-IDF which has been widely used in natural language processing, we introduce a metric called Miss Rate - Inverse Ground Truth Frequency (MR-ITF) to measure the fairness. Extensive experiments demonstrate that our model achieves a 4th price ranking in a GPU-free environment on the leaderboard in the EvalRS @ CIKM 2022 challenge, which is superior to the official baseline by about 200% in terms of the official scores. In addition, the ablation study illustrates the necessity of ensembling each group to acquire both accurate and fair recommendations.
翻訳日:2022-11-01 19:23:54 公開日:2022-10-29
# 学習グループ:マルチエージェント強化学習のための学習可能なウェイトグルーピングによるFPGAのリアルタイムスパーストレーニング

LearningGroup: A Real-Time Sparse Training on FPGA via Learnable Weight Grouping for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.16624v1 )

ライセンス: Link先を確認
Je Yang, JaeUk Kim and Joo-Young Kim(参考訳) マルチエージェント強化学習(MARL)は、マルチロボット制御や自動運転車などの様々なアプリケーションにおいて、インタラクティブな人工知能システムを構築するための強力な技術である。 ネットワークpruningを積極的に活用する教師付きモデルやシングルエージェント強化学習とは異なり、pruningが協調的かつインタラクティブな特徴を持つマルチエージェント強化学習においてどのように機能するかは不明である。 本稿では,アルゴリズムとアーキテクチャの共同設計手法を用いて marl の学習にネットワークプラニングを適用した,リアルタイムスパーストレーニングアクセラレーションシステム learninggroup を提案する。 我々は,重みグループ化アルゴリズムを用いてスパース性を作成し,効率的な実装で高速エンコーディングを可能にするオンチップスパースデータエンコーディングループ(osel)を提案する。 OSELのエンコーディングフォーマットに基づいて、LearningGroupは複数のコアに効率的な重み圧縮と計算負荷割り当てを行い、各コアはベクトル処理ユニットと同時に重み行列の複数のスパース行を処理する。 その結果、LearningGroupシステムは、スパースデータ生成のサイクル時間とメモリフットプリントを最大5.72倍および6.81倍まで最小化する。 FPGAアクセラレータは257.40-3629.48 GFLOPSスループットと7.10-100.12 GFLOPS/Wエネルギ効率を示しており、これはNvidia Titan RTX GPUより7.13倍高く、12.43倍エネルギー効率が高い。 最も重要な点として、この加速器は密度の高いケース上でスパースデータを処理するための最大12.52倍の速度を示す。

Multi-agent reinforcement learning (MARL) is a powerful technology to construct interactive artificial intelligent systems in various applications such as multi-robot control and self-driving cars. Unlike supervised model or single-agent reinforcement learning, which actively exploits network pruning, it is obscure that how pruning will work in multi-agent reinforcement learning with its cooperative and interactive characteristics. \par In this paper, we present a real-time sparse training acceleration system named LearningGroup, which adopts network pruning on the training of MARL for the first time with an algorithm/architecture co-design approach. We create sparsity using a weight grouping algorithm and propose on-chip sparse data encoding loop (OSEL) that enables fast encoding with efficient implementation. Based on the OSEL's encoding format, LearningGroup performs efficient weight compression and computation workload allocation to multiple cores, where each core handles multiple sparse rows of the weight matrix simultaneously with vector processing units. As a result, LearningGroup system minimizes the cycle time and memory footprint for sparse data generation up to 5.72x and 6.81x. Its FPGA accelerator shows 257.40-3629.48 GFLOPS throughput and 7.10-100.12 GFLOPS/W energy efficiency for various conditions in MARL, which are 7.13x higher and 12.43x more energy efficient than Nvidia Titan RTX GPU, thanks to the fully on-chip training and highly optimized dataflow/data format provided by FPGA. Most importantly, the accelerator shows speedup up to 12.52x for processing sparse data over the dense case, which is the highest among state-of-the-art sparse training accelerators.
翻訳日:2022-11-01 19:23:28 公開日:2022-10-29
# Auxo: スケーラブルなクライアントクラスタリングによるフェデレーション学習

Auxo: Heterogeneity-Mitigating Federated Learning via Scalable Client Clustering ( http://arxiv.org/abs/2210.16656v1 )

ライセンス: Link先を確認
Jiachen Liu, Fan Lai, Yinwei Dai, Aditya Akella, Harsha Madhyastha, Mosharaf Chowdhury(参考訳) Federated Learning(FL)は、ヘテロジニアスエッジデバイスが、生データを論理的に集中したサーバに公開することなく、MLモデルを協調的にトレーニングすることを可能にする、新興機械学習(ML)パラダイムである。 参加者間の不均一性は、非独立的かつ同一に分散した(非iid)データ分布とデバイス能力のバリエーションの両方の観点から、flの基本的な課題である。 既存の多くの作業では、低収束、最終精度の低下、flのバイアスといった問題に対処するためのポイントソリューションが提供されています。 我々は,統計学的に類似したデータ分布(コホート)を持つクライアント群が存在することを観察する。 本稿では,大規模,低参加型,資源制約型fl集団のコホートを徐々に同定する手法を提案する。 auxoは、モデルパフォーマンスを改善し、リソース効率を確保するために、コホート固有のモデルを訓練する方法を適応的に決定する。 コーホートをより小さく同定し,効率的なコホートベーストレーニングを行うことにより,Auxoは最終的な精度,収束時間,モデルバイアスの観点から,最先端のソリューションを大幅に向上させることを示す。

Federated learning (FL) is an emerging machine learning (ML) paradigm that enables heterogeneous edge devices to collaboratively train ML models without revealing their raw data to a logically centralized server. Heterogeneity across participants is a fundamental challenge in FL, both in terms of non-independent and identically distributed (Non-IID) data distributions and variations in device capabilities. Many existing works present point solutions to address issues like slow convergence, low final accuracy, and bias in FL, all stemming from the client heterogeneity. We observe that, in a large population, there exist groups of clients with statistically similar data distributions (cohorts). In this paper, we propose Auxo to gradually identify cohorts among large-scale, low-participation, and resource-constrained FL populations. Auxo then adaptively determines how to train cohort-specific models in order to achieve better model performance and ensure resource efficiency. By identifying cohorts with smaller heterogeneity and performing efficient cohort-based training, our extensive evaluations show that Auxo substantially boosts the state-of-the-art solutions in terms of final accuracy, convergence time, and model bias.
翻訳日:2022-11-01 19:22:56 公開日:2022-10-29
# 分布シフトとビザンチン攻撃に対するロバスト分散学習

Robust Distributed Learning Against Both Distributional Shifts and Byzantine Attacks ( http://arxiv.org/abs/2210.16682v1 )

ライセンス: Link先を確認
Guanqiang Zhou and Ping Xu and Yue Wang and Zhi Tian(参考訳) 分散学習システムでは、2つのソースから堅牢性の問題が発生する可能性がある。 一方、トレーニングデータとテストデータ間の分散シフトにより、トレーニングされたモデルはサンプル外性能が劣る可能性がある。 一方、作業ノードの一部は、学習結果を無効にできるビザンチン攻撃を受ける可能性がある。 既存の作業は、主にこれら2つの問題を別々に扱う。 本稿では,分布シフトとビザンチン攻撃の両方に対するロバスト性尺度を分散学習に適用する新しいアルゴリズムを提案する。 我々のアルゴリズムは,近年の分散的ロバストな最適化と,ビザンチン攻撃に対するロバストなアグリゲーション手法であるノルムベーススクリーニング(NBS)に基づいて構築されている。 提案手法では,非凸,凸,強凸の3つの学習モデルの収束証明を提供し,その収束挙動とビザンチン攻撃に対する耐久性に光を当てる。 特に、NBSを用いたアルゴリズムは、現在の文献における一般的な信念である1/2ではなく、バイザンチンノードのパーセンテージが1/3以上であれば収束できないと推定する。 実験の結果,両頑健性問題に対するアルゴリズムの有効性が示された。 私たちの知る限りでは、これは分散シフトとビザンチン攻撃を同時に対処する最初の試みである。

In distributed learning systems, robustness issues may arise from two sources. On one hand, due to distributional shifts between training data and test data, the trained model could exhibit poor out-of-sample performance. On the other hand, a portion of working nodes might be subject to byzantine attacks which could invalidate the learning result. Existing works mostly deal with these two issues separately. In this paper, we propose a new algorithm that equips distributed learning with robustness measures against both distributional shifts and byzantine attacks. Our algorithm is built on recent advances in distributionally robust optimization as well as norm-based screening (NBS), a robust aggregation scheme against byzantine attacks. We provide convergence proofs in three cases of the learning model being nonconvex, convex, and strongly convex for the proposed algorithm, shedding light on its convergence behaviors and endurability against byzantine attacks. In particular, we deduce that any algorithm employing NBS (including ours) cannot converge when the percentage of byzantine nodes is 1/3 or higher, instead of 1/2, which is the common belief in current literature. The experimental results demonstrate the effectiveness of our algorithm against both robustness issues. To the best of our knowledge, this is the first work to address distributional shifts and byzantine attacks simultaneously.
翻訳日:2022-11-01 19:22:32 公開日:2022-10-29
# コルモゴロフ流のデータ駆動低次元動的モデル

Data-driven low-dimensional dynamic model of Kolmogorov flow ( http://arxiv.org/abs/2210.16708v1 )

ライセンス: Link先を確認
Carlos E. P\'erez De Jes\'us, Michael D. Graham(参考訳) 流れのダイナミクスを捉える低次モデル (ROM) は、シミュレーションやモデルに基づく制御手法の計算コストの削減に重要である。 この研究は、フローのダイナミクスと特性を効果的にキャプチャする最小次元モデルのためのデータ駆動フレームワークを示す。 我々は,多くのフロープロセスでよく見られるカオス的かつ断続的行動からなる状態におけるコルモゴロフ流れに適用し,モデル化が困難である。 流れの軌跡は相対周期軌道(RPOs)付近を移動し、RPOを含む領域間の遠心分離に対応する散発的なバースト現象と交わる。 モデルの開発の最初のステップは、完全な状態データから劇的に低い次元の潜在空間にマップするために、未完成のオートエンコーダを使用することである。 その後、潜在空間における力学の離散時間発展のモデルが開発される。 モデル性能を潜在空間次元の関数として解析することにより、系力学を捉えるのに必要な最小次元数を推定できる。 動的モデルの次元をさらに小さくするため,流れの翻訳不変性の方向に位相変数を導出し,パターンと位相ダイナミクスの分離した進化方程式を導出する。 パターン力学のモデル次元5では、1024(すなわち32x32格子)の完全な状態次元とは対照的に、個々の軌跡の正確な予測はリャプノフの約2倍の時間と長期間の統計に見出される。 異なるRPO間のほぼヘテロクリニックな接続は、キネッセンスとバーストの時間スケールを含む、よく捉えられている。 フェーズダイナミクスの重要な特徴も捉えています。 最後に、低次元表現を使用して将来のバーストイベントを予測し、良好な成功を見出す。

Reduced order models (ROMs) that capture flow dynamics are of interest for decreasing computational costs for simulation as well as for model-based control approaches. This work presents a data-driven framework for minimal-dimensional models that effectively capture the dynamics and properties of the flow. We apply this to Kolmogorov flow in a regime consisting of chaotic and intermittent behavior, which is common in many flows processes and is challenging to model. The trajectory of the flow travels near relative periodic orbits (RPOs), interspersed with sporadic bursting events corresponding to excursions between the regions containing the RPOs. The first step in development of the models is use of an undercomplete autoencoder to map from the full state data down to a latent space of dramatically lower dimension. Then models of the discrete-time evolution of the dynamics in the latent space are developed. By analyzing the model performance as a function of latent space dimension we can estimate the minimum number of dimensions required to capture the system dynamics. To further reduce the dimension of the dynamical model, we factor out a phase variable in the direction of translational invariance for the flow, leading to separate evolution equations for the pattern and phase dynamics. At a model dimension of five for the pattern dynamics, as opposed to the full state dimension of 1024 (i.e. a 32x32 grid), accurate predictions are found for individual trajectories out to about two Lyapunov times, as well as for long-time statistics. The nearly heteroclinic connections between the different RPOs, including the quiescent and bursting time scales, are well captured. We also capture key features of the phase dynamics. Finally, we use the low-dimensional representation to predict future bursting events, finding good success.
翻訳日:2022-11-01 19:22:11 公開日:2022-10-29
# オフラインメトリクスの調整とAI-Pairプログラマの価値判断

Aligning Offline Metrics and Human Judgments of Value of AI-Pair Programmers ( http://arxiv.org/abs/2210.16494v1 )

ライセンス: Link先を確認
Victor Dibia, Adam Fourney, Gagan Bansal, Forough Poursabzi-Sangdeh, Han Liu and Saleema Amershi(参考訳) 膨大な量の自然言語データとコードに基づいてトレーニングされた大規模言語モデルは、自動コード生成シナリオにおいて素晴らしい能力を示している。 これらのモデルの開発と評価は、生成したコードが対応する単体テストに合格した場合に解決すべきタスクを考えるオフライン機能正当性メトリクスによって主に進められている。 関数的正当性は明らかにコード生成モデルの重要な特性であるが、AIペアプログラマとの共同作業では、プログラマの価値を完全に把握できないかもしれない。 例えば、エッジケースを考慮しないほぼ正しい提案は単体テストに失敗するかもしれないが、プログラマに実質的な出発点やヒントを提供する可能性があるため、コーディングタスクの完了に要する労力を削減できる。 そこで本研究では, (N=49) 経験者を対象にユーザスタディを行い, 正確さと努力はともに価値と相関するが, 努力には最も強い関係があることを見出した。 我々は、コード生成シナリオにおいて、努力は評価の重要な要素であると考えるべきであると論じている。 また、最も価値の高い世代を特定するのに機能的な正確さは依然として優れていることが分かりました。 逆に、類似度ベースのメトリクスは、ユニットテストに失敗するものの中で最低値の世代を特定するのに非常に適しています。 これらの知見に基づいて,機能的正しさと類似度に基づくメトリクスを組み合わせることで,プログラマの持つ価値の異なる次元を抽出し,このハイブリッドメトリックが,価値と労力の両面でより強く相関していることを示す。 私たちの発見は、AIペアプログラマに必要なものや価値をキャプチャする、人間中心のメトリクスを設計することの重要性を強調しています。

Large language models trained on massive amounts of natural language data and code have shown impressive capabilities in automatic code generation scenarios. Development and evaluation of these models has largely been driven by offline functional correctness metrics, which consider a task to be solved if the generated code passes corresponding unit tests. While functional correctness is clearly an important property of a code generation model, we argue that it may not fully capture what programmers value when collaborating with their AI pair programmers. For example, while a nearly correct suggestion that does not consider edge cases may fail a unit test, it may still provide a substantial starting point or hint to the programmer, thereby reducing total needed effort to complete a coding task. To investigate this, we conduct a user study with (N=49) experienced programmers, and find that while both correctness and effort correlate with value, the association is strongest for effort. We argue that effort should be considered as an important dimension of evaluation in code generation scenarios. We also find that functional correctness remains better at identifying the highest-value generations; but participants still saw considerable value in code that failed unit tests. Conversely, similarity-based metrics are very good at identifying the lowest-value generations among those that fail unit tests. Based on these findings, we propose a simple hybrid metric, which combines functional correctness and similarity-based metrics to capture different dimensions of what programmers might value and show that this hybrid metric more strongly correlates with both value and effort. Our findings emphasize the importance of designing human-centered metrics that capture what programmers need from and value in their AI pair programmers.
翻訳日:2022-11-01 19:05:33 公開日:2022-10-29
# 観測可能な完全平衡

Observable Perfect Equilibrium ( http://arxiv.org/abs/2210.16506v1 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) ナッシュ均衡はゲーム理論の中心的な概念として現れてきたが、多くの重要なゲームにはナッシュ均衡がいくつか含まれており、実際の戦略エージェントを作成するためにそれらの間の選択方法を決定する必要がある。 いくつかのナッシュ均衡改善の概念が提案され、シーケンシャル不完全情報ゲームのために研究され、最も顕著なのはトレムリングハンド完全均衡、準完全均衡、そして最近の片側準完全均衡である。 これらの概念は、任意の小さな誤りに対して頑健であり、常に存在することが保証されているが、不完全な情報の連続的なゲームにおいて強力なエージェントを開発するための正しい概念ではないと主張する。 我々は、可観測完全均衡(observable perfect equilibrium)と呼ばれる拡張形式のゲームに対して、解が公然と観測可能な作用確率(相手プレイヤーによって観測できないかもしれない全ての作用確率)の反動に対して頑健であるような新しい平衡改善概念を定義する。 可観測完全均衡(Observable perfect equilibrium)は、相手が観測された誤りに対して可能な限り合理的にプレイしているという仮定を正しく捉える(ただし、以前の解の概念はそうではない)。 我々は観測可能な完全平衡が常に存在することを証明し、それが以前の無制限ポーカーの広範囲な改良とは異なる解決策をもたらすことを証明している。 観測可能な完全均衡は、人工知能に興味を持つ多くの重要な不完全情報ゲームをモデリングするための有用な均衡洗練概念であることを期待している。

While Nash equilibrium has emerged as the central game-theoretic solution concept, many important games contain several Nash equilibria and we must determine how to select between them in order to create real strategic agents. Several Nash equilibrium refinement concepts have been proposed and studied for sequential imperfect-information games, the most prominent being trembling-hand perfect equilibrium, quasi-perfect equilibrium, and recently one-sided quasi-perfect equilibrium. These concepts are robust to certain arbitrarily small mistakes, and are guaranteed to always exist; however, we argue that neither of these is the correct concept for developing strong agents in sequential games of imperfect information. We define a new equilibrium refinement concept for extensive-form games called observable perfect equilibrium in which the solution is robust over trembles in publicly-observable action probabilities (not necessarily over all action probabilities that may not be observable by opposing players). Observable perfect equilibrium correctly captures the assumption that the opponent is playing as rationally as possible given mistakes that have been observed (while previous solution concepts do not). We prove that observable perfect equilibrium is always guaranteed to exist, and demonstrate that it leads to a different solution than the prior extensive-form refinements in no-limit poker. We expect observable perfect equilibrium to be a useful equilibrium refinement concept for modeling many important imperfect-information games of interest in artificial intelligence.
翻訳日:2022-11-01 19:05:05 公開日:2022-10-29
# 無料の軽量ネットワーク:大規模なmimo csiフィードバックのためのコードワード模倣学習

Better Lightweight Network for Free: Codeword Mimic Learning for Massive MIMO CSI feedback ( http://arxiv.org/abs/2210.16544v1 )

ライセンス: Link先を確認
Zhilin Lu, Xudong Zhang, Rui Zeng, Jintao Wang(参考訳) チャネル状態情報(CSI)は、周波数分割二重化(FDD)多重出力多重出力(MIMO)システムにおいて、ユーザ装置(UE)から基地局(BS)にフィードバックされる必要がある。 近年,大規模mimoシステムではオーバーヘッドが大きいため,csi圧縮フィードバックにニューラルネットワークが広く適用されている。 特に、軽量なフィードバックネットワークは、デプロイの実用性から特に注目を集めている。 しかし、フィードバック精度はネットワーク圧縮によって損なわれる可能性が高い。 本稿では,実用的な軽量エンコーダを用いたフィードバックネットワークのトレーニングのために,コードワード模倣(CM)というコストフリー蒸留手法を提案する。 特別蒸留スケジューラを用いた模擬露光学習戦略は,CM学習の促進を目的としている。 実験により,提案したCM学習は,従来の最先端のフィードバック蒸留法よりも優れており,余分な推論コストを伴わない軽量フィードバックネットワークの性能が向上することが示された。

The channel state information (CSI) needs to be fed back from the user equipment (UE) to the base station (BS) in frequency division duplexing (FDD) multiple-input multiple-output (MIMO) system. Recently, neural networks are widely applied to CSI compressed feedback since the original overhead is too large for the massive MIMO system. Notably, lightweight feedback networks attract special attention due to their practicality of deployment. However, the feedback accuracy is likely to be harmed by the network compression. In this paper, a cost free distillation technique named codeword mimic (CM) is proposed to train better feedback networks with the practical lightweight encoder. A mimic-explore training strategy with a special distillation scheduler is designed to enhance the CM learning. Experiments show that the proposed CM learning outperforms the previous state-of-the-art feedback distillation method, boosting the performance of the lightweight feedback network without any extra inference cost.
翻訳日:2022-11-01 19:04:41 公開日:2022-10-29
# 予測符号化モデルにおける音楽の知覚と予測の関係

Relating Human Perception of Musicality to Prediction in a Predictive Coding Model ( http://arxiv.org/abs/2210.16587v1 )

ライセンス: Link先を確認
Nikolas McNeal, Jennifer Huang, Aniekan Umoren, Shuqi Dai, Roger Dannenberg, Richard Randall, Tai Sing Lee(参考訳) 人間の音楽知覚をモデル化するための予測符号化にインスパイアされたニューラルネットワークの利用について検討する。 このネットワークは階層視覚野における反復相互作用の計算神経科学理論に基づいて開発された。 自己教師付き学習を用いて映像データを訓練すると、モデルは人間の視覚錯覚と一致した行動を示す。 本稿では,このネットワークを用いて階層的聴覚系をモデル化し,ランダムピッチ系列の楽音性について人間にも同様の選択をするかどうかを検討する。 モデルが楽器のクラシック音楽とメロディの大規模なコーパスで訓練されると、人間の被験者による楽譜の低いランダムなピッチ列に対する予測誤差が大きくなる。 予測誤差は,その後の音符,ピッチ間隔,時間的文脈などの情報量に依存することがわかった。 以上の結果から,予測可能性と音楽知覚との関係が示唆され,音楽に訓練された予測符号化ニューラルネットワークを用いて,音楽知覚に寄与する特徴やモチーフを特徴付けることができる。

We explore the use of a neural network inspired by predictive coding for modeling human music perception. This network was developed based on the computational neuroscience theory of recurrent interactions in the hierarchical visual cortex. When trained with video data using self-supervised learning, the model manifests behaviors consistent with human visual illusions. Here, we adapt this network to model the hierarchical auditory system and investigate whether it will make similar choices to humans regarding the musicality of a set of random pitch sequences. When the model is trained with a large corpus of instrumental classical music and popular melodies rendered as mel spectrograms, it exhibits greater prediction errors for random pitch sequences that are rated less musical by human subjects. We found that the prediction error depends on the amount of information regarding the subsequent note, the pitch interval, and the temporal context. Our findings suggest that predictability is correlated with human perception of musicality and that a predictive coding neural network trained on music can be used to characterize the features and motifs contributing to human perception of music.
翻訳日:2022-11-01 19:04:25 公開日:2022-10-29
# GPA-Net:マルチタスクグラフ畳み込みネットワークによる非参照点クラウド品質評価

GPA-Net:No-Reference Point Cloud Quality Assessment with Multi-task Graph Convolutional Network ( http://arxiv.org/abs/2210.16478v1 )

ライセンス: Link先を確認
Ziyu Shan, Qi Yang, Rui Ye, Yujie Zhang, Yiling Xu, Xiaozhong Xu and Shan Liu(参考訳) 3Dビジョンの急速な発展に伴い、ポイントクラウドはますます人気のある3Dビジュアルメディアコンテンツになりつつある。 不規則な構造のため、ポイントクラウドは、圧縮、伝達、レンダリング、品質評価など、関連する研究に新たな課題をもたらした。 これらの最新の研究で、ポイントクラウドの品質評価(PCQA)は、特に参照ポイントクラウドが利用できない場合において、実用的なアプリケーションを導く上で重要な役割を担っているため、広く注目を集めている。 しかし、一般的なディープニューラルネットワークに基づく現在の非参照メトリクスには明らかな欠点がある。 例えば、点雲の不規則構造に適応するためには、余分な歪みをもたらすボキセル化やプロジェクションのような前処理が必要であり、Convolutional Neural Networksのような応用グリッドカーネルネットワークは、効果的な歪み関連の特徴を抽出できない。 さらに、彼らは様々な歪みパターンや、PCQAがシフト、スケーリング、回転不変性を示すべきという哲学を考えることはめったにない。 本稿では,グラフ畳み込みPCQAネットワーク (GPA-Net) と呼ばれる新しい非参照PCQAメトリックを提案する。 PCQAに有効な特徴を抽出するために,構造とテクスチャの摂動を注意深く捉えた新しいグラフ畳み込みカーネル,すなわちGPAConvを提案する。 次に,1つのメインタスク(品質回帰)と2つの補助タスク(歪タイプと次数予測)からなるマルチタスクフレームワークを提案する。 最後に,GPAConvの結果をシフト,スケール,回転変換で安定化させる座標正規化モジュールを提案する。 2つの独立したデータベースの実験結果から、GPA-Netは最先端の非参照PCQAメトリクスと比較して最高のパフォーマンスを達成している。

With the rapid development of 3D vision, point cloud has become an increasingly popular 3D visual media content. Due to the irregular structure, point cloud has posed novel challenges to the related research, such as compression, transmission, rendering and quality assessment. In these latest researches, point cloud quality assessment (PCQA) has attracted wide attention due to its significant role in guiding practical applications, especially in many cases where the reference point cloud is unavailable. However, current no-reference metrics which based on prevalent deep neural network have apparent disadvantages. For example, to adapt to the irregular structure of point cloud, they require preprocessing such as voxelization and projection that introduce extra distortions, and the applied grid-kernel networks, such as Convolutional Neural Networks, fail to extract effective distortion-related features. Besides, they rarely consider the various distortion patterns and the philosophy that PCQA should exhibit shifting, scaling, and rotational invariance. In this paper, we propose a novel no-reference PCQA metric named the Graph convolutional PCQA network (GPA-Net). To extract effective features for PCQA, we propose a new graph convolution kernel, i.e., GPAConv, which attentively captures the perturbation of structure and texture. Then, we propose the multi-task framework consisting of one main task (quality regression) and two auxiliary tasks (distortion type and degree predictions). Finally, we propose a coordinate normalization module to stabilize the results of GPAConv under shift, scale and rotation transformations. Experimental results on two independent databases show that GPA-Net achieves the best performance compared to the state-of-the-art no-reference PCQA metrics, even better than some full-reference metrics in some cases.
翻訳日:2022-11-01 18:46:47 公開日:2022-10-29
# IM:イメージモーメントとモーメント不変量の計算のためのRパッケージ

IM: An R-Package for Computation of Image Moments and Moment Invariants ( http://arxiv.org/abs/2210.16485v1 )

ライセンス: Link先を確認
Allison Irvine, Tan Dang, M. Murat Dundar and Bartek Rajwa(参考訳) モーメント不変量は画像分類のためのよく確立され効果的な形状記述子である。 本稿では,画像のモーメントの計算を実装し,オブジェクト指向フレームワーク内のモーメントから画像の再構成を可能にする,r言語用パッケージimを提案する。 いくつかのモーメントは、離散的かつ連続的なチェビシェフ、ゲゲンバウアー、ルジャンドル、クラフチョーク、双対ハーン、一般化された擬ゼルニケ、フーリエ・メリン、ラジアル調和フーリエモーメントなど、IMライブラリを使って計算することができる。 さらに、2つの異なる種類の多項式の組み合わせを用いて、カスタムな二変量型モーメントを計算できる。 画素座標の極変換の方法は、矩形上の直交するモーメントの回転に近似的な不変性を与えるために用いられる。 本報告では, モーメントの計算に用いる多項式の種類と, 復元時間と走行時間の比較について述べる。 画像モーメントを用いた画像分類の例を示す。

Moment invariants are well-established and effective shape descriptors for image classification. In this report, we introduce a package for R-language, named IM, that implements the calculation of moments for images and allows the reconstruction of images from moments within an object-oriented framework. Several types of moments may be computed using the IM library, including discrete and continuous Chebyshev, Gegenbauer, Legendre, Krawtchouk, dual Hahn, generalized pseudo-Zernike, Fourier-Mellin, and radial harmonic Fourier moments. In addition, custom bivariate types of moments can be calculated using combinations of two different types of polynomials. A method of polar transformation of pixel coordinates is used to provide an approximate invariance to rotation for moments that are orthogonal over a rectangle. The different types of polynomials used to calculate moments are discussed in this report, as well as comparisons of reconstruction and running time. Examples of image classification using image moments are provided.
翻訳日:2022-11-01 18:46:17 公開日:2022-10-29
# semantic-super : 内視鏡的組織分類・再構築・追跡のための意味認識フレームワーク

Semantic-SuPer: A Semantic-aware Surgical Perception Framework for Endoscopic Tissue Classification, Reconstruction, and Tracking ( http://arxiv.org/abs/2210.16674v1 )

ライセンス: Link先を確認
Shan Lin, Albert J. Miao, Jingpei Lu, Shunkai Yu, Zih-Yun Chiu, Florian Richter, Michael C. Yip(参考訳) 手術シーンの正確な追跡と再構築は、自律型ロボット手術において重要な技術である。 既存の3次元画像認識アルゴリズムは主に幾何学的情報に依存し,画像分割アルゴリズムを用いて内視鏡画像から推定される意味情報を活用することを提案する。 本稿では,幾何学的・意味的な情報を統合してデータアソシエーション,3次元再構成,内視鏡的シーンの追跡を可能にし,手術ナビゲーションなどの下流作業に役立てる,新しい総合的な外科的知覚フレームワークSemantic-SuPerを提案する。 提案手法は, 変形組織を用いて内視鏡的データに挑戦し, ベースラインと他の最先端アプローチに対する優位性を示す。 私たちのコードとデータセットはhttps://github.com/ucsdarclab/Python-SuPer.orgで公開されます。

Accurate and robust tracking and reconstruction of the surgical scene is a critical enabling technology toward autonomous robotic surgery. Existing algorithms for 3D perception in surgery mainly rely on geometric information, while we propose to also leverage semantic information inferred from the endoscopic video using image segmentation algorithms. In this paper, we present a novel, comprehensive surgical perception framework, Semantic-SuPer, that integrates geometric and semantic information to facilitate data association, 3D reconstruction, and tracking of endoscopic scenes, benefiting downstream tasks like surgical navigation. The proposed framework is demonstrated on challenging endoscopic data with deforming tissue, showing its advantages over our baseline and several other state-of the-art approaches. Our code and dataset will be available at https://github.com/ucsdarclab/Python-SuPer.
翻訳日:2022-11-01 18:46:00 公開日:2022-10-29
# 頭頸部腫瘍切除のための多段階核融合法

Multi-Scale Fusion Methodologies for Head and Neck Tumor Segmentation ( http://arxiv.org/abs/2210.16704v1 )

ライセンス: Link先を確認
Abhishek Srivastava, Debesh Jha, Bulent Aydogan, Mohamed E.Abazeed, and Ulas Bagci(参考訳) 頭頸部(H\&N)臓器病変(OAR)と腫瘍の分節は放射線治療計画の重要な構成要素である。 H&N nodal Gross tumor Volumes (GTVn) とH\&N primary gross tumor volume (GTVp) の解剖学的位置と寸法は, 正確で信頼性の高い delineation 法が欠如しているため, 入手が困難である。 誤ったセグメンテーションの下流効果は、通常の臓器を不必要に照射する。 完全自動放射線治療計画アルゴリズムの実現に向けて,医療スキャンからH&N腫瘍を正確に分類するためのマルチスケール核融合に基づくディープラーニングアーキテクチャの有効性を検討する。

Head and Neck (H\&N) organ-at-risk (OAR) and tumor segmentations are essential components of radiation therapy planning. The varying anatomic locations and dimensions of H\&N nodal Gross Tumor Volumes (GTVn) and H\&N primary gross tumor volume (GTVp) are difficult to obtain due to lack of accurate and reliable delineation methods. The downstream effect of incorrect segmentation can result in unnecessary irradiation of normal organs. Towards a fully automated radiation therapy planning algorithm, we explore the efficacy of multi-scale fusion based deep learning architectures for accurately segmenting H\&N tumors from medical scans.
翻訳日:2022-11-01 18:45:44 公開日:2022-10-29
# 修正ハンガリーアルゴリズムによる特殊型最適輸送問題の解法

Solving a Special Type of Optimal Transport Problem by a Modified Hungarian Algorithm ( http://arxiv.org/abs/2210.16645v1 )

ライセンス: Link先を確認
Yiling Xie, Yiling Luo, Xiaoming Huo(参考訳) 独立性テストにおける経験的wasserstein距離の計算は、特別な構造を持つ最適輸送(ot)問題である。 この観察は,ot問題の特殊型を研究することを促し,それを正確に解くための修正ハンガリーアルゴリズムを提案する。 m$と$n$の原子(m\geq n$)間のOT問題に対して、提案アルゴリズムの計算複雑性は$O(m^2n)$である。 独立性テストにおける実験的なワッサーシュタイン距離を計算するには、この特別な種類のOT問題を解く必要がある。 我々のアルゴリズムの計算複雑性は$O(n^5)$であり、古典ハンガリーのアルゴリズムを適用する順序は$O(n^6)$である。 数値実験は我々の理論解析を検証する。 最後に,提案アルゴリズムの幅広い応用について論じる。

We observe that computing empirical Wasserstein distance in the independence test is an optimal transport (OT) problem with a special structure. This observation inspires us to study a special type of OT problem and propose a modified Hungarian algorithm to solve it exactly. For an OT problem between marginals with $m$ and $n$ atoms ($m\geq n$), the computational complexity of the proposed algorithm is $O(m^2n)$. Computing the empirical Wasserstein distance in the independence test requires solving this special type of OT problem, where we have $m=n^2$. The associate computational complexity of our algorithm is $O(n^5)$, while the order of applying the classic Hungarian algorithm is $O(n^6)$. Numerical experiments validate our theoretical analysis. Broader applications of the proposed algorithm are discussed at the end.
翻訳日:2022-11-01 18:38:45 公開日:2022-10-29
# CTCガイダンスを用いたRNN-Tトレーニングと推論の高速化

Accelerating RNN-T Training and Inference Using CTC guidance ( http://arxiv.org/abs/2210.16481v1 )

ライセンス: Link先を確認
Yongqiang Wang, Zhehuai Chen, Chengjian Zheng, Yu Zhang, Wei Han, Parisa Haghani(参考訳) 本稿では,コネクショナリズム時間分類(CTC)モデルに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニングと推論を高速化する新しい手法を提案する。 我々は、エンコーダ埋め込みフレームがctcモデルによってブランクフレームに分類された場合、このフレームはrnn-tの全ての部分アライメントや仮説に対してブランクにアライメントされ、デコーダ入力から破棄される可能性が高いと仮定した。 また,このフレーム低減操作はエンコーダの中央で適用可能であることを示し,RNN-Tのトレーニングと推論の高速化を実現している。 さらに、CTCデコーダの副産物であるCTCアライメントを用いて、トレーニング中にRNN-Tの格子縮小を行うことができることを示す。 本手法は,LibrispeechとSpeechStewのタスクに基づいて評価する。 提案手法は,RNN-T推論を2.2倍に高速化し,単語誤り率(WER)をわずかに向上することを示した。

We propose a novel method to accelerate training and inference process of recurrent neural network transducer (RNN-T) based on the guidance from a co-trained connectionist temporal classification (CTC) model. We made a key assumption that if an encoder embedding frame is classified as a blank frame by the CTC model, it is likely that this frame will be aligned to blank for all the partial alignments or hypotheses in RNN-T and it can be discarded from the decoder input. We also show that this frame reduction operation can be applied in the middle of the encoder, which result in significant speed up for the training and inference in RNN-T. We further show that the CTC alignment, a by-product of the CTC decoder, can also be used to perform lattice reduction for RNN-T during training. Our method is evaluated on the Librispeech and SpeechStew tasks. We demonstrate that the proposed method is able to accelerate the RNN-T inference by 2.2 times with similar or slightly better word error rates (WER).
翻訳日:2022-11-01 18:38:02 公開日:2022-10-29
# アフリカ先住民語の音声からテキストへの音声の音声表現と転写--キスワヒリを事例として

Phonemic Representation and Transcription for Speech to Text Applications for Under-resourced Indigenous African Languages: The Case of Kiswahili ( http://arxiv.org/abs/2210.16537v1 )

ライセンス: Link先を確認
Ebbie Awino, Lilian Wanzare, Lawrence Muchemi, Barack Wanjawa, Edward Ombui, Florence Indede, Owen McOnyango, Benard Okal(参考訳) 自動音声認識(ASR)システムの構築は、特にスクラッチからコーパスを構築する必要があり、十分なトレーニングデータが不足しているアンダーリソース言語では、難しい作業である。 キスワヒリを含むいくつかのアフリカ先住民の言語は技術的に不足している。 ASRシステムは非常に重要であり、特に聴覚障害者は母国語で書き起こしの恩恵を受けることができる。 しかし、転写された音声データセットの欠如は、これらの先住民言語のためのASRモデルの開発に複雑な努力を払っている。 本稿では,kiswahili母語話者の読み出しテキストと自発音声データの両方を含む,kiswahili音声コーパスの書き起こし過程と開発について検討する。 この研究はまた、kiswahiliの母音と子音についても論じ、オープンソースの音声認識ツールキットであるcmu sphinx音声認識ツールボックスを使用して作成されたasrモデル用に更新されたkiswahili音素辞書を提供する。 ASRモデルは、WERとSERをそれぞれ18.87%、49.5%とする拡張音素セットを使用して訓練された。

Building automatic speech recognition (ASR) systems is a challenging task, especially for under-resourced languages that need to construct corpora nearly from scratch and lack sufficient training data. It has emerged that several African indigenous languages, including Kiswahili, are technologically under-resourced. ASR systems are crucial, particularly for the hearing-impaired persons who can benefit from having transcripts in their native languages. However, the absence of transcribed speech datasets has complicated efforts to develop ASR models for these indigenous languages. This paper explores the transcription process and the development of a Kiswahili speech corpus, which includes both read-out texts and spontaneous speech data from native Kiswahili speakers. The study also discusses the vowels and consonants in Kiswahili and provides an updated Kiswahili phoneme dictionary for the ASR model that was created using the CMU Sphinx speech recognition toolbox, an open-source speech recognition toolkit. The ASR model was trained using an extended phonetic set that yielded a WER and SER of 18.87% and 49.5%, respectively, an improved performance than previous similar research for under-resourced languages.
翻訳日:2022-11-01 18:37:45 公開日:2022-10-29
# tree-constrained pointer generatorを用いたエンドツーエンド音声理解

End-to-end Spoken Language Understanding with Tree-constrained Pointer Generator ( http://arxiv.org/abs/2210.16554v1 )

ライセンス: Link先を確認
Guangzhi Sun, Chao Zhang, Philip C. Woodland(参考訳) エンドツーエンドの音声言語理解(SLU)は、長い単語の問題に悩まされる。 本稿では,SLUシステムにおいて,稀な単語の音声認識を改善する手法である文脈偏見を利用する。 具体的には、強力で効率的なバイアスモデルコンポーネントである木制約ポインタジェネレータ(TCPGen)について検討し、スロットショートリストと対応するエンティティを利用してバイアスリストを抽出する。 一方、SLUモデルの出力スロット分布を偏りにするために、TCPGenからスロット分布を計算するためにスロット確率バイアス(SPB)機構を提案する。 SLURPデータセットの実験では、TCPGenとSPBを使った一貫したSLU-F1の改善が見られた。 テストのために5つのスロットタイプを保持することで、tcpgen with spbは50%以上のslu-f1スコアでゼロショット学習を達成した。 スロット充填に加えて,意図分類精度も向上した。

End-to-end spoken language understanding (SLU) suffers from the long-tail word problem. This paper exploits contextual biasing, a technique to improve the speech recognition of rare words, in end-to-end SLU systems. Specifically, a tree-constrained pointer generator (TCPGen), a powerful and efficient biasing model component, is studied, which leverages a slot shortlist with corresponding entities to extract biasing lists. Meanwhile, to bias the SLU model output slot distribution, a slot probability biasing (SPB) mechanism is proposed to calculate a slot distribution from TCPGen. Experiments on the SLURP dataset showed consistent SLU-F1 improvements using TCPGen and SPB, especially on unseen entities. On a new split by holding out 5 slot types for the test, TCPGen with SPB achieved zero-shot learning with an SLU-F1 score over 50% compared to baselines which can not deal with it. In addition to slot filling, the intent classification accuracy was also improved.
翻訳日:2022-11-01 18:37:25 公開日:2022-10-29
# 知識蒸留のマルチタスク音声表現学習への応用

Application of Knowledge Distillation to Multi-task Speech Representation Learning ( http://arxiv.org/abs/2210.16611v1 )

ライセンス: Link先を確認
Mine Kerpicci, Van Nguyen, Shuhua Zhang, Erik Visser(参考訳) wav2vec 2.0 や HuBERT のようなモデルアーキテクチャは、音声波形から音声表現を自己教師方式で学習するために提案されている。 これらのモデルが音声認識などの下流タスクと組み合わせると、最先端のパフォーマンスが得られることが示されている。 しかし、これらのモデルは多数のパラメータを使用し、その最小バージョンは約95万のパラメータを持つ。 これは、エッジAIデバイスデプロイメントの課題となっている。 本稿では,知識蒸留を用いて,同様の性能を維持しながら,元のモデルサイズを約75%削減する。 さらに, 蒸留にwav2vec 2.0 と HuBERT モデルを用い, 蒸留モデルを単一タスクとマルチタスクのフレームワークで個別に微調整する実験を通じて, 総合的な性能解析を行った。 特に, キーワードスポッティングおよび話者照合タスクにおける蒸留モデルの微調整により, それぞれ0.1%の精度と0.9%の誤差率低下が得られた。

Model architectures such as wav2vec 2.0 and HuBERT have been proposed to learn speech representations from audio waveforms in a self-supervised manner. When these models are combined with downstream tasks such as speech recognition, they have been shown to provide state-of-the-art performance. However, these models use a large number of parameters, the smallest version of which has about 95 million parameters. This constitutes a challenge for edge AI device deployments. In this paper, we use knowledge distillation to reduce the original model size by about 75% while maintaining similar performance levels. Moreover, we use wav2vec 2.0 and HuBERT models for distillation and present a comprehensive performance analysis through our experiments where we fine-tune the distilled models on single task and multi-task frameworks separately. In particular, our experiments show that fine-tuning the distilled models on keyword spotting and speaker verification tasks result in only 0.1% accuracy and 0.9% equal error rate degradations, respectively.
翻訳日:2022-11-01 18:37:08 公開日:2022-10-29
# 人間の空間相互作用予測のための動的モデルの因果発見

Causal Discovery of Dynamic Models for Predicting Human Spatial Interactions ( http://arxiv.org/abs/2210.16535v1 )

ライセンス: Link先を確認
Luca Castri, Sariah Mghames, Marc Hanheide, Nicola Bellotto(参考訳) 倉庫やショッピングセンター、病院など、人間共有環境での活動にロボットを活用することで、近くのエージェントとオブジェクトの物理的な相互作用を理解することができる。 特に、後者間の因果関係のモデル化は、観察されていない人間の行動を予測し、特定のロボット介入の結果を予測するのに役立つ。 本稿では,実世界のセンサデータから人間の行動を理解するために,人間とロボットの空間的相互作用をモデル化する因果発見手法の応用を提案する。 新たな手法と実用的なソリューションが議論され、いくつかの困難な人間の環境で最先端の因果発見アルゴリズムを初めて活用し、多くのサービスロボティクスシナリオに応用される可能性がある。 実世界のデータセットから得られた因果モデルの有用性を示すために,因果予測と非因果予測の比較を行った。 その結果,因果モデルが考慮されたシナリオの基盤となる相互作用を正しく捉え,予測精度を向上できることがわかった。

Exploiting robots for activities in human-shared environments, whether warehouses, shopping centres or hospitals, calls for such robots to understand the underlying physical interactions between nearby agents and objects. In particular, modelling cause-and-effect relations between the latter can help to predict unobserved human behaviours and anticipate the outcome of specific robot interventions. In this paper, we propose an application of causal discovery methods to model human-robot spatial interactions, trying to understand human behaviours from real-world sensor data in two possible scenarios: humans interacting with the environment, and humans interacting with obstacles. New methods and practical solutions are discussed to exploit, for the first time, a state-of-the-art causal discovery algorithm in some challenging human environments, with potential application in many service robotics scenarios. To demonstrate the utility of the causal models obtained from real-world datasets, we present a comparison between causal and non-causal prediction approaches. Our results show that the causal model correctly captures the underlying interactions of the considered scenarios and improves its prediction accuracy.
翻訳日:2022-11-01 18:28:40 公開日:2022-10-29
# DisenPOI:ポイント・オブ・インテンシブ・レコメンデーションにおける逐次的・地理的影響

DisenPOI: Disentangling Sequential and Geographical Influence for Point-of-Interest Recommendation ( http://arxiv.org/abs/2210.16591v1 )

ライセンス: Link先を確認
Yifang Qin, Yifan Wang, Fang Sun, Wei Ju, Xuyang Hou, Zhe Wang, Jia Cheng, Jun Lei, Ming Zhang(参考訳) POI(Point-of-Interest)は、様々な位置情報サービスにおいて重要な役割を果たす。 POIレコメンデーションは、逐次的および地理的影響の両方によって引き起こされる。 しかしながら、推奨期間中に支配的な影響を示す注釈付きラベルが存在しないため、既存の手法はこれら2つの影響を絡み合わせる傾向にあり、これは準最適推奨性能と弱い解釈可能性をもたらす可能性がある。 本稿では,2つのグラフ上の逐次的および地理的な関係を共同で利用し,これら2つの影響を自己超越で解消する,新しいPOIレコメンデーション用分散二重グラフフレームワークであるDisenPOIを提案する。 既存手法と比較して,本モデルの重要な新奇性は,逐次的および地理的影響と対比的学習の相違表現を抽出することである。 具体的には、ユーザのチェックインシーケンスに基づいて、地理的グラフとシーケンシャルグラフを構築する。 我々は、それらの伝播スキームをシーケンシャル/ジオアウェアに調整し、対応する影響をよりよく捉えます。 2つの影響の擬似ラベルとしてチェックインシーケンスから選好プロキシを抽出し、対比損失を介して異方性を監督する。 3つのデータセットに関する広範な実験は、提案モデルの優越性を示している。

Point-of-Interest (POI) recommendation plays a vital role in various location-aware services. It has been observed that POI recommendation is driven by both sequential and geographical influences. However, since there is no annotated label of the dominant influence during recommendation, existing methods tend to entangle these two influences, which may lead to sub-optimal recommendation performance and poor interpretability. In this paper, we address the above challenge by proposing DisenPOI, a novel Disentangled dual-graph framework for POI recommendation, which jointly utilizes sequential and geographical relationships on two separate graphs and disentangles the two influences with self-supervision. The key novelty of our model compared with existing approaches is to extract disentangled representations of both sequential and geographical influences with contrastive learning. To be specific, we construct a geographical graph and a sequential graph based on the check-in sequence of a user. We tailor their propagation schemes to become sequence-/geo-aware to better capture the corresponding influences. Preference proxies are extracted from check-in sequence as pseudo labels for the two influences, which supervise the disentanglement via a contrastive loss. Extensive experiments on three datasets demonstrate the superiority of the proposed model.
翻訳日:2022-11-01 18:28:22 公開日:2022-10-29
# ビザンチン感性三重項距離を用いたセキュリティ保護フェデレーション学習

Security-Preserving Federated Learning via Byzantine-Sensitive Triplet Distance ( http://arxiv.org/abs/2210.16519v1 )

ライセンス: Link先を確認
Youngjoon Lee, Sangwoo Park, Joonhyuk Kang(参考訳) 複数のエッジデバイスで共有モデルを学習する効果的なフレームワークである一方、フェデレーション学習(fl)は一般的に、敵対的なエッジデバイスからのビザンチン攻撃に対して脆弱である。 FLの既存の作業は、サーバ側でローカルモデルのサブセットを集約するだけで、そのような妥協されたデバイスを緩和するが、不正確なスコアリングルールのため、アウトリーチを無視することに成功した。 本稿では,本モデルが有毒か否かを敏感に判別する新たなスコアリング機能を定義することにより,効果的なビザンチン・ローバストFLフレームワーク,すなわちダミーコントラストアグリゲーションを提案する。 鍵となるアイデアは、すべての局所モデルから従来の大域モデルとともに重要な情報を抽出し、三重項損失に似た方法で距離測度を定義することである。 提案手法の利点は,Krum, Trimmed-mean, Fangなどの最先端のビザンチン弾性凝集法と比較して, 改良された性能を示すことで検証した。

While being an effective framework of learning a shared model across multiple edge devices, federated learning (FL) is generally vulnerable to Byzantine attacks from adversarial edge devices. While existing works on FL mitigate such compromised devices by only aggregating a subset of the local models at the server side, they still cannot successfully ignore the outliers due to imprecise scoring rule. In this paper, we propose an effective Byzantine-robust FL framework, namely dummy contrastive aggregation, by defining a novel scoring function that sensitively discriminates whether the model has been poisoned or not. Key idea is to extract essential information from every local models along with the previous global model to define a distance measure in a manner similar to triplet loss. Numerical results validate the advantage of the proposed approach by showing improved performance as compared to the state-of-the-art Byzantine-resilient aggregation methods, e.g., Krum, Trimmed-mean, and Fang.
翻訳日:2022-11-01 18:02:16 公開日:2022-10-29
# GANに基づくデータ合成によるフェデレーションクラスタリング

Federated clustering with GAN-based data synthesis ( http://arxiv.org/abs/2210.16524v1 )

ライセンス: Link先を確認
Jie Yan, Jing Liu, Ji Qi and Zhong-Yuan Zhang(参考訳) フェデレーションクラスタリング(Federated clustering)は、すべてのデータをローカルに保ちながら、グローバルな類似度尺度に基づいてデータをクラスタ化するフェデレーションクラスタリングの適応である。 ここで重要なのは、プライベートデータを共有せずにグローバルな類似度尺度を構築する方法だ。 これに対応するために、k-FEDとFFCMは、K-meansとfuzzy c-meansをそれぞれフェデレート学習環境に適応させ、K-meansをすべての局所クラスタセントロイドの集合上で実行することで、K$グローバルクラスタセントロイドを構築することを目的とした。 しかし、構築されたグローバルクラスタセンタロイドは脆弱であり、クライアント間で異なる非独立かつ同一の分散(非iid)レベルに敏感である。 そこで本研究では,GANをベースとしたデータ合成を,合成データ支援フェデレーションクラスタリング(SDA-FC)と呼ぶ簡易かつ効果的なフェデレーションクラスタリングフレームワークを提案する。 k-FEDとFFCMを効率性と堅牢性で上回り、通信ラウンドを1回だけ必要とし、非同期で実行でき、デバイス障害を処理することができる。 さらに、nmiはkappaよりもはるかに一般的なメトリクスであるが、実証的な結果はkappaの方が信頼性が高いことを示している。

Federated clustering is an adaptation of centralized clustering in the federated settings, which aims to cluster data based on a global similarity measure while keeping all data local. The key here is how to construct a global similarity measure without sharing private data. To handle this, k-FED and federated fuzzy c-means (FFCM) respectively adapted K-means and fuzzy c-means to the federated learning settings, which aim to construct $K$ global cluster centroids by running K-means on a set of all local cluster centroids. However, the constructed global cluster centroids may be fragile and be sensitive to different non-independent and identically distributed (Non-IID) levels among clients. To handle this, we propose a simple but effective federated clustering framework with GAN-based data synthesis, which is called synthetic data aided federated clustering (SDA-FC). It outperforms k-FED and FFCM in terms of effectiveness and robustness, requires only one communication round, can run asynchronously, and can handle device failures. Moreover, although NMI is a far more commonly used metric than Kappa, empirical results indicate that Kappa is a more reliable one.
翻訳日:2022-11-01 18:01:51 公開日:2022-10-29
# 微細時間分解能を用いた自己監督型予測符号化と多モード融合進行患者劣化予測

Self-supervised predictive coding and multimodal fusion advance patient deterioration prediction in fine-grained time resolution ( http://arxiv.org/abs/2210.16598v1 )

ライセンス: Link先を確認
Kwanhyung Lee, John Won, Heejung Hyun, Sangchul Hahn, Edward Choi, Joohyung Lee(参考訳) 緊急部(ed)では、電子健康記録(ehr)を用いた臨界事象の正確な予測は、タイムリーな介入と効果的な資源配分を可能にする。 多くの研究で自動予測法が提案されているが、その粗い時間分解能は実用的利用を制限する。 そこで本研究では,EDにおける臨界事象の時間的予測手法,すなわち死亡率と血管圧薬の必要性を提案する。 広範な実験を通して 両者が 1)EHRテキストと時系列データの双方向融合 2) 正規化コンテキストベクトルとEHR将来の時系列データ間のL2損失を用いた自己教師付き予測正則化は予測性能、特に遠未来予測を改善する。 両モード/両モード/0.877/0.897 (0.824/0.855/0.886) と 0.817/0.820/0.858 (0.807/0.81/0.855) をそれぞれAUROC で評価した。

In the Emergency Department (ED), accurate prediction of critical events using Electronic Health Records (EHR) allows timely intervention and effective resource allocation. Though many studies have suggested automatic prediction methods, their coarse-grained time resolutions limit their practical usage. Therefore, in this study, we propose an hourly prediction method of critical events in ED, i.e., mortality and vasopressor need. Through extensive experiments, we show that both 1) bi-modal fusion between EHR text and time-series data and 2) self-supervised predictive regularization using L2 loss between normalized context vector and EHR future time-series data improve predictive performance, especially the far-future prediction. Our uni-modal/bi-modal/bi-modal self-supervision scored 0.846/0.877/0.897 (0.824/0.855/0.886) and 0.817/0.820/0.858 (0.807/0.81/0.855) with mortality (far-future mortality) and with vasopressor need (far-future vasopressor need) prediction data in AUROC, respectively.
翻訳日:2022-11-01 18:01:24 公開日:2022-10-29
# 神経崩壊の摂動解析

Perturbation Analysis of Neural Collapse ( http://arxiv.org/abs/2210.16658v1 )

ライセンス: Link先を確認
Tom Tirer, Haoxiang Huang, Jonathan Niles-Weed(参考訳) 分類のためのディープニューラルネットワークのトレーニングには、ゼロトレーニングエラーポイントを超えるトレーニング損失の最小化が含まれることが多い。 この段階では、クラス内のサンプルの特徴(ペナルティメート層のアウトプット)の変化が減少し、異なるクラスの平均的な特徴が特定のタイトなフレーム構造に近づくという「神経崩壊」の挙動が観察されている。 最近の研究は、全ての最小値が完全に崩壊する理想化されていない特徴モデルを通してこの振る舞いを分析する。 しかし、実際的なネットワークやデータセットでは、例えば深い層は崩壊から程遠い中間の機能を任意に修正できないため、機能は通常正確な崩壊に達しない。 本稿では,特徴を予め定義された特徴行列(例えば,中間特徴)の近傍に留まらせることにより,この現象を捉えることができるリッチなモデルを提案する。 本研究では, 摂動解析により小近傍のモデルを調べ, 既往のモデルでは得られない結果を得る。 例えば、最適化された特徴のクラス内変動を(最小限の仮定で「中央経路」の勾配流を解析することで)事前定義された入力特徴と比較し、近収束状態における最小値を分析し、正規化ハイパーパラメータが崩壊の近さに与える影響についての洞察を与える。 我々は,実際の深層学習環境で実験を行い,理論を支持する。

Training deep neural networks for classification often includes minimizing the training loss beyond the zero training error point. In this phase of training, a "neural collapse" behavior has been observed: the variability of features (outputs of the penultimate layer) of within-class samples decreases and the mean features of different classes approach a certain tight frame structure. Recent works analyze this behavior via idealized unconstrained features models where all the minimizers exhibit exact collapse. However, with practical networks and datasets, the features typically do not reach exact collapse, e.g., because deep layers cannot arbitrarily modify intermediate features that are far from being collapsed. In this paper, we propose a richer model that can capture this phenomenon by forcing the features to stay in the vicinity of a predefined features matrix (e.g., intermediate features). We explore the model in the small vicinity case via perturbation analysis and establish results that cannot be obtained by the previously studied models. For example, we prove reduction in the within-class variability of the optimized features compared to the predefined input features (via analyzing gradient flow on the "central-path" with minimal assumptions), analyze the minimizers in the near-collapse regime, and provide insights on the effect of regularization hyperparameters on the closeness to collapse. We support our theory with experiments in practical deep learning settings.
翻訳日:2022-11-01 18:01:03 公開日:2022-10-29
# bert meets ctc: マスク言語モデルを用いたエンドツーエンド音声認識の新しい定式化

BERT Meets CTC: New Formulation of End-to-End Speech Recognition with Pre-trained Masked Language Model ( http://arxiv.org/abs/2210.16663v1 )

ライセンス: Link先を確認
Yosuke Higuchi, Brian Yan, Siddhant Arora, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe(参考訳) 本稿では、接続性時間分類(CTC)にBERTを適用した、エンドツーエンド音声認識の新しい定式化であるBERT-CTCを提案する。 我々の定式化は、従来のCTCで用いられる条件独立仮定を緩和し、BERTの文脈埋め込みによって得られる明示的な出力依存性を通して言語知識を取り入れる。 BERT-CTCは、自己保持機構を介して入力および仮説化された出力シーケンスの完全なコンテキストに対応する。 このメカニズムは、CTCのトレーニング効率を維持しながら、音声とトークンの表現の内/間依存性を学習することをモデルに促す。 推論中、BERT-CTCはマスク予測アルゴリズムとCTCデコードを組み合わせて出力シーケンスを反復的に洗練する。 実験結果から,BERT-CTCは話し方や言語の変化にまたがる従来の手法よりも改善されていることが明らかとなった。 最後に、BERT-CTCのセマンティック表現は、下流言語理解タスクに有益であることを示す。

This paper presents BERT-CTC, a novel formulation of end-to-end speech recognition that adapts BERT for connectionist temporal classification (CTC). Our formulation relaxes the conditional independence assumptions used in conventional CTC and incorporates linguistic knowledge through the explicit output dependency obtained by BERT contextual embedding. BERT-CTC attends to the full contexts of the input and hypothesized output sequences via the self-attention mechanism. This mechanism encourages a model to learn inner/inter-dependencies between the audio and token representations while maintaining CTC's training efficiency. During inference, BERT-CTC combines a mask-predict algorithm with CTC decoding, which iteratively refines an output sequence. The experimental results reveal that BERT-CTC improves over conventional approaches across variations in speaking styles and languages. Finally, we show that the semantic representations in BERT-CTC are beneficial towards downstream spoken language understanding tasks.
翻訳日:2022-11-01 17:51:49 公開日:2022-10-29
# 歯科用CBCTデータを用いた視覚変換器を用いたインプラント位置回帰

ImplantFormer: Vision Transformer based Implant Position Regression Using Dental CBCT Data ( http://arxiv.org/abs/2210.16467v1 )

ライセンス: Link先を確認
Xinquan Yang and Xuguang Li and Xuechen Li and Peixi Wu and Linlin Shen and Xin Li and Yongqiang Deng(参考訳) インプラント補綴は歯列欠損または歯列喪失の最も最適な治療であり、通常インプラントの位置を決定するための外科的ガイド設計プロセスを必要とする。 しかし、そのようなデザインは歯科医の主観的な経験に大きく依存している。 そこで本研究では, トランスフォーマーを用いたインプラント位置回帰ネットワークであるインプラントフォーマーを提案し, 口腔内cbctデータに基づいてインプラント位置を自動的に予測する。 3D CBCTデータは、まず、一連の2次元横平面スライスビューに変換される。 次にクラウン画像の2次元スライスに基づいてインプラントの位置を予測するためにインプラントフォーマーを提案する。 畳み込みstemとデコーダは、パッチ埋め込み操作の前に画像特徴を粗く抽出し、堅牢な予測のためにマルチレベル特徴マップを統合するように設計されている。 歯冠部におけるネットワークの予測は最終的に歯根部の位置まで投影される。 長距離関係と局所的特徴の両方が関与しているため、我々のアプローチはグローバルな情報を表現し、最先端の検出器よりも優れた位置性能を達成することができる。 深セン大学総合病院から収集した128例のデータセットを用いた実験結果から,本インプラントはベンチマークよりも優れた性能を得られた。

Implant prosthesis is the most optimum treatment of dentition defect or dentition loss, which usually involves a surgical guide design process to decide the position of implant. However, such design heavily relies on the subjective experiences of dentist. To relieve this problem, in this paper, a transformer based Implant Position Regression Network, ImplantFormer, is proposed to automatically predict the implant position based on the oral CBCT data. The 3D CBCT data is firstly transformed into a series of 2D transverse plane slice views. ImplantFormer is then proposed to predict the position of implant based on the 2D slices of crown images. Convolutional stem and decoder are designed to coarsely extract image feature before the operation of patch embedding and integrate multi-levels feature map for robust prediction. The predictions of our network at tooth crown area are finally projected back to the positions at tooth root. As both long-range relationship and local features are involved, our approach can better represent global information and achieves better location performance than the state-of-the-art detectors. Experimental results on a dataset of 128 patients, collected from Shenzhen University General Hospital, show that our ImplantFormer achieves superior performance than benchmarks.
翻訳日:2022-11-01 17:28:30 公開日:2022-10-29
# Pair DETR: 対照的な学習がDETRトレーニングを高速化

Pair DETR: Contrastive Learning Speeds Up DETR Training ( http://arxiv.org/abs/2210.16476v1 )

ライセンス: Link先を確認
Mehdi Iranmanesh, Xiaotong Chen, Kuo-Chin Lien(参考訳) DETRオブジェクト検出アプローチでは、トランスフォーマーエンコーダとデコーダアーキテクチャを用いてオブジェクトを検出し、有望な性能を達成する。 本稿では,表現学習手法を用いて,detrの主な問題である遅い収束問題に対処するための簡単な手法を提案する。 提案手法では,2つのデコーダを用いて,一対のキーポイント,左上隅,中央としてオブジェクト境界ボックスを検出する。 オブジェクトをペアのキーポイントとして検出することにより、モデルは2つのデコーダからの出力クエリに共同分類とペア関連を構築する。 ペア・アソシエーションでは,特殊なアーキテクチャを必要としないコントラスト型自己教師学習アルゴリズムを提案する。 MS COCOデータセットによる実験結果から,Pair DETRはトレーニング中の条件付きDETRよりも少なくとも10倍,1.5倍の速度で収束できることがわかった。

The DETR object detection approach applies the transformer encoder and decoder architecture to detect objects and achieves promising performance. In this paper, we present a simple approach to address the main problem of DETR, the slow convergence, by using representation learning technique. In this approach, we detect an object bounding box as a pair of keypoints, the top-left corner and the center, using two decoders. By detecting objects as paired keypoints, the model builds up a joint classification and pair association on the output queries from two decoders. For the pair association we propose utilizing contrastive self-supervised learning algorithm without requiring specialized architecture. Experimental results on MS COCO dataset show that Pair DETR can converge at least 10x faster than original DETR and 1.5x faster than Conditional DETR during training, while having consistently higher Average Precision scores.
翻訳日:2022-11-01 17:28:09 公開日:2022-10-29
# フィルターとラッパーのハイブリッド化による超スペクトル画像の次元性低減と分類

Hybridization of filter and wrapper approaches for the dimensionality reduction and classification of hyperspectral images ( http://arxiv.org/abs/2210.16496v1 )

ライセンス: Link先を確認
Asma Elmaizi, Maria Merzouqi, Elkebir Sarhrouni, Ahmed hammouch and Chafik Nacir(参考訳) ハイパースペクトル画像の高次元度はしばしば画像処理に重い計算負荷を課す。 したがって、次元の縮小は、無関係でうるさく冗長な帯域を取り除くために必要不可欠なステップであることが多い。 その結果、分類精度が向上する。 しかし、何百、何千もの関連バンドから有用なバンドを識別するのは簡単な作業ではない。 本稿では,計算速度と予測精度を向上させるために,小さなバンドの集合を同定することを目的とする。 そこで我々は,超スペクトル画像の次元性低減のための帯域選択によるハイブリッドアルゴリズムを提案する。 提案手法は、相互情報ゲイン(MIG)、最小冗長最大値(mRMR)、Fanoの誤差確率とSVM-PF(Support Vector Machine Bands Elimination)を組み合わせたものである。 提案手法は,相互情報に基づく効率的な再生フィルタ手法と比較する。 HSI AVIRIS 92AV3Cの実験結果から,提案手法は再現フィルタよりも優れた性能を示した。 キーワード - ハイパースペクトル画像、分類、バンド選択、フィルタ、ラッパー、相互情報、情報ゲイン。

The high dimensionality of hyperspectral images often imposes a heavy computational burden for image processing. Therefore, dimensionality reduction is often an essential step in order to remove the irrelevant, noisy and redundant bands. And consequently, increase the classification accuracy. However, identification of useful bands from hundreds or even thousands of related bands is a nontrivial task. This paper aims at identifying a small set of bands, for improving computational speed and prediction accuracy. Hence, we have proposed a hybrid algorithm through band selection for dimensionality reduction of hyperspectral images. The proposed approach combines mutual information gain (MIG), Minimum Redundancy Maximum Relevance (mRMR) and Error probability of Fano with Support Vector Machine Bands Elimination (SVM-PF). The proposed approach is compared to an effective reproduced filters approach based on mutual information. Experimental results on HSI AVIRIS 92AV3C have shown that the proposed approach outperforms the reproduced filters. Keywords - Hyperspectral images, Classification, band Selection, filter, wrapper, mutual information, information gain.
翻訳日:2022-11-01 17:27:53 公開日:2022-10-29
# SearchTrack: オブジェクトカスタマイズ検索とモーション認識機能を備えた複数オブジェクト追跡

SearchTrack: Multiple Object Tracking with Object-Customized Search and Motion-Aware Features ( http://arxiv.org/abs/2210.16572v1 )

ライセンス: Link先を確認
Zhong-Min Tsai, Yu-Ju Tsai, Chien-Yao Wang, Hong-Yuan Liao, Youn-Long Lin, Yung-Yu Chuang(参考訳) 本稿では,複数オブジェクト追跡・セグメンテーション(MOTS)のための新しい手法であるSearchTrackを提案する。 検出されたオブジェクト間の関連付け問題に対処するために、searchtrackはオブジェクトカスタマイズ検索とモーションアウェア機能を提案する。 各物体に対するカルマンフィルタの維持により、予測された動きを動きと外観の両方を含む動き認識機能に符号化する。 各オブジェクトに対して、オブジェクト固有の動的畳み込みのための重みのセットを学習することにより、SearchTrackによってカスタマイズされた完全な畳み込み検索エンジンが生成される。 提案手法は,MOTSタスクとMOTタスクの競合手法,特に相関精度において優れていることを示す。 本手法は,KITTI MOTS上で71.5HOTA(車),57.6HOTA(歩行者),およびMOT17上で53.4HOTAを実現する。 関連精度の面では,kittiモット上での2次元オンライン手法の最先端性能を実現する。 私たちのコードはhttps://github.com/qa276390/SearchTrackで利用可能です。

The paper presents a new method, SearchTrack, for multiple object tracking and segmentation (MOTS). To address the association problem between detected objects, SearchTrack proposes object-customized search and motion-aware features. By maintaining a Kalman filter for each object, we encode the predicted motion into the motion-aware feature, which includes both motion and appearance cues. For each object, a customized fully convolutional search engine is created by SearchTrack by learning a set of weights for dynamic convolutions specific to the object. Experiments demonstrate that our SearchTrack method outperforms competitive methods on both MOTS and MOT tasks, particularly in terms of association accuracy. Our method achieves 71.5 HOTA (car) and 57.6 HOTA (pedestrian) on the KITTI MOTS and 53.4 HOTA on MOT17. In terms of association accuracy, our method achieves state-of-the-art performance among 2D online methods on the KITTI MOTS. Our code is available at https://github.com/qa276390/SearchTrack.
翻訳日:2022-11-01 17:27:36 公開日:2022-10-29
# 物体中心補助深度制御による単眼3次元物体検出の促進

Boosting Monocular 3D Object Detection with Object-Centric Auxiliary Depth Supervision ( http://arxiv.org/abs/2210.16574v1 )

ライセンス: Link先を確認
Youngseok Kim, Sanmin Kim, Sangmin Sim, Jun Won Choi, Dongsuk Kum(参考訳) 単眼3次元検出の最近の進歩は、3次元検出ネットワークの中間段階として、深さ推定ネットワークを明示的に活用している。 深度マップアプローチは、大規模データセットでトレーニングされた深度推定ネットワークのおかげで、他の方法よりも正確な深度が得られる。 しかし、深度マップアプローチは深度マップの精度によって制限され、深さ推定と3次元検出のために2つの分離ネットワークを使用すると計算コストと推論時間が大幅に増加する。 本研究では,RGB画像に基づく3次元検出器を,深度推定課題に類似した深度予測損失を伴う検出ネットワークを共同で訓練することにより高速化する手法を提案する。 このようにして、3d検出ネットワークは、人間の注釈コストを必要としない生のライダーポイントからのより深い監視により、深度マップを明示的に予測することなく正確な深さを推定できる。 新たな物体中心深度予測損失は,3次元物体検出において重要な前景物体周辺の深度に着目し,物体中心で画素単位の深度監視を利用する。 我々の深度回帰モデルは、物体の3次元信頼度を表すために、深度の不確かさを予測するためにさらに訓練される。 3D検出器を生のLiDARポイントで効果的に訓練し、エンドツーエンドのトレーニングを可能にするため、3Dオブジェクトの回帰ターゲットを再検討し、ネットワークアーキテクチャを設計する。 KITTI と nuScenes ベンチマークの大規模な実験により,本手法はリアルタイム推論速度を維持しながら深度マップのアプローチより優れていることを示す。

Recent advances in monocular 3D detection leverage a depth estimation network explicitly as an intermediate stage of the 3D detection network. Depth map approaches yield more accurate depth to objects than other methods thanks to the depth estimation network trained on a large-scale dataset. However, depth map approaches can be limited by the accuracy of the depth map, and sequentially using two separated networks for depth estimation and 3D detection significantly increases computation cost and inference time. In this work, we propose a method to boost the RGB image-based 3D detector by jointly training the detection network with a depth prediction loss analogous to the depth estimation task. In this way, our 3D detection network can be supervised by more depth supervision from raw LiDAR points, which does not require any human annotation cost, to estimate accurate depth without explicitly predicting the depth map. Our novel object-centric depth prediction loss focuses on depth around foreground objects, which is important for 3D object detection, to leverage pixel-wise depth supervision in an object-centric manner. Our depth regression model is further trained to predict the uncertainty of depth to represent the 3D confidence of objects. To effectively train the 3D detector with raw LiDAR points and to enable end-to-end training, we revisit the regression target of 3D objects and design a network architecture. Extensive experiments on KITTI and nuScenes benchmarks show that our method can significantly boost the monocular image-based 3D detector to outperform depth map approaches while maintaining the real-time inference speed.
翻訳日:2022-11-01 17:27:20 公開日:2022-10-29
# 映像生成タスクのための連続表現空間INR-V

INR-V: A Continuous Representation Space for Video-based Generative Tasks ( http://arxiv.org/abs/2210.16579v1 )

ライセンス: Link先を確認
Bipasha Sen, Aditya Agarwal, Vinay P Namboodiri, C. V. Jawahar(参考訳) ビデオの生成は複雑な作業であり、フレームごとに時間的にコヒーレントな画像を生成する。 これにより、ビデオの表現性は、ネットワーク設計を必要とする個々のビデオフレーム上でのみの画像ベースの操作に制限される。 本稿では,映像生成タスクの連続的な空間を学習する映像表現ネットワークINR-Vを提案する。 inr-vは、ビデオの各入力画素のrgb値を予測する多層パーセプトロンである暗黙的ニューラルネットワーク(inrs)を使用して、ビデオをパラメータ化する。 INRは、複数のビデオインスタンスの神経表現に基づいてトレーニングされたハイパーネットワークであるメタネットワークを使用して予測される。 その後、メタネットワークをサンプル化し、様々な新しいビデオを生成することで、下流のビデオベースの生成タスクを実現できる。 興味深いことに、条件付き正規化とプログレッシブウェイト初期化は、INR-Vを得る上で重要な役割を果たす。 INR-Vによって学習された表現空間は、既存の作品では不可能な多くの興味深い性質を示す画像空間よりも表現性が高い。 例えば、inr-vは、既知のビデオインスタンス間(中間id、表情、ポーズなど)の中間ビデオをスムーズに補間することができる。 また、ビデオの欠落部分を塗りつぶして、一時的にコヒーレントなフルビデオを復元することもできる。 本研究では,INR-Vが学習した映像補間,新規映像生成,映像インバージョン,既存のベースラインに対する映像インペインティングなど,多様な生成タスクの空間を評価する。 INR-Vはこれらのいくつかの実証されたタスクのベースラインを著しく上回り、明らかに提案された表現空間の可能性を示している。

Generating videos is a complex task that is accomplished by generating a set of temporally coherent images frame-by-frame. This limits the expressivity of videos to only image-based operations on the individual video frames needing network designs to obtain temporally coherent trajectories in the underlying image space. We propose INR-V, a video representation network that learns a continuous space for video-based generative tasks. INR-V parameterizes videos using implicit neural representations (INRs), a multi-layered perceptron that predicts an RGB value for each input pixel location of the video. The INR is predicted using a meta-network which is a hypernetwork trained on neural representations of multiple video instances. Later, the meta-network can be sampled to generate diverse novel videos enabling many downstream video-based generative tasks. Interestingly, we find that conditional regularization and progressive weight initialization play a crucial role in obtaining INR-V. The representation space learned by INR-V is more expressive than an image space showcasing many interesting properties not possible with the existing works. For instance, INR-V can smoothly interpolate intermediate videos between known video instances (such as intermediate identities, expressions, and poses in face videos). It can also in-paint missing portions in videos to recover temporally coherent full videos. In this work, we evaluate the space learned by INR-V on diverse generative tasks such as video interpolation, novel video generation, video inversion, and video inpainting against the existing baselines. INR-V significantly outperforms the baselines on several of these demonstrated tasks, clearly showcasing the potential of the proposed representation space.
翻訳日:2022-11-01 17:26:54 公開日:2022-10-29
# TFormer:Geometry Guided Transformerを用いたメッシュスカンにおける3次元歯の分割

TFormer: 3D Tooth Segmentation in Mesh Scans with Geometry Guided Transformer ( http://arxiv.org/abs/2210.16627v1 )

ライセンス: Link先を確認
Huimin Xiong, Kunle Li, Kaiyuan Tan, Yang Feng, Joey Tianyi Zhou, Jin Hao, Zuozhu Liu(参考訳) 光学式口腔内スキャナー (IOS) は, 歯冠および歯肉の3次元および高分解能な幾何学的情報を提供するデジタル歯科において広く用いられている。 IOSの歯と歯肉のインスタンスを正確に記述することを目的とした正確な3D歯のセグメンテーションは、様々な歯科応用において重要な役割を担っている。 しかし, 従来の方法のセグメンテーション性能は, 複雑な歯列境界や歯肉境界に誤差が生じやすいため, 様々な患者に不満足な結果が生じるが, 大規模データセットでは臨床応用性は検証されない。 本稿では,大規模かつ高分解能の3d iosデータセットを用いて評価を行う3dトランスフォーマーアーキテクチャに基づく新しい手法を提案する。 tformerと呼ばれるこの手法は, 歯の局所的および大域的依存性を捉え, 各種の歯を異なる解剖学的構造と紛らわしい境界で区別する。 さらに,境界幾何学的特徴を生かした新しい点曲率に基づく幾何誘導損失を設計し,より正確かつ滑らかなセグメンテーションのために境界予測の洗練を支援する。 さらに,マルチタスク学習方式を採用し,歯肉のセグメンテーションヘッドを付加して性能を向上させる。 16,000 IOSの大規模データセットによる大規模な実験結果から、私たちのTFormerが既存の最先端のベースラインを大きなマージンで越え、臨床応用性テストによって実世界のシナリオで有効であることが示されています。

Optical Intra-oral Scanners (IOS) are widely used in digital dentistry, providing 3-Dimensional (3D) and high-resolution geometrical information of dental crowns and the gingiva. Accurate 3D tooth segmentation, which aims to precisely delineate the tooth and gingiva instances in IOS, plays a critical role in a variety of dental applications. However, segmentation performance of previous methods are error-prone in complicated tooth-tooth or tooth-gingiva boundaries, and usually exhibit unsatisfactory results across various patients, yet the clinically applicability is not verified with large-scale dataset. In this paper, we propose a novel method based on 3D transformer architectures that is evaluated with large-scale and high-resolution 3D IOS datasets. Our method, termed TFormer, captures both local and global dependencies among different teeth to distinguish various types of teeth with divergent anatomical structures and confusing boundaries. Moreover, we design a geometry guided loss based on a novel point curvature to exploit boundary geometric features, which helps refine the boundary predictions for more accurate and smooth segmentation. We further employ a multi-task learning scheme, where an additional teeth-gingiva segmentation head is introduced to improve the performance. Extensive experimental results in a large-scale dataset with 16,000 IOS, the largest IOS dataset to our best knowledge, demonstrate that our TFormer can surpass existing state-of-the-art baselines with a large margin, with its utility in real-world scenarios verified by a clinical applicability test.
翻訳日:2022-11-01 17:26:25 公開日:2022-10-29
# 教師なし視聴覚講義セグメンテーション

Unsupervised Audio-Visual Lecture Segmentation ( http://arxiv.org/abs/2210.16644v1 )

ライセンス: Link先を確認
Darshan Singh S, Anchit Gupta, C. V. Jawahar, Makarand Tapaswi(参考訳) 過去10年間で、オンライン講義ビデオはますます人気を博し、パンデミックの間、皮肉な上昇を経験した。 しかし、ビデオ言語の研究は主に指導ビデオや映画に焦点を当てており、成長するオンライン講義をナビゲートするためのツールが不足している。 我々の最初の貢献は教育分野の研究を促進することであり、様々なstem科目をカバーする2350以上の講義を含む86のコースからなる大規模データセットであるavlecturesを導入した。 各コースには、ビデオ講義、書き起こし、講義フレーム用のOCR出力、任意に講義ノート、スライド、課題、および様々なタスクを刺激できる関連する教育コンテンツが含まれている。 第2の貢献は、講義を口サイズのトピックに分割して、学習者のエンゲージメントを改善するためのビデオ講義セグメンテーションの導入です。 講義の視覚的,テキスト的,ocr的手がかりを活用した教師なしタスクとして講義セグメンテーションを定式化し,クリップ表現を時間的に調整した視覚コンテンツとナレーションをマッチングする前文自己教師ありタスクに微調整する。 我々はこれらの表現を用いて時間的に一貫した1-アネレスト隣のアルゴリズムTW-FINCHを用いてセグメントを生成する。 提案手法を15のコースで評価し,様々な視覚的,テキスト的ベースラインと比較し,その性能を比較検討した。 我々の包括的アブレーション研究は、我々のアプローチの成功を導く重要な要因も明らかにしている。

Over the last decade, online lecture videos have become increasingly popular and have experienced a meteoric rise during the pandemic. However, video-language research has primarily focused on instructional videos or movies, and tools to help students navigate the growing online lectures are lacking. Our first contribution is to facilitate research in the educational domain, by introducing AVLectures, a large-scale dataset consisting of 86 courses with over 2,350 lectures covering various STEM subjects. Each course contains video lectures, transcripts, OCR outputs for lecture frames, and optionally lecture notes, slides, assignments, and related educational content that can inspire a variety of tasks. Our second contribution is introducing video lecture segmentation that splits lectures into bite-sized topics that show promise in improving learner engagement. We formulate lecture segmentation as an unsupervised task that leverages visual, textual, and OCR cues from the lecture, while clip representations are fine-tuned on a pretext self-supervised task of matching the narration with the temporally aligned visual content. We use these representations to generate segments using a temporally consistent 1-nearest neighbor algorithm, TW-FINCH. We evaluate our method on 15 courses and compare it against various visual and textual baselines, outperforming all of them. Our comprehensive ablation studies also identify the key factors driving the success of our approach.
翻訳日:2022-11-01 17:25:55 公開日:2022-10-29
# 対称性を破る:同変ニューラルネットワークにおける対称性の曖昧さの解消

Breaking the Symmetry: Resolving Symmetry Ambiguities in Equivariant Neural Networks ( http://arxiv.org/abs/2210.16646v1 )

ライセンス: Link先を確認
Sidhika Balachandar, Adrien Poulenard, Congyue Deng, Leonidas Guibas(参考訳) 等変ネットワークは多くの3次元学習領域で採用されている。 ここでは、これらのネットワークの基本的な制限、対称性に対するあいまいさを特定する。 等変ネットワークは左右対称対象を左右に分割するような対称性に依存したタスクを完遂することはできない。 回転同分散を保ちながら対称性の曖昧さを解消する成分を追加することでこの問題に取り組む。 本稿では,向き認識型ベクトルニューロンネットワークであるoavnnについて述べる。 OAVNNは平面対称入力に対して堅牢な回転同変ネットワークである。 私たちのネットワークは3つのキーコンポーネントで構成されています。 1) 対称性検出特性を計算するアルゴリズムを提案する。 2) 対称性に敏感な配向認識線形層を作成する。 3) ポイント間の方向情報を関連付ける注意機構を構築する。 左右のセグメンテーションを用いてネットワークを評価し,ネットワークが素早く正確なセグメンテーションを得ることを示す。 この研究は、対称オブジェクト上の同変ネットワークの表現性に関する調査を動機付けることを願っている。

Equivariant networks have been adopted in many 3-D learning areas. Here we identify a fundamental limitation of these networks: their ambiguity to symmetries. Equivariant networks cannot complete symmetry-dependent tasks like segmenting a left-right symmetric object into its left and right sides. We tackle this problem by adding components that resolve symmetry ambiguities while preserving rotational equivariance. We present OAVNN: Orientation Aware Vector Neuron Network, an extension of the Vector Neuron Network. OAVNN is a rotation equivariant network that is robust to planar symmetric inputs. Our network consists of three key components. 1) We introduce an algorithm to calculate symmetry detecting features. 2) We create a symmetry-sensitive orientation aware linear layer. 3) We construct an attention mechanism that relates directional information across points. We evaluate the network using left-right segmentation and find that the network quickly obtains accurate segmentations. We hope this work motivates investigations on the expressivity of equivariant networks on symmetric objects.
翻訳日:2022-11-01 17:25:29 公開日:2022-10-29
# 加算ミン組成を持つファジィ関係方程式の解集合

The solution set of fuzzy relation equations with addition-min composition ( http://arxiv.org/abs/2210.16502v1 )

ライセンス: Link先を確認
Meng Li, Xue-Ping Wang(参考訳) 本稿では, ファジィ関係方程式と加算ミン組成の分解能について述べる。 ファジィ関係方程式が解を持つとき,まず,ファジィ関係方程式の最小解を求めるアルゴリズムを提案し,また,ファジィ関係方程式の最大解を求めるアルゴリズムを提供する。 そして、ファジィ関係方程式のすべての解が最小解と最大解の間のものであることを証明し、ファジィ関係方程式の解集合を完全に記述する。

This paper deals with the resolutions of fuzzy relation equations with addition-min composition. When the fuzzy relation equations have a solution, we first propose an algorithm to find all minimal solutions of the fuzzy relation equations and also supply an algorithm to find all maximal solutions of the fuzzy relation equations, which will be illustrated, respectively, by numeral examples. Then we prove that every solution of the fuzzy relation equations is between a minimal solution and a maximal one, so that we describe the solution set of the fuzzy relation equations completely.
翻訳日:2022-11-01 17:16:16 公開日:2022-10-29
# エンティティ中心のクロスドキュメント関係抽出

Entity-centered Cross-document Relation Extraction ( http://arxiv.org/abs/2210.16541v1 )

ライセンス: Link先を確認
Fengqi Wang, Fei Li, Hao Fei, Jingye Li, Shengqiong Wu, Fangfang Su, Wenxuan Shi, Donghong Ji, Bo Cai(参考訳) 関係抽出(RE)は情報抽出の基本的な課題であり,多くの研究が注目されている。 従来の研究は文や文書内の関係の抽出に重点を置いていたが、現在研究者はクロスドキュメントREを探求している。 しかし、現在のクロスドキュメントRE手法では、対象エンティティを囲むテキストスニペットを複数の文書で直接利用しており、ノイズや非関連文が生じる。 さらに、これらのテキストパス間の接続を考慮せずに、文書バッグ内のすべてのテキストパスを粗い方法で利用し、これらの不足に対処し、クロスドキュメントREの最先端を推し進めることを目指す。 まず、REモデルの入力構成に焦点をあて、テキストパス内のブリッジエンティティを用いて、与えられた文書に有用な情報を保持するエンティティベースの文書コンテキストフィルタを提案する。 第2に、テキストパス間のエンティティ関係を相互に相互作用させるクロスパスエンティティ関係の注意に基づくクロスドキュメントREモデルを提案する。 クロスドキュメントRE法とデータセットCodREDの最先端手法を比較した。 提案手法はF1において少なくとも10%以上の性能を示し,その有効性を示した。

Relation Extraction (RE) is a fundamental task of information extraction, which has attracted a large amount of research attention. Previous studies focus on extracting the relations within a sentence or document, while currently researchers begin to explore cross-document RE. However, current cross-document RE methods directly utilize text snippets surrounding target entities in multiple given documents, which brings considerable noisy and non-relevant sentences. Moreover, they utilize all the text paths in a document bag in a coarse-grained way, without considering the connections between these text paths.In this paper, we aim to address both of these shortages and push the state-of-the-art for cross-document RE. First, we focus on input construction for our RE model and propose an entity-based document-context filter to retain useful information in the given documents by using the bridge entities in the text paths. Second, we propose a cross-document RE model based on cross-path entity relation attention, which allow the entity relations across text paths to interact with each other. We compare our cross-document RE method with the state-of-the-art methods in the dataset CodRED. Our method outperforms them by at least 10% in F1, thus demonstrating its effectiveness.
翻訳日:2022-11-01 17:01:23 公開日:2022-10-29
# 属性型制御可能なテキスト生成に向けて:Blessing生成の試行的研究

Towards Attribute-Entangled Controllable Text Generation: A Pilot Study of Blessing Generation ( http://arxiv.org/abs/2210.16557v1 )

ライセンス: Link先を確認
Shulin Huang, Shirong Ma, Yinghui Li, Yangning Li, Shiyang Lin, Hai-Tao Zheng and Ying Shen(参考訳) 制御可能なテキスト生成(CTG)は,複数の属性に着目した微細な生成能力によって大きな成功を収めている。 しかし、既存のCTG研究の多くは、制御されたテキストの多様性を高めるために属性の絡み合いを利用する方法を見落としている。 このジレンマに直面して、我々は新しいCTGシナリオ、すなわち、高品質な祝福テキストが複数の属性(オブジェクトやイベントなど)間の絡み合いを包括的に考慮する必要があるため、困難である。 祝福生成の研究を促進するために,複数の属性を付加した293Kの英語文を含む大規模エンタングル・祝福テキストデータセットであるEBleTを提案する。 さらに,我々はベースラインモデルによって生成された祝福文の品質を測定するための新しい評価指標を提案する。 本研究は,制御可能なテキスト生成のための新たな研究方向を開き,属性に絡み合ったctgモデルの開発を可能にする。 私たちのデータセットとソースコードは、 \url{https://github.com/huangshulin123/blessing-generation}で利用可能です。

Controllable Text Generation (CTG) has obtained great success due to its fine-grained generation ability obtained by focusing on multiple attributes. However, most existing CTG researches overlook how to utilize the attribute entanglement to enhance the diversity of the controlled generated texts. Facing this dilemma, we focus on a novel CTG scenario, i.e., blessing generation which is challenging because high-quality blessing texts require CTG models to comprehensively consider the entanglement between multiple attributes (e.g., objects and occasions). To promote the research on blessing generation, we present EBleT, a large-scale Entangled Blessing Text dataset containing 293K English sentences annotated with multiple attributes. Furthermore, we propose novel evaluation metrics to measure the quality of the blessing texts generated by the baseline models we designed. Our study opens a new research direction for controllable text generation and enables the development of attribute-entangled CTG models. Our dataset and source codes are available at \url{https://github.com/huangshulin123/Blessing-Generation}.
翻訳日:2022-11-01 17:01:03 公開日:2022-10-29
# 共感と自然言語処理に関する批判的考察と今後の展望

A Critical Reflection and Forward Perspective on Empathy and Natural Language Processing ( http://arxiv.org/abs/2210.16604v1 )

ライセンス: Link先を確認
Allison Lahnala, Charles Welch, David Jurgens, Lucie Flek(参考訳) 自然言語処理における共感研究の現状を概観し,(1)共感の定義が欠如しているか,あるいは抽象的であるか,(2)構築の妥当性が低く再現性も低いか,といった課題を考察する。 さらに、(3)感情的共感は過度に強調され、単純化されたタスクの狭いサブセットに焦点を絞る。 これらの問題は研究の進展を妨げ、現在の方向性は認知共感コンポーネントの運用を含む明確な概念化の恩恵を受けると我々は信じている。 我々の主な目的は、NLP研究目的に対する共感概念化に関する洞察とガイダンスを提供することであり、また、臨床・教育分野など、この分野で見落とされた機会を追求するよう研究者に促すことである。

We review the state of research on empathy in natural language processing and identify the following issues: (1) empathy definitions are absent or abstract, which (2) leads to low construct validity and reproducibility. Moreover, (3) emotional empathy is overemphasized, skewing our focus to a narrow subset of simplified tasks. We believe these issues hinder research progress and argue that current directions will benefit from a clear conceptualization that includes operationalizing cognitive empathy components. Our main objectives are to provide insight and guidance on empathy conceptualization for NLP research objectives and to encourage researchers to pursue the overlooked opportunities in this area, highly relevant, e.g., for clinical and educational sectors.
翻訳日:2022-11-01 17:00:43 公開日:2022-10-29
# 言語課題に対する学習後量子化法の実証評価

Empirical Evaluation of Post-Training Quantization Methods for Language Tasks ( http://arxiv.org/abs/2210.16621v1 )

ライセンス: Link先を確認
Ting Hu, Christoph Meinel, Haojin Yang(参考訳) BERTのようなトランスフォーマーベースのアーキテクチャは、幅広い自然言語タスクで大きな成功を収めています。 優れたパフォーマンスにもかかわらず、モデルには多くのパラメータと高い計算複雑性があり、リソース制約のある環境への展開を妨げる。 余分なトレーニングなしで低ビット計算を可能にするptq(post-training quantization)は有望なツールである。 本研究では, BERT-BaseとBERT-Largeの3つのPTQ手法について, 線形量子化(LQ), 整数量子化のための解析クリッピング(ACIQ), 外乱チャネル分割(OCS)を実験的に評価する。 OCSは理論上、平均正方形量子化誤差を最小化し、重みの外れ率を歪ませることを避けている。 これは、GLUEベンチマークのほとんどの言語タスクと読み取り理解タスクであるSQuADの評価結果と一致している。 さらに、低ビット量子化BERTモデルは、いくつかの小言語タスクにおいて対応する32ビットベースラインよりも優れる可能性がある。 さらに、量子化ビットの限界について検討し、OCSがBERT-BaseとBERT-Largeを3ビットに量子化し、GLUEベンチマークの98%と96%の性能を維持できることを示す。 さらに、bertファミリー全体、すなわち異なる構成のbertモデル上で量子化を行い、様々な計算環境におけるデプロイに有用なガイドラインを提供することを目標として、glueベンチマークとsquadでパフォーマンスを包括的に評価する。

Transformer-based architectures like BERT have achieved great success in a wide range of Natural Language tasks. Despite their decent performance, the models still have numerous parameters and high computational complexity, impeding their deployment in resource-constrained environments. Post-Training Quantization (PTQ), which enables low-bit computations without extra training, could be a promising tool. In this work, we conduct an empirical evaluation of three PTQ methods on BERT-Base and BERT-Large: Linear Quantization (LQ), Analytical Clipping for Integer Quantization (ACIQ), and Outlier Channel Splitting (OCS). OCS theoretically surpasses the others in minimizing the Mean Square quantization Error and avoiding distorting the weights' outliers. That is consistent with the evaluation results of most language tasks of GLUE benchmark and a reading comprehension task, SQuAD. Moreover, low-bit quantized BERT models could outperform the corresponding 32-bit baselines on several small language tasks, which we attribute to the alleviation of over-parameterization. We further explore the limit of quantization bit and show that OCS could quantize BERT-Base and BERT-Large to 3-bits and retain 98% and 96% of the performance on the GLUE benchmark accordingly. Moreover, we conduct quantization on the whole BERT family, i.e., BERT models in different configurations, and comprehensively evaluate their performance on the GLUE benchmark and SQuAD, hoping to provide valuable guidelines for their deployment in various computation environments.
翻訳日:2022-11-01 17:00:29 公開日:2022-10-29
# ニューラル隠れマルコフモデルを用いた離散音声表現の学習依存性

Learning Dependencies of Discrete Speech Representations with Neural Hidden Markov Models ( http://arxiv.org/abs/2210.16659v1 )

ライセンス: Link先を確認
Sung-Lin Yeh, Hao Tang(参考訳) 離散潜在変数モデルは自己教師あり学習において大きな成功を収めているが、ほとんどのモデルはフレームが独立であると仮定している。 音声認識における音韻の分節的性質から,フレームレベルの潜在変数間のモデリング依存性は,音韻関連タスクにおける学習表現を改善する可能性がある。 本研究では,潜在変数間のマルコフ依存を仮定し,ニューラル隠れマルコフモデルを用いた音声表現の学習を提案する。 私たちの一般的なフレームワークでは、パラメータの数を固定しながら、独立性を前提とした自己教師付きモデルと比較することができます。 追加された依存関係は、音素情報のアクセシビリティ、音素セグメンテーション、および携帯電話のクラスタ純度を改善し、想定される依存関係の利点を示す。

While discrete latent variable models have had great success in self-supervised learning, most models assume that frames are independent. Due to the segmental nature of phonemes in speech perception, modeling dependencies among latent variables at the frame level can potentially improve the learned representations on phonetic-related tasks. In this work, we assume Markovian dependencies among latent variables, and propose to learn speech representations with neural hidden Markov models. Our general framework allows us to compare to self-supervised models that assume independence, while keeping the number of parameters fixed. The added dependencies improve the accessibility of phonetic information, phonetic segmentation, and the cluster purity of phones, showcasing the benefit of the assumed dependencies.
翻訳日:2022-11-01 16:59:58 公開日:2022-10-29
# ユニバーサル1ビット圧縮センシングにおけるサポート回復の改善

Improved Support Recovery in Universal One-bit Compressed Sensing ( http://arxiv.org/abs/2210.16657v1 )

ライセンス: Link先を確認
Namiko Matsumoto, Arya Mazumdar, Soumyabrata Pal(参考訳) 1ビット圧縮センシング(1bCS)は、過去10年間に提案され、厳密に研究されてきた非常に量子化された信号取得手法である。 1bCSでは、高次元信号の線形サンプルを1サンプルあたり1ビットに量子化する(測定の符号)。 元の信号ベクトルがスパースであると仮定すると、1bCSの既存の結果はベクターのサポートを見つけること、あるいは小さなエラーを許容するシグナルを近似する。 本稿の焦点は,信号の近似回復を計算的に促進する支援リカバリである。 1bCSの「普遍的」測定行列は、すべてのスパース信号に作用する1つの測定セットを指す。 普遍性では、$\tilde{\Theta}(k^2)$ 1bCS測定はサポート回復に十分である($k$はスパーシティを表す)ことが知られている。 2次から線形への間隔依存性を改善するため、この研究では、近似的なサポート回復(エラーの比率が$\epsilon>0$)とスーパーセット回復(偽陽性の比率が$\epsilon$%)を提案する。 最初のタイプのリカバリは$\tilde{O}(k/\epsilon)$測定で可能であるが、後のタイプのリカバリは$\tilde{O}(\max\{k/\epsilon,k^{3/2}\})$測定で可能である。 また、どちらの場合も、万能回復には$\Omega(k/\epsilon)$測定が必要であることも示している。 有理信号や有界ダイナミックレンジの信号など、制限された信号のクラス内での普遍的な回復を考えると、より良い結果が得られる。 どちらの場合も、$\tilde{O}(k/\epsilon)$測定だけで超集合回復が可能である。 本論文では, 普遍的だが近似的な支援回復に関する他の結果も提示する。 主要なリカバリアルゴリズムはすべて単純で多項式時間です。

One-bit compressed sensing (1bCS) is an extremely quantized signal acquisition method that has been proposed and studied rigorously in the past decade. In 1bCS, linear samples of a high dimensional signal are quantized to only one bit per sample (sign of the measurement). Assuming the original signal vector to be sparse, existing results in 1bCS either aim to find the support of the vector, or approximate the signal allowing a small error. The focus of this paper is support recovery, which often also computationally facilitate approximate signal recovery. A {\em universal} measurement matrix for 1bCS refers to one set of measurements that work for all sparse signals. With universality, it is known that $\tilde{\Theta}(k^2)$ 1bCS measurements are necessary and sufficient for support recovery (where $k$ denotes the sparsity). To improve the dependence on sparsity from quadratic to linear, in this work we propose approximate support recovery (allowing $\epsilon>0$ proportion of errors), and superset recovery (allowing $\epsilon$ proportion of false positives). We show that the first type of recovery is possible with $\tilde{O}(k/\epsilon)$ measurements, while the later type of recovery, more challenging, is possible with $\tilde{O}(\max\{k/\epsilon,k^{3/2}\})$ measurements. We also show that in both cases $\Omega(k/\epsilon)$ measurements would be necessary for universal recovery. Improved results are possible if we consider universal recovery within a restricted class of signals, such as rational signals, or signals with bounded dynamic range. In both cases superset recovery is possible with only $\tilde{O}(k/\epsilon)$ measurements. Other results on universal but approximate support recovery are also provided in this paper. All of our main recovery algorithms are simple and polynomial-time.
翻訳日:2022-11-01 16:52:53 公開日:2022-10-29
# コントラスト表現学習のための微分データ拡張

Differentiable Data Augmentation for Contrastive Sentence Representation Learning ( http://arxiv.org/abs/2210.16536v1 )

ライセンス: Link先を確認
Tianduo Wang and Wei Lu(参考訳) 大量のラベル付き文やラベル付き文ペアを用いたコントラスト学習フレームワークによる事前学習言語モデルの微調整は、高品質な文表現を得るための一般的な方法である。 対照的な学習フレームワークは従来の手法よりも文表現学習の方が優れているが、そのようなフレームワークのポテンシャルは、前向きなペアを構築するのに使用する単純な方法のため、これまでに未探索である。 そこで本研究では,元来のトレーニング例からハードポジティクスを抽出する手法を提案する。 提案手法の重要な要素は,事前訓練された言語モデルに付加されたプレフィックスを使用することで,コントラスト学習におけるデータ拡張の相違を可能にする。 提案手法は2つのステップで要約できる: 教師付きプレフィックスチューニング, およびラベル付きまたはラベル付例による関節コントラスト微調整。 実験では,データ拡張手法の有効性を確認した。 提案手法は, 半教師付き設定と教師付き設定の両方において, 既存の手法を大きく改善する。 また,低ラベルデータを用いた実験により,最先端のコントラスト学習法よりもラベル効率が高いことを示した。

Fine-tuning a pre-trained language model via the contrastive learning framework with a large amount of unlabeled sentences or labeled sentence pairs is a common way to obtain high-quality sentence representations. Although the contrastive learning framework has shown its superiority on sentence representation learning over previous methods, the potential of such a framework is under-explored so far due to the simple method it used to construct positive pairs. Motivated by this, we propose a method that makes hard positives from the original training examples. A pivotal ingredient of our approach is the use of prefix that is attached to a pre-trained language model, which allows for differentiable data augmentation during contrastive learning. Our method can be summarized in two steps: supervised prefix-tuning followed by joint contrastive fine-tuning with unlabeled or labeled examples. Our experiments confirm the effectiveness of our data augmentation approach. The proposed method yields significant improvements over existing methods under both semi-supervised and supervised settings. Our experiments under a low labeled data setting also show that our method is more label-efficient than the state-of-the-art contrastive learning methods.
翻訳日:2022-11-01 16:49:45 公開日:2022-10-29
# 音源分離のためのシーングラフを用いた視聴覚ダイナミクスの学習

Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source Separation ( http://arxiv.org/abs/2210.16472v1 )

ライセンス: Link先を確認
Moitreya Chatterjee and Narendra Ahuja and Anoop Cherian(参考訳) 静的音源が生成する音と、移動音源が生成する音との間には、特に音源がマイクロフォンの方向や遠方へ移動するときの明確な区別がある。 本稿では,この2つの課題を同時に解決するために,音声と視覚ダイナミクスの接続について提案する。 (i)視覚手がかりを用いて音源を混合物から分離すること。 (2)分離した音声を用いて音源の3次元視覚運動を予測する。 この目的に向けて,シーンの3次元構造と音源の動きを活用し,より良い音源分離を実現するディープラーニングフレームワークであるAudio Separator and Motion Predictor(ASMP)を紹介する。 ASMPの中央には2.5Dのシーングラフがあり、ビデオ内の様々な物体と擬似3D空間の近さを捉えている。 このグラフは、2Dビデオフレームから2.5Dの単眼深度予測を登録し、これらのフレームに印加された物体検出器の出力と2.5Dシーン領域を関連付けることによって構築される。 ASMPタスクは、以下の共同問題として数学的にモデル化される。 (i)2.5dシーングラフを複数のサブグラフに再帰的に分割し、それぞれが入力オーディオ混合物(後に分離)の構成音と関連付けられ、 (ii)分離音声から対応する音源の3次元動きを予測すること。 ASMPを実証的に評価するために,2つの難解な音声視覚データセットであるvizについて実験を行った。 野生での音声分離(asiw)と音声ビジュアルイベント(ave)。 以上の結果から,ASMPは音源分離の精度を向上し,音源の運動方向を他の方法よりも精度良く推定すると共に,両データセットの先行処理よりも優れた性能が得られることが示された。

There exists an unequivocal distinction between the sound produced by a static source and that produced by a moving one, especially when the source moves towards or away from the microphone. In this paper, we propose to use this connection between audio and visual dynamics for solving two challenging tasks simultaneously, namely: (i) separating audio sources from a mixture using visual cues, and (ii) predicting the 3D visual motion of a sounding source using its separated audio. Towards this end, we present Audio Separator and Motion Predictor (ASMP) -- a deep learning framework that leverages the 3D structure of the scene and the motion of sound sources for better audio source separation. At the heart of ASMP is a 2.5D scene graph capturing various objects in the video and their pseudo-3D spatial proximities. This graph is constructed by registering together 2.5D monocular depth predictions from the 2D video frames and associating the 2.5D scene regions with the outputs of an object detector applied on those frames. The ASMP task is then mathematically modeled as the joint problem of: (i) recursively segmenting the 2.5D scene graph into several sub-graphs, each associated with a constituent sound in the input audio mixture (which is then separated) and (ii) predicting the 3D motions of the corresponding sound sources from the separated audio. To empirically evaluate ASMP, we present experiments on two challenging audio-visual datasets, viz. Audio Separation in the Wild (ASIW) and Audio Visual Event (AVE). Our results demonstrate that ASMP achieves a clear improvement in source separation quality, outperforming prior works on both datasets, while also estimating the direction of motion of the sound sources better than other methods.
翻訳日:2022-11-01 16:44:35 公開日:2022-10-29
# 適応型カーネル変調による画像生成

Few-shot Image Generation via Adaptation-Aware Kernel Modulation ( http://arxiv.org/abs/2210.16559v1 )

ライセンス: Link先を確認
Yunqing Zhao, Keshigeyan Chandrasegaran, Milad Abdollahzadeh, Ngai-Man Cheung(参考訳) Few-shot Image Generation (FSIG) は、ドメインから非常に限られた数のサンプル、例えば10のトレーニングサンプルから、新しい多様なサンプルを生成することを学ぶことを目的としている。 最近の研究は、転送学習アプローチを用いてこの問題に対処し、大規模なソースドメインデータセットで事前訓練されたGANを活用し、非常に限られたターゲットドメインサンプルに基づいて、そのモデルをターゲットドメインに適応させる。 最近のFSIG手法の中心は知識保存基準であり、適応モデルに保存されるソースモデルの知識のサブセットを選択することを目的としている。 しかし、既存の方法の大きな制限は、知識保存基準がソースドメイン/ソースタスクのみを考慮し、ソースモデルの知識の選択においてターゲットドメイン/適応タスクを考慮せず、ソースドメインとターゲットドメインの近接性の異なる設定に適合性に疑問を投げかけることである。 私たちの仕事は2つの貢献をする。 最初のコントリビューションとして、FSIGの最近の研究とその実験を再訪する。 我々の重要な発見は、ソースドメインとターゲットドメイン間の密接な近接の仮定が緩和された設定の下で、知識保存におけるソースドメイン/ソースタスクのみを考慮した既存のSOTA(State-of-the-art)手法が、ベースラインの微調整法より優れていることである。 既存手法の限界に対処するため,第2の貢献として,異なるソース・ターゲット領域の一般fsigに対応する適応認識カーネル変調(adam)を提案する。 広範な実験結果から,提案手法は,ソースドメインとターゲットドメインがより分離された場合の課題設定を含む,近接するソース/ターゲットドメイン間でのsota性能を一貫して達成できることがわかった。 プロジェクトページ: https://yunqing-me.github.io/adam/

Few-shot image generation (FSIG) aims to learn to generate new and diverse samples given an extremely limited number of samples from a domain, e.g., 10 training samples. Recent work has addressed the problem using transfer learning approach, leveraging a GAN pretrained on a large-scale source domain dataset and adapting that model to the target domain based on very limited target domain samples. Central to recent FSIG methods are knowledge preserving criteria, which aim to select a subset of source model's knowledge to be preserved into the adapted model. However, a major limitation of existing methods is that their knowledge preserving criteria consider only source domain/source task, and they fail to consider target domain/adaptation task in selecting source model's knowledge, casting doubt on their suitability for setups of different proximity between source and target domain. Our work makes two contributions. As our first contribution, we re-visit recent FSIG works and their experiments. Our important finding is that, under setups which assumption of close proximity between source and target domains is relaxed, existing state-of-the-art (SOTA) methods which consider only source domain/source task in knowledge preserving perform no better than a baseline fine-tuning method. To address the limitation of existing methods, as our second contribution, we propose Adaptation-Aware kernel Modulation (AdAM) to address general FSIG of different source-target domain proximity. Extensive experimental results show that the proposed method consistently achieves SOTA performance across source/target domains of different proximity, including challenging setups when source and target domains are more apart. Project Page: https://yunqing-me.github.io/AdAM/
翻訳日:2022-11-01 16:44:08 公開日:2022-10-29
# 胸部X線画像からの低複雑性多レベル注意機構を用いた迅速診断肺炎のCMT解釈モデル

CMT: Interpretable Model for Rapid Recognition Pneumonia from Chest X-Ray Images by Fusing Low Complexity Multilevel Attention Mechanism ( http://arxiv.org/abs/2210.16584v1 )

ライセンス: Link先を確認
Shengchao Chen, Sufen Ren, Guanjun Wang, Mengxing Huang, and Chenyang Xue(参考訳) 胸部画像検査は、呼吸器状態の悪化を証拠として、covid-19患者の診断と予測に欠かせない役割を担っている。 多くの深層学習に基づく肺炎診断モデルが開発され、コンピュータ支援診断が可能となった。 しかし、長い訓練と推論時間は柔軟性を損なう。 さらに、解釈性の欠如は、臨床医療における信頼性を低下させる。 本稿では,肺炎,特にCOVID-19陽性の解釈可能性と迅速認識モデルであるCMTについて述べる。 CMT内の複数の畳み込み層をまずCXR画像の特徴抽出に利用し、次にTransformerを適用して各症状の可能性を計算する。 モデルの一般化性能を向上し、スパース医療画像データの問題に対処するために、画像拡張のためのプラグアンドプレイ法であるFeature Fusion Augmentation (FFA)を提案する。 2つの画像の特徴を様々な程度に融合させ、元の分布から逸脱しない新しい画像を生成する。 さらに,計算複雑性を低減し,収束を加速するために,多レベルマルチヘッドセルフアテンション(mmsa,multilevel multi-head self-attention)を提案する。 トレーニングと推論時間を大幅に削減しながら、モデルパフォーマンスを大幅に改善する。 最大のCOVID-19データセットの実験結果は、提案されたCMTの最先端のパフォーマンスを示している。 アブレーション実験ではFFAとMMSAの有効性が示された。 さらに、モデル推論プロセスの重みと特徴活性化マップを可視化し、CMTの解釈可能性を示す。

Chest imaging plays an essential role in diagnosing and predicting patients with COVID-19 with evidence of worsening respiratory status. Many deep learning-based diagnostic models for pneumonia have been developed to enable computer-aided diagnosis. However, the long training and inference time make them inflexible. In addition, the lack of interpretability reduces their credibility in clinical medical practice. This paper presents CMT, a model with interpretability and rapid recognition of pneumonia, especially COVID-19 positive. Multiple convolutional layers in CMT are first used to extract features in CXR images, and then Transformer is applied to calculate the possibility of each symptom. To improve the model's generalization performance and to address the problem of sparse medical image data, we propose Feature Fusion Augmentation (FFA), a plug-and-play method for image augmentation. It fuses the features of the two images to varying degrees to produce a new image that does not deviate from the original distribution. Furthermore, to reduce the computational complexity and accelerate the convergence, we propose Multilevel Multi-Head Self-Attention (MMSA), which computes attention on different levels to establish the relationship between global and local features. It significantly improves the model performance while substantially reducing its training and inference time. Experimental results on the largest COVID-19 dataset show the proposed CMT has state-of-the-art performance. The effectiveness of FFA and MMSA is demonstrated in the ablation experiments. In addition, the weights and feature activation maps of the model inference process are visualized to show the CMT's interpretability.
翻訳日:2022-11-01 16:43:35 公開日:2022-10-29
# $\varepsilon$-perturbation を用いた強ロテリチケット仮説

Strong Lottery Ticket Hypothesis with $\varepsilon$--perturbation ( http://arxiv.org/abs/2210.16589v1 )

ライセンス: Link先を確認
Zheyang Xiong, Fangshuo Liao, Anastasios Kyrillidis(参考訳) Lottery Ticket仮説(LTH)は、トレーニングを必要とせずにターゲットニューラルネットワークを近似する、十分に大きく、ランダムに初期化されたニューラルネットワークにおけるサブネットワークの存在を主張する。 我々は、学習前の段階における重み変化を初期化に伴う摂動に一般化することにより、LTHの強い文献の理論的保証を元のLTHに近いシナリオに拡張する。 ランダムな初期重みに対する$\varepsilon$-scale摂動を許すことで、強いLTHのネットワークにおいて、候補ネットワークの過度パラメータ化要件を減らせることができるだろうか? さらに、SGDによる重量変化は、そのような摂動のよいセットと一致しているか? まず、集合和の理論的結果を拡張して、候補に対する摂動を可能にすることで、最初の質問に答える。 この結果をニューラルネットワーク設定に適用すると、そのような$\varepsilon$-perturbationは強いLTHの過度パラメータ化要求を減少させる。 第2の疑問に答えるために, 予測されたSGDの摂動重みは, 強いLTHプルーニング下での良好な性能を示すことを示した。

The strong Lottery Ticket Hypothesis (LTH) claims the existence of a subnetwork in a sufficiently large, randomly initialized neural network that approximates some target neural network without the need of training. We extend the theoretical guarantee of the strong LTH literature to a scenario more similar to the original LTH, by generalizing the weight change in the pre-training step to some perturbation around initialization. In particular, we focus on the following open questions: By allowing an $\varepsilon$-scale perturbation on the random initial weights, can we reduce the over-parameterization requirement for the candidate network in the strong LTH? Furthermore, does the weight change by SGD coincide with a good set of such perturbation? We answer the first question by first extending the theoretical result on subset sum to allow perturbation on the candidates. Applying this result to the neural network setting, we show that such $\varepsilon$-perturbation reduces the over-parameterization requirement of the strong LTH. To answer the second question, we show via experiments that the perturbed weight achieved by the projected SGD shows better performance under the strong LTH pruning.
翻訳日:2022-11-01 16:41:22 公開日:2022-10-29
# より深い特徴階層を持つロバストブースティング森林

Robust Boosting Forests with Richer Deep Feature Hierarchy ( http://arxiv.org/abs/2210.16451v1 )

ライセンス: Link先を確認
Jianqiao Wangni(参考訳) 本稿では,様々な対角防御手法に頑健な森林増生法を提案し,それを深層ニューラルネットワークの堅牢性を高めるために応用する。 我々は、ディープ・ネットワーク・アーキテクチャ、重み、中間層の特徴を保ち、そして、ディープ・ネットワークの各層から特徴を選定し、ターゲットを予測するために勾配強化林を設置する。 各決定木を訓練するために,純粋ゲイン関数ではなく,より少ない誤予測を考慮して,新しい保守的かつ欲望的なトレードオフを提案する。 我々は,樹木の深さを増加させ,細分化による精度の改善を積極的に行ない,樹木の深さを増大させる。 顔分析に関するセキュリティやプライバシに関する大きな懸念にもかかわらず,堅牢性は慎重に研究されていない3d顔モデルに関する新たなタスクを提案する。 我々は、純粋な畳み込みニューラルネットワーク(CNN)の顔形状推定器において、単純な攻撃法を試みた。 顔のランドマークデータセット上での我々の保守的欲求増強林(CGBF)は、敵対的攻撃による純粋な深層学習法よりも大幅に改善された。

We propose a robust variant of boosting forest to the various adversarial defense methods, and apply it to enhance the robustness of the deep neural network. We retain the deep network architecture, weights, and middle layer features, then install gradient boosting forest to select the features from each layer of the deep network, and predict the target. For training each decision tree, we propose a novel conservative and greedy trade-off, with consideration for less misprediction instead of pure gain functions, therefore being suboptimal and conservative. We actively increase tree depth to remedy the accuracy with splits in more features, being more greedy in growing tree depth. We propose a new task on 3D face model, whose robustness has not been carefully studied, despite the great security and privacy concerns related to face analytics. We tried a simple attack method on a pure convolutional neural network (CNN) face shape estimator, making it degenerate to only output average face shape with invisible perturbation. Our conservative-greedy boosting forest (CGBF) on face landmark datasets showed a great improvement over original pure deep learning methods under the adversarial attacks.
翻訳日:2022-11-01 16:32:30 公開日:2022-10-29
# メラノサイト様皮膚腫瘍全スライディング画像における興味領域の検出

Region of Interest Detection in Melanocytic Skin Tumor Whole Slide Images ( http://arxiv.org/abs/2210.16457v1 )

ライセンス: Link先を確認
Yi Cui, Yao Li, Jayson R. Miedema, Sherif Farag, J.S. Marron, Nancy E. Thomas(参考訳) 病理組織学的画像解析における興味領域の自動検出は, 臨床に多大な影響を与える可能性がある課題であり, 重要な課題である。 計算病理学で用いられる深層学習法はコストを削減し,関心検出領域と癌診断領域の速度と精度を向上させるのに役立つ。 本研究では,メラノサイト皮膚腫瘍全スライディング画像に対するパッチベースの関心領域検出手法を提案する。 165個の原発性黒色腫とネビ・ヘマトキシリンとエオシンの全スライド画像を含むデータセットを用いて深層学習法を構築した。 提案手法は、5つのTCGA-SKCMスライド(スライド分類タスクにおける93.94\%の精度と、関心検出タスク領域における結合率41.27\%の交差)を含むホールドアウトテストデータセット上で良好に動作し、メラノサイト皮膚腫瘍における本モデルの優れた性能を示す。 皮膚腫瘍データセットで実験を行ったが、様々な腫瘍の分類や予測などの他の医学的画像検出問題にも適用でき、異なる腫瘍の臨床的評価と診断に役立てることができる。

Automated region of interest detection in histopathological image analysis is a challenging and important topic with tremendous potential impact on clinical practice. The deep-learning methods used in computational pathology help us to reduce costs and increase the speed and accuracy of regions of interest detection and cancer diagnosis. In this work, we propose a patch-based region of interest detection method for melanocytic skin tumor whole-slide images. We work with a dataset that contains 165 primary melanomas and nevi Hematoxylin and Eosin whole-slide images and build a deep-learning method. The proposed method performs well on a hold-out test data set including five TCGA-SKCM slides (accuracy of 93.94\% in slide classification task and intersection over union rate of 41.27\% in the region of interest detection task), showing the outstanding performance of our model on melanocytic skin tumor. Even though we test the experiments on the skin tumor dataset, our work could also be extended to other medical image detection problems, such as various tumors' classification and prediction, to help and benefit the clinical evaluation and diagnosis of different tumors.
翻訳日:2022-11-01 16:32:09 公開日:2022-10-29
# BIMRL:脳に触発されたメタ強化学習

BIMRL: Brain Inspired Meta Reinforcement Learning ( http://arxiv.org/abs/2210.16530v1 )

ライセンス: Link先を確認
Seyed Roozbeh Razavi Rohani, Saeed Hedayatian, Mahdieh Soleymani Baghshah(参考訳) サンプル効率は強化学習(RL)において重要な問題である。 効率的なエージェントは、以前の経験を生かして、似ているが新しいタスクや状況に迅速に適応できなければならない。 Meta-RLはこの問題を形式化し対処する試みのひとつです。 メタRLの最近の進歩にインスパイアされたBIMRLは、脳にインスパイアされた新しいメモリモジュールとともに、新しい多層アーキテクチャであり、エージェントが数回で新しいタスクに迅速に適応するのに役立つ。 また,このメモリモジュールを用いて,エージェントの探索を導く新たな内在的な報酬をデザインする。 私たちのアーキテクチャは認知神経科学の発見にインスパイアされ、脳内の様々な領域の接続性と機能に関する知識と相容れない。 提案手法の有効性を実証的に検証し,複数のミニグリッド環境における強力なベースラインの性能と競合するか,あるいは超えている。

Sample efficiency has been a key issue in reinforcement learning (RL). An efficient agent must be able to leverage its prior experiences to quickly adapt to similar, but new tasks and situations. Meta-RL is one attempt at formalizing and addressing this issue. Inspired by recent progress in meta-RL, we introduce BIMRL, a novel multi-layer architecture along with a novel brain-inspired memory module that will help agents quickly adapt to new tasks within a few episodes. We also utilize this memory module to design a novel intrinsic reward that will guide the agent's exploration. Our architecture is inspired by findings in cognitive neuroscience and is compatible with the knowledge on connectivity and functionality of different regions in the brain. We empirically validate the effectiveness of our proposed method by competing with or surpassing the performance of some strong baselines on multiple MiniGrid environments.
翻訳日:2022-11-01 16:25:19 公開日:2022-10-29
# ブラックボックス検証アルゴリズムを用いた強化学習による運転の安全性向上

Self-Improving Safety Performance of Reinforcement Learning Based Driving with Black-Box Verification Algorithms ( http://arxiv.org/abs/2210.16575v1 )

ライセンス: Link先を確認
Resul Dagdanov, Halil Durmus, Nazim Kemal Ure(参考訳) 本研究では、ブラックボックス検証手法に基づく強化学習(RL)に基づく自律運転(AD)エージェントの安全性向上のための自己改善人工知能システムを提案する。 RL法は近年,ADアプリケーションで人気を博している。 とはいえ、既存のRLアルゴリズムのパフォーマンスはトレーニングシナリオの多様性に強く依存している。 トレーニングフェーズにおける安全クリティカルなシナリオの欠如は、現実世界の運転アプリケーションにおける一般化性能の低下につながる可能性がある。 本稿では,ブラックボックス検証手法を用いて,トレーニングセットの弱点を探索する新しい枠組みを提案する。 AD障害シナリオの発見後、RLエージェントのトレーニングが再起動され、以前は安全ではなかったシナリオのパフォーマンスが向上する。 シミュレーションの結果,提案手法は,rlを用いた適応クルーズ制御 (acc) において,安全障害を効率的に発見し,反復的適用により車両衝突数を大幅に削減できることがわかった。

In this work, we propose a self-improving artificial intelligence system for enhancing the safety performance of reinforcement learning (RL) based autonomous driving (AD) agents based on black-box verification methods. RL methods have enjoyed popularity among AD applications in recent years. That being said, existing RL algorithms' performance strongly depends on the diversity of training scenarios. Lack of safety-critical scenarios in the training phase might lead to poor generalization performance in real-world driving applications. We propose a novel framework, where the weaknesses of the training set are explored via black-box verification methods. After the discovery of AD failure scenarios, the training of the RL agent is re-initiated to improve the performance of the previously unsafe scenarios. Simulation results show that the proposed approach efficiently discovers such safety failures in RL-based adaptive cruise control (ACC) applications and significantly reduces the number of vehicle collisions through iterative applications of our method.
翻訳日:2022-11-01 16:25:03 公開日:2022-10-29
# 入力出力例からのニューラルコンビナート論理回路合成

Neural Combinatorial Logic Circuit Synthesis from Input-Output Examples ( http://arxiv.org/abs/2210.16606v1 )

ライセンス: Link先を確認
Peter Belcak, Roger Wattenhofer(参考訳) 入力出力例から組合せ論理回路を合成する新しい、完全に説明可能なニューラルアプローチを提案する。 この手法の利点は、例の集合が不完全であるが、依然として望ましい振る舞いを示すような帰納的シナリオに容易に拡張できることである。 この方法は、論理ゲートからfpgaブロックまで、実質的に任意の原子の選択を、微分可能な方法で定式化できる限り利用することができ、サイズが増大する実用的な回路の合成に一貫して良い結果が得られる。 特に,多くの算術演算,ビットワイズ演算,信号ルーティング演算の学習に成功し,帰納的シナリオにおける正しい行動への一般化まで行った。 本手法は,説明可能なニューラルアプローチで離散論理合成問題に対処し,より広範な合成および推論関連課題を示唆する。

We propose a novel, fully explainable neural approach to synthesis of combinatorial logic circuits from input-output examples. The carrying advantage of our method is that it readily extends to inductive scenarios, where the set of examples is incomplete but still indicative of the desired behaviour. Our method can be employed for a virtually arbitrary choice of atoms - from logic gates to FPGA blocks - as long as they can be formulated in a differentiable fashion, and consistently yields good results for synthesis of practical circuits of increasing size. In particular, we succeed in learning a number of arithmetic, bitwise, and signal-routing operations, and even generalise towards the correct behaviour in inductive scenarios. Our method, attacking a discrete logical synthesis problem with an explainable neural approach, hints at a wider promise for synthesis and reasoning-related tasks.
翻訳日:2022-11-01 16:24:48 公開日:2022-10-29
# 条件モーメントモデルのためのスペクトル表現学習

Spectral Representation Learning for Conditional Moment Models ( http://arxiv.org/abs/2210.16525v1 )

ライセンス: Link先を確認
Ziyu Wang, Yucen Luo, Yueru Li, Jun Zhu, Bernhard Sch\"olkopf(参考訳) 因果推論や経済学における多くの問題は条件モーメントモデルの枠組みで定式化することができる。 非パラメトリック条件モーメントモデルでは、効率的な推定は常に、フレキシブルモデルを用いた場合の検証が困難である仮説空間の不備の様々な測度に関する前提条件に依存している。 そこで本研究では,不適切性の制御によって表現を自動的に学習する手法を提案する。 本手法は,条件付き期待作用素のスペクトル分解によって定義される線形表現を近似する手法であり,任意の条件における最小最適推定を容易にすることが知られている。 この表現をデータから効率的に推定できることを示し、得られた推定値に対してL2整合性を確立する。 提案手法は近位因果推論タスクにおいて,高次元半合成データに対して有望な性能を示す。

Many problems in causal inference and economics can be formulated in the framework of conditional moment models, which characterize the target function through a collection of conditional moment restrictions. For nonparametric conditional moment models, efficient estimation has always relied on preimposed conditions on various measures of ill-posedness of the hypothesis space, which are hard to validate when flexible models are used. In this work, we address this issue by proposing a procedure that automatically learns representations with controlled measures of ill-posedness. Our method approximates a linear representation defined by the spectral decomposition of a conditional expectation operator, which can be used for kernelized estimators and is known to facilitate minimax optimal estimation in certain settings. We show this representation can be efficiently estimated from data, and establish L2 consistency for the resulting estimator. We evaluate the proposed method on proximal causal inference tasks, exhibiting promising performance on high-dimensional, semi-synthetic data.
翻訳日:2022-11-01 16:23:01 公開日:2022-10-29
# アルツハイマー病検出のための事前学習型言語モデルによる即時学習

Exploiting prompt learning with pre-trained language models for Alzheimer's Disease detection ( http://arxiv.org/abs/2210.16539v1 )

ライセンス: Link先を確認
Yi Wang, Jiajun Deng, Tianzi Wang, Bo Zheng, Shoukang Hu, Xunying Liu, Helen Meng(参考訳) アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行を遅らせるために重要である。 音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。 BERTのような事前学習言語モデル(PLM)によって生成されたテキスト埋め込み機能は、そのようなシステムで広く使われている。 しかし、PLMドメインの微調整は一般的に、バックエンドAD検出タスクと矛盾しないマスキングワードや文予測コストに基づいている。 そこで本研究では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整について検討する。 さらに, PLM微調整中に, 発声フレーズに, ヘスレーションやポーズフィラートークン周波数に基づく拡散特性を取り入れた。 従来のマスク付き単語や文予測コストを駆使して最適化された,BERT と RoBERTa ベースの PLM の相補性を利用して,両者の投票に基づくシステム組み合わせをさらに適用した。 AD検出システムの性能測定には,15回以上の実験結果の平均,標準偏差,精度スコアの最大値が採用されている。 高齢者48名からなるadress20テストセットでは, 平均検出精度84.20% (std 2.09%, best 87.5%) と 82.64% (std 4.0%, best 89.58%) が手話書き起こしとasr音声書き起こしを用いて得られた。

Early diagnosis of Alzheimer's disease (AD) is crucial in facilitating preventive care and to delay further progression. Speech based automatic AD screening systems provide a non-intrusive and more scalable alternative to other clinical screening techniques. Textual embedding features produced by pre-trained language models (PLMs) such as BERT are widely used in such systems. However, PLM domain fine-tuning is commonly based on the masked word or sentence prediction costs that are inconsistent with the back-end AD detection task. To this end, this paper investigates the use of prompt-based fine-tuning of PLMs that consistently uses AD classification errors as the training objective function. Disfluency features based on hesitation or pause filler token frequencies are further incorporated into prompt phrases during PLM fine-tuning. The exploit of the complementarity between BERT or RoBERTa based PLMs that are either prompt learning fine-tuned, or optimized using conventional masked word or sentence prediction costs, decision voting based system combination between them is further applied. Mean, standard deviation and the maximum among accuracy scores over 15 experiment runs are adopted as performance measurements for the AD detection system. Mean detection accuracy of 84.20% (with std 2.09%, best 87.5%) and 82.64% (with std 4.0%, best 89.58%) were obtained using manual and ASR speech transcripts respectively on the ADReSS20 test set consisting of 48 elderly speakers.
翻訳日:2022-11-01 16:16:36 公開日:2022-10-29
# 混合目的を用いた好奇心駆動型マルチエージェント探索

Curiosity-Driven Multi-Agent Exploration with Mixed Objectives ( http://arxiv.org/abs/2210.16468v1 )

ライセンス: Link先を確認
Roben Delos Reyes, Kyunghwan Son, Jinhwan Jung, Wan Ju Kang, Yung Yi(参考訳) 内在的な報酬は、シングルエージェント強化学習におけるスパース報酬問題を軽減するためにますます使われてきた。 これらの本質的な報酬は、外生的な報酬の欠如にもかかわらず、エージェントに環境を十分に探索するよう指示する。 キュリオシティ駆動探索(curiosity-driven exploration)は、エージェントのキュリオシティモジュールの予測エラーとしてこの新しさを定量化する、単純かつ効率的なアプローチである。 しかし, この好奇心を駆使して, スパース報酬協調型マルチエージェント環境における探索をガイドする手法は, 常に改善に繋がらないことを示す。 好奇心駆動探索の直接的なマルチエージェント拡張は、個人的または集団的新しさのみを考慮しており、協調的マルチエージェントタスクの学習に不可欠な、独特で協力的な内在的な報酬信号を提供していない。 本研究では,エージェントが個人的かつ集団的に新しい方法で環境を探索する動機づけとなる,好奇心を駆使した多エージェント探索手法を提案する。 まず,第1頭部における対応するエージェントの次観測と第2頭部における第2関節観察を予測できるように訓練した2頭部好奇性モジュールを開発する。 第2に、本モジュールの個人と共同予測誤差の和として、内在的な報酬公式を設計する。 実験により、我々の好奇性モジュールアーキテクチャと本質的な報酬の定式化の組み合わせは、ベースラインアプローチよりも効率的にマルチエージェント探索を誘導し、スパース報酬を伴う協調ナビゲーション環境におけるMARLアルゴリズムの性能向上を実現する。

Intrinsic rewards have been increasingly used to mitigate the sparse reward problem in single-agent reinforcement learning. These intrinsic rewards encourage the agent to look for novel experiences, guiding the agent to explore the environment sufficiently despite the lack of extrinsic rewards. Curiosity-driven exploration is a simple yet efficient approach that quantifies this novelty as the prediction error of the agent's curiosity module, an internal neural network that is trained to predict the agent's next state given its current state and action. We show here, however, that naively using this curiosity-driven approach to guide exploration in sparse reward cooperative multi-agent environments does not consistently lead to improved results. Straightforward multi-agent extensions of curiosity-driven exploration take into consideration either individual or collective novelty only and thus, they do not provide a distinct but collaborative intrinsic reward signal that is essential for learning in cooperative multi-agent tasks. In this work, we propose a curiosity-driven multi-agent exploration method that has the mixed objective of motivating the agents to explore the environment in ways that are individually and collectively novel. First, we develop a two-headed curiosity module that is trained to predict the corresponding agent's next observation in the first head and the next joint observation in the second head. Second, we design the intrinsic reward formula to be the sum of the individual and joint prediction errors of this curiosity module. We empirically show that the combination of our curiosity module architecture and intrinsic reward formulation guides multi-agent exploration more efficiently than baseline approaches, thereby providing the best performance boost to MARL algorithms in cooperative navigation environments with sparse rewards.
翻訳日:2022-11-01 16:14:20 公開日:2022-10-29
# チャネルとフィルタの角度の相似性に基づくプルーニング法

A pruning method based on the dissimilarity of angle among channels and filters ( http://arxiv.org/abs/2210.16504v1 )

ライセンス: Link先を確認
Jiayi Yao, Ping Li, Xiatao Kang, Yuzhe Wang(参考訳) 畳み込みニューラルネットワーク(convolutional neural network, cnn)は,様々な出願で広く利用されている。 組み込みアプリケーションのような限られた条件に適応するために、ネットワーク圧縮が発生する。 中でも研究者たちは、ネットワークプルーニングにもっと注意を払っている。 本稿では、異なる符号化ノードの類似性を得るために畳み込みネットワークを符号化し、類似性に基づいて畳み込みカーネル間の接続電力を評価する。 そして、異なる接続力に応じて異なるレベルのペナルティを課す。 一方,アングルの相似性(DACP)に基づくチャンネルプルーニングベースを提案する。 まず,glペナルティでスパースモデルを訓練し,畳み込みネットワークのチャネルとフィルタに角度の相違性制約を課し,スパース構造を得る。 最終的に,本手法の有効性を実験のセクションで実証した。 CIFAR-10では、VGG-16上で66.86%のFLOPをプルーニング後に93.31%の精度で削減し、FLOPはモデルの毎秒浮動小数点演算数を表す。 さらに,resnet-32ではフロップを58.46%削減し,プルーニング後の精度を91.76%に向上させた。

Convolutional Neural Network (CNN) is more and more widely used in various fileds, and its computation and memory-demand are also increasing significantly. In order to make it applicable to limited conditions such as embedded application, network compression comes out. Among them, researchers pay more attention to network pruning. In this paper, we encode the convolution network to obtain the similarity of different encoding nodes, and evaluate the connectivity-power among convolutional kernels on the basis of the similarity. Then impose different level of penalty according to different connectivity-power. Meanwhile, we propose Channel Pruning base on the Dissimilarity of Angle (DACP). Firstly, we train a sparse model by GL penalty, and impose an angle dissimilarity constraint on the channels and filters of convolutional network to obtain a more sparse structure. Eventually, the effectiveness of our method is demonstrated in the section of experiment. On CIFAR-10, we reduce 66.86% FLOPs on VGG-16 with 93.31% accuracy after pruning, where FLOPs represents the number of floating-point operations per second of the model. Moreover, on ResNet-32, we reduce FLOPs by 58.46%, which makes the accuracy after pruning reach 91.76%.
翻訳日:2022-11-01 16:08:32 公開日:2022-10-29
# 神経画像における形状分類のためのグラフニューラルネットワークの比較研究

A Comparative Study of Graph Neural Networks for Shape Classification in Neuroimaging ( http://arxiv.org/abs/2210.16670v1 )

ライセンス: Link先を確認
Nairouz Shehata, Wulfie Bain, Ben Glocker(参考訳) グラフニューラルネットワークは、メッシュのような非ユークリッドデータの解析に有望なアプローチとして現れてきた。 医用画像では、メッシュのようなデータが解剖学的構造をモデル化する上で重要な役割を担い、コンピュータによる診断や疾患検出に形状分類が用いられる。 しかし、多くの選択肢があるため、GNNを用いた医療形状分析の最良のアーキテクチャ選択は、まだ不明である。 神経画像学における形状分類のための幾何学的深層学習の現況を概観するために,比較分析を行った。 生物学的性分類を概念実証タスクとして用いることで,fpfhをノード機能として使用することで,gnnの性能が大幅に向上し,分散データへの一般化が図れること,3つの代替畳み込み層の性能を比較すること,およびグラフベース学習におけるデータ強化の重要性を強調する。 以上の結果から,アルツハイマー病の分類を応用し,臨床的に有意な課題を確定した。

Graph neural networks have emerged as a promising approach for the analysis of non-Euclidean data such as meshes. In medical imaging, mesh-like data plays an important role for modelling anatomical structures, and shape classification can be used in computer aided diagnosis and disease detection. However, with a plethora of options, the best architectural choices for medical shape analysis using GNNs remain unclear. We conduct a comparative analysis to provide practitioners with an overview of the current state-of-the-art in geometric deep learning for shape classification in neuroimaging. Using biological sex classification as a proof-of-concept task, we find that using FPFH as node features substantially improves GNN performance and generalisation to out-of-distribution data; we compare the performance of three alternative convolutional layers; and we reinforce the importance of data augmentation for graph based learning. We then confirm these results hold for a clinically relevant task, using the classification of Alzheimer's disease.
翻訳日:2022-11-01 16:08:10 公開日:2022-10-29
# 重み付き二元クロスエントロピーのためのvan rijsbergen氏の$f_{\beta}$メトリックの再構成

Reformulating van Rijsbergen's $F_{\beta}$ metric for weighted binary cross-entropy ( http://arxiv.org/abs/2210.16458v1 )

ライセンス: Link先を確認
Satesh Ramdhani(参考訳) 勾配に基づく損失関数からパフォーマンス指標を分離することは、必ずしも最適な結果を与えるとは限らないし、重要な集約情報を見逃すこともある。 本報告では,学習結果の報知のために,異なる損失関数とともに性能指標を組み込むことを検討した。 目標は、動的重み付けのためのこのパフォーマンスメトリックの統計的分布を仮定することで、モデルのパフォーマンスと解釈を導くことである。 van Rijsbergens $F_{\beta}$ metric -- 分類パフォーマンスを計測する一般的な選択肢である。 f_{\beta}$ の分布的仮定により、動的ペナルティ重みによる標準二項クロスエントロピーへの中間リンクを確立することができる。 まず、$F_{\beta}$メトリックは累積密度関数の証明を伴う統計分布の仮定を容易にするために再構成される。 これらの確率は膝曲線アルゴリズム内で最適な$\beta$または$\beta_{opt}$を求めるために用いられる。 この$\beta_{opt}$ は、重み付き二項クロスエントロピーの重みまたはペナルティとして使われる。 不均衡なクラスを持つ公開データの実験は、ベースラインと比較して、より良く解釈可能な結果をもたらす。 例えば、既知のラベル付けエラーのあるIMDBテキストデータでは、14%のアップが示されている。 この手法は訓練を加速し、より良い解釈を提供する。

The separation of performance metrics from gradient based loss functions may not always give optimal results and may miss vital aggregate information. This paper investigates incorporating a performance metric alongside differentiable loss functions to inform training outcomes. The goal is to guide model performance and interpretation by assuming statistical distributions on this performance metric for dynamic weighting. The focus is on van Rijsbergens $F_{\beta}$ metric -- a popular choice for gauging classification performance. Through distributional assumptions on the $F_{\beta}$, an intermediary link can be established to the standard binary cross-entropy via dynamic penalty weights. First, the $F_{\beta}$ metric is reformulated to facilitate assuming statistical distributions with accompanying proofs for the cumulative density function. These probabilities are used within a knee curve algorithm to find an optimal $\beta$ or $\beta_{opt}$. This $\beta_{opt}$ is used as a weight or penalty in the proposed weighted binary cross-entropy. Experimentation on publicly available data with imbalanced classes mostly yields better and interpretable results as compared to the baseline. For example, for the IMDB text data with known labeling errors, a 14% boost is shown. This methodology can accelerate training and provide better interpretation.
翻訳日:2022-11-01 15:47:26 公開日:2022-10-29
# 確率計画法による氷コアダイティング

Ice Core Dating using Probabilistic Programming ( http://arxiv.org/abs/2210.16568v1 )

ライセンス: Link先を確認
Aditya Ravuri, Tom R. Andersson, Ieva Kazlauskaite, Will Tebbutt, Richard E. Turner, J. Scott Hosking, Neil D. Lawrence, Markus Kaiser(参考訳) 氷のコアは過去の気候に関する重要な情報を記録する。 しかし、氷のコアデータが科学的価値を持つ前に、年代を深さの関数として推定することで年代を推測しなければならない。 ある条件下では、氷に閉じ込められた化学物質は、年次層を規定する準周期サイクルを表示する。 これらのノイズの多い季節パターンを手動で数えて、年代を推定することは不完全で時間を要するプロセスであり、原則化された方法で不確実性を捉えない。 さらに、いくつかの氷のコアを地域から集め、それらの間の空間的相関の側面を導入することができる。 本稿では, 氷コアの自動年代推定における確率モデルの利用, 確率計画を用いて, プロトタイピング, 自動推論, 保守性を実証し, これらのツールの一般的な故障モードを示す。

Ice cores record crucial information about past climate. However, before ice core data can have scientific value, the chronology must be inferred by estimating the age as a function of depth. Under certain conditions, chemicals locked in the ice display quasi-periodic cycles that delineate annual layers. Manually counting these noisy seasonal patterns to infer the chronology can be an imperfect and time-consuming process, and does not capture uncertainty in a principled fashion. In addition, several ice cores may be collected from a region, introducing an aspect of spatial correlation between them. We present an exploration of the use of probabilistic models for automatic dating of ice cores, using probabilistic programming to showcase its use for prototyping, automatic inference and maintainability, and demonstrate common failure modes of these tools.
翻訳日:2022-11-01 15:47:09 公開日:2022-10-29
# 音声認識のための離散・連続感情ラベルの統合

Unifying the Discrete and Continuous Emotion labels for Speech Emotion Recognition ( http://arxiv.org/abs/2210.16642v1 )

ライセンス: Link先を確認
Roshan Sharma, Hira Dhamyal, Bhiksha Raj and Rita Singh(参考訳) 伝統的に、音声からの感情検出のためのパラ言語分析において、感情は離散的または次元的(連続的な評価)ラベルと同一視されてきた。 したがって、感情検出のために提案されたモデルは、これらのラベルタイプのいずれかを使用する。 しかし、ラッセルやプルチックのような心理学者はこれらの見解を統一する理論とモデルを提案し、これらの表現が共有され補完的な情報を持っていると主張した。 本稿は,これらの視点を計算的に検証する試みである。 そこで本研究では,連続感情属性と離散感情属性を共同で予測するモデルを提案し,それらの関係が感情認識タスクのロバスト性や性能向上にどのように役立つかを示す。 本手法は,連続的評価と離散的感情ラベルの関係を共同でモデル化するマルチタスクおよび階層型マルチタスク学習フレームワークからなる。 音声に基づく感情認識に広く使われている2つのデータセット(iemocapとmsppodcast)の実験結果から,非統一的アプローチによる強力なベースラインに対する統計的に有意なパフォーマンス改善が得られた。 また,一方のラベル(離散的あるいは連続的)をトレーニングに用いることで,他方のラベルを使用するタスクの認識性能が向上することを示す。 このアプローチの実験的結果と推論(ミスマッチトレーニングアプローチと呼ばれる)も提示される。

Traditionally, in paralinguistic analysis for emotion detection from speech, emotions have been identified with discrete or dimensional (continuous-valued) labels. Accordingly, models that have been proposed for emotion detection use one or the other of these label types. However, psychologists like Russell and Plutchik have proposed theories and models that unite these views, maintaining that these representations have shared and complementary information. This paper is an attempt to validate these viewpoints computationally. To this end, we propose a model to jointly predict continuous and discrete emotional attributes and show how the relationship between these can be utilized to improve the robustness and performance of emotion recognition tasks. Our approach comprises multi-task and hierarchical multi-task learning frameworks that jointly model the relationships between continuous-valued and discrete emotion labels. Experimental results on two widely used datasets (IEMOCAP and MSPPodcast) for speech-based emotion recognition show that our model results in statistically significant improvements in performance over strong baselines with non-unified approaches. We also demonstrate that using one type of label (discrete or continuous-valued) for training improves recognition performance in tasks that use the other type of label. Experimental results and reasoning for this approach (called the mismatched training approach) are also presented.
翻訳日:2022-11-01 15:30:47 公開日:2022-10-29
# XNOR-FORMER:Long Speech Transformerにおける正確な近似学習

XNOR-FORMER: Learning Accurate Approximations in Long Speech Transformers ( http://arxiv.org/abs/2210.16643v1 )

ライセンス: Link先を確認
Roshan Sharma and Bhiksha Raj(参考訳) トランスフォーマーは、言語、視覚、自然言語処理などの多くのタスクにおいて、最先端の最先端技術である。 この性能に重要な貢献者である自己注意は2次計算の複雑さを持ち、長い入力シーケンスのトレーニングを困難にしている。 先行研究は最先端の変圧器を線形に注意して製造したが、現在のモデルは効率的な実装を達成するために性能を犠牲にしている。 本研究では,キークエリ生成物の性質を自己注意で調べ,線形変換器を開発した。 提案手法は, 音声認識と音声要約の手法により, Librispeech-100 音声認識ベンチマークと新たなInterVIEW 音声認識ベンチマークにおいて 1 % の絶対 WER 改善が達成され, ROUGE では How2 との要約が 5 ポイント向上した。

Transformers are among the state of the art for many tasks in speech, vision, and natural language processing, among others. Self-attentions, which are crucial contributors to this performance have quadratic computational complexity, which makes training on longer input sequences challenging. Prior work has produced state-of-the-art transformer variants with linear attention, however, current models sacrifice performance to achieve efficient implementations. In this work, we develop a novel linear transformer by examining the properties of the key-query product within self-attentions. Our model outperforms state of the art approaches on speech recognition and speech summarization, resulting in 1 % absolute WER improvement on the Librispeech-100 speech recognition benchmark and a new INTERVIEW speech recognition benchmark, and 5 points on ROUGE for summarization with How2.
翻訳日:2022-11-01 15:30:27 公開日:2022-10-29
# 分子前訓練モデルに関する体系的研究

A Systematic Survey of Molecular Pre-trained Models ( http://arxiv.org/abs/2210.16484v1 )

ライセンス: Link先を確認
Jun Xia, Yanqiao Zhu, Yuanqi Du, Yue Liu, Stan Z.Li(参考訳) 効果的な分子表現を得ることは、特性予測から薬物設計まで、一連の重要な化学タスクの中核である。 これまでのところ、ディープラーニングは、データ駆動の方法で自動機能学習によって、分子の表現を学習することに成功した。 しかし、深層ニューラルネットワークをスクラッチから訓練するには、現実世界のシナリオで取得するのにかかる十分なラベル付き分子を必要とすることが多い。 この問題を緩和するため、自然言語処理における事前学習と微調整のパラダイムの成功に触発されて、ニューラルネットワークを大規模なラベルなしの分子データベースを使用して事前学習し、下流タスクを微調整する分子事前学習モデル(mpm)に多大な努力が費やされてきた。 繁栄にもかかわらず、この分野は急速に成長しており、機械学習と科学コミュニティの両方で方法論の進歩と実践的応用の両方に、体系的なロードマップが緊急に必要である。 そこで本研究では, 分子表現のための事前学習モデルに関する体系的調査を行う。 まず,mpms研究の動機づけとして,分子表現のための深層ニューラルネットワークの訓練の限界を強調する。 次に, 分子ディスクリプタ, エンコーダアーキテクチャ, 事前学習戦略, 応用などいくつかの重要な視点から, このトピックの最近の進歩を体系的にレビューする。 最後に,いくつかの課題を特定し,今後の研究の方向性について考察する。

Obtaining effective molecular representations is at the core of a series of important chemical tasks ranging from property prediction to drug design. So far, deep learning has achieved remarkable success in learning representations for molecules through automated feature learning in a data-driven fashion. However, training deep neural networks from scratch often requires sufficient labeled molecules which are expensive to acquire in real-world scenarios. To alleviate this issue, inspired by the success of the pretrain-then-finetune paradigm in natural language processing, tremendous efforts have been devoted to Molecular Pre-trained Models (MPMs), where neural networks are pre-trained using large-scale unlabeled molecular databases and then fine-tuned for diverse downstream tasks. Despite the prosperity, this field is fast-growing and a systematic roadmap is urgently needed for both methodology advancements and practical applications in both machine learning and scientific communities. To this end, this paper provides a systematic survey of pre-trained models for molecular representations. Firstly, to motivate MPMs studies, we highlight the limitations of training deep neural networks for molecular representations. Next, we systematically review recent advances on this topic from several key perspectives including molecular descriptors, encoder architectures, pre-training strategies, and applications. Finally, we identify several challenges and discuss promising future research directions.
翻訳日:2022-11-01 15:29:42 公開日:2022-10-29
# Clenshaw Graph Neural Networks

Clenshaw Graph Neural Networks ( http://arxiv.org/abs/2210.16508v1 )

ライセンス: Link先を確認
Yuhe Guo and Zhewei Wei(参考訳) グラフ畳み込みネットワーク(graph convolutional networks:gcns)は、重ねられた畳み込み層を持つメッセージパッシングパラダイムを使用しており、グラフ表現を学習するための基礎的手法である。 最近のGCNモデルは、過度な平滑化や勾配消滅といったモデル劣化問題を緩和するために、様々な残差接続技術を使用している。 しかし、既存の残差接続技術は、グラフスペクトル領域のように基礎となるグラフ構造を広範囲に利用することができず、これは異種グラフの満足な結果を得るために重要である。 本稿では,GCNモデルの表現性を高めるために,Clenshaw Summation Algorithmを用いたGNNモデルであるClenshawGCNを紹介する。 ClenshawGCN は標準 GCN モデルにアダプティブ初期残差接続と負第二次残差接続の2つの単純残差加群を装備する。 これら2つの残余加群を加えることで、ClenshawGCN はチェビシェフ基底の下で多項式フィルタを暗黙的にシミュレートし、多項式スペクトル GNN と同程度の表現力を与えることを示す。 さらに,空間およびスペクトルGNNモデルよりもモデルの方が優れていることを示すため,包括的実験を行った。

Graph Convolutional Networks (GCNs), which use a message-passing paradigm with stacked convolution layers, are foundational methods for learning graph representations. Recent GCN models use various residual connection techniques to alleviate the model degradation problem such as over-smoothing and gradient vanishing. Existing residual connection techniques, however, fail to make extensive use of underlying graph structure as in the graph spectral domain, which is critical for obtaining satisfactory results on heterophilic graphs. In this paper, we introduce ClenshawGCN, a GNN model that employs the Clenshaw Summation Algorithm to enhance the expressiveness of the GCN model. ClenshawGCN equips the standard GCN model with two straightforward residual modules: the adaptive initial residual connection and the negative second-order residual connection. We show that by adding these two residual modules, ClenshawGCN implicitly simulates a polynomial filter under the Chebyshev basis, giving it at least as much expressive power as polynomial spectral GNNs. In addition, we conduct comprehensive experiments to demonstrate the superiority of our model over spatial and spectral GNN models.
翻訳日:2022-11-01 15:29:17 公開日:2022-10-29
# iSmallNet:赤外小ターゲット検出のためのラベル疎結合ネットワーク

iSmallNet: Densely Nested Network with Label Decoupling for Infrared Small Target Detection ( http://arxiv.org/abs/2210.16561v1 )

ライセンス: Link先を確認
Zhiheng Hu, Yongzhen Wang, Peng Li, Jie Qin, Haoran Xie, Mingqiang Wei(参考訳) 小さなターゲットは、しばしば赤外線画像の散らかった背景に沈む。 従来の検出器は誤報を発生させる傾向があるが、cnnベースの検出器は深い層で小さなターゲットを失う。 この目的のために,赤外小物体検出のためのラベルデカップリング付きマルチストリーム高密度ネストネットワークiSmallNetを提案する。 一方,小型ターゲットの形状情報を十分に活用するために,ラベル付きグラウンドルース (gt) マップを内部地図と境界地図に分離する。 gtマップは、2つの追加マップと協調して、小さなオブジェクト境界の不均衡な分布に取り組む。 一方,2つのキーモジュールを微妙に設計し,提案するネットワークに組み込んで全体の性能を向上させる。 まず, 深層層における小さなターゲットを維持するため, 多様なコンテキスト情報を探索するマルチスケールネスト型相互作用モジュールを開発した。 第2に,多粒性情報を統合する内部境界融合モジュールを開発する。 NUAA-SIRSTとNUDT-SIRSTの実験は、iSmallNetが11の最先端検出器よりも優れていることを示している。

Small targets are often submerged in cluttered backgrounds of infrared images. Conventional detectors tend to generate false alarms, while CNN-based detectors lose small targets in deep layers. To this end, we propose iSmallNet, a multi-stream densely nested network with label decoupling for infrared small object detection. On the one hand, to fully exploit the shape information of small targets, we decouple the original labeled ground-truth (GT) map into an interior map and a boundary one. The GT map, in collaboration with the two additional maps, tackles the unbalanced distribution of small object boundaries. On the other hand, two key modules are delicately designed and incorporated into the proposed network to boost the overall performance. First, to maintain small targets in deep layers, we develop a multi-scale nested interaction module to explore a wide range of context information. Second, we develop an interior-boundary fusion module to integrate multi-granularity information. Experiments on NUAA-SIRST and NUDT-SIRST clearly show the superiority of iSmallNet over 11 state-of-the-art detectors.
翻訳日:2022-11-01 15:23:11 公開日:2022-10-29
# プロンプトを超えて:クラスタリング表現によるゼロショット学習者の改善

Beyond prompting: Making Pre-trained Language Models Better Zero-shot Learners by Clustering Representations ( http://arxiv.org/abs/2210.16637v1 )

ライセンス: Link先を確認
Yu Fei, Ping Nie, Zhao Meng, Roger Wattenhofer, Mrinmaya Sachan(参考訳) 近年の研究では、事前学習言語モデル(PLM)がゼロショット学習者であることを実証している。 しかし、既存のゼロショット手法のほとんどは、人間のエンジニアリングや複雑な自己学習パイプラインを伴い、新しい状況への応用を妨げる。 本研究では, PLM の埋め込み空間におけるテキストのクラスタリングによって, ゼロショットテキスト分類を改善することができることを示す。 具体的には、クラスタの位置と形状をクラス名を用いて初期化した後、未ラベルのテキストをベイズガウス混合モデルに適合させる。 その単純さにもかかわらず、このアプローチはトピック分類と感情分類の両方で優れた、あるいは同等のパフォーマンスを達成する。 より多様なトピック、テキスト長、クラス数を持つ14のデータセット上で評価することで、クラスタリングアプローチの適用性をさらに探ります。 提案手法は, 即時ゼロショット学習よりも平均20%絶対的な改善を実現する。 最後に、異なる PLM 埋め込み空間を比較し、意味のある文章埋め込みを生成するために PLM が明示的に事前訓練されていない場合でも、テキストがトピックによって適切にクラスタリングされていることを確かめる。 この研究は、plm埋め込みがタスク固有の微調整なしにテキストを分類できることを示し、その知識を解析し活用する新しい方法とゼロショット学習能力を提供する。

Recent work has demonstrated that pre-trained language models (PLMs) are zero-shot learners. However, most existing zero-shot methods involve heavy human engineering or complicated self-training pipelines, hindering their application to new situations. In this work, we show that zero-shot text classification can be improved simply by clustering texts in the embedding spaces of PLMs. Specifically, we fit the unlabeled texts with a Bayesian Gaussian Mixture Model after initializing cluster positions and shapes using class names. Despite its simplicity, this approach achieves superior or comparable performance on both topic and sentiment classification datasets and outperforms prior works significantly on unbalanced datasets. We further explore the applicability of our clustering approach by evaluating it on 14 datasets with more diverse topics, text lengths, and numbers of classes. Our approach achieves an average of 20% absolute improvement over prompt-based zero-shot learning. Finally, we compare different PLM embedding spaces and find that texts are well-clustered by topics even if the PLM is not explicitly pre-trained to generate meaningful sentence embeddings. This work indicates that PLM embeddings can categorize texts without task-specific fine-tuning, thus providing a new way to analyze and utilize their knowledge and zero-shot learning ability.
翻訳日:2022-11-01 15:22:19 公開日:2022-10-29
# 事前学習型多言語埋め込みとセグメンテーションを用いたコードスイッチトテキストの感性分類

Sentiment Classification of Code-Switched Text using Pre-trained Multilingual Embeddings and Segmentation ( http://arxiv.org/abs/2210.16461v1 )

ライセンス: Link先を確認
Saurav K. Aryal, Howard Prioleau, and Gloria Washington(参考訳) グローバル化や移民の増加に伴い、世界の人口の約半数がバイリンガルであると推定されている。 その結果、個人はカジュアルな会話設定で2つ以上の言語または方言を同時に使用する。 しかし、ほとんどの研究は自然言語処理が単言語テキストに焦点を当てている。 コード切替型感情分析における研究をさらに進めるために,混合テキストにおけるコード切替の点を利用した多段階自然言語処理アルゴリズムを提案する。 提案する感情分析アルゴリズムは,事前学習された大規模多言語モデルから導出される意味的類似性を用いて,符号切り換え文の極性を決定する。 提案手法は、スペイン英語のデータセットにおいて、精度が11.2%、f1-scoreが11.64%と同等のベースラインモデルを上回る。 理論的には、提案アルゴリズムは人間の専門知識に制限のある複数の言語の感情分析のために拡張することができる。

With increasing globalization and immigration, various studies have estimated that about half of the world population is bilingual. Consequently, individuals concurrently use two or more languages or dialects in casual conversational settings. However, most research is natural language processing is focused on monolingual text. To further the work in code-switched sentiment analysis, we propose a multi-step natural language processing algorithm utilizing points of code-switching in mixed text and conduct sentiment analysis around those identified points. The proposed sentiment analysis algorithm uses semantic similarity derived from large pre-trained multilingual models with a handcrafted set of positive and negative words to determine the polarity of code-switched text. The proposed approach outperforms a comparable baseline model by 11.2% for accuracy and 11.64% for F1-score on a Spanish-English dataset. Theoretically, the proposed algorithm can be expanded for sentiment analysis of multiple languages with limited human expertise.
翻訳日:2022-11-01 15:13:43 公開日:2022-10-29
# stprompt:semantic-guidedおよびtask-driven promptsによる効果的な少数ショット分類

STPrompt: Semantic-guided and Task-driven prompts for Effective Few-shot Classification ( http://arxiv.org/abs/2210.16489v1 )

ライセンス: Link先を確認
Jinta Weng and Yue Hu and Jing Qiu and Heyan Huan(参考訳) 素早い学習の有効性は、様々な事前学習言語モデルで実証されている。 適切なテンプレートを定式化し、代表ラベルマッピングを選択することで、効率的な知識プローブとして即興学習が利用できる。 しかし、既存の手法で適切なプロンプトを見つけるためには、適切なテンプレートを定式化し、代表ラベルマッピングを選択するために、複数の実験的試みや適切なベクトル初期化が必要である。 PLM作業プロセスにより、タスク意味の観点からプロンプトを構築し、STPrompt-Semantic-GuidedおよびTask-driven Promptモデルを提案する。 具体的には、セマンティック依存ツリー(Dep-prompt)とタスク固有のメタデータ記述(Meta-prompt)から生成される2つの新しいプロンプトを、まず、即時的な拡張プールに構築し、提案モデルは、即時学習プロセスの動機付けに最適なセマンティックプロンプトを自動的に選択する。 これらの結果から,提案手法は5つの異なるデータセットのテキスト分類タスクにおいて最先端のパフォーマンスを達成し,より意味的かつ有意義なプロンプトがよりよい知識証明ツールとして想定できることを示す。

The effectiveness of prompt learning has been demonstrated in different pre-trained language models. By formulating suitable template and choosing representative label mapping, prompt learning can be used as an efficient knowledge probe. However, finding suitable prompt in existing methods requires multiple experimental attempts or appropriate vector initialization on formulating suitable template and choosing representative label mapping, which it is more common in few-shot learning tasks. Motivating by PLM working process, we try to construct the prompt from task semantic perspective and thus propose the STPrompt -Semantic-guided and Task-driven Prompt model. Specifically, two novel prompts generated from the semantic dependency tree (Dep-prompt) and task-specific metadata description (Meta-prompt), are firstly constructed in a prompt augmented pool, and the proposed model would automatically select a suitable semantic prompt to motivating the prompt learning process. Our results show that the proposed model achieves the state-of-the-art performance in five different datasets of few-shot text classification tasks, which prove that more semantic and significant prompts could assume as a better knowledge proving tool.
翻訳日:2022-11-01 15:13:27 公開日:2022-10-29
# Hat EBMを用いた発電機潜時空間からの確率モデル学習

Learning Probabilistic Models from Generator Latent Spaces with Hat EBM ( http://arxiv.org/abs/2210.16486v1 )

ライセンス: Link先を確認
Mitch Hill, Erik Nijkamp, Jonathan Mitchell, Bo Pang, Song-Chun Zhu(参考訳) 本研究では,エネルギーベースモデル(EBM)の基礎として,任意のジェネレータネットワークを利用する手法を提案する。 観測画像の定式化は, 生成ネットワークを通過した未観測潜伏変数の和と, 生成器出力と画像多様体とのギャップにまたがる残差変数の和である。 次に、ジェネレータを含むESMをフォワードパスの一部として定義し、それをHat EBMと呼ぶ。 モデルは観測データの潜伏変数を推測したり、ジャコビアン行列式を計算することなく訓練することができる。 これにより、任意の種類のジェネレータネットワークの出力分布の明示的な確率的モデリングが可能になる。 128x128解像度の非条件画像ネット合成,(2)既存の生成装置の出力の精錬,(3)非確率的生成装置を組み込んだ学習用EMMにおいて,提案手法の強い性能を示す。 結果を再現するためのコードと事前トレーニングされたモデルは、https://github.com/point0bar1/hat-ebmで利用可能です。

This work proposes a method for using any generator network as the foundation of an Energy-Based Model (EBM). Our formulation posits that observed images are the sum of unobserved latent variables passed through the generator network and a residual random variable that spans the gap between the generator output and the image manifold. One can then define an EBM that includes the generator as part of its forward pass, which we call the Hat EBM. The model can be trained without inferring the latent variables of the observed data or calculating the generator Jacobian determinant. This enables explicit probabilistic modeling of the output distribution of any type of generator network. Experiments show strong performance of the proposed method on (1) unconditional ImageNet synthesis at 128x128 resolution, (2) refining the output of existing generators, and (3) learning EBMs that incorporate non-probabilistic generators. Code and pretrained models to reproduce our results are available at https://github.com/point0bar1/hat-ebm.
翻訳日:2022-11-01 15:04:46 公開日:2022-10-29
# target-aware generative augmentation による単発領域適応

Single-Shot Domain Adaptation via Target-Aware Generative Augmentation ( http://arxiv.org/abs/2210.16692v1 )

ライセンス: Link先を確認
Rakshith Subramanyam, Kowshik Thopalli, Spring Berman, Pavan Turaga, Jayaraman J. Thiagarajan(参考訳) ディープニューラルネットワークの脆弱な一般化により、任意の対象領域のデータを使用してソースドメインからモデルを適用するという問題が注目されている。 いくつかのテスト時間適応技術が登場したが、それらは通常、ターゲットデータ可用性が制限された場合の合成データ拡張に依存している。 本稿では,単発適応の挑戦的な設定について考察し,拡張戦略の設計について考察する。 そこで,本論文では,既存手法による拡張は大きな分布シフトを扱うには不十分であるとして,まず1発のターゲットを用いてソース領域から生成モデルを微調整し,次に新たなサンプリング戦略を用いて合成対象データのキュレーションを行う新たなアプローチ sista (single-shot target augmentation) を提案する。 現状のドメイン適応手法を用いた実験により,SiSTAは顔属性検出の挑戦的なシフトの下で,既存のベースラインよりも最大20%向上し,より大きなターゲットデータセットでトレーニングしたオラクルモデルと競合して動作することがわかった。

The problem of adapting models from a source domain using data from any target domain of interest has gained prominence, thanks to the brittle generalization in deep neural networks. While several test-time adaptation techniques have emerged, they typically rely on synthetic data augmentations in cases of limited target data availability. In this paper, we consider the challenging setting of single-shot adaptation and explore the design of augmentation strategies. We argue that augmentations utilized by existing methods are insufficient to handle large distribution shifts, and hence propose a new approach SiSTA (Single-Shot Target Augmentations), which first fine-tunes a generative model from the source domain using a single-shot target, and then employs novel sampling strategies for curating synthetic target data. Using experiments with a state-of-the-art domain adaptation method, we find that SiSTA produces improvements as high as 20\% over existing baselines under challenging shifts in face attribute detection, and that it performs competitively to oracle models obtained by training on a larger target dataset.
翻訳日:2022-11-01 15:04:28 公開日:2022-10-29
# デュアルエネルギーX線セキュリティ画像中の異常検出のためのサブコンポーネントの分割と分類

Joint Sub-component Level Segmentation and Classification for Anomaly Detection within Dual-Energy X-Ray Security Imagery ( http://arxiv.org/abs/2210.16453v1 )

ライセンス: Link先を確認
Neelanjan Bhowmik, Toby P. Breckon(参考訳) X線バッグセキュリティスクリーニングは広く使われており、脅威・異常検出タスクの輸送セキュリティ維持に不可欠である。 近年,2次元X線画像を用いた散乱・複雑な電子・電気機器内に隠された異常の自動検出が注目されている。 本稿では, 深層畳み込みニューラルネットワークアーキテクチャを用いた統合オブジェクトのサブコンポーネント分割と分類戦略を導入することで, この課題に対処する。 この性能は、二重エネルギーX線画像の変種(擬色、高、低、有効Z)を用いて、消費者電子・電子製品からなる散在するX線バッグセキュリティ画像のデータセット上で評価される。 提案したジョイントサブコンポーネントレベルセグメンテーションと分類手法は、異常検出タスクに対して、正の約99%、偽の約5%を達成する。

X-ray baggage security screening is in widespread use and crucial to maintaining transport security for threat/anomaly detection tasks. The automatic detection of anomaly, which is concealed within cluttered and complex electronics/electrical items, using 2D X-ray imagery is of primary interest in recent years. We address this task by introducing joint object sub-component level segmentation and classification strategy using deep Convolution Neural Network architecture. The performance is evaluated over a dataset of cluttered X-ray baggage security imagery, consisting of consumer electrical and electronics items using variants of dual-energy X-ray imagery (pseudo-colour, high, low, and effective-Z). The proposed joint sub-component level segmentation and classification approach achieve ~99% true positive and ~5% false positive for anomaly detection task.
翻訳日:2022-11-01 14:55:16 公開日:2022-10-29
# DeFIX:模倣学習に基づく自律運転における強化学習による障害シナリオの検出と修正

DeFIX: Detecting and Fixing Failure Scenarios with Reinforcement Learning in Imitation Learning Based Autonomous Driving ( http://arxiv.org/abs/2210.16567v1 )

ライセンス: Link先を確認
Resul Dagdanov, Feyza Eksen, Halil Durmus, Ferhat Yurdakul, Nazim Kemal Ure(参考訳) 交通規則に違反することなく都市環境を安全に航行することは、信頼できる自動運転にとって重要なパフォーマンス目標である。 本稿では,ilアプローチの欠点を解消するためのrlエージェントを訓練するために,これらの非破壊領域の破れ点を抽出し,ミニスセナリオを再構築することにより,模倣学習(il)エージェントの故障を検出・修正(修正)するための強化学習(rl)手法を提案する。 DeFIXは継続的学習フレームワークで、障害シナリオの抽出とRLエージェントのトレーニングを無限ループで実行する。 各新方針を訓練し、政策ライブラリに追加した後、ポリシー分類法は、評価中の各ステップでどのポリシーを活性化するかを効果的に決定する。 ILエージェントの故障シナリオを訓練したRLエージェントが1つあれば、DeFIX法は競争力があるか、最先端のILおよびRLベースの自律都市運転ベンチマークより優れていることが示されている。 複雑で現実的な運転シナリオを含むcarlaシミュレータの最も挑戦的なマップ(town05)で、我々のアプローチをトレーニングし、検証しました。 ソースコードはhttps://github.com/data-and-decision-lab/DeFIXで公開されている。

Safely navigating through an urban environment without violating any traffic rules is a crucial performance target for reliable autonomous driving. In this paper, we present a Reinforcement Learning (RL) based methodology to DEtect and FIX (DeFIX) failures of an Imitation Learning (IL) agent by extracting infraction spots and re-constructing mini-scenarios on these infraction areas to train an RL agent for fixing the shortcomings of the IL approach. DeFIX is a continuous learning framework, where extraction of failure scenarios and training of RL agents are executed in an infinite loop. After each new policy is trained and added to the library of policies, a policy classifier method effectively decides on which policy to activate at each step during the evaluation. It is demonstrated that even with only one RL agent trained on failure scenario of an IL agent, DeFIX method is either competitive or does outperform state-of-the-art IL and RL based autonomous urban driving benchmarks. We trained and validated our approach on the most challenging map (Town05) of CARLA simulator which involves complex, realistic, and adversarial driving scenarios. The source code is publicly available at https://github.com/data-and-decision-lab/DeFIX
翻訳日:2022-11-01 14:54:59 公開日:2022-10-29
# 二人は人よりマシか? マルチチョイス質問応答に対する効果的なアプローチとしてのバイナリ分類

Two is Better than Many? Binary Classification as an Effective Approach to Multi-Choice Question Answering ( http://arxiv.org/abs/2210.16495v1 )

ライセンス: Link先を確認
Deepanway Ghosal, Navonil Majumder, Rada Mihalcea, Soujanya Poria(参考訳) 本稿では,二項分類のシリーズとして,MCQAタスクの簡易リファクタリングを提案する。 MCQAタスクは一般に、すべてのペアに対して正規化された各(質問、回答)ペアをスコアリングし、次に最も高いスコアを得るペアから回答を選択する。 n 個の答えの選択に対して、これは 1 つのクラス(真の答え)だけが正しい n クラスの分類設定と等価である。 その代わり、正のインスタンスと正のインスタンスと負のインスタンスとを分類することは、さまざまなモデルやデータセットでかなり効果的であることを示す。 提案手法は, 帰納的推論, 常識的質問応答, 科学的質問応答, 文完成など, 様々なタスクにおいて有効性を示す。 当社のDeBERTaバイナリ分類モデルは,これらのタスクの公開リーダボード上での上位あるいは上位に到達します。 提案されたアプローチのソースコードはhttps://github.com/declare-lab/TEAMで公開されている。

We propose a simple refactoring of multi-choice question answering (MCQA) tasks as a series of binary classifications. The MCQA task is generally performed by scoring each (question, answer) pair normalized over all the pairs, and then selecting the answer from the pair that yield the highest score. For n answer choices, this is equivalent to an n-class classification setup where only one class (true answer) is correct. We instead show that classifying (question, true answer) as positive instances and (question, false answer) as negative instances is significantly more effective across various models and datasets. We show the efficacy of our proposed approach in different tasks -- abductive reasoning, commonsense question answering, science question answering, and sentence completion. Our DeBERTa binary classification model reaches the top or close to the top performance on public leaderboards for these tasks. The source code of the proposed approach is available at https://github.com/declare-lab/TEAM.
翻訳日:2022-11-01 14:47:09 公開日:2022-10-29
# NTULM:非テキスト単位によるソーシャルメディアテキスト表現の強化

NTULM: Enriching Social Media Text Representations with Non-Textual Units ( http://arxiv.org/abs/2210.16586v1 )

ライセンス: Link先を確認
Jinning Li and Shubhanshu Mishra and Ahmed El-Kishky and Sneha Mehta and Vivek Kulkarni(参考訳) ソーシャルメディアでは、追加の文脈は、記事の著者、言及、ハッシュタグ、ハイパーリンクなど、注釈やメタデータの形でしばしば存在している。 これらのアノテーションを非テキスト単位(NTU)と呼ぶ。 我々は、NTUがテキスト意味論以外の社会的文脈を提供し、これらの単位を活用することで、ソーシャルメディアのテキスト表現を豊かにすることができると仮定する。 本研究では,NTUを組み込むNTU中心のネットワークを構築する。 そして、これらの追加ユニットを微調整することで、これらのNTU埋め込みを大規模な事前学習言語モデルに統合する。 これは、騒がしいソーシャルメディアにコンテキストを追加する。 実験により,NTU拡張テキスト表現の利用は,ソーシャルメディアNLPにおける文脈の重要性を強調する多くの下流タスクにおいて,既存のテキストのみのベースラインを2~5倍の相対ポイントで上回ることがわかった。 また、NTUコンテキストをテキストと並行して言語モデルの初期層に含めることが、テキスト埋め込みの生成後に使用するよりも優れていることも強調した。 我々の研究は、総合的な汎用ソーシャルメディアコンテンツの埋め込みへと繋がる。

On social media, additional context is often present in the form of annotations and meta-data such as the post's author, mentions, Hashtags, and hyperlinks. We refer to these annotations as Non-Textual Units (NTUs). We posit that NTUs provide social context beyond their textual semantics and leveraging these units can enrich social media text representations. In this work we construct an NTU-centric social heterogeneous network to co-embed NTUs. We then principally integrate these NTU embeddings into a large pretrained language model by fine-tuning with these additional units. This adds context to noisy short-text social media. Experiments show that utilizing NTU-augmented text representations significantly outperforms existing text-only baselines by 2-5\% relative points on many downstream tasks highlighting the importance of context to social media NLP. We also highlight that including NTU context into the initial layers of language model alongside text is better than using it after the text embedding is generated. Our work leads to the generation of holistic general purpose social media content embedding.
翻訳日:2022-11-01 14:46:53 公開日:2022-10-29
# テキスト-SQL パーサのクロスデータベース適応のための多元並列データ合成

Diverse Parallel Data Synthesis for Cross-Database Adaptation of Text-to-SQL Parsers ( http://arxiv.org/abs/2210.16613v1 )

ライセンス: Link先を確認
Abhijeet Awasthi, Ashutosh Sathe, Sunita Sarawagi(参考訳) テキストからSQLへのパーサは、通常、列車の時間中に見つからないデータベースと苦労する。 新しいデータベースへのパーサーの適用は、新しいスキーマで自然言語クエリが欠如しているため、難しい問題である。 ReFillは、テキストからSQLへのパーサをターゲットスキーマに適応させるために、高品質で多種多様な並列データセットを合成するフレームワークである。 refillは既存のスキーマからテキストクエリの検索と編集を学び、ターゲットスキーマに転送する。 既存のさまざまなテキストを検索し、スキーマ固有のトークンをマスクし、ターゲットスキーマに関連するトークンを埋め込むことで、標準のSQL-to-Text生成方法よりもはるかに多様なテキストクエリが得られることを示す。 複数のデータベースにまたがる実験を通じて,refillを用いて合成したデータセット上の微調整パーサが,従来のデータ提供手法を一貫して上回っていることを実証する。

Text-to-SQL parsers typically struggle with databases unseen during the train time. Adapting parsers to new databases is a challenging problem due to the lack of natural language queries in the new schemas. We present ReFill, a framework for synthesizing high-quality and textually diverse parallel datasets for adapting a Text-to-SQL parser to a target schema. ReFill learns to retrieve-and-edit text queries from the existing schemas and transfers them to the target schema. We show that retrieving diverse existing text, masking their schema-specific tokens, and refilling with tokens relevant to the target schema, leads to significantly more diverse text queries than achievable by standard SQL-to-Text generation methods. Through experiments spanning multiple databases, we demonstrate that fine-tuning parsers on datasets synthesized using ReFill consistently outperforms the prior data-augmentation methods.
翻訳日:2022-11-01 14:46:40 公開日:2022-10-29
# gaitmixer:ワイドスペクトル多軸ミキサーによるスケルトンベースの歩行表現学習

GaitMixer: Skeleton-based Gait Representation Learning via Wide-spectrum Multi-axial Mixer ( http://arxiv.org/abs/2210.15491v2 )

ライセンス: Link先を確認
Ekkasit Pinyoanuntapong, Ayman Ali, Pu Wang, Minwoo Lee, Chen Chen(参考訳) 既存の歩行認識法は、人間の歩行行動のビデオデータから抽出されたシルエットに依存する外観ベースである。 研究の少ない骨格に基づく歩行認識法は、2D/3Dヒト骨格配列から直接歩行力学を学習する。 しかし、スケルトンベースのソリューションのパフォーマンスは、まだ外観ベースのソリューションに大きく遅れている。 本稿では,新しいネットワークモデルであるgaitmixerを提案し,スケルトンシーケンスデータからより識別的な歩行表現を求めることにより,その性能ギャップを解消することを目的とする。 特に、GaitMixerは、空間的自己注意ミキサーと時間的大カーネル畳み込みミキサーを併用した異種多軸ミキサーアーキテクチャに従って、歩数特徴写像でリッチな多周波信号を学ぶ。 広く使われている歩行データベースであるCASIA-Bの実験では、GaitMixerは従来のSOTAの骨格法よりも大きなマージンで優れており、代表的な外観法に比べて競争性能が優れている。 コードはhttps://github.com/exitudio/gaitmixerで入手できる。

Most existing gait recognition methods are appearance-based, which rely on the silhouettes extracted from the video data of human walking activities. The less-investigated skeleton-based gait recognition methods directly learn the gait dynamics from 2D/3D human skeleton sequences, which are theoretically more robust solutions in the presence of appearance changes caused by clothes, hairstyles, and carrying objects. However, the performance of skeleton-based solutions is still largely behind the appearance-based ones. This paper aims to close such performance gap by proposing a novel network model, GaitMixer, to learn more discriminative gait representation from skeleton sequence data. In particular, GaitMixer follows a heterogeneous multi-axial mixer architecture, which exploits the spatial self-attention mixer followed by the temporal large-kernel convolution mixer to learn rich multi-frequency signals in the gait feature maps. Experiments on the widely used gait database, CASIA-B, demonstrate that GaitMixer outperforms the previous SOTA skeleton-based methods by a large margin while achieving a competitive performance compared with the representative appearance-based solutions. Code will be available at https://github.com/exitudio/gaitmixer
翻訳日:2022-11-01 12:31:05 公開日:2022-10-29