このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220929となっている論文です。

PDF登録状況(公開日: 20220929)

TitleAuthorsAbstract論文公表日・翻訳日
# 半周期におけるキラルフロケット系と量子ウォーク

Chiral Floquet systems and quantum walks at half period ( http://arxiv.org/abs/2006.04634v2 )

ライセンス: Link先を確認
C. Cedzich, T. Geib, A. H. Werner, R. F. Werner(参考訳) 我々は1次元格子上のカイラル対称周期駆動量子系を分類する。 駆動過程は局所的であり、連続的あるいは離散的であり、対応するフロッケ作用素のギャップ条件を仮定する。 解析は半周期のユニタリ演算子、半段階演算子の観点で行います。 5つの整数指標の観点から、半ステップ作用素の連結類を完全分類する。 これらの指標に基づいて、半ステップ作用素が連続ハミルトニアン駆動から得ることができるかどうかを決定することができる。 ハーフステップ演算子は、駆動を0または半周期で開始した2つのフロケ演算子を決定する。 これらは時間枠と呼ばれ、カイラル対称量子ウォークである。 逆に、2つのカイラル対称ウォークが共通半ステップ作用素を決定する条件を示す。 さらに,半ステップ演算子の分類と対応する量子ウォークとの関係を明らかにする。 この理論の中で、バルクエッジ対応を証明し、第二の時間枠が1つの時間枠では不可能である+1$と1$で対称性保護されたエッジ状態を区別できることを示す。

We classify chiral symmetric periodically driven quantum systems on a one-dimensional lattice. The driving process is local, can be continuous or discrete in time, and we assume a gap condition for the corresponding Floquet operator. The analysis is in terms of the unitary operator at a half-period, the half-step operator. We give a complete classification of the connected classes of half-step operators in terms of five integer indices. On the basis of these indices it can be decided whether the half-step operator can be obtained from a continuous Hamiltonian driving, or not. The half-step operator determines two Floquet operators, obtained by starting the driving at zero or at half period, respectively. These are called timeframes and are chiral symmetric quantum walks. Conversely, we show under which conditions two chiral symmetric walks determine a common half-step operator. Moreover, we clarify the connection between the classification of half-step operators and the corresponding quantum walks. Within this theory we prove bulk-edge correspondence and show that a second timeframe allows to distinguish between symmetry protected edge states at $+1$ and $-1$ which is not possible for a single timeframe.
翻訳日:2023-05-16 07:09:47 公開日:2022-09-29
# 忠実度推定のための量子アルゴリズム

Quantum Algorithm for Fidelity Estimation ( http://arxiv.org/abs/2103.09076v2 )

ライセンス: Link先を確認
Qisheng Wang, Zhicheng Zhang, Kean Chen, Ji Guan, Wang Fang, Junyi Liu, Mingsheng Ying(参考訳) 2つの未知の混合量子状態 $\rho$ と $\sigma$ の次元ヒルベルト空間において、それらの忠実度 $F(\rho,\sigma)$ は、量子コンピュータの出力の検証と評価、量子アルゴリズムの設計と解析など、量子コンピューティングおよび量子情報における多くの重要な応用における基本的な問題である。 本稿では,$\operatorname{poly}(\log (n), r, 1/\varepsilon)$ time において,$r$ は$\rho$ と $\sigma$ の下位ランクであり,$\varepsilon$ は所望の精度である。 このアルゴリズムは、最もよく知られたアルゴリズム(量子状態トモグラフィーに基づく)よりも指数関数的なスピードアップを示し、時間複雑性多項式は$N$である。

For two unknown mixed quantum states $\rho$ and $\sigma$ in an $N$-dimensional Hilbert space, computing their fidelity $F(\rho,\sigma)$ is a basic problem with many important applications in quantum computing and quantum information, for example verification and characterization of the outputs of a quantum computer, and design and analysis of quantum algorithms. In this paper, we propose a quantum algorithm that solves this problem in $\operatorname{poly}(\log (N), r, 1/\varepsilon)$ time, where $r$ is the lower rank of $\rho$ and $\sigma$, and $\varepsilon$ is the desired precision, provided that the purifications of $\rho$ and $\sigma$ are prepared by quantum oracles. This algorithm exhibits an exponential speedup over the best known algorithm (based on quantum state tomography) which has time complexity polynomial in $N$.
翻訳日:2023-04-07 23:31:24 公開日:2022-09-29
# 量子力学におけるブラックホールのファイアウォール変換とリアリズム

The Black Hole Firewall Transformation and Realism in Quantum Mechanics ( http://arxiv.org/abs/2106.11152v2 )

ライセンス: Link先を確認
Gerard t Hooft(参考訳) 量子化されたブラックホールの統一進化法則を導出する手法が著者によって提案されている。 この提案では、遠方のブラックホールのペンローズ図全体を背景計量として開始し、その後この計量の2つの漸近領域を特定する手順が提案され、どちらも同じ外界を指す。 本稿では,この識別を適用する際に時間反転を含める必要性に着目する。 これにより、エネルギー密度が最大値に達する状態である世界における「反真空状態」の存在を仮定せざるを得ない。 この二乗は、量子ヒルベルト空間が実世界の「ベクトル表現」と見なされるような量子力学の決定論的解釈とよく合っている。 このような考慮の中で重力をどう扱うかを理解する必要がある。 重力の非摂動成分は、時間と空間の力学的な特徴としてカット・アンド・ペースト手順を伴い、ペンローズ図の2つの連結領域への時空の再配置が主要な例である。 そこで我々は,プランクスケールにおける粒子相互作用の性質と量子力学自体についての新たな知見を得ようとする。 著者による新しい出版物で説明されているように、現在、ペンローズ図の領域 ii は、領域 i の正確な量子コピーと見なされているが、時間はまだ逆転しているが、時空とその反脚との交換は誤りである。

A procedure to derive a unitary evolution law for a quantised black hole, has been proposed by the author. The proposal requires that one starts off with the entire Penrose diagram for the eternal black hole as the background metric, after which a procedure was proposed to identify the two asymptotic domains of this metric, such that they both refer to the same outside world. In this paper we focus on the need to include time reversal in applying this identification. This forces us to postulate the existence of an 'anti-vacuum' state in our world, which is the state where energy density reaches a maximal value. We find that this squares well with the deterministic interpretation of quantum mechanics, according to which quantum Hilbert space is to be regarded as the 'vector representation' of a real world. One has to understand how to deal with gravity in such considerations. The non-perturbative component of the gravitational force seems to involve cut-and-paste procedures as dynamical features of space and time, of which the re-arrangement of space-time into two connected domains in the Penrose diagram is a primary example. Thus we attempt to obtain new insights in the nature of particle interactions at the Planck scale, as well as quantum mechanics itself. In this newer version of the paper an important correction is made concerning the antipodal transformation: applying more insight in the situation, as explained in newer publications by the author, we now regard region II of the Penrose diagram as an exact quantum copy of region I , still with time being reversed, but interchanging a region of spacetime with its antipodes is now seen to be incorrect.
翻訳日:2023-03-25 23:04:23 公開日:2022-09-29
# プライバシ対応リジェクションサンプリング

Privacy-Aware Rejection Sampling ( http://arxiv.org/abs/2108.00965v2 )

ライセンス: Link先を確認
Jordan Awan and Vinayak Rao(参考訳) 差分プライバシー(DP)は強力な理論的プライバシー保証を提供するが、DP機構の実装はタイミング攻撃のようなサイドチャネル攻撃に弱い可能性がある。 MCMCやリジェクションサンプリングのようなサンプリング手法を用いてメカニズムを実装する場合、ランタイムはプライベート情報を漏洩することができる。 我々は、$(\epsilon,\delta)$-DPと$f$-DPの両方の観点から、拒絶サンプリングの実行による追加のプライバシーコストを特徴付ける。 また、データベース間で受容確率が一定でない限り、拒絶サンプリングのランタイムは$\epsilon$-DPを任意の$\epsilon$に対して満たさないことを示す。 適応型拒絶検体でも同様にプライバシーが低下していることが示される。 本稿では,データから独立した実行環境にすることでタイミング攻撃を防止するため,様々な仮定で,拒絶サンプリングアルゴリズムの3つの修正を提案する。 最も弱い仮定による修正は近似的なサンプリングであり、プライバシコストがわずかに増加する一方、他の修正は完璧なサンプルを提供する。 また,データ非依存型ランタイムであるlog-H\"{o}lder 密度に対する適応型リジェクションサンプリングの開発にも本手法を用いた。 我々は,提案手法の仮定に適合するdp機構のいくつかの例を示す。

Differential privacy (DP) offers strong theoretical privacy guarantees, but implementations of DP mechanisms may be vulnerable to side-channel attacks, such as timing attacks. When sampling methods such as MCMC or rejection sampling are used to implement a mechanism, the runtime can leak private information. We characterize the additional privacy cost due to the runtime of a rejection sampler in terms of both $(\epsilon,\delta)$-DP as well as $f$-DP. We also show that unless the acceptance probability is constant across databases, the runtime of a rejection sampler does not satisfy $\epsilon$-DP for any $\epsilon$. We show that there is a similar breakdown in privacy with adaptive rejection samplers. We propose three modifications to the rejection sampling algorithm, with varying assumptions, to protect against timing attacks by making the runtime independent of the data. The modification with the weakest assumptions is an approximate sampler, introducing a small increase in the privacy cost, whereas the other modifications give perfect samplers. We also use our techniques to develop an adaptive rejection sampler for log-H\"{o}lder densities, which also has data-independent runtime. We give several examples of DP mechanisms that fit the assumptions of our methods and can thus be implemented using our samplers.
翻訳日:2023-03-20 03:10:49 公開日:2022-09-29
# 強相互作用するフェルミオンハミルトニアンの最適化

Optimizing Strongly Interacting Fermionic Hamiltonians ( http://arxiv.org/abs/2110.10701v3 )

ライセンス: Link先を確認
Matthew B. Hastings and Ryan O'Donnell(参考訳) 物理学と量子化学の多くの基本的な問題は、ある種の反可換変数の低次多項式を最適化することである。 量子力学的問題であるため、多くの場合、最適の効率的な古典的証人や、最適の近似さえも知らない。 特筆すべき例外は、最適化が「ガウス状態」と呼ばれる自由フェルミオン状態によって記述されるときである。 この研究では、良いガウス状態が存在しない場合の最適化問題の複雑さに関心があります。 我々の主要なテストベッドは、ランダム次数-$q$多項式のSachdev--Ye-Kitaev(SYK)モデルであり、凝縮物質物理学と弦理論に大きな関心を持つモデルであり、計算複雑性の観点から顕著な性質を持つ。 それらの結果の中から,$q=4$ sykモデルにおける最大固有値の上限値を求める効率的な古典的証明アルゴリズムと,この最大固有値の上限を低くするための効率的な量子証明アルゴリズムを提案する。

The fundamental problem in much of physics and quantum chemistry is to optimize a low-degree polynomial in certain anticommuting variables. Being a quantum mechanical problem, in many cases we do not know an efficient classical witness to the optimum, or even to an approximation of the optimum. One prominent exception is when the optimum is described by a so-called "Gaussian state", also called a free fermion state. In this work we are interested in the complexity of this optimization problem when no good Gaussian state exists. Our primary testbed is the Sachdev--Ye--Kitaev (SYK) model of random degree-$q$ polynomials, a model of great current interest in condensed matter physics and string theory, and one which has remarkable properties from a computational complexity standpoint. Among other results, we give an efficient classical certification algorithm for upper-bounding the largest eigenvalue in the $q=4$ SYK model, and an efficient quantum certification algorithm for lower-bounding this largest eigenvalue; both algorithms achieve constant-factor approximations with high probability.
翻訳日:2023-03-10 23:53:19 公開日:2022-09-29
# ウェーブレット表現による場の量子論における絡み合い

Entanglement in quantum field theory via wavelet representations ( http://arxiv.org/abs/2201.06211v4 )

ライセンス: Link先を確認
Daniel J. George and Yuval R. Sanders and Mohsen Bagherimehrab and Barry C. Sanders and Gavin K. Brennen(参考訳) 量子場理論(QFT)は連続体を用いて自然を記述するが、QFTの物理的性質は通常有限分解能における可観測物の測度で表される。 ウェーブレットを用いた自由スカラーボソニックおよびイジングモデルフェルミオンQFTのマルチスケール表現について述べる。 ウェーブレット基底関数の直交性と自己相似性を利用して、スケール依存サブシステム絡み合いエントロピーや基底状態における相関の再正規化などのよく知られた関係を示す。 また,QFTの基底状態の圧縮表現としてウェーブレット変換の新たな応用がいくつか見出された。

Quantum field theory (QFT) describes nature using continuous fields, but physical properties of QFT are usually revealed in terms of measurements of observables at a finite resolution. We describe a multiscale representation of a free scalar bosonic and Ising model fermionic QFTs using wavelets. Making use of the orthogonality and self similarity of the wavelet basis functions, we demonstrate some well known relations such as scale dependent subsystem entanglement entropy and renormalization of correlations in the ground state. We also find some new applications of the wavelet transform as a compressed representation of ground states of QFTs which can be used to illustrate quantum phase transitions via fidelity overlap and holographic entanglement of purification.
翻訳日:2023-02-28 23:03:13 公開日:2022-09-29
# 量子化非平衡熱力学によるスピン鎖の散逸

Dissipation in spin chains using quantized nonequilibrium thermodynamics ( http://arxiv.org/abs/2203.02174v2 )

ライセンス: Link先を確認
Massimo Borrelli, and Hans Christian \"Ottinger(参考訳) 古典的平衡外熱力学の一般方程式の量子化バージョンを用いて、相互作用するスピンの連鎖の開ダイナミクスを調べる。 我々は、異なるサイズの鎖の平衡シナリオと非平衡シナリオの両方に焦点を当てる。 平衡の場合、正多体ギブス密度行列に対する熱平衡を示すが、非平衡力学では定常エネルギー電流における弾道-拡散遷移とフーリエの熱伝達の法則と一致するスケールを示す。

We investigate the open dynamics of a chain of interacting spins using the quantized version of the GENERIC equation from classical out-of-equilibrium thermodynamics. We focus on both equilibrium and nonequilibrium scenarios for chains of different sizes. While in the equilibrium case we demonstrate thermal equilibration to the correct many-body Gibbs density matrix, in the nonequilibrium dynamics we show a ballistic-to-diffusive transition in the steady-state energy current and a scaling that is consistent with Fourier's law of heat transfer.
翻訳日:2023-02-23 03:48:11 公開日:2022-09-29
# 実用性から能力へ:PETの概念化と開発のための新しいパラダイム

From Utility to Capability: A New Paradigm to Conceptualize and Develop Inclusive PETs ( http://arxiv.org/abs/2202.08548v4 )

ライセンス: Link先を確認
Partha Das Chowdhury, Andres Dominguez, Kopo M. Ramokapane, Awais Rashid(参考訳) PETの普及はユーザビリティ研究に大きく依存しており、主に特定のユーザグループ、特にコンテキストにおいて、システムの技術的特性とどのようにインターフェースするかを評価することに焦点を当てている。 ユーザビリティにおける人間中心の取り組みは、重要な技術的改善と技術導入を促進することを目的としているが、PETのユーザビリティのみに焦点を当てるだけでは不十分である。 PETの開発と導入は、特に弱体化集団の人や個人の特定のニーズを適切に捉えるために焦点を広げる必要がある。 我々は,採用の最大化を目的とした表面的特徴の実用的評価から,人間が特定のシステムを使用する本当の機会のボトムアップ評価への出発を論じる。 我々はPETの構想と開発方法に新たなパラダイムを定めている。 そこで本研究では,Amartya Sen機能アプローチが,PETの進化を通知する個人的・環境的状況に基づいて,個人が持つ機会を包括的に評価するための基盤となることを提案する。 これには脆弱性、年齢、教育、身体的および精神的能力、言語障壁、性別、技術へのアクセス、抑圧からの解放など多くの重要な要因が含まれている。

The wider adoption of PETs has relied on usability studies, which focus mainly on an assessment of how a specified group of users interface, in particular contexts, with the technical properties of a system. While human centred efforts in usability aim to achieve important technical improvements and drive technology adoption, a focus on the usability of PETs alone is not enough. PETs development and adoption requires a broadening of focus to adequately capture the specific needs of individuals, particularly of vulnerable individuals and or individuals in marginalized populations. We argue for a departure, from the utilitarian evaluation of surface features aimed at maximizing adoption, towards a bottom up evaluation of what real opportunities humans have to use a particular system. We delineate a new paradigm for the way PETs are conceived and developed. To that end, we propose that Amartya Sen s capability approach offers a foundation for the comprehensive evaluation of the opportunities individuals have based on their personal and environmental circumstances which can, in turn, inform the evolution of PETs. This includes considerations of vulnerability, age, education, physical and mental ability, language barriers, gender, access to technology, freedom from oppression among many important contextual factors.
翻訳日:2023-02-19 15:01:16 公開日:2022-09-29
# コンピューティングにおける時間解析とジェンダーバイアス

Temporal Analysis and Gender Bias in Computing ( http://arxiv.org/abs/2210.08983v1 )

ライセンス: Link先を確認
Thomas J. Misa(参考訳) 最近のコンピューティングにおけるジェンダーバイアスの研究では、性別の自動予測を含む大規模なデータセットを使用して、出版物、会議、その他の主要な人口を分析している。 ジェンダーバイアスは、部分的にソフトウェア駆動のアルゴリズム分析によって定義されるが、広く使われている性別予測ツールは、歴史的研究に使用される際には、未認識の性別バイアスをもたらす可能性がある。 何十年もの間、多くの名前が性別を変えてきた:「レスリー問題」である。 1900年、1925年、1950年、1975年、2000年における社会保障局のデータセットの体系的な分析は、「レスリー問題」の厳密な評価を許可している。 この記事では、1925-1975年に計測可能な「ジェンダーシフト」を持つ300個の名前を特定し、最も大きなシフトを持つ50個の名前に注目する。 この記事は、コンピュータ科学が専門化しているように、数十年前の女性の過多(および男性の過小評価)につながるであろう「女性シフト」が定量的に示している。 広く受け入れられている「プログラミング男性」の観点のいくつかの側面は、修正が必要であるかもしれない。

Recent studies of gender bias in computing use large datasets involving automatic predictions of gender to analyze computing publications, conferences, and other key populations. Gender bias is partly defined by software-driven algorithmic analysis, but widely used gender prediction tools can result in unacknowledged gender bias when used for historical research. Many names change ascribed gender over decades: the "Leslie problem." Systematic analysis of the Social Security Administration dataset -- each year, all given names, identified by ascribed gender and frequency of use -- in 1900, 1925, 1950, 1975, and 2000 permits a rigorous assessment of the "Leslie problem." This article identifies 300 given names with measurable "gender shifts" across 1925-1975, spotlighting the 50 given names with the largest such shifts. This article demonstrates, quantitatively, there is net "female shift" that likely results in the overcounting of women (and undercounting of men) in earlier decades, just as computer science was professionalizing. Some aspects of the widely accepted 'making programming masculine' perspective may need revision.
翻訳日:2023-02-19 11:47:28 公開日:2022-09-29
# 題名は「reacted」。

Title Redacted ( http://arxiv.org/abs/2210.08982v1 )

ライセンス: Link先を確認
Alvarez-Telena Sergio and Diez-Fernandez Marta(参考訳) arXiv 管理者による抽象化。

Abstract redacted by arXiv administrators.
翻訳日:2023-02-19 11:47:10 公開日:2022-09-29
# reddit上のオンライン会話の構造を分解する

Deconstructing the structure of online conversations on Reddit ( http://arxiv.org/abs/2209.14836v1 )

ライセンス: Link先を確認
Yulin Yu and Paramveer Dhillon(参考訳) インターネットは、ソーシャルメディアプラットフォーム上での相互作用を分析することによって、社会科学者が人間の行動を研究しやすくした。 これらのプラットフォームの多くは、スレッドを介してユーザ間の会話を特徴付け、ツリーのような構造を誘導する。 これらの議論ツリーの幅や深さ,サイズといった構造的特性は,ユーザの議論パターンや会話のダイナミクスに関する推論に利用することができる。 本稿では,これらの議論の構造をreddit上で理解することを目的とする。 我々は,これらの議論の構造をグローバルおよびローカルな議論ツリーの集合を通して特徴づける。 グローバルな特徴は、ある投稿のコミュニティ/サブリディットに関する情報を構成するが、ローカルな特徴は投稿自体のプロパティで構成されている。 私たちは1年分のRedditデータに対して、100万の投稿と数百万のコメントを含むさまざまな統計分析を行います。 これらの分析により,議論ポストのグローバル・ローカル・プロパティの相対的貢献を区別し,議論の構造パターンを決定する上での個々の特徴の重要性を特徴付けることができる。 その結果,局所的特徴と大域的特徴の両方がかなりの構造変化を説明できることがわかった。 局所的な特徴は、世界的特徴よりも議論ツリーの構造的性質においてかなり多くのバリエーションを説明するため、総じて重要である。 しかし、様々な特徴の影響には大きな異質性がある。 サブredditのトピック、年齢、人気、コンテンツの冗長性など、いくつかのグローバルな機能もまた、ディスカッションツリーの特定の特性を理解する上で重要な役割を果たす。

The Internet has made it easier for social scientists to study human behavior by analyzing their interactions on social media platforms. Many of these platforms characterize conversations among users via threads, which induce a tree-like structure. The structural properties of these discussion trees, such as their width, depth, and size, can be used to make inferences regarding user discussion patterns and conversation dynamics. In this paper, we seek to understand the structure of these online discussions on Reddit. We characterize the structure of these discussions via a set of global and local discussion-tree properties. The global features constitute information regarding the community/subreddit of a given post, whereas the local features are comprised of the properties of the post itself. We perform various statistical analyses on a year's worth of Reddit data containing a quarter of a million posts and several million comments. These analyses allow us to tease apart the relative contribution of a discussion post's global and local properties and characterize the importance of specific individual features in determining the discussions' structural patterns. Our results indicate that both local and global features explain a significant amount of structural variation. Local features are collectively more important as they explain significantly more variation in the discussion trees' structural properties than global features. However, there is significant heterogeneity in the impact of the various features. Several global features, e.g., the topic, age, popularity, and the redundancy of content in a subreddit, also play a crucial role in understanding the specific properties of discussion trees.
翻訳日:2023-02-19 11:26:14 公開日:2022-09-29
# 非フランジブルトークンの実用性:erc-721メタデータの定量的解析

The Fungibility of Non-Fungible Tokens: A Quantitative Analysis of ERC-721 Metadata ( http://arxiv.org/abs/2209.14517v1 )

ライセンス: Link先を確認
Sarah Barrington, Nick Merrill(参考訳) バーチャルアートの所有権のデジタル証明書であるNon-Fungible Tokens (NFTs)は、最近まで高収益で投機的な市場で取引されてきた。 しかし、市場ダウンタイムの持続と共に誤解の出現がNFTの価値を疑問視している。 プロジェクト(1)は、価値あるNFTが持つべき3つの特性(永続性、不変性、ユニーク性)を記述し、(2)初期基準としてパーマンスを定量的に要約し、(3)Ethereumブロックチェーン上で6ヶ月のNFTを計測し、私たちのコーパス内のECC721トークンの45%がこの初期基準を満たしていないことを発見した。 我々の取り組みは、買い手やマーケットプレイスが、過大評価されるかもしれないNFTの購入をユーザーを特定し、警告するのに役立つだろう。

Non-Fungible Tokens (NFTs), digital certificates of ownership for virtual art, have until recently been traded on a highly lucrative and speculative market. Yet, an emergence of misconceptions, along with a sustained market downtime, are calling the value of NFTs into question. This project (1) describes three properties that any valuable NFT should possess (permanence, immutability and uniqueness), (2) creates a quantitative summary of permanence as an initial criteria, and (3) tests our measures on 6 months of NFTs on the Ethereum blockchain, finding 45% of ERC721 tokens in our corpus do not satisfy this initial criteria. Our work could help buyers and marketplaces identify and warn users against purchasing NFTs that may be overvalued.
翻訳日:2023-02-19 11:25:29 公開日:2022-09-29
# 多くのことの1つ:r/The_Donaldに対するモデレーション介入のユーザレベル効果を評価する

One of Many: Assessing User-level Effects of Moderation Interventions on r/The_Donald ( http://arxiv.org/abs/2209.08809v3 )

ライセンス: Link先を確認
Amaury Trujillo, Stefano Cresci(参考訳) モデレーション介入の効果を評価することは、コンテンツモデレーションプロセスの成功を評価することを可能にするため、最も重要なタスクである。 これまでのところ、介入効果はプラットフォームやコミュニティレベルでのみ評価されてきた。 本稿では,reddit上のドナルド・トランプ支持者のコミュニティであるr/the_donaldをターゲットとした一連のモデレーション介入のユーザレベル効果を多次元的に評価する。 我々は介入を実証する (i)ユーザー活動の激減。 (ii)ユーザが参加するサブredditの多様性をわずかに増やした。 (iii)使用者の毒性をわずかに減らし、 (iv) ユーザは事実や政治的に偏ったニュースをシェアする機会が減った。 また,コミュニティレベルの影響が強い介入は,ユーザレベルの過度かつ多様な反応を引き起こすことも示唆された。 この結果から,プラットフォームとコミュニティレベルの影響は,必ずしも個人や小規模なユーザグループの基本的な行動を表すものではないことがわかった。 結果の実践的および倫理的意味を議論することで結論付ける。 全体として,対象とするモデレーション介入の進展を知らせるとともに,オンラインプラットフォームをポリシングする上で有用なガイダンスを提供する。

Evaluating the effects of moderation interventions is a task of paramount importance, as it allows assessing the success of content moderation processes. So far, intervention effects have been almost solely evaluated at the aggregated platform or community levels. Here, we carry out a multidimensional evaluation of the user level effects of the sequence of moderation interventions that targeted r/The_Donald: a community of Donald Trump adherents on Reddit. We demonstrate that the interventions (i) strongly reduced user activity, (ii) slightly increased the diversity of the subreddits in which users participated, (iii) slightly reduced user toxicity, and (iv) led users to share less factual and more politically biased news. Importantly, we also find that interventions having strong community level effects also cause extreme and diversified user level reactions. Our results highlight that platform and community level effects are not always representative of the underlying behavior of individuals or smaller user groups. We conclude by discussing the practical and ethical implications of our results. Overall, our findings can inform the development of targeted moderation interventions and provide useful guidance for policing online platforms.
翻訳日:2023-02-19 11:15:39 公開日:2022-09-29
# 量子クエリ複雑性のための変分学習アルゴリズム

Variational learning algorithms for quantum query complexity ( http://arxiv.org/abs/2205.07449v2 )

ライセンス: Link先を確認
Zipeng Wu, Shi-Yao Hou, Chao Zhang, Lvzhou Li and Bei Zeng(参考訳) 量子クエリの複雑さは、探索や周期探索などの既知の量子アルゴリズムをキャプチャする量子アルゴリズムの研究において重要な役割を果たす。 クエリアルゴリズムは、ある入力状態に$U_tO_x\cdots U_1O_xU_0$を適用し、$O_x$は入力変数の$x$に依存したオラクルであり、$U_i$sは$x$に依存しないユニタリ演算であり、次に読み出しのためのいくつかの測定を行う。 本研究では、パラメータ化量子回路として$U_i$sを定式化し、クエリアルゴリズムの誤差確率から直接与えられる損失関数を導入することにより、量子クエリの複雑さを研究する変分学習アルゴリズムを開発する。 提案手法を応用して,ハミングモジュロ問題を5ドル(約5,500円)で解くアルゴリズムや,arXiv:2112.14682で提起されたオープンな質問に答えるアルゴリズムなど,量子クエリ複雑性のケースを解析し,さらにセミデフィニティプログラミング(SDP)アルゴリズムで検証する。 SDPアルゴリズムと比較すると,本手法は近距離雑音中規模量子(NISQ)デバイスで容易に実装でき,分数クエリモデルなどの他のケースにも適応できる。

Quantum query complexity plays an important role in studying quantum algorithms, which captures the most known quantum algorithms, such as search and period finding. A query algorithm applies $U_tO_x\cdots U_1O_xU_0$ to some input state, where $O_x$ is the oracle dependent on some input variable $x$, and $U_i$s are unitary operations that are independent of $x$, followed by some measurements for readout. In this work, we develop variational learning algorithms to study quantum query complexity, by formulating $U_i$s as parameterized quantum circuits and introducing a loss function that is directly given by the error probability of the query algorithm. We apply our method to analyze various cases of quantum query complexity, including a new algorithm solving the Hamming modulo problem with $4$ queries for the case of $5$-bit modulo $5$, answering an open question raised in arXiv:2112.14682, and the result is further confirmed by a Semidefinite Programming (SDP) algorithm. Compared with the SDP algorithm, our method can be readily implemented on the near-term Noisy Intermediate-Scale Quantum (NISQ) devices and is more flexible to be adapted to other cases such as the fractional query models.
翻訳日:2023-02-12 23:50:29 公開日:2022-09-29
# 時間空間結晶構造における2次元Thouless pumping

Two-dimensional Thouless pumping in time-space crystalline structures ( http://arxiv.org/abs/2206.14804v2 )

ライセンス: Link先を確認
Y. Braver, C.-h. Fan, G. \v{Z}labys, E. Anisimovas, K. Sacha(参考訳) 共振駆動量子井戸における粒子の動力学は、結晶状構造における粒子の動力学として解釈され、時間軸が座標の役割を担う。 駆動プロトコルに断熱的に異なる位相を導入することにより、このような時間結晶構造におけるThoulessポンプの実現を実証する。 次に、駆動された1次元光学格子を考慮し、解析を単一量子井戸を超えて拡張し、2次元時間空間結晶構造を工学する。 このようなセットアップにより,空間および時間次元の断熱ポンピングを別々に探索し,同時に時間空間ポンピングをシミュレートすることができる。

Dynamics of particle in a resonantly driven quantum well can be interpreted as that of a particle in a crystal-like structure, with the time playing the role of the coordinate. By introducing an adiabatically varied phase in the driving protocol, we demonstrate a realization of the Thouless pumping in such a time crystalline structure. Next, we extend the analysis beyond a single quantum well by considering a driven one-dimensional optical lattice, thereby engineering a 2D time-space crystalline structure. Such a setup allows us to explore adiabatic pumping in the spatial and the temporal dimensions separately, as well as to simulate simultaneous time-space pumping.
翻訳日:2023-02-07 07:19:53 公開日:2022-09-29
# Rydberg配列における強い原子-光子カップリングのための高精細ボウタイキャビティ

High finesse bow-tie cavity for strong atom-photon coupling in Rydberg arrays ( http://arxiv.org/abs/2207.06876v2 )

ライセンス: Link先を確認
Yu-Ting Chen, Michal Szurek, Beili Hu, Julius de Hond, Boris Braverman, and Vladan Vuletic(参考訳) 本稿では,Rydberg原子配列を用いた原子物理学実験のための高精細なボウタイ空洞について報告する。 キャビティの罰金は51,000ドルであり、セシウムd2ライン(852ドル nm)で7.1ドルである。 これらのパラメータにより、空洞は1つの原子と1つの光子の間の強い結合を誘導し、空洞のウエストで35ドルの移動モード当たりの協調性に対応することが期待されている。 キャビティ・セットアップでは、2つの真空非球面レンズと数値開口部(NA$)を0.35ドルで利用し、NA=0.5ドル顕微鏡の目的を収容できる。 さらに、大きな原子-ミラー距離(\gtrsim1.5$ cm)は良好な光学的アクセスを提供し、原子の位置における成層電場を最小化する。 このキャビティセットアップは、Rydberg配列プラットフォームと連動して動作し、量子シミュレーションと計算のための完全に接続されたシステムを作成することができる。

We report a high-finesse bow-tie cavity designed for atomic physics experiments with Rydberg atom arrays. The cavity has a finesse of $51,000$ and a waist of $7.1$ $\mu$m at the cesium D2 line ($852$ nm). With these parameters, the cavity is expected to induce strong coupling between a single atom and a single photon, corresponding to a cooperativity per traveling mode of $35$ at the cavity waist. To trap and image atoms, the cavity setup utilizes two in-vacuum aspheric lenses with numerical aperture ($NA$) of $0.35$ and is capable of housing $NA=0.5$ microscope objectives. In addition, the large atom-mirror distance ($\gtrsim1.5$ cm) provides good optical access and minimizes stray electric fields at the position of the atoms. This cavity setup can operate in tandem with the Rydberg array platform, creating a fully connected system for quantum simulation and computation.
翻訳日:2023-02-05 01:30:56 公開日:2022-09-29
# デジタル量子コンピュータにおける相互作用誘起キラルトポロジカルダイナミクスのシミュレーション

Simulation of interaction-induced chiral topological dynamics on a digital quantum computer ( http://arxiv.org/abs/2207.14322v3 )

ライセンス: Link先を確認
Jin Ming Koh, Tommy Tai, Ching Hua Lee(参考訳) キラルエッジ状態は、量子情報処理と無散逸電子輸送の両方に関連するパラダイム的トポロジカル状態として、非常に求められている。 超伝導トランスモン量子コンピュータを用いて、磁束やスピン軌道結合の代わりに適切に設計された相互作用によって引き起こされるキラルな位相伝播を実証する。 また、従来の2次元実現と異なり、有効なチャーン格子はより小さな等価な1次元スピンチェーン上に実装され、必要な時間反転の破れをカプセル化している。 プラットフォームの量子性を活用することで、現在のノイズの多い中間スケール量子コンピュータ(nisq)時代の量子コンピュータにおける限られた量子ビット数とゲート忠実性から困難を回避し、非常に急速に発展する量子ハードウェア上でより洗練されたトポロジー状態の量子シミュレーションへの道を開いた。

Chiral edge states are highly sought-after as paradigmatic topological states relevant to both quantum information processing and dissipationless electron transport. Using superconducting transmon-based quantum computers, we demonstrate chiral topological propagation that is induced by suitably designed interactions, instead of flux or spin-orbit coupling. Also different from conventional 2D realizations, our effective Chern lattice is implemented on a much smaller equivalent 1D spin chain, with sequences of entangling gates encapsulating the required time-reversal breaking. By taking advantage of the quantum nature of the platform, we circumvented difficulties from the limited qubit number and gate fidelity in present-day noisy intermediate-scale quantum (NISQ)-era quantum computers, paving the way for the quantum simulation of more sophisticated topological states on very rapidly developing quantum hardware.
翻訳日:2023-02-03 04:54:09 公開日:2022-09-29
# 雑音量子デバイス上で実行される緩和回路の適応チャネル推定

Adaptive channel estimation for mitigating circuits executed on noisy quantum devices ( http://arxiv.org/abs/2208.10263v2 )

ライセンス: Link先を確認
Samudra Dasgupta and Travis S. Humble(参考訳) 従来のコンピュータは1e-17以下の故障率を示すデバイスコンポーネントに進化し、現在の量子コンピューティングデバイスは通常1e-2以上のエラー率を示す。 これは量子コンピュータから得られた結果の信頼性と再現性に関する懸念を引き起こす。 問題は、今日のNISQデバイスが本質的に不安定である、という実験的な観察によって強調されている。 リモート量子クラウドサーバは通常、デバイス自身をキャリブレーションする機能を提供しない。 誤り軽減のための不正確な特徴データを使用することで、再現性に大きな影響を及ぼす可能性がある。 本研究では,実行された量子回路の雑音二項出力から臨界チャネルパラメータを動的に推定し,プログラムの安定性を向上させることができるかを検討する。 しかし、オープンな質問は、この方法論がいかにうまくスケールするかである。 準重畳回路などの正準量子回路を用いた適応アルゴリズムの有効性と効率について検討する。 私たちのパフォーマンス指標は、安定後の観測と参照(理想)分布との間のヘリング距離です。

Conventional computers have evolved to device components that demonstrate failure rates of 1e-17 or less, while current quantum computing devices typically exhibit error rates of 1e-2 or greater. This raises concerns about the reliability and reproducibility of the results obtained from quantum computers. The problem is highlighted by experimental observation that today's NISQ devices are inherently unstable. Remote quantum cloud servers typically do not provide users with the ability to calibrate the device themselves. Using inaccurate characterization data for error mitigation can have devastating impact on reproducibility. In this study, we investigate if one can infer the critical channel parameters dynamically from the noisy binary output of the executed quantum circuit and use it to improve program stability. An open question however is how well does this methodology scale. We discuss the efficacy and efficiency of our adaptive algorithm using canonical quantum circuits such as the uniform superposition circuit. Our metric of performance is the Hellinger distance between the post-stabilization observations and the reference (ideal) distribution.
翻訳日:2023-01-30 17:44:58 公開日:2022-09-29
# 時間並列化を伴うスケーラブルな表面コードデコーダ

Scalable surface code decoders with parallelization in time ( http://arxiv.org/abs/2209.09219v2 )

ライセンス: Link先を確認
Xinyu Tan, Fang Zhang, Rui Chao, Yaoyun Shi, Jianxin Chen(参考訳) 高速な古典処理は、ほとんどの量子フォールトトレランスアーキテクチャにとって不可欠である。 並列処理による表面コードの高速古典処理を実現するスライディングウィンドウ復号方式を提案する。 本手法では, 時空のシンドロームを時間方向に沿って重なり合うウィンドウに分割し, 内部デコーダと並列に復号することができる。 この並列性により,インナーデコーダが遅い場合でも,コードのスケールアップに伴ってデコードスループット問題を解決することができる。 内部デコーダとしてmin-weight perfect matchingとunion-findを使用する場合、回路レベルのしきい値はそれぞれ$0.68\%$と$0.55\%$であり、バッチデコーダでは$0.70\%$と$0.55\%$である。

Fast classical processing is essential for most quantum fault-tolerance architectures. We introduce a sliding-window decoding scheme that provides fast classical processing for the surface code through parallelism. Our scheme divides the syndromes in spacetime into overlapping windows along the time direction, which can be decoded in parallel with any inner decoder. With this parallelism, our scheme can solve the decoding throughput problem as the code scales up, even if the inner decoder is slow. When using min-weight perfect matching and union-find as the inner decoders, we observe circuit-level thresholds of $0.68\%$ and $0.55\%$, respectively, which are almost identical to $0.70\%$ and $0.55\%$ for the batch decoding.
翻訳日:2023-01-26 02:04:01 公開日:2022-09-29
# 高調波オシレータと三重ポテンシャルを持つAB-フラックス場によるSchr\"{o}dinger粒子の点状欠陥 : 二原子分子への応用

Point-Like Defect on Schr\"{o}dinger Particles Confined by AB-Flux Field With Harmonic Oscillator Plus Mie-type Potential : Application to Diatomic Molecules ( http://arxiv.org/abs/2209.13490v2 )

ライセンス: Link先を確認
Faizuddin Ahmed(参考訳) 本研究では,高調波発振器と三重型ポテンシャルを持つアハロノフ・ボーム(ab)フラックス場に閉じ込められた非相対論的schr\"{o}dinger粒子を点状大域単極子(pgm)による円錐特異点時空背景において検討する。 固有値解を解析的に決定し, トポロジ的欠陥と磁束場の影響について検討する。 この固有値解は、いくつかの二原子分子ポテンシャルモデル(調和振動子とクラッツァーポテンシャル、調和振動子と修正クラッツァーポテンシャル、調和振動子と魅力的なクーロンポテンシャル)で利用され、エネルギーレベルと放射波関数への影響を分析する。 その後、量子系における擬調和とコーネル型ポテンシャル(あるいはコーネル型と逆二次ポテンシャルを持つ調和振動子)の重ね合わせである一般ポテンシャル形式を考え、固有値解に対する様々な因子の影響を分析する。 固有値解は位相的欠陥と磁束場によって変化し, 平坦な空間結果とこれらのポテンシャルとの比較を行った。

In this analysis, we study a non-relativistic Schr\"{o}dinger particle confined by the Aharonov-Bohm (AB) flux field with harmonic oscillator plus Mie-type potential in a conical singularity space-time background via point-like global monopole (PGM). We determine the eigenvalue solution analytically and discuss the effects of the topological defects, and the magnetic flux field with this potential. This eigenvalue solution is then utilised in some diatomic molecular potential models (harmonic oscillator plus Kratzer potential, harmonic oscillator plus modified Kratzer potential, and harmonic oscillator plus attractive Coulomb potential) and analyzes the effects on the energy levels and the radial wave function. Afterwards, we consider a general potential form which is the superposition of pseudoharmonic plus Cornell-type potential (or harmonic oscillator with Cornell-type plus inverse quadratic potential) in the quantum system and analyze the effects of various factors on the eigenvalue solution. We see that the eigenvalue solutions shifted due to the topological defects and the magnetic flux field in comparison to flat space results with these potentials
翻訳日:2023-01-25 07:44:07 公開日:2022-09-29
# 時間変調を用いた軌道角運動量レーザーによる超解像原子顕微鏡

Super-resolution atomic microscopy using orbit angular momentum laser with temporal modulation ( http://arxiv.org/abs/2209.11917v2 )

ライセンス: Link先を確認
Yuan Liu and Dongxiao Li(参考訳) 本稿では,顕微鏡の光回折限界を破るダークステートトラッピング戦略を提案する。 時間的および空間的変調を伴う空間依存結合場とプローブレーザー場を用いて3レベル原子と相互作用する。 時間変調は点拡散関数の半分の最大値(fwhm)で全幅を減少させ、空間変調はガウスビームよりも良好な空間分解能を得るのに役立つ。 また,実証実験プロトコルを提案し,その実現可能性について論じる。

In this paper we propose a dark-state-based trapping strategy to break the optical diffraction limit for microscopy. We utilize a spatially dependent coupling field and a probe laser field with temporal and spatial modulation to interact with three-level atoms. The temporal modulation allows us to reduce the full width at half maximum (FWHM) of point spread function, and the spatial modulation help us obtain better spatial resolution than Gaussian beam. In addition, we also propose a proof-of-principle experiment protocol and discuss its feasibility.
翻訳日:2023-01-25 07:42:09 公開日:2022-09-29
# 二重量子ドットにおける量子干渉とコヒーレント人口追跡

Quantum Interference and Coherent Population Trapping in a Double Quantum Dot ( http://arxiv.org/abs/2209.14528v1 )

ライセンス: Link先を確認
Yuan Zhou, Ke Wang, He Liu, Gang Cao, Guang-Can Guo, Xuedong Hu, Hai-Ou Li and Guo-Ping Guo(参考訳) 量子干渉は量子力学における波動粒子双対性の自然な結果であり、原子スケールで広く観測されている。 coherent population trapping (cpt) は3段階駆動型原子系で最初に提案され、量子光学実験で観測された。 ここでは、CPTをゲート定義半導体二重量子ドット(DQD)で示し、原子系と比較していくつかの特異なツイストを持つ。 具体的には、駆動状態と非駆動状態の両方においてCPTを観察する。 さらに, 駆動型DQDにおけるCPTは, 断熱状態伝達の生成に有効であることを示す。 さらに, 縦方向の駆動磁場によるCPTの非自明な変調が明らかになり, 偶発効果と調整可能なCPTが得られた。

Quantum interference is a natural consequence of wave-particle duality in quantum mechanics, and is widely observed at the atomic scale. One interesting manifestation of quantum interference is coherent population trapping (CPT), first proposed in three-level driven atomic systems and observed in quantum optical experiments. Here, we demonstrate CPT in a gate-defined semiconductor double quantum dot (DQD), with some unique twists as compared to the atomic systems. Specifically, we observe CPT in both driven and non-driven situations. We further show that CPT in a driven DQD could be used to generate adiabatic state transfer. Moreover, our experiment reveals a non-trivial modulation to the CPT caused by the longitudinal driving field, yielding an odd-even effect and a tunable CPT.
翻訳日:2023-01-24 17:04:55 公開日:2022-09-29
# 高分子自己持続場理論による開殻原子の自発球面対称性ブレーキングの起源について

On the Origins of Spontaneous Spherical Symmetry-Breaking in Open-Shell Atoms Through Polymer Self-Consistent Field Theory ( http://arxiv.org/abs/2209.14507v1 )

ライセンス: Link先を確認
Phil A. LeMaitre and Russell B. Thompson(参考訳) リングポリマーの自己整合場理論に基づく密度汎関数論への別のアプローチは、その基底状態にある中性水素原子に適用される。 原子殻構造の自然発生と全電子密度の球対称破砕は、パウリの排他原理を強制するために一対の電子間で排除体積のポリマーのアイデアと正確な電子自己相互作用補正を用いて予測される。 パウリポテンシャルは近似され、相関は無視され、相関も無視するハートリー・フォック理論と比較される。 このモデルは、最初の6つの元素の原子結合エネルギーと密度プロファイルについてhartree-fock理論とよく一致しており、水素とヘリウムの元素と正確に一致する。 予測されたシェル構造はネオン元素をはるかに通過し始め、球面対称性の破れは最初にホウ素の代わりに炭素で起こると予測される。 モデルを記述する自己整合場理論エネルギー汎関数は、球対称破壊の起源を辿るために熱力学成分に分解される。 非球面分布の核に近づいた電子密度は、量子力学エネルギー、電子-電子相互作用、パウリの排他的相互作用の間にフラストレーションをもたらすにもかかわらずエネルギーを低下させる。 対称性破壊効果は結合エネルギーへの影響も最小限である。 対密度プロファイルは、電子対が結合したローブのような構造を占有する高分子マクロ相分離と同様の挙動を示す。 さらに、予測密度は既知の制約を満たし、量子力学によって予測されるのと同じ電子密度プロファイルを生成することが示される。

An alternative approach to density functional theory based on self-consistent field theory for ring polymers is applied to neutral atoms hydrogen to neon in their ground states. The spontaneous emergence of atomic shell structure and spherical symmetry-breaking of the total electron density is predicted by the model using ideas of polymer excluded-volume between pairs of electrons to enforce the Pauli-exclusion principle, and an exact electron self-interaction correction. The Pauli potential is approximated and correlations are neglected, leading to comparisons with Hartree-Fock theory, which also ignores correlations. The model shows excellent agreement with Hartree-Fock theory for the atomic binding energies and density profiles of the first six elements, providing exact matches for the elements hydrogen and helium. The predicted shell structure starts to deviate significantly past the element neon and spherical symmetry-breaking is first predicted to occur at carbon instead of boron. The self-consistent field theory energy functional which describes the model is decomposed into thermodynamic components to trace the origin of spherical symmetry-breaking. It is found to arise from the electron density approaching closer to the nucleus in non-spherical distributions, which lowers the energy despite resulting in frustration between the quantum kinetic energy, electron-electron interaction, and the Pauli exclusion interaction. The symmetry-breaking effect is also found to have minimal impact on the binding energies. The pair density profiles display behaviour similar to polymer macro-phase separation, where electron pairs occupy lobe-like structures that combined together, resemble traditional electronic orbitals. It is further shown that the predicted densities satisfy known constraints and produce the same total electronic density profile that is predicted by quantum mechanics.
翻訳日:2023-01-24 17:04:39 公開日:2022-09-29
# 単一量子メモリを用いた決定論的ベル状態測定

Deterministic Bell state measurement with a single quantum memory ( http://arxiv.org/abs/2209.14686v1 )

ライセンス: Link先を確認
Akira Kamimaki, Keidai Wakamatsu, Kosuke Mikata, Yuhei Sekiguchi, and Hideo Kosaka(参考訳) 任意の量子情報システムは絡み合いを資源として動作し、完全ベル状態測定(英語版)(bsm)として知られるジョイント測定によって決定論的に生成される。 決定論は、必然的に余分な物理量子ビットを必要とするアンシラの助けを借りて、2つの結合量子ビットの量子的非退化測定から生じる。 ここでは,ゼロ磁場で電子窒素(14n)二重量子三重項を利用することにより,ダイヤモンド中の窒素空孔(nv)中心の窒素原子のみを炭素同位体に依存しない量子メモリとして決定論的かつ完全なbsmを示す。 電子と窒素スピン上のクォートリットの部分空間内の縮退した論理量子ビットは、任意に偏光マイクロ波と電波パルスによってアンシラとしてゼロ電界分裂状態を介してホロノミックに制御され、完全なBSMが決定的に決定される。 このシステムは、同位体フリーでフィールドフリーな環境下で機能するため、大規模な分散量子コンピュータのための長いハール量子ネットワークと量子インターフェースのための高収率、高忠実性、高速量子リピータを実現するための道を開く。

Any quantum information system operates with entanglement as a resource, which should be deterministically generated by a joint measurement known as complete Bell state measurement (BSM). The determinism arises from a quantum nondemolition measurement of two coupled qubits with the help of readout ancilla, which inevitably requires extra physical qubits. We here demonstrate a deterministic and complete BSM with only a nitrogen atom in a nitrogen-vacancy (NV) center in diamond as a quantum memory without reliance on any carbon isotopes by exploiting electron nitrogen (14N) double qutrits at a zero magnetic field. The degenerate logical qubits within the subspace of qutrits on the electron and nitrogen spins are holonomically controlled by arbitrarily polarized microwave and radiofrequency pulses via zero field split states as the ancilla, enabling the complete BSM deterministically. Since the system works under an isotope free and field free environment, the demonstration paves the way for realizing high yield, high fidelity, and high speed quantum repeaters for long haul quantum networks and quantum interfaces for large scale distributed quantum computers.
翻訳日:2023-01-24 17:02:41 公開日:2022-09-29
# 任意のschr\"odinger cat状態に対する最適化。 II。 消散の有無における応用

Optimizing for an arbitrary Schr\"odinger cat state. II. Application in the presence of dissipation ( http://arxiv.org/abs/2209.14678v1 )

ライセンス: Link先を確認
Matthias G. Krauss, Daniel M. Reich, Christiane P. Koch(参考訳) ここでは、任意の猫状態をターゲットにした最適化を、共用論文で導出し、量子システムダイナミクスの開放に拡張する。 発振器に崩壊するjaynes-cummingsモデルに適用すると、強い散逸と大きな猫の根源は、絡み合った猫の状態を作るための制御戦略が変化していることが分かる。 本研究は,量子技術における実用的応用のための量子最適制御ツールボックスの汎用性を示す。

We extend here the optimization functional targeting arbitrary cat states, derived in the companion paper, to open quantum system dynamics. Applying it to a Jaynes-Cummings model with decay on the oscillator, we find, for strong dissipation and large cat radii, a change in the control strategy for preparing an entangled cat state. Our results illustrate the versatility of the quantum optimal control toolbox for practical applications in the quantum technologies.
翻訳日:2023-01-24 17:02:18 公開日:2022-09-29
# 任意のschr\"odinger cat状態に対する最適化。 i. 機能とコヒーレントダイナミクスへの応用

Optimizing for an arbitrary Schr\"odinger cat state. I. Functionals and application to coherent dynamics ( http://arxiv.org/abs/2209.14675v1 )

ライセンス: Link先を確認
Matthias G. Krauss, Christiane P. Koch, Daniel M. Reich(参考訳) 量子最適制御の分野における重要な課題は、物理目標を最適化関数として使用するメリットの図形に符号化することである。 ここでは任意のcat状態に対する最適化のための関数集合を導出する。 2光子駆動を持つカー非線形ハミルトニアンの動力学を最適化することにより,関数の応用を実証する。 さらに,最大絡み合った猫状態の最適化に関数を適用し,Jaynes-Cummingsモデルに適用することで,フレームワークの汎用性を示す。 最後に、得られた制御場の戦略を特定し、猫状態の励起関数として量子速度限界を決定する。 本研究は,複雑な物理タスクに特化した機能を備えた最適制御のパワーを浮き彫りにする。 これらは、例えば、コンパニオン論文で検討した散逸効果など、より現実的な設定で、絡み合った猫状態の調整を最適化することを可能にする。

A key task in the field of quantum optimal control is to encode physical targets into figures of merit to be used as optimization functionals. Here we derive a set of functionals for optimization towards an arbitrary cat state. We demonstrate the application of the functionals by optimizing the dynamics of a Kerr-nonlinear Hamiltonian with two-photon driving. Furthermore, we show the versatility of the framework by adapting the functionals towards optimization of maximally entangled cat states, applying it to a Jaynes-Cummings model. Finally, we identify the strategy of the obtained control fields and determine the quantum speed limit as a function of the cat state's excitation. Our results highlight the power of optimal control with functionals specifically crafted for complex physical tasks. They allow for optimizing the preparation of entangled cat states in more realistic settings, including, e.g., dissipative effects which we investigate in the companion paper.
翻訳日:2023-01-24 17:02:08 公開日:2022-09-29
# ディッケ模型の相転移の再検討」へのコメント

Comment on 'Revisiting the phase transitions of the Dicke model' ( http://arxiv.org/abs/2209.14660v1 )

ライセンス: Link先を確認
\'Angel L. Corps, Armando Rela\~no(参考訳) das と sharma (phys. rev. a 105, 033716 (2022)) の研究では、ディッケ模型の相転移が研究されている。 その主な結果は、よく知られた量子相転移、励起状態の量子相転移、およびモデルによって示される熱相転移の他に、上界エネルギーである $e_{*}$ が存在し、その上でモデルが量子カオスの振る舞いと固有関数の構造を示すのをやめることである。 この発見に基づいて、ディッキンモデルに関する多くの確立された結果が疑問にかけられる。 この結果とすべての結果が、数値対角化に必要な無限次元ヒルベルト空間の不適切な切り離しから生じる急激な数値効果であると主張する。

In the work of Das and Sharma [Phys. Rev. A 105, 033716 (2022)] the phase transitions of the Dicke model are studied. Its main result is that, besides the well-known quantum phase transition, excited-state quantum phase transition and thermal phase transition exhibited by the model, there exists an upper bound energy, $E_{*}$, beyond which the model ceases to exhibit quantum chaotic behavior and the structure of the eigenfunctions changes. Based on this finding, a number of well-established results about the Dicke model are called into question. We argue that this result and all its consequences are spurious numerical effects resulting from an improper truncation of the infinite-dimensional Hilbert space necessary for numerical diagonalization.
翻訳日:2023-01-24 17:01:53 公開日:2022-09-29
# 室温YIG/Cavity系における強-超強コヒーレント結合測定

Strong to ultra-strong coherent coupling measurements in a YIG/cavity system at room temperature ( http://arxiv.org/abs/2209.14643v1 )

ライセンス: Link先を確認
Guillaume Bourcin, Jeremy Bourhill, Vincent Vlaminck, Vincent Castel(参考訳) 本稿では, 再構成可能な二重再侵入キャビティとYIGスラブとの室温における超強結合実験を行い, 結合強度率(g/{\omega})を5%から60%に変化させることができることを示した。 現在採用されているディックモデルとホップフィールドモデルは、強い結合状態の上のキャビティ光子とマグノンのハイブリッド化を記述できないことを示した。 我々の観測は周波数領域におけるすべての電磁有限要素シミュレーションによって完全に確認されている。

We present an experimental study of ultra strong coupling at room temperature between a reconfigurable double re-entrant cavity and a YIG slab, for which the coupling strength rate (g/{\omega}) can be varied from 5% to 60%. We shown that the currently adopted Dicke and Hopfield models can no longer be used to describe the observed hybridization between cavity photon and magnon above the strong coupling regime. Our observations are fully confirmed by all electromagnetic finite element simulations in the frequency domain.
翻訳日:2023-01-24 17:01:39 公開日:2022-09-29
# 疑似回路圧縮における絡み合いの役割について

On the role of entanglement in qudit-based circuit compression ( http://arxiv.org/abs/2209.14584v1 )

ライセンス: Link先を確認
Xiaoqin Gao, Paul Appel, Nicolai Friis, Martin Ringbauer, Marcus Huber(参考訳) ゲートベースの普遍量子計算は、2つのタイプの演算で定式化されている: 局所的な単一量子ビットゲートは、一般に実装が容易であり、回路の複雑さの尺度では説明できないため、2量子ビットのエンタングゲートは、個々のシステム間の制御された相互作用を必要とするため、忠実な実装が主要な実験課題の1つである。 量子ハードウェアを活用するためには、情報を最も効率的な方法で処理することが不可欠である。 有望な道の1つは、量子情報の基本的な単位として高次元の系quditsを使い、量子ビットに絡むゲートのほんの一部をqudit-localゲートに置き換えることである。 本稿では,quditエンコーディングを用いることで,マルチキュービット回路の複雑性を大幅に低下させることができることを示す。 回路圧縮の一般的な原理を議論し,実現可能な利点の上限と下限を導出し,絡み合いと利用可能なゲート集合が果たす役割を強調する。 フォトニックおよびトラップイオン実装のための実験的スキームが提供され、両方のプラットフォームで回路性能が大幅に向上することを示す。

Gate-based universal quantum computation is formulated in terms of two types of operations: local single-qubit gates, which are typically easily implementable and hence not accounted for in measures of circuit complexity, and two-qubit entangling gates, whose faithful implementation remains one of the major experimental challenges since it requires controlled interactions between individual systems. To make the most of quantum hardware it is crucial to process information in the most efficient way. One promising avenue is to use higher-dimensional systems, qudits, as the fundamental units of quantum information, in order to replace a fraction of the qubit-entangling gates with qudit-local gates. Here, we show how the complexity of multi-qubit circuits can be lowered significantly by employing qudit encodings, which we quantify by considering exemplary circuits with exactly known (multi-qubit) gate complexity. We discuss general principles for circuit compression, derive upper and lower bounds on the achievable advantage, and highlight the key role played by entanglement and the available gate set. Explicit experimental schemes for photonic as well as for trapped-ion implementations are provided and demonstrate a significant expected gain in circuit performance for both platforms.
翻訳日:2023-01-24 17:01:29 公開日:2022-09-29
# コミュニケーション課題による目撃測定の非互換性

Witnessing measurement incompatibility via communication tasks ( http://arxiv.org/abs/2209.14582v1 )

ライセンス: Link先を確認
Debashis Saha, Debarshi Das, Arun Kumar Das, Bihalan Bhattacharya, and A. S. Majumdar(参考訳) 量子理論は測定の不整合性、すなわち単一のシステムでは同時に実行できない量子測定の存在を提供する。 測定の不適合性は、量子相関や量子情報処理の多くの側面を調べるのに不可欠である。 しかし、最も単純な準備・測定シナリオで観察される非古典的相関と基本で一般的な関係は未だ未定である。 準備・測定のシナリオでは、共有ランダム性を支援するd次元古典系が、任意のd次元互換量子測定から得られる全ての入出力統計を再現することを明らかにする。 したがって、D次元システムとの一方的な通信タスクにおける量子的優位性は、半デバイス非依存の方法で受信機の端における測定の不整合性を目撃する。 任意の次元に作用する任意の数の量子測度において、異なる測定結果を持つ不整合性を示すために、ランダムアクセスコードの一般的なバージョンである通信タスクのクラスを導入する。 両タスクの成功基準に関する一般的な上限を、互換性のある測定のために提供する。 これらの境界は、測定対象が作用する次元が、測定結果の個数より大きくないときは常にタイトである。

Quantum theory offers measurement incompatibility, that is, the existence of quantum measurements that cannot be carried out simultaneously on single systems. Measurement incompatibility is essential for probing many aspects of quantum correlations and quantum information processing. However, its fundamental and generic link with nonclassical correlations observed in the simplest prepare-and-measure scenario is still untold. In the prepare-and-measure scenario, we uncover that d-dimensional classical systems assisted with shared randomness reproduce all the input-output statistics obtained from any set of d-dimensional compatible quantum measurements. Thus, any quantum advantage in one-way communication tasks with d-dimensional systems witnesses incompatibility of the measurements on the receiver's end in a semi-device-independent way. To witness incompatibility of an arbitrary number of quantum measurements acting on an arbitrary dimension, wherein different measurements have different outcomes, we introduce a class of communication tasks - a general version of random access codes. We provide generic upper bounds on the success metric of these tasks for compatible measurements. These bounds are tight whenever the dimension on which the measurements act is not larger than the number of outcomes of any of the measurements.
翻訳日:2023-01-24 17:01:06 公開日:2022-09-29
# 量子ニューロモルフィックアプローチによる重力による絡み合いの効率的なセンシング

Quantum neuromorphic approach to efficient sensing of gravity-induced entanglement ( http://arxiv.org/abs/2209.14565v1 )

ライセンス: Link先を確認
Tanjung Krisnanda, Tomasz Paterek, Mauro Paternostro, and Timothy C. H. Liew(参考訳) 絡み合いの検出は、量子性の確定的な証明となる。 その確認は、一般的に絡み合いが弱いが存在する高温または巨視的な物体にとって困難であるかもしれない。 本稿では、興味のある物体を制御されていない量子ネットワークに接続して絡み合いを測定するためのプラットフォームを提案する。 まず,汎用量子システムを用いてプラットフォームとその機能を示す。 ネットワークは量子状態の認識を効果的に学習するので、訓練後の絡み合いの量を非絡み合い状態のみで感知することができる。 さらに, 測定誤差を考慮に入れ, 標準量子限界を超える精度で絡み合いを検知し, 直接被写体上で測定した測定値よりも優れていることを示す。 最後に,重力による2つの質量間の絡み合いをセンシングするプラットフォームを用いて,既存の手法と比較して絡み合い推定精度が2桁向上することを示す。

The detection of entanglement provides a definitive proof of quantumness. Its ascertainment might be challenging for hot or macroscopic objects, where entanglement is typically weak, but nevertheless present. Here we propose a platform for measuring entanglement by connecting the objects of interest to an uncontrolled quantum network, whose emission (readout) is trained to learn and sense the entanglement of the former. First, we demonstrate the platform and its features with generic quantum systems. As the network effectively learns to recognise quantum states, it is possible to sense the amount of entanglement after training with only non-entangled states. Furthermore, by taking into account measurement errors, we demonstrate entanglement sensing with precision that scales beyond the standard quantum limit and outperforms measurements performed directly on the objects. Finally, we utilise our platform for sensing gravity-induced entanglement between two masses and predict an improvement of two orders of magnitude in the precision of entanglement estimation compared to existing techniques.
翻訳日:2023-01-24 17:00:49 公開日:2022-09-29
# 四元数に基づくトポロジカル量子系の機械学習

Quaternion-based machine learning on topological quantum systems ( http://arxiv.org/abs/2209.14551v1 )

ライセンス: Link先を確認
Min-Ruei Lin, Wan-Ju Li, and Shin-Ming Huang(参考訳) 興味のシステムから抽出された情報を最大化するために、異なる形式のトレーニングデータを提案する機械学習技術を通じて、トポロジカル位相分類が集中的に研究されている。 量子物理学の複雑さのため、高度な数学的アーキテクチャは機械の設計において考慮すべきである。 本研究では,2次元チャーン絶縁体を分類するために,教師付きおよび教師なし学習のフレームに四元数代数を組み込む。 教師なし学習の側面では、四元数変換された固有状態に対して主成分分析(PCA)を適用して位相位相を区別する。 教師あり学習の面では,従来の畳み込みニューラルネットワーク上に4次畳み込み層を1つ加えることで,マシンを構築する。 機械は四元変換された構成を入力とし、訓練中に機械で見えない構造であっても、異なる位相相をうまく分類する。 我々の研究は、トポロジカル位相分類のタスクにおいて、ターゲットデータから重要な特徴を抽出する四元数代数のパワーと、四元数に基づくニューラルネットワークの利点を示す。

Topological phase classifications have been intensively studied via machine-learning techniques where different forms of the training data are proposed in order to maximize the information extracted from the systems of interests. Due to the complexity in quantum physics, advanced mathematical architecture should be considered in designing machines. In this work, we incorporate quaternion algebras into data analysis either in the frame of supervised and unsupervised learning to classify two-dimensional Chern insulators. For the unsupervised-learning aspect, we apply the principal component analysis (PCA) on the quaternion-transformed eigenstates to distinguish topological phases. For the supervised-learning aspect, we construct our machine by adding one quaternion convolutional layer on top of a conventional convolutional neural networks. The machine takes quaternion-transformed configurations as inputs and successfully classify all distinct topological phases, even for those structures that are not seen by the machine during the training process. Our work demonstrates the power of quaternion algebras on extracting crucial features from the targeted data and the advantages of quaternion-based neural networks than conventional ones in the tasks of topological phase classifications.
翻訳日:2023-01-24 17:00:33 公開日:2022-09-29
# Si-MOS量子ドットにおけるフローッピングモードスピン量子ビットのシングルショット読み出し

Single-shot readout of a flopping-mode spin qubit in a Si-MOS quantum dot ( http://arxiv.org/abs/2209.14531v1 )

ライセンス: Link先を確認
Rui-Zi Hu, Rong-Long Ma, Ming Ni, Yuan Zhou, Ning Chu, Wei-Zhu Liao, Zhen-Zhen Kong, Gang Cao, Gui-Lei Wang, Hai-Ou Li and Guo-Ping Guo(参考訳) シリコン-金属-酸化物-半導体(Si-MOS)量子ドット(QD)に基づくスピン量子ビットは、大規模量子コンピュータにとって有望なプラットフォームである。 二重量子ドット(DQD)の電荷状態に電子を非局在化することにより、分散読み出しによりSi/SiGe QDに「フリップモード」電気双極子スピン共鳴(EDSR)が存在する。 本稿では,Si-MOS QDの単一ショット読み出しによるフロッピングモードスピン量子ビットの実証を行う。 共振周波数を変化させると、s形スピン共鳴周波数、スピンrabi周波数の等級改善、実質的に一定なスピン遅延時間が得られる。 さらに,近くのDQDにおけるEDSRスペクトル測定を再現することにより,フローッピングモードEDSRの一般性を確認する。 この結果,Si-MOS量子ドットの制御率の高い大規模スピン量子ビット系への新たな経路が得られた。

Spin qubits based on silicon-metal-oxide-semiconductor (Si-MOS) quantum dots (QDs) are promising platforms for a large-scale quantum computer. By delocalizing an electron across a double quantum dots (DQD) charge state, "flopping-mode" electric dipole spin resonance (EDSR) is present in Si/SiGe QDs via dispersive readout. Here, we demonstrate a flopping-mode spin qubit in a Si-MOS QD via single-shot readout. When changing detuning, we achieve s-shape spin resonance frequencies, an order of magnitude improvement in the spin Rabi frequencies, and virtually constant spin dephasing times. Moreover, we confirm the generality of flopping-mode EDSR by reproducing the EDSR spectra measurement in a nearby DQD. Our results offer a new route to large-scale spin qubit systems with higher control fidelities in Si-MOS quantum dots.
翻訳日:2023-01-24 17:00:13 公開日:2022-09-29
# 低強度パルス駆動ロバスト振動子媒質相ゲート

Robust Oscillator-Mediated Phase Gates Driven by Low-Intensity Pulses ( http://arxiv.org/abs/2209.14817v1 )

ライセンス: Link先を確認
I. Arrazola and J. Casanova(参考訳) 低強度パルスによる分散ゲートの高速化を実現する動的デカップリング技術に基づく手法を提案する。 我々の手法は一般に、すなわち、長手結合を介してボソニックメディエータと相互作用する量子ビットを持つ任意の量子プラットフォームに適用可能である。 さらに、このプロトコルは、周波数シフトやメディエータの加熱といった一般的なエラーやクロストーク効果に耐性があるとともに、キュービット周波数や制御フィールドの変動に対して堅牢性を提供する。 磁場勾配により結合した捕捉イオンの実装により, 本手法を解説する。 数値シミュレーションにより, 現在および近未来の実験装置では, 不忠実な10^{-3}$または10^{-4}$の絡み合いゲートが可能であることを示す。 これは最先端よりも桁違いに改善されていることを示している。

We present a method based on dynamical decoupling techniques that leads to faster-than-dispersive entanglement gates with low-intensity pulses. Our method is general, i.e., it is applicable to any quantum platform that has qubits interacting with bosonic mediators via longitudinal coupling. Moreover, the protocol provides robustness to fluctuations in qubit frequencies and control fields, while also being resistant to common errors such as frequency shifts and heating in the mediator as well as crosstalk effects. We illustrate our method with an implementation for trapped ions coupled via magnetic field gradients. With detailed numerical simulations, we show that entanglement gates with infidelities of $10^{-3}$ or $10^{-4}$ are possible with current or near-future experimental setups, respectively. This represents an improvement of more than an order of magnitude over the state-of-the-art.
翻訳日:2023-01-24 16:52:27 公開日:2022-09-29
# 状態依存的トロッター極限とその近似

State-dependent Trotter Limits and their approximations ( http://arxiv.org/abs/2209.14787v1 )

ライセンス: Link先を確認
Daniel Burgarth, Niklas Galke, Alexander Hahn, Lauritz van Luijk(参考訳) トロッター積公式は量子系の数値シミュレーションにおいて重要な道具である。 しかし、コンピュータは分子中の粒子の位置や電磁場の振幅といった連続的な自由度を扱うことはできない。 したがって、これらの変数を識別してデジタルシミュレーションに役立てる必要がある。 ここでは、この近似離散物理学の妥当性を結論付けるのに十分な条件を与える。 本質的には、状態依存のトロッターエラーに依存しており、独立な関心を持つ明示的な境界を確立する。

The Trotter product formula is a key instrument in numerical simulations of quantum systems. However, computers cannot deal with continuous degrees of freedom, such as the position of particles in molecules, or the amplitude of electromagnetic fields. It is therefore necessary to discretize these variables to make them amenable to digital simulations. Here, we give sufficient conditions to conclude the validity of this approximate discretized physics. Essentially, it depends on the state-dependent Trotter error, for which we establish explicit bounds that are also of independent interest.
翻訳日:2023-01-24 16:51:41 公開日:2022-09-29
# 補助機械的結合によるマルチバイブレーションフィードバックオプトメカニカル冷凍の100万倍改善

Millionfold improvement in multivibration-feedback optomechanical refrigeration via auxiliary mechanical coupling ( http://arxiv.org/abs/2209.14760v1 )

ライセンス: Link先を確認
Rui Xu, Deng-Gao Lai, Bang-Pin Hou, Adam Miranowicz, and Franco Nori(参考訳) 複数の振動モードの同時基底状態の冷却は、多重振動系の重要な量子効果を観測するための前提条件である。 本稿では,共振モードの冷却性能を大幅に向上させるため,共振器のオプティメティクスに基づくネット冷凍速度の大幅な増幅を実現する方法を提案する。 2つのメカニカル振動間の補助メカニカルカップリング(amc)を使用することで、これらの振動モードを共通の光学モードに結合して冷却チャネルを遮断することによって引き起こされるダークモードを完全に除去することができる。 実効的な機械的感受性とネット冷却速度について完全に解析的処理を行い,AMCがオンになると6桁以上のネット冷凍速度の増幅が観測できることを確認した。 特に,分解側バンド体制を超えた同時冷却は,導入したAMCから発生し,消滅しないことが明らかとなった。 我々の研究は、バッドキャビティ体制における複数の振動モードの量子制御の道を開いた。

The simultaneous ground-state refrigeration of multiple vibrational modes is a prerequisite for observing significant quantum effects of multiple-vibration systems. Here we propose how to realize a large amplification in the net-refrigeration rates based on cavity optomechanics and to largely improve the cooling performance of multivibration modes beyond the resolved-sideband regime. By employing an auxiliary mechanical coupling (AMC) between two mechanical vibrations, the dark mode, which is induced by the coupling of these vibrational modes to a common optical mode and cuts off cooling channels, can be fully removed. We use fully analytical treatments for the effective mechanical susceptibilities and net-cooling rates and find that when the AMC is turned on, the amplification of the net-refrigeration rates by more than six orders of magnitude can be observed. In particular, we reveal that the simultaneous ground-state cooling beyond the resolved-sideband regime arises from the introduced AMC, without which it vanishes. Our work paves the way for quantum control of multiple vibrational modes in the bad-cavity regime.
翻訳日:2023-01-24 16:51:34 公開日:2022-09-29
# 光修飾状態を用いた固体の光冷却における温度限界の克服

Overcoming temperature limits in the optical cooling of solids using light-dressed states ( http://arxiv.org/abs/2209.14693v1 )

ライセンス: Link先を確認
Conor N. Murphy, Luisa Toledo Tude and Paul R. Eastham(参考訳) 現在, 固体のレーザー冷却温度は50~100Kであり, 狭い電子多様体と明るい光遷移を持つダイヤモンド色中心などの欠陥を用いてこれを克服する手法を提案する。 強い場に形成された服を着た状態を利用して、フォノン遷移のセットを拡張し、可変エネルギーを持つ。 これにより冷却パワーが向上し、不均一な拡張効果が減少する。 これらの効果を理論的にシリコーン空洞に示し,背景吸収と非放射性崩壊の役割を論じる。

Laser cooling of solids currently has a temperature floor of 50-100 K. We propose a method that could overcome this using defects, such as diamond color centers, with narrow electronic manifolds and bright optical transitions. It exploits the dressed states formed in strong fields which extend the set of phonon transitions and have tunable energies. This allows an enhancement of the cooling power and diminishes the effect of inhomogeneous broadening. We demonstrate these effects theoretically for the silicon vacancy and discuss the role of background absorption and non-radiative decay.
翻訳日:2023-01-24 16:50:57 公開日:2022-09-29
# チップを用いた単発周波数コム吸収検出方式

Scheme for single-shot frequency comb absorption sensing on chip ( http://arxiv.org/abs/2209.15002v1 )

ライセンス: Link先を確認
Jake Biele, Sabine Wollmann, and Euan Allen(参考訳) 周波数コム吸収分光法と低ノイズ、高速ホモダイン測定の組み合わせは、超感度吸収測定のためのツールボックスを提供する。 これらのスキームをフォトニックプラットフォームに統合して実用的応用に近づけることは困難である。 本稿では,フォトニックプラットフォーム上で容易に適用可能なスキームを提案する。 以上の結果から,各周波数のコーム歯は独立に試料化でき,コームのスパンを調整でき,吸収プロファイルの無いコーム中心を注意深く整列する必要はないことがわかった。 これにより、非対称吸収プロファイルを追加のコンポーネントを必要とせずに完全に再構築することができる。

Frequency comb absorption spectroscopy combined with low-noise, fast homodyne measurements provide a toolbox for ultra-sensitive absorption measurements. Integrating these schemes on photonic platforms to bring them closer to practical applications is challenging. Here, we propose a scheme that can be readily adapted on a photonic platform. We show that each frequency comb tooth can independently sampled, the span of the comb can be tailored, and that our method does not require a careful alignment of the comb centre with any absorption profiles. This allows an asymmetric absorption profile to be reconstructed in full without requiring additional components.
翻訳日:2023-01-24 10:17:01 公開日:2022-09-29
# 熱力学極限における1次元量子系の自由エネルギーに対するサブポリノミカル時間アルゴリズム

A subpolynomial-time algorithm for the free energy of one-dimensional quantum systems in the thermodynamic limit ( http://arxiv.org/abs/2209.14989v1 )

ライセンス: Link先を確認
Hamza Fawzi, Omar Fawzi, Samuel O. Scalet(参考訳) 局所的、翻訳不変な1次元量子系の自由エネルギーを無限鎖サイズの熱力学極限で近似する古典的アルゴリズムを導入する。 これらの系に対する基底状態問題(すなわち、温度$T = 0$の自由エネルギー)は、量子コンピュータに対しても計算的に困難であると予想されるが、我々のアルゴリズムは、任意の固定温度$T > 0$で、すなわち、時間$O((\frac{1}{\varepsilon})^{c})$で、任意の定数$c > 0$で、$\varepsilon$は加算近似誤差である。 これまで最もよく知られたアルゴリズムは、多項式を$\frac{1}{\varepsilon}$で表しており、多項式の次数は逆温度 1/t$ で指数関数的である。 このアルゴリズムは、線形写像のスペクトル半径の計算に還元されるため、特に単純である。 この線型写像は非可換移動行列として解釈され、自由エネルギーの解析性と相関の減衰に関する結果を証明するために以前に研究されてきた。 また、この写像の対応する固有ベクトルはギブス状態の辺の近似を与え、量子系の様々な熱力学特性の計算を可能にすることを示す。

We introduce a classical algorithm to approximate the free energy of local, translation-invariant, one-dimensional quantum systems in the thermodynamic limit of infinite chain size. While the ground state problem (i.e., the free energy at temperature $T = 0$) for these systems is expected to be computationally hard even for quantum computers, our algorithm runs for any fixed temperature $T > 0$ in subpolynomial time, i.e., in time $O((\frac{1}{\varepsilon})^{c})$ for any constant $c > 0$ where $\varepsilon$ is the additive approximation error. Previously, the best known algorithm had a runtime that is polynomial in $\frac{1}{\varepsilon}$ where the degree of the polynomial is exponential in the inverse temperature $1/T$. Our algorithm is also particularly simple as it reduces to the computation of the spectral radius of a linear map. This linear map has an interpretation as a noncommutative transfer matrix and has been studied previously to prove results on the analyticity of the free energy and the decay of correlations. We also show that the corresponding eigenvector of this map gives an approximation of the marginal of the Gibbs state and thereby allows for the computation of various thermodynamic properties of the quantum system.
翻訳日:2023-01-24 10:16:51 公開日:2022-09-29
# 非確率的典型性と量子力学への応用

Non-probabilistic typicality, with application to quantum mechanics ( http://arxiv.org/abs/2209.14985v1 )

ライセンス: Link先を確認
Bruno Galvan(参考訳) 本論文は2つの仮説を考案する。 最初の仮説は、事象が一般に一定の確率を割り当てることができないようなランダムな現象/実験の存在である。 これらの実験は `typealistic' (確率論的ではなく) 実験と呼ばれる。 確率的実験は確率空間で表されるので、典型的実験は典型的空間で表すことができ、典型的空間は基本的に確率測度がより少ない定型性測度$T$に置き換えられた確率空間である。 条件 $t(a) \approx 1$ は典型的な集合を定義し、典型性空間は、前者の典型集合と後者のほとんど特定の事象を関連付けて、典型的実験と関係している。 典型性空間の定義を含む数学的な典型性理論の様々な要素が論文の第一部で述べられている。 第二の仮説は、量子粒子(または量子粒子の系)の進化は典型的現象と見なすことができ、典型論的理論と量子力学の融合によって表現できるということである。 その結果は、測定問題を提示しない新しい量子力学の定式化であり、ボヘミア力学と多世界解釈の欠点のいくつかを回避しているようである。 この主題は論文の第2部で展開されている。

This paper develops two hypotheses. The first hypothesis is the existence of random phenomena/experiments whose events cannot generally be assigned a definite probability, but that admits nevertheless a class of nearly certain events. These experiments will be referred to as ``typicalistic'' (instead of probabilistic) experiments. As probabilistic experiments are represented by probability spaces, typicalistic experiments can be represented by typicality spaces, where a typicality space is basically a probability space in which the probability measure has been replaced by a much less structured typicality measure $T$. The condition $T(A) \approx 1$ defines the typical sets, and a typicality space is related to a typicalistic experiment by associating the typical sets of the former with the nearly certain events of the latter. Various elements of a mathematical theory of typicality, including the definition of typicality spaces, are presented in the first part of the paper. The second hypothesis is that the evolution of a quantum particle (or of a system of quantum particles) can be considered as a typicalistic phenomenon, so that it can be represented by the union of typicality theory and quantum mechanics. The result is a novel formulation of quantum mechanics that does not present the measurement problem, and that also seems to avoid some of the drawbacks of Bohmian mechanics and of the Many World Interpretation. This subject is developed in the second part of the paper.
翻訳日:2023-01-24 10:16:22 公開日:2022-09-29
# フォトニック結晶における超強光間相互作用

Ultrastrong light-matter interaction in a photonic crystal ( http://arxiv.org/abs/2209.14972v1 )

ライセンス: Link先を確認
Andrei Vrajitoarea, Ron Belyansky, Rex Lundgren, Seth Whitsitt, Alexey V. Gorshkov, Andrew A. Houck(参考訳) 量子レベルでの光と物質間の相互作用の調和は、量子物理学や量子光学の分野において中心的なテーマであり、量子計算から量子計量学への応用がある。 複雑な相互作用とフォトニック合成材料を組み合わせることで、新しい量子相や現象を研究する機会となり、凝縮物質物理学と興味深いつながりが確立される。 ここでは、フォトニック結晶の多くの離散モードに結合した単一の人工原子による多体現象を探索する。 この実験は、高非線形フラクソニウム量子ビットをマイクロ波共振器の強結合格子にガルバニカルに結合させることにより、回路QEDパラダイムを用いて超強光物質結合状態に達する。 この状態において、単一光子の輸送は、粒子数の保存を損なう相互作用のため、多光子境界状態の存在によって強く修正される。 量子ビットによって媒介される効果的な光子-光子相互作用を爆発させると、駆動系は量子ネットワークの関心資源である強相関光子の連続的な貯留体として構成できる。 この研究は、単一光子レベルで非線形量子光学を探索し、絡み合った多体位相を安定化するエキサイティングな展望を開く。

Harnessing the interaction between light and matter at the quantum level has been a central theme in the fields of atomic physics and quantum optics, with applications from quantum computation to quantum metrology. Combining complex interactions with photonic synthetic materials provides an opportunity to investigate novel quantum phases and phenomena, establishing interesting connections to condensed matter physics. Here we explore many-body phenomena with a single artificial atom coupled to the many discrete modes of a photonic crystal. This experiment reaches the ultrastrong light-matter coupling regime using the circuit QED paradigm, by galvanically coupling a highly nonlinear fluxonium qubit to a tight-binding lattice of microwave resonators. In this regime, the transport of a single photon is strongly modified by the presence of multi-photon bound states, owing to interactions that break particle number conservation. Exploiting the effective photon-photon interactions mediated by the qubit, the driven system can be configured as a continuous reservoir of strongly-correlated photons, a resource of interest for quantum networks. This work opens exciting prospects for exploring nonlinear quantum optics at the single-photon level and stabilizing entangled many-body phases of light.
翻訳日:2023-01-24 10:15:58 公開日:2022-09-29
# マルコフ政権を超えた動的写像

Dynamical maps beyond Markovian regime ( http://arxiv.org/abs/2209.14902v1 )

ライセンス: Link先を確認
Dariusz Chru\'sci\'nski(参考訳) 量子力学写像は、量子進化の適切な数学的表現を提供する。 これは、量子進化の適切な数学的表現を提供し、閉ハミルトニアン系のユニタリ進化の強力な一般化をもたらす完全なポジティビティの概念である。 開システムの量子進化の顕著な例はマルコフ半群である。 以下に示すように、正および完全正の写像の半群を解析する。 後者の場合、力学は有名なgorini-kossakowski-lindblad-sudarshan(gkls)マスター方程式によって制御される。 しかし、マルコフ半群は一般の量子進化の近似的な記述しか与えない。 我々の分析の主なトピックは、この体制を超えた動的マップである。 非マルコフ量子進化は近年、多くの注目を集めており、それに捧げられた膨大な文献がある。 本稿では、時間局所発生器および/または非局所メモリカーネルによって制御される量子力学を解析する。 特別の注意はマルコビアン性の定義としてしばしば用いられる「可視性」の概念に向けられている。 特に、いわゆるCP可分性の概念(P可分性とは対照的に)は量子マルコビアン性の定義として広く受け入れられている。 可視性に関する重要な物理的意味について論じる。 また、動的写像を超えたマルコビアン性の概念、すなわち「システム + 環境」の進化にアクセスできるときについても簡単に論じる。 展覧会全体は、特定のシステムの研究よりも、一般的な概念とそれらの間の複雑なつながりに集中している。 振幅減衰モデルや位相減衰モデルのようなオープン量子系のパラダイムモデルにより解析された概念を説明する。

Quantum dynamical maps provide suitable mathematical representation of quantum evolutions. It is the very notion of complete positivity which provides a proper mathematical representation of quantum evolution and gives rise to the powerful generalization of unitary evolution of closed Hamiltonian systems. A prominent example of quantum evolution of an open system is a Markovian semigroup. In what follows, we analyze both the semigroups of positive and completely positive maps. In the latter case the dynamics is governed by the celebrated Gorini-Kossakowski-Lindblad-Sudarshan (GKLS) Master Equation. Markovian semigroups, however, provide only an approximate description of general quantum evolution. The main topic of our analysis are dynamical maps beyond this regime. Non-Markovian quantum evolution attracted a lot of attention in recent years and there is a vast literature dedicated to it. In this report we analyze quantum dynamics governed by time-local generators and/or non-local memory kernels. A special attention is devoted to the concept of {\em divisibility} which is often used as a definition of Markovianity. In particular, the concept of so called CP-divisibility (in contrast to P-divisibility) is widely accepted as a proper definition of quantum Markovianity. We discuss a number of important physical implications of divisibility. We also briefly discuss the notion of Markovianity beyond the dynamical map, that is, when one has an access to the evolution of `system + environment'. The entire exposition is concentrated more on the general concepts and intricate connections between them than on studying particular systems. We illustrate the analyzed concepts by paradigmatic models of open quantum systems like the amplitude damping and phase damping models.
翻訳日:2023-01-24 10:15:37 公開日:2022-09-29
# ZX計算の完全性

Completeness of the ZX-calculus ( http://arxiv.org/abs/2209.14894v1 )

ライセンス: Link先を確認
Quanlong Wang(参考訳) ZX計算は直感的だが数学的には厳密な量子コンピューティングのグラフィカル言語であり、特に量子回路の枠組みにおいて強力である。 zx-計算の完全性は、m$n$の行列の等式は純粋に図式的に導出できることを意味する。 この論文では、量子計算のための別のグラフィカル言語である zw-calculus の完全性結果からの変換を通じて、純粋な量子力学全体の zx-calculus に対する最初の完全公理化を与える。 これはquantomaticのようなソフトウェアを使って、自動画像量子コンピューティングへの道を開くものだ。 この普遍完全性に基づいて、複素数の環を任意の可換環に対するZW-計算の完全性定理に基づくクリフォード+Tフラグメントに対応する部分環に制限することにより、量子コンピューティングにおいて近似的に普遍的なクリフォード+T量子力学に対するZX-計算の完全公理化を直接得る。 さらに, 2-qubit clifford+t回路におけるzx-calculusの完全性(わずか9規則)を図式書き換えによる17回路関係の完全集合の検証により証明する。 量子ビット関連形式論における完全性の結果に加えて、量子安定化器量子力学のためのZX-計算の完全性も量子安定化器系に拡張する。 最後に、一般化された補数性の証明へのzx計算の適用、絡み合い分類の表現と toffoli ゲート、および uma ゲートの等価性チェックの例を示す。

The ZX-calculus is an intuitive but also mathematically strict graphical language for quantum computing, which is especially powerful for the framework of quantum circuits. Completeness of the ZX-calculus means any equality of matrices with size powers of $n$ can be derived purely diagrammatically. In this thesis, we give the first complete axiomatisation the ZX-calculus for the overall pure qubit quantum mechanics, via a translation from the completeness result of another graphical language for quantum computing -- the ZW-calculus. This paves the way for automated pictorial quantum computing, with the aid of some software like Quantomatic. Based on this universal completeness, we directly obtain a complete axiomatisation of the ZX-calculus for the Clifford+T quantum mechanics, which is approximatively universal for quantum computing, by restricting the ring of complex numbers to its subring corresponding to the Clifford+T fragment resting on the completeness theorem of the ZW-calculus for arbitrary commutative ring. Furthermore, we prove the completeness of the ZX-calculus (with just 9 rules) for 2-qubit Clifford+T circuits by verifying the complete set of 17 circuit relations in diagrammatic rewriting. In addition to completeness results within the qubit related formalism, we extend the completeness of the ZX-calculus for qubit stabilizer quantum mechanics to the qutrit stabilizer system. Finally, we show with some examples the application of the ZX-calculus to the proof of generalised supplementarity, the representation of entanglement classification and Toffoli gate, as well as equivalence-checking for the UMA gate.
翻訳日:2023-01-24 10:15:18 公開日:2022-09-29
# エネルギー領域における遅い電子の自己トッピング

Self-trapping of slow electrons in the energy domain ( http://arxiv.org/abs/2209.14850v1 )

ライセンス: Link先を確認
Maor Eldar, Yiming Pan and Michael Kr\"uger(参考訳) 光と急速電子の相互作用により、電子波束の位相コヒーレントな操作と加速が可能になった。 ここでは、低エネルギー電子(約20-200ev)が位相整合光電界と相互作用する新しい方法で、この相互作用を調べる。 解析的および数値的研究により、低速電子は電子分散の非消滅曲率によりエネルギー領域に強い閉じ込めを受けることが明らかとなった。 スペクトルトラップは調整可能であり、光場パラメータの適切な選択は相互作用のダイナミクスを2つのエネルギー状態に還元することができる。 電子をトラップする能力は、電子ビーム物理学、自由電子量子光学、量子シミュレータの範囲を広げる。

The interaction of light and swift electrons has enabled phase-coherent manipulation and acceleration of electron wavepackets. Here we investigate this interaction in a new regime where low-energy electrons (~20-200 eV) interact with a phase-matched light field. Our analytical and numerical study shows that slow electrons are subject to strong confinement in the energy domain due to the non-vanishing curvature of the electron dispersion. The spectral trap is tunable and an appropriate choice of light field parameters can reduce the interaction dynamics to only two energy states. The capacity to trap electrons expands the scope of electron beam physics, free-electron quantum optics and quantum simulators.
翻訳日:2023-01-24 10:14:33 公開日:2022-09-29
# The Snowmass 2021 Theory Frontier Topical Group on Quantum Information Science 参加報告

Report of the Snowmass 2021 Theory Frontier Topical Group on Quantum Information Science ( http://arxiv.org/abs/2209.14839v1 )

ライセンス: Link先を確認
Simon Catterall, Roni Harnik, Veronika E. Hubeny, Christian W. Bauer, Asher Berlin, Zohreh Davoudi, Thomas Faulkner, Thomas Hartman, Matthew Headrick, Yonatan F. Kahn, Henry Lamm, Yannick Meurice, Surjeet Rajendran, Mukund Rangamani, and Brian Swingle(参考訳) 量子情報科学の理論的高エネルギー物理学への応用について概説する。 量子シミュレーション、量子センサー、および量子情報と重力の間の接続の形式的な側面である。 これらのテーマの中には、数年と数十年前にそれらに対処する重要な研究課題と機会がある。 多様な量子労働力の育成への取り組みについても論じる。 この研究は、Snowmass 2021計画プロセスの理論フロンティアレポートの一部である、高エネルギー物理学TF10の亜熱帯領域の量子情報について要約する。

We summarize current and future applications of quantum information science to theoretical high energy physics. Three main themes are identified and discussed; quantum simulation, quantum sensors and formal aspects of the connection between quantum information and gravity. Within these themes, there are important research questions and opportunities to address them in the years and decades ahead. Efforts in developing a diverse quantum workforce are also discussed. This work summarizes the subtopical area Quantum Information for High Energy Physics TF10 which forms part of the Theory Frontier report for the Snowmass 2021 planning process.
翻訳日:2023-01-24 10:14:23 公開日:2022-09-29
# 拡張Hong-Ou-Mandel多様体と同一マイクロリング共振器の線形鎖の数値

Enhanced Hong-Ou-Mandel Manifolds and figures of merit for linear chains of identical micro-ring resonators ( http://arxiv.org/abs/2209.14837v1 )

ライセンス: Link先を確認
Peter L. Kaulfuss, Paul M. Alsing, A. Matthew Smith, Joseph Monteleone III and Edwin E. Hach III(参考訳) 線形鎖内の任意の同一マイクロリング共振器(MRR)に対して,Hong-Ou-Mandel曲線の正確な解析式を示す。 我々はこのHOM曲線の極端な安定性について検討し、MRRの線形アレイにおけるHOM効果が極めて強いことを示す。 さらに、この式を用いて、MRRの線形鎖のHOM曲線の3つの数値を導出する: 最小タウ値(\tau_{c}$)、曲率(\bar{\xi}_N$)、タウ値(\delta\tau_{N}$)。 MRRの様々な線形鎖の長所と短所を特徴付けるためにこれらの指標を推進し、設計と製造を通知する。

We present an exact analytic expression for the Hong-Ou-Mandel (HOM) curve for any number of identical Micro-Ring Resonators (MRRs) in a linear chain. We investigate the extreme stability of this HOM curve, showing that the HOM effect in linear arrays of MRRs is highly robust. We further use this expression to derive three figures of merit for the HOM curve of linear chains of MRRs: the minimum tau value ($\tau_{c}$), the curvature ($\bar{\xi}_N$), and the $5\%$ tolerance in tau ($\delta\tau_{N}$). We promote these metrics to characterize the pros and cons of various linear chains of MRRs and inform design and fabrication.
翻訳日:2023-01-24 10:14:14 公開日:2022-09-29
# 縮合一般化コヒーレント状態

Truncated generalized coherent states ( http://arxiv.org/abs/2210.00908v1 )

ライセンス: Link先を確認
Filippo Giraldi, Francesco Mainardi(参考訳) 量子調和振動子の正準コヒーレント状態の一般化は、正の重み関数を持つ恒等作用素の正規化性、ラベル内の連続性、および分解の条件を必要とすることによる。 このアプローチに基づき、現在のシナリオコヒーレント状態は調和振動子の正準あるいは有限次元フォック空間上で一般化される。 一般化されたコヒーレント状態のクラスは、引き延ばした指数減衰、電力法則、対数形式の組み合わせにより、励起数の分布がポアソン統計から逸脱するように決定される。 マンデルパラメータの解析は、これらの一般化されたコヒーレント状態が、決定された性質に従って、ラベルの小さな値に対する励起数の(非古典的)部分ポアソニアンまたは超ポアソニアン統計量を示すことを示している。 統計量はラベルの大きな値に対して一意にポアソニアンである。 特に、truncated Wright 一般化コヒーレント状態は、truncated Mittag-Leffler 一般化コヒーレント状態とは異なる、一意に非古典的な性質を示す。

A generalization of the canonical coherent states of a quantum harmonic oscillator has been performed by requiring the conditions of normalizability, continuity in the label and resolution of the identity operator with a positive weight function. Relying on this approach, in the present scenario coherent states are generalized over the canonical or finite dimensional Fock space of the harmonic oscillator. A class of generalized coherent states is determined such that the distribution of the number of excitations departs from the Poisson statistics according to combinations of stretched exponential decays, power laws and logarithmic forms. The analysis of the Mandel parameter shows that these generalized coherent states exhibit (non-classical) sub-Poissonian or super-Poissonian statistics of the number of excitations for small values of the label, according to determined properties. The statistics is uniquely sub-Poissonian for large values of the label. As particular cases, truncated Wright generalized coherent states exhibit uniquely non-classical properties, differently from the truncated Mittag-Leffler generalized coherent states.
翻訳日:2023-01-24 10:06:57 公開日:2022-09-29
# 将来のNASA深宇宙量子リンクのための量子クロック同期と基礎科学

Quantum Clock Synchronization for Future NASA Deep Space Quantum Links and Fundamental Science ( http://arxiv.org/abs/2209.15122v1 )

ライセンス: Link先を確認
James Troupe, Stav Haldar, Ivan Agullo, Paul Kwiat(参考訳) 高い精度と正確さで時間を計測、保持、分散する能力は、科学的探究の基礎的な能力である。 基本的な科学以外にも、時間同期は、公共および民間のコミュニケーション、ナビゲーションと範囲、分散センシング、その他の技術応用において欠かせない特徴である。 本稿では,ピコ秒精度に量子クロック同期を実装した衛星・地上クロックの量子ネットワークの実装を提案する。 提案するqcsネットワークの実装は、(1)従来のアプリケーションよりも正確で堅牢でセキュアな時間同期ネットワーク、(2)将来の量子通信ネットワークのより厳密な同期要件を満たすリソース、という2つの利点を提供している。

The ability to measure, hold and distribute time with high precision and accuracy is a foundational capability for scientific exploration. Beyond fundamental science, time synchronization is an indispensable feature of public and private communication, navigation and ranging, and distributed sensing, amongst others technological applications. We propose the implementation of a quantum network of satellite- and ground-based clocks with the ability to implement Quantum Clock Synchronization to picosecond accuracy. Implementation of the proposed QCS network offers a double advantage: (1) a more accurate, robust, and secure time synchronization network for classical applications than currently possible, and (2) a resource to fulfill the much more stringent synchronization requirements of future quantum communication networks.
翻訳日:2023-01-24 10:06:38 公開日:2022-09-29
# 衛星による絡み合った光子の地球時間分布

Global Time Distribution via Satellite-Based Sources of Entangled Photons ( http://arxiv.org/abs/2209.15071v1 )

ライセンス: Link先を確認
Stav Haldar, Ivan Agullo, Anthony J. Brady, Ant\'ia Lamas-Linares, W. Cyrus Proctor, James E. Troupe(参考訳) 本稿では,地球に広がる地上局間のクロック同期を量子資源を用いて衛星ベースで行う手法を提案する。 これを量子クロック同期(QCS)ネットワークと呼ぶ。 詳細な数値シミュレーションにより,本方式の短期的な実装の実現可能性と能力を評価する。 少なめの資源しか備えていない小さなナノサテライトの星座を考える。 これには、自発的パラメトリックダウン変換(spdc)源、雪崩光検出器(apds)、チップスケール原子時計(csacs)のような中程度の安定なオンボードクロックなどが含まれる。 シミュレーションでは、ハードウェアを記述する様々な性能パラメータが選択され、既に市販されているか、適度な進歩しか必要とされていない。 このような手法により、精度のサブナノ秒レベル(数ピコ秒まで)に同期した地上クロックのグローバルネットワークを確立することが可能となる。 これらのQCS衛星コンステレーションは将来の量子ネットワークの基盤を形成し、グローバルにアクセス可能な絡み合い資源として機能する。 同時に、我々のクロック同期プロトコルは、多くの量子ネットワークプロトコルに必要なサブナノ秒レベルの同期を提供するので、他の目的のために設計された空間領域の量子技術に余分なユーティリティ層を追加することができる。

We propose a satellite-based scheme to perform clock synchronization between ground stations spread across the globe using quantum resources. We refer to this as a quantum clock synchronization (QCS) network. Through detailed numerical simulations, we assess the feasibility and capabilities of a near-term implementation of this scheme. We consider a small constellation of nanosatellites equipped only with modest resources. These include quantum devices such as spontaneous parametric down conversion (SPDC) sources, avalanche photo-detectors (APDs), and moderately stable on-board clocks such as chip scale atomic clocks (CSACs). In our simulations, the various performance parameters describing the hardware have been chosen such that they are either already commercially available, or require only moderate advances. We conclude that with such a scheme establishing a global network of ground based clocks synchronized to sub-nanosecond level (up to a few picoseconds) of precision, would be feasible. Such QCS satellite constellations would form the infrastructure for a future quantum network, able to serve as a globally accessible entanglement resource. At the same time, our clock synchronization protocol, provides the sub-nanosecond level synchronization required for many quantum networking protocols, and thus, can be seen as adding an extra layer of utility to quantum technologies in the space domain designed for other purposes.
翻訳日:2023-01-24 10:06:10 公開日:2022-09-29
# 対称擬ブール関数について:因子化、カーネルおよび応用

On Symmetric Pseudo-Boolean Functions: Factorization, Kernels and Applications ( http://arxiv.org/abs/2209.15009v1 )

ライセンス: Link先を確認
Richik Sengupta and Jacob Biamonte(参考訳) 対称pseudo-boolean関数は、ブールタプルから実数への写像であり、入力変数交換の下で不変である。 そのような関数が任意のべき級数や分解として同値に表現できることを証明する。 擬ブール関数の核は、関数が同一に消える原因となる全ての入力の集合である。 n$-variable symmetric pseudo-boolean function $f(x_1, x_2, \dots, x_n)$ は少なくとも 1 つの $n$-affine hyperplane に対応するカーネルを持ち、各超平面は $\sum_{l=1}^n x_l = \lambda$ for $\lambda\in \mathbb{c}$ constant によって与えられる。 これらの結果を用いて、スピングラスエネルギー関数(アイシングモデル)、量子情報およびテンソルネットワークの文献に現れる対称擬ブール関数を解析する。

A symmetric pseudo-Boolean function is a map from Boolean tuples to real numbers which is invariant under input variable interchange. We prove that any such function can be equivalently expressed as a power series or factorized. The kernel of a pseudo-Boolean function is the set of all inputs that cause the function to vanish identically. Any $n$-variable symmetric pseudo-Boolean function $f(x_1, x_2, \dots, x_n)$ has a kernel corresponding to at least one $n$-affine hyperplane, each hyperplane is given by a constraint $\sum_{l=1}^n x_l = \lambda$ for $\lambda\in \mathbb{C}$ constant. We use these results to analyze symmetric pseudo-Boolean functions appearing in the literature of spin glass energy functions (Ising models), quantum information and tensor networks.
翻訳日:2023-01-24 10:04:58 公開日:2022-09-29
# 複素ネットワークの類似-特異性モデルに基づく推薦手法

A Recommendation Approach based on Similarity-Popularity Models of Complex Networks ( http://arxiv.org/abs/2210.07816v1 )

ライセンス: Link先を確認
Abdullah Alhadlaq, Said Kerrache, Hatim Aboalsamh(参考訳) インターネットを利用して情報にアクセスし、商品やサービスを購入することで、リコメンダーシステムはオンラインサービスや商品のプロバイダやユーザにとって欠かせないツールとなっている。 本研究は,類似度・ポピュラリティモデルによって生成された複雑なネットワークに基づく新しい推薦手法を提案する。 まず,ユーザとアイテムをノードとして有するネットワークのモデルを構築し,そのモデルを用いて未知の評価を予測した。 隠れた距離空間とドット製品類似性を持つ類似度・ポピュラリティモデルを用いた正確な評価予測の展望を考察した。 提案手法は, 各種ドメインの21データセットに対して, ベースラインと最先端のレコメンデーション手法に対して, 実装および実験的に比較した。 実験の結果,提案手法は精度の高い予測を行い,既存手法よりも優れていた。 また,提案手法は低次元で優れた結果をもたらし,データの可視化や探索に有効であることを示す。

Recommender systems have become an essential tool for providers and users of online services and goods, especially with the increased use of the Internet to access information and purchase products and services. This work proposes a novel recommendation method based on complex networks generated by a similarity-popularity model to predict ones. We first construct a model of a network having users and items as nodes from observed ratings and then use it to predict unseen ratings. The prospect of producing accurate rating predictions using a similarity-popularity model with hidden metric spaces and dot-product similarity is explored. The proposed approach is implemented and experimentally compared against baseline and state-of-the-art recommendation methods on 21 datasets from various domains. The experimental results demonstrate that the proposed method produces accurate predictions and outperforms existing methods. We also show that the proposed approach produces superior results in low dimensions, proving its effectiveness for data visualization and exploration.
翻訳日:2022-10-23 21:03:17 公開日:2022-09-29
# privmvmf:レコメンダシステムのためのプライバシー保護型マルチビューマトリックス分解

PrivMVMF: Privacy-Preserving Multi-View Matrix Factorization for Recommender Systems ( http://arxiv.org/abs/2210.07775v1 )

ライセンス: Link先を確認
Peihua Mai, Yan Pang(参考訳) データプライバシへの注目が高まる中、フェデレーション学習(fl)フレームワークでは、複数のパーティがデータを共有せずに共同でモデルをトレーニングする、レコメンダシステムに関するパイロット研究が行われている。 これらの研究の多くは、従来のFLフレームワークがユーザーのプライバシーを完全に保護できると考えている。 しかし,本研究に基づくフェデレーションレコメンデータシステムでは,行列因子化に深刻なプライバシーリスクが伴う。 本稿では,まず,フェデレーション・レコメンデータシステムにおける4つのシナリオにおけるサーバリコンストラクション攻撃の厳密な理論的解析と包括的実験について述べる。 実験により,FLノードからアップロードした勾配に基づいて,FLサーバがユーザの情報を80%以上の精度で推測できることが実証された。 このロバスト性分析から, 再建攻撃解析はラプラス雑音下でのランダム推定を30%以上上回り, bは0.5以下であることがわかった。 そこで本論文では,準同型暗号に基づく,privmvmf(privmvmf)に基づく新たなプライバシ保存フレームワークを提案し,連合型レコメンダシステムにおけるユーザデータプライバシ保護を強化する。 提案する privmvmf は movielens データセットで実装およびテストに成功している。

With an increasing focus on data privacy, there have been pilot studies on recommender systems in a federated learning (FL) framework, where multiple parties collaboratively train a model without sharing their data. Most of these studies assume that the conventional FL framework can fully protect user privacy. However, there are serious privacy risks in matrix factorization in federated recommender systems based on our study. This paper first provides a rigorous theoretical analysis of the server reconstruction attack in four scenarios in federated recommender systems, followed by comprehensive experiments. The empirical results demonstrate that the FL server could infer users' information with accuracy >80% based on the uploaded gradients from FL nodes. The robustness analysis suggests that our reconstruction attack analysis outperforms the random guess by >30% under Laplace noises with b no larger than 0.5 for all scenarios. Then, the paper proposes a new privacy-preserving framework based on homomorphic encryption, Privacy-Preserving Multi-View Matrix Factorization (PrivMVMF), to enhance user data privacy protection in federated recommender systems. The proposed PrivMVMF is successfully implemented and tested thoroughly with the MovieLens dataset.
翻訳日:2022-10-23 20:53:04 公開日:2022-09-29
# 分離集合を用いた事前知識のない因果帯域

Causal Bandits without prior knowledge using separating sets ( http://arxiv.org/abs/2009.07916v2 )

ライセンス: Link先を確認
Arnoud A.W.M. de Kroon, Danielle Belgrave, Joris M. Mooij(参考訳) カウサル・バンディット(Causal Bandit)は、エージェントがシーケンシャルな意思決定プロセスにおいて最良の行動を特定する必要がある古典的バンディット問題の変種であり、アクションの報酬分布は因果モデルによって支配される非自明な依存構造を示す。 これまでの文献で提案されている手法は、完全な因果グラフの正確な事前知識に依存している。 我々は,もはや先行する因果知識に依存しない新しい因果バンディットアルゴリズムを定式化する。 代わりに、単純な条件付き独立性テストや因果的発見法を使って見出すことができる、分離集合に基づく推定子を利用する。 離散データに対して真の分離集合が与えられた場合、この推定器は偏りがなく、サンプル平均によって上界となる分散を持つことを示す。 我々はそれぞれ離散モデルとガウスモデルのためのトンプソンサンプリングとUPBに基づくアルゴリズムを開発し、シミュレーションデータと実世界のタンパク質シグナルデータからのバンディット描画の性能向上を示す。

The Causal Bandit is a variant of the classic Bandit problem where an agent must identify the best action in a sequential decision-making process, where the reward distribution of the actions displays a non-trivial dependence structure that is governed by a causal model. Methods proposed for this problem thus far in the literature rely on exact prior knowledge of the full causal graph. We formulate new causal bandit algorithms that no longer necessarily rely on prior causal knowledge. Instead, they utilize an estimator based on separating sets, which we can find using simple conditional independence tests or causal discovery methods. We show that, given a true separating set, for discrete i.i.d. data, this estimator is unbiased, and has variance which is upper bounded by that of the sample mean. We develop algorithms based on Thompson Sampling and UCB for discrete and Gaussian models respectively and show increased performance on simulation data as well as on a bandit drawing from real-world protein signaling data.
翻訳日:2022-10-18 00:14:11 公開日:2022-09-29
# 注意プールとベイズ学習を伴う薬物様分子の正確・信頼性・解釈可能な溶解度予測

Accurate, reliable and interpretable solubility prediction of druglike molecules with attention pooling and Bayesian learning ( http://arxiv.org/abs/2210.07145v1 )

ライセンス: Link先を確認
Seongok Ryu and Sumin Lee(参考訳) 薬物発見において、水溶性は薬物の吸収と測定に影響を及ぼす重要な薬物動態特性である。 そこで, 仮想スクリーニングと鉛最適化において, 可溶性のシリコ予測が有用であることがわかった。 近年,量子力学や分子動力学などの物理ベースの手法は計算コストのかかる高スループットタスクには適していないため,実験データを用いた機械学習(ml)手法が普及している。 しかし、ML法はデータ不足状態において過度に適合する問題を示すことができ、ほとんどの化学特性データセットではそうである。 さらに、ML法は、隠れた特徴の出力への寄与の解釈が困難であり、解析や構造-活性関係の修正を妨げるブラックボックス関数とみなされる。 上記の問題に対処するため,我々は自己参照読み取り層を備えたベイズグラフニューラルネットワーク(gnns)を開発した。 ノード更新で自己アテンションを使用するほとんどのGNNとは異なり、リードアウト層で適用された自己アテンションは、予測性能を改善し、原子レベルでの重要性を識別するモデルを可能にした。 また、ベイズ推論により、溶解度予測タスクの不確実性に応じて、より正確に結果を分離することができ、より慎重な意思決定や薬物開発における様々な応用に、正確で信頼性の高い解釈可能なモデルが使用できると期待できる。

In drug discovery, aqueous solubility is an important pharmacokinetic property which affects absorption and assay availability of drug. Thus, in silico prediction of solubility has been studied for its utility in virtual screening and lead optimization. Recently, machine learning (ML) methods using experimental data has been popular because physics-based methods like quantum mechanics and molecular dynamics are not suitable for high-throughput tasks due to its computational costs. However, ML method can exhibit over-fitting problem in a data-deficient condition, and this is the case for most chemical property datasets. In addition, ML methods are regarded as a black box function in that it is difficult to interpret contribution of hidden features to outputs, hindering analysis and modification of structure-activity relationship. To deal with mentioned issues, we developed Bayesian graph neural networks (GNNs) with the self-attention readout layer. Unlike most GNNs using self-attention in node updates, self-attention applied at readout layer enabled a model to improve prediction performance as well as to identify atom-wise importance, which can help lead optimization as exemplified for three FDA-approved drugs. Also, Bayesian inference enables us to separate more or less accurate results according to uncertainty in solubility prediction task We expect that our accurate, reliable and interpretable model can be used for more careful decision-making and various applications in the development of drugs.
翻訳日:2022-10-16 16:20:48 公開日:2022-09-29
# 金属添加物製造における欠陥検出オントロジー

An Ontology for Defect Detection in Metal Additive Manufacturing ( http://arxiv.org/abs/2210.04772v1 )

ライセンス: Link先を確認
Massimo Carraturo, Andrea Mazzullo(参考訳) 業界4.0アプリケーションにとっての鍵となる課題は、データ統合とセマンティック相互運用性の問題、監視と意思決定のタスクの両方に対処できる自動製造サービスの制御システムを開発することである。 このような問題に対処するために,異種データソースの存在下での情報管理と維持のための基礎として,形式的オントロジーに基づく知識表現手法が提案されている。 さらにオントロジは、制約検証と意思決定のコンテキストにおいて、ドメインの専門家やエンドユーザを支援するための推論とクエリ機能を提供します。 最後に、高度な製造サービスに対するオントロジーベースのアプローチは、ブラックボックス機械学習アルゴリズムに基づく監視、制御、シミュレーションシステムの振る舞いの説明可能性と解釈可能性をサポートする。 本研究は,金属添加物製造文献から知られているプロセス誘起欠陥の分類のための新しいオントロジーを提供する。 特徴と欠陥源を形式的に表現した上で,我々は知識基盤を最先端のオントロジーと統合する。 我々の知識ベースは、さらなる欠陥分析用語と診断推論機能の追加により、付加的生産オントロジーのモデリング能力を向上させることを目的としている。

A key challenge for Industry 4.0 applications is to develop control systems for automated manufacturing services that are capable of addressing both data integration and semantic interoperability issues, as well as monitoring and decision making tasks. To address such an issue in advanced manufacturing systems, principled knowledge representation approaches based on formal ontologies have been proposed as a foundation to information management and maintenance in presence of heterogeneous data sources. In addition, ontologies provide reasoning and querying capabilities to aid domain experts and end users in the context of constraint validation and decision making. Finally, ontology-based approaches to advanced manufacturing services can support the explainability and interpretability of the behaviour of monitoring, control, and simulation systems that are based on black-box machine learning algorithms. In this work, we provide a novel ontology for the classification of process-induced defects known from the metal additive manufacturing literature. Together with a formal representation of the characterising features and sources of defects, we integrate our knowledge base with state-of-the-art ontologies in the field. Our knowledge base aims at enhancing the modelling capabilities of additive manufacturing ontologies by adding further defect analysis terminology and diagnostic inference features.
翻訳日:2022-10-16 16:20:16 公開日:2022-09-29
# 密結合型時間畳み込みネットワークによる唇読解

Lip-reading with Densely Connected Temporal Convolutional Networks ( http://arxiv.org/abs/2009.14233v3 )

ライセンス: Link先を確認
Pingchuan Ma, Yujiang Wang, Jie Shen, Stavros Petridis, Maja Pantic(参考訳) そこで本研究では,Densely Connected Temporal Convolutional Network (DC-TCN) について述べる。 時相畳み込みネットワーク(TCN)は近年、多くの視覚タスクにおいて大きな可能性を示しているが、その受容場は、唇読解シナリオにおける複雑な時間的ダイナミクスをモデル化するのに十分ではない。 この問題に対処するために,ネットワークへの密接な接続を導入し,より堅牢な時間的特徴を捉える。 さらに,本手法では,重み付け機構であるSqueeze-and-Excitationブロックを利用して,モデルの分類能力をさらに向上する。 ベルとホイッスルがなければ、我々のDC-TCN法は、Lip Reading in the Wild (LRW)データセットで88.36%、LRW-1000データセットで43.65%の精度を達成した。

In this work, we present the Densely Connected Temporal Convolutional Network (DC-TCN) for lip-reading of isolated words. Although Temporal Convolutional Networks (TCN) have recently demonstrated great potential in many vision tasks, its receptive fields are not dense enough to model the complex temporal dynamics in lip-reading scenarios. To address this problem, we introduce dense connections into the network to capture more robust temporal features. Moreover, our approach utilises the Squeeze-and-Excitation block, a light-weight attention mechanism, to further enhance the model's classification power. Without bells and whistles, our DC-TCN method has achieved 88.36% accuracy on the Lip Reading in the Wild (LRW) dataset and 43.65% on the LRW-1000 dataset, which has surpassed all the baseline methods and is the new state-of-the-art on both datasets.
翻訳日:2022-10-13 06:46:52 公開日:2022-09-29
# 分子記述子と説明可能なグラフニューラルネットワークを用いたイオン液体のCO$_2$吸収予測

Predicting CO$_2$ Absorption in Ionic Liquids with Molecular Descriptors and Explainable Graph Neural Networks ( http://arxiv.org/abs/2210.01120v1 )

ライセンス: Link先を確認
Yue Jian, Yuyang Wang, Amir Barati Farimani(参考訳) イオン液体(ils)は地球温暖化を緩和するためにco$_2$の捕獲と貯蔵に有望な解決策を提供する。 しかし、巨大な化学空間からの高容量ilの同定と設計には、高価で徹底的なシミュレーションと実験が必要である。 機械学習(ml)は、データ駆動方式で正確かつ効率的な特性予測を通じて、望ましいイオン分子の探索プロセスを加速することができる。 しかし、イオン分子の既存のディスクリプタとmlモデルは、分子グラフ構造の非効率な適応に苦しむ。 さらに、効率的なイオン分子の設計を導くための学習された特徴を理解するために、MLモデルの説明可能性について研究する研究はほとんどない。 本研究では,指紋に基づくMLモデルとグラフニューラルネットワーク(GNN)の両方を開発し,ILのCO$2$吸収を予測する。 フィンガープリントは特徴抽出段階におけるグラフ構造に取り組み、GNNは特徴抽出段階とモデル予測段階の両方において分子構造を直接扱う。 提案手法は従来のMLモデルよりも高い精度(MAEは0.0137,$R^2$は0.9884)で優れていることを示す。 さらに, mlモデルのco$_2$吸収予測にil分子内の各化学フラグメントがどのように寄与するかを把握し, gnnの特徴表現を活用し, サブ構造に基づく説明法を開発した。 また, 今後の新規かつ効率的な機能的ILの設計を助言できるCO$2$吸収の理論的反応機構から, その説明結果が何らかの基礎的真実に一致することも示している。

Ionic Liquids (ILs) provide a promising solution for CO$_2$ capture and storage to mitigate global warming. However, identifying and designing the high-capacity IL from the giant chemical space requires expensive, and exhaustive simulations and experiments. Machine learning (ML) can accelerate the process of searching for desirable ionic molecules through accurate and efficient property predictions in a data-driven manner. But existing descriptors and ML models for the ionic molecule suffer from the inefficient adaptation of molecular graph structure. Besides, few works have investigated the explainability of ML models to help understand the learned features that can guide the design of efficient ionic molecules. In this work, we develop both fingerprint-based ML models and Graph Neural Networks (GNNs) to predict the CO$_2$ absorption in ILs. Fingerprint works on graph structure at the feature extraction stage, while GNNs directly handle molecule structure in both the feature extraction and model prediction stage. We show that our method outperforms previous ML models by reaching a high accuracy (MAE of 0.0137, $R^2$ of 0.9884). Furthermore, we take the advantage of GNNs feature representation and develop a substructure-based explanation method that provides insight into how each chemical fragments within IL molecules contribute to the CO$_2$ absorption prediction of ML models. We also show that our explanation result agrees with some ground truth from the theoretical reaction mechanism of CO$_2$ absorption in ILs, which can advise on the design of novel and efficient functional ILs in the future.
翻訳日:2022-10-09 17:11:56 公開日:2022-09-29
# 確率的反応ネットワークに対するニューラルネットワークソリューション

Neural-network solutions to stochastic reaction networks ( http://arxiv.org/abs/2210.01169v1 )

ライセンス: Link先を確認
Ying Tang, Jiayu Weng, Pan Zhang(参考訳) 確率反応ネットワークは物理学、化学、生物学の確率過程のモデル化に広く用いられている。 しかし、状態空間のサイズは種数とともに指数関数的に増加するため、反応ネットワークの化学マスター方程式の時間的進化を調べることは困難である。 本稿では,変分自己回帰ネットワークを用いた機械学習による化学マスター方程式の解法を提案する。 このアプローチは強化学習フレームワークに基づいており、他の方法で事前にシミュレートされたデータを必要としない。 単一軌道のシミュレーションと異なり、提案手法は種数の状態空間における結合確率分布の時間的変化を追跡し、構成の直接サンプリングと正規化された結合確率の計算をサポートする。 本手法を物理・生物学の様々なシステムに適用し,遺伝子トグルスイッチ,初期生命自己複製器,流行モデル,細胞内シグナルカスケードにおいて,時間とともに確率分布を正確に生成することを示した。 変動自己回帰ネットワークは、フィードバック規制による多モード分布の可塑性を示し、保存法と協調し、時間依存性の反応速度を可能にし、フレキシブルな上数制限を許容する高次元反応ネットワークに効率的である。 その結果,現代の機械学習に基づく確率的反応ネットワークの一般的な研究手法が示唆された。

The stochastic reaction network is widely used to model stochastic processes in physics, chemistry and biology. However, the size of the state space increases exponentially with the number of species, making it challenging to investigate the time evolution of the chemical master equation for the reaction network. Here, we propose a machine-learning approach using the variational autoregressive network to solve the chemical master equation. The approach is based on the reinforcement learning framework and does not require any data simulated in prior by another method. Different from simulating single trajectories, the proposed approach tracks the time evolution of the joint probability distribution in the state space of species counts, and supports direct sampling on configurations and computing their normalized joint probabilities. We apply the approach to various systems in physics and biology, and demonstrate that it accurately generates the probability distribution over time in the genetic toggle switch, the early life self-replicator, the epidemic model and the intracellular signaling cascade. The variational autoregressive network exhibits a plasticity in representing the multi-modal distribution by feedback regulations, cooperates with the conservation law, enables time-dependent reaction rates, and is efficient for high-dimensional reaction networks with allowing a flexible upper count limit. The results suggest a general approach to investigate stochastic reaction networks based on modern machine learning.
翻訳日:2022-10-09 17:10:52 公開日:2022-09-29
# 深部貯留層計算における学習効率のベンチマーク

Benchmarking Learning Efficiency in Deep Reservoir Computing ( http://arxiv.org/abs/2210.02549v1 )

ライセンス: Link先を確認
Hugo Cisneros, Josef Sivic, Tomas Mikolov(参考訳) テストデータセット上の予測能力を測定することにより、機械学習モデルの性能を評価することが一般的である。 このアプローチは、複雑な関数にスムーズに適合し、訓練データポイントからうまく一般化できる複雑なモデルを好む。 知能の必須成分であるが、この学習プロセスの速度とデータ効率は、異なる候補モデル間で報告または比較されることは滅多にない。 本稿では、機械学習モデルがトレーニングデータから学習する速度を測定するために、データ効率指標と共に、ますます難しいタスクのベンチマークを紹介する。 rnn,lstm,transformerなどの確立された逐次教師付きモデルの学習速度を,貯水池計算に基づく比較的知られていない代替モデルと比較した。 提案したタスクは、メモリやブール関数の計算能力など、幅広い計算プリミティブを効果的に解く必要がある。 驚くべきことに、動的に進化する機能マップに依存する貯留層計算システムは、確率的勾配最適化で訓練された完全な教師付き手法よりも高速に学習し、同等の精度スコアを得る。 実験を再現するためのコード、ベンチマーク、トレーニングされたモデル、結果は、https://github.com/hugcis/benchmark_learning_efficiency/で閲覧できます。

It is common to evaluate the performance of a machine learning model by measuring its predictive power on a test dataset. This approach favors complicated models that can smoothly fit complex functions and generalize well from training data points. Although essential components of intelligence, speed and data efficiency of this learning process are rarely reported or compared between different candidate models. In this paper, we introduce a benchmark of increasingly difficult tasks together with a data efficiency metric to measure how quickly machine learning models learn from training data. We compare the learning speed of some established sequential supervised models, such as RNNs, LSTMs, or Transformers, with relatively less known alternative models based on reservoir computing. The proposed tasks require a wide range of computational primitives, such as memory or the ability to compute Boolean functions, to be effectively solved. Surprisingly, we observe that reservoir computing systems that rely on dynamically evolving feature maps learn faster than fully supervised methods trained with stochastic gradient optimization while achieving comparable accuracy scores. The code, benchmark, trained models, and results to reproduce our experiments are available at https://github.com/hugcis/benchmark_learning_efficiency/ .
翻訳日:2022-10-09 17:01:37 公開日:2022-09-29
# quEEGNet:生体信号処理のための量子AI

quEEGNet: Quantum AI for Biosignal Processing ( http://arxiv.org/abs/2210.00864v1 )

ライセンス: Link先を確認
Toshiaki Koike-Akino, Ye Wang(参考訳) 本稿では,生物信号処理アプリケーションのための古典的深層学習手法を支援する新しい量子機械学習(qml)フレームワークを提案する。 具体的には、変動量子回路(VQC)を脳波(EEG)、筋電図(EMG)、脳波(ECoG)分析のためのディープニューラルネットワーク(DNN)に統合するハイブリッド量子古典ニューラルネットワークモデルを提案する。 提案する量子ニューラルネットワーク (qnn) は, vqc では学習可能なパラメータ数が小さく保たれながら, 最先端の性能を実現する。

In this paper, we introduce an emerging quantum machine learning (QML) framework to assist classical deep learning methods for biosignal processing applications. Specifically, we propose a hybrid quantum-classical neural network model that integrates a variational quantum circuit (VQC) into a deep neural network (DNN) for electroencephalogram (EEG), electromyogram (EMG), and electrocorticogram (ECoG) analysis. We demonstrate that the proposed quantum neural network (QNN) achieves state-of-the-art performance while the number of trainable parameters is kept small for VQC.
翻訳日:2022-10-04 18:13:38 公開日:2022-09-29
# マルチエージェント強化学習モデルのスケーリング法則

Scaling Laws for a Multi-Agent Reinforcement Learning Model ( http://arxiv.org/abs/2210.00849v1 )

ライセンス: Link先を確認
Oren Neumann and Claudius Gros(参考訳) ニューラルパワーとローのスケーリング関係の最近の観察は、ディープラーニングの分野に大きな影響を与えた。 スケーリング法則の記述の結果として、かなりの量の注意が払われてきたが、ほとんどは教師付き学習のためであり、強化学習フレームワークの数が減っただけである。 本稿では,基礎強化学習アルゴリズムであるalphazeroの性能スケーリングに関する詳細な研究を行う。 Eloの格付けと演奏強度とパワー・ロー・スケーリングの関係に基づいて、Connect FourとPentagoのゲームでAlphaZeroエージェントを訓練し、そのパフォーマンスを分析します。 プレイヤーの強度は、利用可能な計算がボトルネックにならない場合のニューラルネットワークパラメータカウントのパワー則としてスケールし、最適サイズのエージェントを訓練する場合の計算のパワーとしてスケールする。 両ゲームでほぼ同一のスケーリング指数を観測する。 2つの観測されたスケーリング法則を組み合わせることで、言語モデルで観測されるものと同様の計算に最適な大きさに関するパワー法則を得る。 最適なニューラルネットワークサイズの予測スケーリングが、両方のゲームでデータに適合していることが分かりました。 このスケーリング法則は、これまで公表された最先端のゲームプレイングモデルは、それぞれの計算予算を考えると、最適なサイズよりも大幅に小さいことを意味する。 また,大規模アルファゼロモデルの方がサンプル効率が良く,同じ量のトレーニングデータを持つ小型モデルよりも優れた性能を示す。

The recent observation of neural power-law scaling relations has made a significant impact in the field of deep learning. A substantial amount of attention has been dedicated as a consequence to the description of scaling laws, although mostly for supervised learning and only to a reduced extent for reinforcement learning frameworks. In this paper we present an extensive study of performance scaling for a cornerstone reinforcement learning algorithm, AlphaZero. On the basis of a relationship between Elo rating, playing strength and power-law scaling, we train AlphaZero agents on the games Connect Four and Pentago and analyze their performance. We find that player strength scales as a power law in neural network parameter count when not bottlenecked by available compute, and as a power of compute when training optimally sized agents. We observe nearly identical scaling exponents for both games. Combining the two observed scaling laws we obtain a power law relating optimal size to compute similar to the ones observed for language models. We find that the predicted scaling of optimal neural network size fits our data for both games. This scaling law implies that previously published state-of-the-art game-playing models are significantly smaller than their optimal size, given the respective compute budgets. We also show that large AlphaZero models are more sample efficient, performing better than smaller models with the same amount of training data.
翻訳日:2022-10-04 16:37:50 公開日:2022-09-29
# 微細構造データのグラフ表現の深層学習と多層化

Deep learning and multi-level featurization of graph representations of microstructural data ( http://arxiv.org/abs/2210.00854v1 )

ライセンス: Link先を確認
Reese Jones, Cosmin Safta, Ari Frankel(参考訳) 多くの材料応答関数は、位相や配向の不均一性など、微細構造に強く依存する。 均質化(homogenization)は、サブグリッドモデルや構造プロパティ探索で使用する外部負荷に対するミクロ組織サンプルの平均応答を予測するタスクである。 多くのミクロ構造体は明白なセグメンテーションを持つが、この表現は全場の情報を符号化しないため、セグメンテーションによって誘導されるグラフから直接学ぶことは困難である。 我々は,初期入力フィールドの分割とネイティブ離散化を考慮に入れて,縮小グラフ上の隠れた特徴の深層学習手法を開発した。 これらの特徴は、縮小グラフのノードとして表される領域に関連付けられている。 この縮小表現は、その後のマルチレベル/スケールグラフ畳み込みネットワークモデルの基礎となる。 畳み込み層で完全に処理する前にグラフを減らすには、解釈可能な機能や大規模メッシュでの効率性など、多くのメリットがある。 3つの物理例を用いてデータのネイティブな離散化を直接操作する畳み込みニューラルネットワークに対して提案したネットワークの性能を示す。

Many material response functions depend strongly on microstructure, such as inhomogeneities in phase or orientation. Homogenization presents the task of predicting the mean response of a sample of the microstructure to external loading for use in subgrid models and structure-property explorations. Although many microstructural fields have obvious segmentations, learning directly from the graph induced by the segmentation can be difficult because this representation does not encode all the information of the full field. We develop a means of deep learning of hidden features on the reduced graph given the native discretization and a segmentation of the initial input field. The features are associated with regions represented as nodes on the reduced graph. This reduced representation is then the basis for the subsequent multi-level/scale graph convolutional network model. There are a number of advantages of reducing the graph before fully processing with convolutional layers it, such as interpretable features and efficiency on large meshes. We demonstrate the performance of the proposed network relative to convolutional neural networks operating directly on the native discretization of the data using three physical exemplars.
翻訳日:2022-10-04 16:37:28 公開日:2022-09-29
# 確率論理とファジィ論理のポテンシャルについての一考察

A note on the potentials of probabilistic and fuzzy logic ( http://arxiv.org/abs/2210.00852v1 )

ライセンス: Link先を確認
Anahita Jamshidnejad(参考訳) This paper mainly focuses on (1) a generalized treatment of fuzzy sets of type $n$, where $n$ is an integer larger than or equal to $1$, with an example, mathematical discussions, and real-life interpretation of the given mathematical concepts; (2) the potentials and links between fuzzy logic and probability logic that have not been discussed in one document in literature; (3) representation of real-life random and fuzzy uncertainties and ambiguities that arise in data-driven real-life problems, due to uncertain mathematical and vague verbal terms in datasets.

This paper mainly focuses on (1) a generalized treatment of fuzzy sets of type $n$, where $n$ is an integer larger than or equal to $1$, with an example, mathematical discussions, and real-life interpretation of the given mathematical concepts; (2) the potentials and links between fuzzy logic and probability logic that have not been discussed in one document in literature; (3) representation of real-life random and fuzzy uncertainties and ambiguities that arise in data-driven real-life problems, due to uncertain mathematical and vague verbal terms in datasets.
翻訳日:2022-10-04 15:16:19 公開日:2022-09-29
# 心理分析駆動コンピューティングの概念と実験

Concepts and Experiments on Psychoanalysis Driven Computing ( http://arxiv.org/abs/2210.00850v1 )

ライセンス: Link先を確認
Minas Gadalla, Sotiris Nikoletseas, Jos\'e Roberto de A. Amazonas, Jos\'e D. P. Rolim(参考訳) 本研究では,テキストベースの対話型メディアにおけるヒューマンファクターとユーザ知覚の効果的な取り込みについて検討する。 このような文脈では、ユーザのテキストの信頼性はしばしば行動的および感情的な次元によって損なわれる。 この目的のために、計算心理言語学、人格特性、認知心理学的手法など、そのようなシステムに心理学的アプローチを導入するためのいくつかの試みがなされている。 対照的に,本手法は精神分析に基づくアプローチを採用しており,特にラカン語の談話タイプの概念を用いて,テキストの特徴,品質,内容を捉え,深く理解し,その信頼性を評価する。 我々の知る限り、計算手法と精神分析を体系的に組み合わせたのはこれが初めてである。 このような精神分析の枠組みは、人間の個性、行動、表現のより深い原始的な要素に対処するので、通常の方法よりも根本的に効果的であると考えています。 実際、この研究は、幅広い影響と多様な応用を含む、精神分析駆動インタラクティブテクノロジーの新しいパラダイムを形成する最初の試みである。 この一般的なアプローチを例示するために,偽ニュース検出のケーススタディに適用する。我々はまず,よく知られたmyers-briggs型指標(mbti)パーソナリティ型手法のいくつかの制限を実証し,その後,lacanian discourses精神分析アプローチに基づくユーザテキストの分析と偽ニュースの検出方法を提案し,評価する。

This research investigates the effective incorporation of the human factor and user perception in text-based interactive media. In such contexts, the reliability of user texts is often compromised by behavioural and emotional dimensions. To this end, several attempts have been made in the state of the art, to introduce psychological approaches in such systems, including computational psycholinguistics, personality traits and cognitive psychology methods. In contrast, our method is fundamentally different since we employ a psychoanalysis-based approach; in particular, we use the notion of Lacanian discourse types, to capture and deeply understand real (possibly elusive) characteristics, qualities and contents of texts, and evaluate their reliability. As far as we know, this is the first time computational methods are systematically combined with psychoanalysis. We believe such psychoanalytic framework is fundamentally more effective than standard methods, since it addresses deeper, quite primitive elements of human personality, behaviour and expression which usually escape methods functioning at "higher", conscious layers. In fact, this research is a first attempt to form a new paradigm of psychoanalysis-driven interactive technologies, with broader impact and diverse applications. To exemplify this generic approach, we apply it to the case-study of fake news detection; we first demonstrate certain limitations of the well-known Myers-Briggs Type Indicator (MBTI) personality type method, and then propose and evaluate our new method of analysing user texts and detecting fake news based on the Lacanian discourses psychoanalytic approach.
翻訳日:2022-10-04 15:07:09 公開日:2022-09-29
# I Speak, You Verify: 信頼できるニューラルプログラム合成を目指して

I Speak, You Verify: Toward Trustworthy Neural Program Synthesis ( http://arxiv.org/abs/2210.00848v1 )

ライセンス: Link先を確認
Darren Key, Wen-Ding Li, Kevin Ellis(参考訳) 我々は,ソースコードの大規模言語モデルに基づくプログラム合成器の信頼性と全体的な精度向上のためのアプローチを開発する。 プログラム問題の自然言語記述を与えられた場合,提案手法は,プログラムの振る舞いを規定する候補述語と候補述語の両方をサンプリングする。 我々は、プログラムと述語の間の合意を分析し、どのプログラムが正しい可能性が高いかを判断し、言語モデルがそもそもプログラム問題を解決できるかどうかを判断することを学ぶ。 この後者のキャパシティは、広義のリコールよりも高い精度を優先する: システムが正しいと確信している場合にのみプログラムを提案することによって、信頼を育む。

We develop an approach for improving the trustworthiness and overall accuracy of program synthesizers based on large language models for source code. Given a natural language description of a programming problem, our method samples both candidate programs as well as candidate predicates specifying how the program should behave. We learn to analyze the agreement between programs and predicates to judge both which program is most likely to be correct, and also judge whether the language model is able to solve the programming problem in the first place. This latter capacity allows favoring high precision over broad recall: fostering trust by only proposing a program when the system is certain that it is correct.
翻訳日:2022-10-04 14:33:36 公開日:2022-09-29
# 非凸行列分解は測地学的凸である:リーマン的視点による固定ランク行列最適化のための大域的ランドスケープ解析

Nonconvex Matrix Factorization is Geodesically Convex: Global Landscape Analysis for Fixed-rank Matrix Optimization From a Riemannian Perspective ( http://arxiv.org/abs/2209.15130v1 )

ライセンス: Link先を確認
Yuetian Luo and Nicolas Garcia Trillos(参考訳) 固定ランク正半定値(PSD)制約を用いた一般行列最適化問題について検討する。 ブラー・モンティロ分解を行い、ユークリッド計量を備えた全空間を持つ探索空間において特定のリーマン商幾何学を考える。 原目的 f が標準の強い凸性と滑らか性を満たすとき、リーマン商幾何学の下での分解対象の大域的な風景を特徴づける。 探索空間全体を3つの領域に分けることができることを示す: (R1) 対象パラメータの近傍の領域、(R) 分解対象が地理的に凸で滑らかな領域、(R2) 厳密なサドル点の近傍を含む領域、(R3) 残りの領域、(R3) 因子化対象が大きな勾配を持つ領域。 我々の知る限りでは、これはリーマン商幾何の下でのバーラー・モンテイロ分解対象の最初の世界的ランドスケープ解析である。 以上の結果から,バニラ勾配降下がバニラ-モンティロ因子分解下で優れた性能を示す完全な幾何学的説明が得られた。 f がより制限された厳密な凸性を満たすとき、分解対象が測地的に凸であるような局所最小化近傍が存在することを示す。 この結果を証明するために,最小二乗目的の行列分解問題の包括的ランドスケープ解析を行い,重要な橋梁として機能する。 我々の結論はまた、 Y の最小特異値の半径 1/3 の Y 中心の測地球はリーマン商幾何の下で設定された測地凸であり、これは圏として、バーレス=ヴァッサーシュタイン空間における凸半径の定量的な境界をも意味している、という独立な関心の結果に基づいている。 得られる凸半径は定数までシャープである。

We study a general matrix optimization problem with a fixed-rank positive semidefinite (PSD) constraint. We perform the Burer-Monteiro factorization and consider a particular Riemannian quotient geometry in a search space that has a total space equipped with the Euclidean metric. When the original objective f satisfies standard restricted strong convexity and smoothness properties, we characterize the global landscape of the factorized objective under the Riemannian quotient geometry. We show the entire search space can be divided into three regions: (R1) the region near the target parameter of interest, where the factorized objective is geodesically strongly convex and smooth; (R2) the region containing neighborhoods of all strict saddle points; (R3) the remaining regions, where the factorized objective has a large gradient. To our best knowledge, this is the first global landscape analysis of the Burer-Monteiro factorized objective under the Riemannian quotient geometry. Our results provide a fully geometric explanation for the superior performance of vanilla gradient descent under the Burer-Monteiro factorization. When f satisfies a weaker restricted strict convexity property, we show there exists a neighborhood near local minimizers such that the factorized objective is geodesically convex. To prove our results we provide a comprehensive landscape analysis of a matrix factorization problem with a least squares objective, which serves as a critical bridge. Our conclusions are also based on a result of independent interest stating that the geodesic ball centered at Y with a radius 1/3 of the least singular value of Y is a geodesically convex set under the Riemannian quotient geometry, which as a corollary, also implies a quantitative bound of the convexity radius in the Bures-Wasserstein space. The convexity radius obtained is sharp up to constants.
翻訳日:2022-10-03 17:05:57 公開日:2022-09-29
# 専門家からの祝福 - コングラウンド環境における超強化学習

Blessing from Experts: Super Reinforcement Learning in Confounded Environments ( http://arxiv.org/abs/2209.15448v1 )

ライセンス: Link先を確認
Jiayi Wang, Zhengling Qi, Chengchun Shi(参考訳) 本稿では,観察したアクションをインプットとして,強化ポリシー学習を行うバッチ学習にスーパー強化学習を導入する。 計測されていない共同創設者の存在下では、観測データに記録された人間の専門家による勧告により、観測されていない情報の回復が可能になる。 政策探索にこの情報を含めると、提案された超強化学習は、標準的な最適政策と行動1(例えば専門家の推薦)の両方を上回ることが保証される超政治をもたらす。 さらに、超ポリティシー発見における未測定の共起問題に対処するために、非パラメトリック識別結果が多数確立されている。 最後に,超ポリティカル学習アルゴリズムを2つ開発し,それに対応する有限サンプル後悔保証を導出する。

We introduce super reinforcement learning in the batch setting, which takes the observed action as input for enhanced policy learning. In the presence of unmeasured confounders, the recommendations from human experts recorded in the observed data allow us to recover certain unobserved information. Including this information in the policy search, the proposed super reinforcement learning will yield a super-policy that is guaranteed to outperform both the standard optimal policy and the behavior one (e.g., the expert's recommendation). Furthermore, to address the issue of unmeasured confounding in finding super-policies, a number of non-parametric identification results are established. Finally, we develop two super-policy learning algorithms and derive their corresponding finite-sample regret guarantees.
翻訳日:2022-10-03 17:01:30 公開日:2022-09-29
# Hinode/SOT-SPとSDO/HMIの大規模空間交叉校正

Large-Scale Spatial Cross-Calibration of Hinode/SOT-SP and SDO/HMI ( http://arxiv.org/abs/2209.15036v1 )

ライセンス: Link先を確認
David F. Fouhey and Richard E. L. Higgins and Spiro K. Antiochos and Graham Barnes and Marc L. DeRosa and J. Todd Hoeksema and K. D. Leka and Yang Liu and Peter W. Schuck and Tamas I. Gombosi(参考訳) 本研究では,Hinode/SOT-SPとSDO/HMI機器のメタデータの相互校正について検討する。 これらのデータセットの正確な校正は、入力間研究と学習に基づく磁図システムに必要な対応を与え、物理的に測定可能な光球磁場ベクトルに必要である。 我々は,各楽器のパイプラインからの画像間の対応に幾何モデルに頑健に適合させることにより,この問題にアプローチする。 この技術はコンピュータビジョンでは一般的であるが、Hinode/SOT-SPのような走査スリット分光データを使用するにはいくつかの重要な詳細が必要である。 この手法を、Hinodeミッションの10年間にわたるデータに適用する。 以上の結果から,レベル2Hinode/SOT-SPデータの修正が提案されている。 まず、約2700のスキャン結果から、Hinode/SOT-SP Level 2データのピクセルサイズが約1%誤っていることが示唆された。 第2に、12,000以上のスキャンを分析してみると、ポインティング情報は強いバイアスを持つ数十のアーク秒によって誤っていることが分かる。 これらの補正の回帰は、熱的効果がヒノード/sot-spのポインティングデータに世俗的および周期的ドリフトを引き起こしたことを示している。 解決策は2つあります まず、SDO/HMIデータと直接協調することで、多くのHinode/SOT-SPスキャンのアライメントを改善することができる。 第二に、ポインティング誤差は予測可能であるので、単純なポストホック補正はポインティングを大幅に改善することができる。 我々は、この更新校正が研究と解釈に必要な物理データ製品に与える影響を例示して結論付ける。 この結果から, 対向誤差は放射電流密度の推定において半球バイアスを引き起こすことが示唆された。

We investigate the cross-calibration of the Hinode/SOT-SP and SDO/HMI instrument meta-data, specifically the correspondence of the scaling and pointing information. Accurate calibration of these datasets gives the correspondence needed by inter-instrument studies and learning-based magnetogram systems, and is required for physically-meaningful photospheric magnetic field vectors. We approach the problem by robustly fitting geometric models on correspondences between images from each instrument's pipeline. This technique is common in computer vision, but several critical details are required when using scanning slit spectrograph data like Hinode/SOT-SP. We apply this technique to data spanning a decade of the Hinode mission. Our results suggest corrections to the published Level 2 Hinode/SOT-SP data. First, an analysis on approximately 2,700 scans suggests that the reported pixel size in Hinode/SOT-SP Level 2 data is incorrect by around 1%. Second, analysis of over 12,000 scans show that the pointing information is often incorrect by dozens of arcseconds with a strong bias. Regression of these corrections indicates that thermal effects have caused secular and cyclic drift in Hinode/SOT-SP pointing data over its mission. We offer two solutions. First, direct co-alignment with SDO/HMI data via our procedure can improve alignments for many Hinode/SOT-SP scans. Second, since the pointing errors are predictable, simple post-hoc corrections can substantially improve the pointing. We conclude by illustrating the impact of this updated calibration on derived physical data products needed for research and interpretation. Among other things, our results suggest that the pointing errors induce a hemispheric bias in estimates of radial current density.
翻訳日:2022-10-03 16:53:18 公開日:2022-09-29
# Cryo-EMにおける変形可能な原子モデルの不均一な再構成

Heterogeneous reconstruction of deformable atomic models in Cryo-EM ( http://arxiv.org/abs/2209.15121v1 )

ライセンス: Link先を確認
Youssef Nashed, Ariana Peck, Julien Martel, Axel Levy, Bongjin Koo, Gordon Wetzstein, Nina Miolane, Daniel Ratner, Fr\'ed\'eric Poitevin(参考訳) 低温電子顕微鏡(cryo-EM)は、生体分子の構造的不均一性を研究するユニークな機会を提供する。 原子モデルでこの不均一性を説明することは、それらの機能的メカニズムを理解するのに役立ちますが、構造空間(原子3次元カルデシアン座標の空間)のサイズと頑丈さは、大きな課題を示します。 本稿では,正規モード解析により変形を一握りの集団運動に還元した原子論的表現に基づく不均質再構成法について述べる。 実装にはオートエンコーダを使用します。 エンコーダは、通常モードに沿った運動の振幅と、画像の中心と分子の中心との間の2dシフトを共同で推定する。 物理に基づくデコーダは、原子レベルで容易に解釈可能な不均一性の表現を集約する。 本稿では,アデニル酸キナーゼのオープンからクローズド構造への遷移をシミュレーションした軌道に沿って,異なる分布に対応する3つの合成データセットについて述べる。 提案手法は原子レベルの精度で中間原子モデルを再カプセル化することができることを示す。

Cryogenic electron microscopy (cryo-EM) provides a unique opportunity to study the structural heterogeneity of biomolecules. Being able to explain this heterogeneity with atomic models would help our understanding of their functional mechanisms but the size and ruggedness of the structural space (the space of atomic 3D cartesian coordinates) presents an immense challenge. Here, we describe a heterogeneous reconstruction method based on an atomistic representation whose deformation is reduced to a handful of collective motions through normal mode analysis. Our implementation uses an autoencoder. The encoder jointly estimates the amplitude of motion along the normal modes and the 2D shift between the center of the image and the center of the molecule . The physics-based decoder aggregates a representation of the heterogeneity readily interpretable at the atomic level. We illustrate our method on 3 synthetic datasets corresponding to different distributions along a simulated trajectory of adenylate kinase transitioning from its open to its closed structures. We show for each distribution that our approach is able to recapitulate the intermediate atomic models with atomic-level accuracy.
翻訳日:2022-10-03 16:52:49 公開日:2022-09-29
# ソフトバリアによるハード制約の強化:未知確率環境における安全強化学習

Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement Learning in Unknown Stochastic Environments ( http://arxiv.org/abs/2209.15090v1 )

ライセンス: Link先を確認
Yixuan Wang, Simon Sinong Zhan, Ruochen Jiao, Zhilu Wang, Wanxin Jin, Zhuoran Yang, Zhaoran Wang, Chao Huang, Qi Zhu(参考訳) システム状態が特定の非安全領域に到達しないことを要求される厳しい制約の下で、未知の確率環境における強化学習(rl)エージェントの安全性を確保することは極めて困難である。 CMDP(Constrained Markov Decision Process)パラダイムに基づくような、多くの一般的な安全なRL手法は、コスト関数の安全性違反を定式化し、しきい値の下で累積コストの期待を制限しようとする。 しかし,このような安全侵害コストの制約を間接的に受け継いで,難到達性に基づく安全制約を効果的に捉えて実施することは困難である。 本研究では,厳密な安全性制約を明示的にエンコードするためにバリア関数という概念を活用し,環境が未知であることを考慮し,それらを \emph{generative-model-based soft barrier function} の設計に緩和する。 このようなソフトバリアに基づき,安全確率最適化により安全でない領域を効果的に回避しつつ,環境を学習し,制御ポリシーを最適化できる安全なrl手法を提案する。 一連の実験により,本手法は安全制約を効果的に適用し,CMDPベースのベースライン法をシミュレーションにより測定したシステム安全率で著しく上回っていることが示された。

It is quite challenging to ensure the safety of reinforcement learning (RL) agents in an unknown and stochastic environment under hard constraints that require the system state not to reach certain specified unsafe regions. Many popular safe RL methods such as those based on the Constrained Markov Decision Process (CMDP) paradigm formulate safety violations in a cost function and try to constrain the expectation of cumulative cost under a threshold. However, it is often difficult to effectively capture and enforce hard reachability-based safety constraints indirectly with such constraints on safety violation costs. In this work, we leverage the notion of barrier function to explicitly encode the hard safety constraints, and given that the environment is unknown, relax them to our design of \emph{generative-model-based soft barrier functions}. Based on such soft barriers, we propose a safe RL approach that can jointly learn the environment and optimize the control policy, while effectively avoiding unsafe regions with safety probability optimization. Experiments on a set of examples demonstrate that our approach can effectively enforce hard safety constraints and significantly outperform CMDP-based baseline methods in system safe rate measured via simulations.
翻訳日:2022-10-03 16:52:32 公開日:2022-09-29
# 補体機能化による分子プレトレーニングの改善

Improving Molecular Pretraining with Complementary Featurizations ( http://arxiv.org/abs/2209.15101v1 )

ライセンス: Link先を確認
Yanqiao Zhu, Dingshuo Chen, Yuanqi Du, Yingze Wang, Qiang Liu, Shu Wu(参考訳) 大量のラベルのないデータから分子表現を学習する分子前訓練は、計算化学や創薬における様々な課題を解決するための重要なパラダイムとなっている。 近年,1dスマイル弦,2dグラフ,3dジオメトリなど,分子運動の異なる分子前訓練が盛んに行われている。 しかし、分子前訓練における分子の破砕とそれに対応する神経構造の役割はほとんど検討されていない。 本稿では, キラリティ分類と芳香族環計数という2つのケーススタディを通じて, 異なる加工技術が化学情報を異なる方法で伝達することを示す。 そこで本研究では,この知見を踏まえて,相補的フィギュライゼーション(moco)を用いた簡便で効果的な分子プリトレーニングフレームワークを提案する。 MOCOは、互いに補完する複数の成果化を包括的に活用し、幅広い分子特性予測タスクにおいて1つまたは2つの成果化のみに依存する既存の最先端モデルより優れている。

Molecular pretraining, which learns molecular representations over massive unlabeled data, has become a prominent paradigm to solve a variety of tasks in computational chemistry and drug discovery. Recently, prosperous progress has been made in molecular pretraining with different molecular featurizations, including 1D SMILES strings, 2D graphs, and 3D geometries. However, the role of molecular featurizations with their corresponding neural architectures in molecular pretraining remains largely unexamined. In this paper, through two case studies -- chirality classification and aromatic ring counting -- we first demonstrate that different featurization techniques convey chemical information differently. In light of this observation, we propose a simple and effective MOlecular pretraining framework with COmplementary featurizations (MOCO). MOCO comprehensively leverages multiple featurizations that complement each other and outperforms existing state-of-the-art models that solely relies on one or two featurizations on a wide range of molecular property prediction tasks.
翻訳日:2022-10-03 16:52:07 公開日:2022-09-29
# 拡散確率モデルを用いた20$\times$ Speedupのための低線量CT

Low-Dose CT Using Denoising Diffusion Probabilistic Model for 20$\times$ Speedup ( http://arxiv.org/abs/2209.15136v1 )

ライセンス: Link先を確認
Wenjun Xia and Qing Lyu and Ge Wang(参考訳) 近年の放射線学分野において,低線量CT(LDCT)が重要視されている。 LDCTは、電離放射線による患者の健康リスクを低減させるが、信号対雑音比(SNR)が低く、診断性能に悪影響を及ぼす可能性がある。 本稿では,LDCTデノナイジング性能を改善するために,条件付きデノナイジング拡散確率モデル(DDPM)を導入し,高い計算効率で良好な結果を示す。 具体的には、オリジナルのDDPMモデルの高サンプリングコストを考えると、高速常微分方程式(ODE)ソルバを改良されたサンプリング効率に適用する。 実験の結果,加速DDPMは画質を損なうことなく20倍のスピードアップを達成できることがわかった。

Low-dose computed tomography (LDCT) is an important topic in the field of radiology over the past decades. LDCT reduces ionizing radiation-induced patient health risks but it also results in a low signal-to-noise ratio (SNR) and a potential compromise in the diagnostic performance. In this paper, to improve the LDCT denoising performance, we introduce the conditional denoising diffusion probabilistic model (DDPM) and show encouraging results with a high computational efficiency. Specifically, given the high sampling cost of the original DDPM model, we adapt the fast ordinary differential equation (ODE) solver for a much-improved sampling efficiency. The experiments show that the accelerated DDPM can achieve 20x speedup without compromising image quality.
翻訳日:2022-10-03 16:51:53 公開日:2022-09-29
# 動的潜在空間モデルに対する構造的最適変分推論

Structured Optimal Variational Inference for Dynamic Latent Space Models ( http://arxiv.org/abs/2209.15117v1 )

ライセンス: Link先を確認
Peng Zhao, Anirban Bhattacharya, Debdeep Pati and Bani K. Mallick(参考訳) 我々は動的ネットワークのための潜在空間モデルについて検討し、その目的は潜在位置のペアワイズ内積を推定することである。 後方推定と計算スケーラビリティのバランスをとるために,動的ネットワークの時間依存特性を利用して計算と推論を容易にする構造的平均場変分推論フレームワークを提案する。 さらに,各ブロックのメッセージパス型更新によって,実装が容易なブロック座標アルゴリズムが開発され,イテレーション毎の複雑性はノード数や時間点数と線形である。 両方向の潜伏距離の学習を容易にするため,文献とは異なる遷移変化に先立ってガンマを採用する。 最適性を検証するために,提案する変分推論手法の変分リスクが,ある条件下での最小最適速度に達することを実証する。 経路上では、ミニマックスの下限を導出するが、これは独立した関心を持つかもしれない。 我々の知る限りでは、これは動的潜在空間モデルのための最初の実験である。 シミュレーションと実データ解析は,提案手法の有効性とアルゴリズムの有効性を示す。 最後に,提案手法は,潜在ノードのスケールがノード的に学習される場合にも容易に拡張できる。

We consider a latent space model for dynamic networks, where our objective is to estimate the pairwise inner products of the latent positions. To balance posterior inference and computational scalability, we present a structured mean-field variational inference framework, where the time-dependent properties of the dynamic networks are exploited to facilitate computation and inference. Additionally, an easy-to-implement block coordinate ascent algorithm is developed with message-passing type updates in each block, whereas the complexity per iteration is linear with the number of nodes and time points. To facilitate learning of the pairwise latent distances, we adopt a Gamma prior for the transition variance different from the literature. To certify the optimality, we demonstrate that the variational risk of the proposed variational inference approach attains the minimax optimal rate under certain conditions. En route, we derive the minimax lower bound, which might be of independent interest. To best of our knowledge, this is the first such exercise for dynamic latent space models. Simulations and real data analysis demonstrate the efficacy of our methodology and the efficiency of our algorithm. Finally, our proposed methodology can be readily extended to the case where the scales of the latent nodes are learned in a nodewise manner.
翻訳日:2022-10-03 16:35:48 公開日:2022-09-29
# 強化学習におけるハイパーパラメータ調整のためのオンライン重み付きQアンサンブル

Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in Reinforcement Learning ( http://arxiv.org/abs/2209.15078v1 )

ライセンス: Link先を確認
Renata Garcia and Wouter Caarls(参考訳) 強化学習はロボット制御を学習するための有望なパラダイムであり、複雑な制御ポリシーをダイナミクスモデルを必要とせずに学習することができる。 しかし,最先端のアルゴリズムでも最適性能を調整することは困難である。 本稿では,複数の強化学習エージェントのアンサンブルを用いて,異なるハイパーパラメータのセットと,最高の実行セットをオンラインで選択するためのメカニズムを提案する。 文献では、アンサンブル技術は一般に性能向上に使用されるが、現在の研究はハイパーパラメータチューニングの労力の削減に特化している。 さらに,1つのロボットシステム上でのオンライン学習を目標としており,複数のシミュレータを並列に実行する必要はない。 この考え方は一般的なものだが、Deep Deterministic Policy Gradientが選択されたモデルであり、連続的なアクション設定では優れたパフォーマンスを持つが、高分散が知られている深層学習アクター批判的手法である。 オンラインの重み付けq-ensembleアプローチと,文献におけるq平均アンサンブル戦略を比較し,ハイパーパラメータチューニング除去における新たなアプローチの利点を実証した。 実世界のシステムへの適用性は、二足歩行ロボットのハーフチーターとスイマーという、一般的なロボットベンチマーク環境で検証された。 オンライン重み付きq-ensembleは、ランダムパラメータ化を用いたq平均アンサンブルと比較して、全体的な低い分散と優れた結果を示した。

Reinforcement learning is a promising paradigm for learning robot control, allowing complex control policies to be learned without requiring a dynamics model. However, even state of the art algorithms can be difficult to tune for optimum performance. We propose employing an ensemble of multiple reinforcement learning agents, each with a different set of hyperparameters, along with a mechanism for choosing the best performing set(s) on-line. In the literature, the ensemble technique is used to improve performance in general, but the current work specifically addresses decreasing the hyperparameter tuning effort. Furthermore, our approach targets on-line learning on a single robotic system, and does not require running multiple simulators in parallel. Although the idea is generic, the Deep Deterministic Policy Gradient was the model chosen, being a representative deep learning actor-critic method with good performance in continuous action settings but known high variance. We compare our online weighted q-ensemble approach to q-average ensemble strategies addressed in literature using alternate policy training, as well as online training, demonstrating the advantage of the new approach in eliminating hyperparameter tuning. The applicability to real-world systems was validated in common robotic benchmark environments: the bipedal robot half cheetah and the swimmer. Online Weighted Q-Ensemble presented overall lower variance and superior results when compared with q-average ensembles using randomized parameterizations.
翻訳日:2022-10-03 16:35:28 公開日:2022-09-29
# 滑らかな活性化を伴う深層学習モデルの厳密な凸性

Restricted Strong Convexity of Deep Learning Models with Smooth Activations ( http://arxiv.org/abs/2209.15106v1 )

ライセンス: Link先を確認
Arindam Banerjee, Pedro Cisneros-Velarde, Libin Zhu, Mikhail Belkin(参考訳) 本稿では,スムースアクティベーション機能を有する深層学習モデルの最適化の問題を考える。 初期化」の観点からは,この問題に関する影響力のある結果が存在するが,この問題に新たな光を当てた。 特に、$L$層、$m$幅、$\sigma_0^2$初期化分散を持つモデルに対して、2つの重要な技術的貢献をする。 まず、適切な$\sigma_0^2$ に対して、そのようなモデルのヘッシアンのスペクトルノルムの上界に$o(\frac{\text{poly}(l)}{\sqrt{m}})$ を定め、それ以前の結果をかなり鋭くする。 次に,予測器の平均勾配の正方形ノルムが正方形損失に対して$\omega(\frac{\text{poly}(l)}{\sqrt{m}})である限り,制限付き強凸性(rsc)に基づく最適化の新しい解析法を提案する。 より一般的な損失に対する結果も提示する。 RSC に基づく解析では `‘near initialization’ という観点は不要であり、勾配降下(GD)に対する幾何収束を保証する。 我々の知識を最大限に活用するために、我々は、深層学習モデルのためのRCCに基づくGDの幾何収束を確立するための最初の結果であり、広く使われているニューラルタンジェントカーネル(NTK)に依存しない収束のための代替条件となる。 理論的進歩を支える予備的な実験結果を共有する。

We consider the problem of optimization of deep learning models with smooth activation functions. While there exist influential results on the problem from the ``near initialization'' perspective, we shed considerable new light on the problem. In particular, we make two key technical contributions for such models with $L$ layers, $m$ width, and $\sigma_0^2$ initialization variance. First, for suitable $\sigma_0^2$, we establish a $O(\frac{\text{poly}(L)}{\sqrt{m}})$ upper bound on the spectral norm of the Hessian of such models, considerably sharpening prior results. Second, we introduce a new analysis of optimization based on Restricted Strong Convexity (RSC) which holds as long as the squared norm of the average gradient of predictors is $\Omega(\frac{\text{poly}(L)}{\sqrt{m}})$ for the square loss. We also present results for more general losses. The RSC based analysis does not need the ``near initialization" perspective and guarantees geometric convergence for gradient descent (GD). To the best of our knowledge, ours is the first result on establishing geometric convergence of GD based on RSC for deep learning models, thus becoming an alternative sufficient condition for convergence that does not depend on the widely-used Neural Tangent Kernel (NTK). We share preliminary experimental results supporting our theoretical advances.
翻訳日:2022-10-03 16:35:04 公開日:2022-09-29
# 増補バックドア

Augmentation Backdoors ( http://arxiv.org/abs/2209.15139v1 )

ライセンス: Link先を確認
Joseph Rance, Yiren Zhao, Ilia Shumailov, Robert Mullins(参考訳) データ拡張は、モデル一般化を改善するために広く使用される。 しかし、拡張メソッドを実装するための外部ライブラリへの依存は、機械学習パイプラインに脆弱性をもたらす。 トレーニング用の修正データセットを提供することで、バックドアを機械学習モデルに挿入できることはよく知られている。 したがって拡張は、初期バックドア付きデータセットを必要とせずに、この変更を実行するための完璧な機会を提供する。 本稿では,データ拡張に隠密に挿入できる3つのバックドア攻撃について述べる。 我々の攻撃は、異なるタイプのコンピュータビジョン拡張変換を使用してバックドアを挿入し、単純な画像変換、ganベースの拡張、合成ベースの拡張を含む。 このような拡張変換を使ってバックドアを挿入することで、任意のバックドア機能をサポートしながら、バックドアの検出が難しくなります。 我々は、コンピュータビジョンベンチマークに対する攻撃を評価し、攻撃者が悪意ある拡張ルーチンを通じてバックドアを導入することができることを示す。

Data augmentation is used extensively to improve model generalisation. However, reliance on external libraries to implement augmentation methods introduces a vulnerability into the machine learning pipeline. It is well known that backdoors can be inserted into machine learning models through serving a modified dataset to train on. Augmentation therefore presents a perfect opportunity to perform this modification without requiring an initially backdoored dataset. In this paper we present three backdoor attacks that can be covertly inserted into data augmentation. Our attacks each insert a backdoor using a different type of computer vision augmentation transform, covering simple image transforms, GAN-based augmentation, and composition-based augmentation. By inserting the backdoor using these augmentation transforms, we make our backdoors difficult to detect, while still supporting arbitrary backdoor functionality. We evaluate our attacks on a range of computer vision benchmarks and demonstrate that an attacker is able to introduce backdoors through just a malicious augmentation routine.
翻訳日:2022-10-03 16:34:34 公開日:2022-09-29
# 2.5D Modified EfficientDetを用いたコンピュートトトモグラフィーにおけるエアウェイセグメンテーションのオープンソースツール:ATM22チャレンジへの貢献

Open-source tool for Airway Segmentation in Computed Tomography using 2.5D Modified EfficientDet: Contribution to the ATM22 Challenge ( http://arxiv.org/abs/2209.15094v1 )

ライセンス: Link先を確認
Diedre Carmo, Leticia Rittner and Roberto Lotufo(参考訳) CT画像における気道セグメンテーションは肺疾患の解析に利用できるが、手動セグメンテーションは労働集約的であり、専門家の知識に依存している。 この原稿は、MICCAIの2022年のエアウェイツリーモデリングチャレンジへの私たちの貢献を詳述しています。 提案手法では,修正EfficientDet (MEDSeg) に基づく先進的な深層学習アーキテクチャを用いて,2進気道セグメンテーションのためのスクラッチからのトレーニングを行った。 本手法は, 内部検証で90.72 dice, 外部検証で95.52 dice, 最終試験段階で93.49 diceを達成した。 当社のモデルとトレーニングされたウェイトを予測するためのオープンソースコードとpipパッケージはhttps://github.com/MICLab-Unicamp/medsegにある。

Airway segmentation in computed tomography images can be used to analyze pulmonary diseases, however, manual segmentation is labor intensive and relies on expert knowledge. This manuscript details our contribution to MICCAI's 2022 Airway Tree Modelling challenge, a competition of fully automated methods for airway segmentation. We employed a previously developed deep learning architecture based on a modified EfficientDet (MEDSeg), training from scratch for binary airway segmentation using the provided annotations. Our method achieved 90.72 Dice in internal validation, 95.52 Dice on external validation, and 93.49 Dice in the final test phase, while not being specifically designed or tuned for airway segmentation. Open source code and a pip package for predictions with our model and trained weights are in https://github.com/MICLab-Unicamp/medseg.
翻訳日:2022-10-03 16:28:38 公開日:2022-09-29
# AICCA: AI駆動のクラウド分類Atlas

AICCA: AI-driven Cloud Classification Atlas ( http://arxiv.org/abs/2209.15096v1 )

ライセンス: Link先を確認
Takuya Kurihana, Elisabeth Moyer, Ian Foster(参考訳) 雲は地球のエネルギー予算において重要な役割を果たし、その行動は将来の気候予測における最大の不確実性の一つである。 衛星による観測は雲の応答を理解するのに役立つはずだが、何十年もの間、多スペクトルの雲の画像は限られた使用しか受けられていなかった。 本研究は,畳み込みニューラルネットワークを用いた新しい自動教師なし雲分類手法により,衛星雲観測の次元性を低減する。 本手法は, 回転不変オートエンコーダと階層的凝集クラスタリングを組み合わせることで, クラウドテクスチャ間の有意義な区別を捉えるクラウドクラスタを生成する。 したがって、クラウドクラスは、場所、時間/シーズン、引き起こされた物理的特性、事前指定されたクラス定義に依存することなく定義される。 このアプローチは、NASAのAquaとTerraの計器であるMODIS(Moderate Resolution Imaging Spectroradiometer)から22年間の海洋画像(約800 TBのデータまたは198万のパッチ)を、約100 km x 100 km (128 x 128 pixels)のAI生成クラウドクラスに集約するAI駆動型クラウド分類アトラス(AICCA)を生成するために使用される。 AICCAクラスは空間情報を利用した意味ある区別を伴い,その結果として地理的分布が異なることを示し,例えば,北米と南米の西海岸沿いの成層丘デッキを捕獲した。 AICCAは、コンパクトな形式でマルチスペクトル画像に情報を提供し、クラウド組織のパターンをデータ駆動で診断し、数時間から数十年の時間スケールでクラウドの進化に関する洞察を提供し、コアデータへのアクセスを容易にすることで気候研究の民主化を支援する。

Clouds play an important role in the Earth's energy budget and their behavior is one of the largest uncertainties in future climate projections. Satellite observations should help in understanding cloud responses, but decades and petabytes of multispectral cloud imagery have to date received only limited use. This study reduces the dimensionality of satellite cloud observations by grouping them via a novel automated, unsupervised cloud classification technique by using a convolutional neural network. Our technique combines a rotation-invariant autoencoder with hierarchical agglomerative clustering to generate cloud clusters that capture meaningful distinctions among cloud textures, using only raw multispectral imagery as input. Thus, cloud classes are defined without reliance on location, time/season, derived physical properties, or pre-designated class definitions. We use this approach to generate a unique new cloud dataset, the AI-driven cloud classification atlas (AICCA), which clusters 22 years of ocean images from the Moderate Resolution Imaging Spectroradiometer (MODIS) on NASA's Aqua and Terra instruments - 800 TB of data or 198 million patches roughly 100 km x 100 km (128 x 128 pixels) - into 42 AI-generated cloud classes. We show that AICCA classes involve meaningful distinctions that employ spatial information and result in distinct geographic distributions, capturing, for example, stratocumulus decks along the West coasts of North and South America. AICCA delivers the information in multi-spectral images in a compact form, enables data-driven diagnosis of patterns of cloud organization, provides insight into cloud evolution on timescales of hours to decades, and helps democratize climate research by facilitating access to core data.
翻訳日:2022-10-03 16:28:19 公開日:2022-09-29
# 不変制約学習による自動データ拡張

Automatic Data Augmentation via Invariance-Constrained Learning ( http://arxiv.org/abs/2209.15031v1 )

ライセンス: Link先を確認
Ignacio Hounie, Luiz F. O. Chamon, Alejandro Ribeiro(参考訳) 対称性や変換への不変といった下層データ構造は、しばしば学習タスクのソリューションを改善するために利用される。 しかし、これらの特性をモデルや学習アルゴリズムに組み込むことは、困難で計算集約的です。 一方、データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。 ユビキタスであるにもかかわらず、その有効性は、どの変換を適用するか、いつ、どれくらい頻度で適用するかの選択に依存する。 実際、データ拡張の無差別な使用が、その利点を上回るバイアスをもたらすという経験的および理論的証拠がある。 この作業は、学習タスクを解きながら、データ拡張を自動的に適応することで、これらの問題に取り組む。 そのため、データの増大を不変制約学習問題として定式化し、モンテカルロ・マルコフ・チェイン(MCMC)サンプリングを利用して解決する。 その結果,データ拡張分布の事前検索を廃止するだけでなく,データ拡張が適用された場合に動的に制御する実用的なアルゴリズムが得られた。 実験では,CIFARデータセットの自動データ拡張ベンチマークにおいて,最新の結果が得られる手法の性能について述べる。 さらに、このアプローチは学習タスクの基礎となる実際の対称性についての洞察を集めるのに使うことができる。

Underlying data structures, such as symmetries or invariances to transformations, are often exploited to improve the solution of learning tasks. However, embedding these properties in models or learning algorithms can be challenging and computationally intensive. Data augmentation, on the other hand, induces these symmetries during training by applying multiple transformations to the input data. Despite its ubiquity, its effectiveness depends on the choices of which transformations to apply, when to do so, and how often. In fact, there is both empirical and theoretical evidence that the indiscriminate use of data augmentation can introduce biases that outweigh its benefits. This work tackles these issues by automatically adapting the data augmentation while solving the learning task. To do so, it formulates data augmentation as an invariance-constrained learning problem and leverages Monte Carlo Markov Chain (MCMC) sampling to solve it. The result is a practical algorithm that not only does away with a priori searches for augmentation distributions, but also dynamically controls if and when data augmentation is applied. Our experiments illustrate the performance of this method, which achieves state-of-the-art results in automatic data augmentation benchmarks for CIFAR datasets. Furthermore, this approach can be used to gather insights on the actual symmetries underlying a learning task.
翻訳日:2022-10-03 15:59:50 公開日:2022-09-29
# start small: 複数のサイズで学習することで、無からゲームレベルジェネレータをトレーニングする

Start Small: Training Game Level Generators from Nothing by Learning at Multiple Sizes ( http://arxiv.org/abs/2209.15052v1 )

ライセンス: Link先を確認
Yahia Zakaria, Magda Fayek, Mayada Hadhoud(参考訳) プロシージャレベルジェネレータはノイズからレベルを生成するツールである。 ジェネレータを構築するアプローチのひとつが機械学習だが、トレーニングデータのラリティを考慮すると、ジェネレータを無からトレーニングするために複数の方法が提案されている。 しかし、レベル生成タスクはフィードバックが少なく、ゲーム固有の補足報酬によって軽減されることが多い。 本稿では,小サイズから所望のサイズまで,複数のレベルから学習することで,無から無へと発電機を訓練する新しい手法を提案する。 このアプローチでは、補足的な報酬を避けるために、小さなサイズでフィードバックがより密集する観察現象を用いる。 また、様々なサイズの出力レベルにジェネレータを訓練するメリットも提示する。 このアプローチを生成フローネットワークを用いた制御型発電機の訓練に適用する。 また、生成フローネットワークと互換性のある多様性サンプリングを修正し、表現範囲を広げる。 その結果,1台のコモディティマシン上でのトレーニングの3時間29分から6時間11分(ゲーム依存)まで,ソコバン,ゼルダ,ダンガー・デイブの高品質な多様なレベルを多種多様なサイズで生成できることがわかった。 また,本実験の結果から,トレーニング中に使用不能なサイズの出力レベルも確認できた。

A procedural level generator is a tool that generates levels from noise. One approach to build generators is using machine learning, but given the training data rarity, multiple methods have been proposed to train generators from nothing. However, level generation tasks tend to have sparse feedback, which is commonly mitigated using game-specific supplemental rewards. This paper proposes a novel approach to train generators from nothing by learning at multiple level sizes starting from a small size up to the desired sizes. This approach employs the observed phenomenon that feedback is denser at smaller sizes to avoid supplemental rewards. It also presents the benefit of training generators to output levels at various sizes. We apply this approach to train controllable generators using generative flow networks. We also modify diversity sampling to be compatible with generative flow networks and to expand the expressive range. The results show that our methods can generate high-quality diverse levels for Sokoban, Zelda and Danger Dave for a variety of sizes, after only 3h 29min up to 6h 11min (depending on the game) of training on a single commodity machine. Also, the results show that our generators can output levels for sizes that were unavailable during training.
翻訳日:2022-10-03 15:59:29 公開日:2022-09-29
# 確率表現型時間グラフネットワーク

Provably expressive temporal graph networks ( http://arxiv.org/abs/2209.15059v1 )

ライセンス: Link先を確認
Amauri H. Souza, Diego Mesquita, Samuel Kaski, Vikas Garg(参考訳) 時間グラフネットワーク(TGN)は動的相互作用を埋め込むモデルとして注目されているが、その理論的基盤についてはほとんど知られていない。 本稿では、時間的歩行(WA-TGN)を集約するTGNと、繰り返しメモリモジュール(MP-TGN)を付加するローカルメッセージパッシング(MP-TGN)の2つの主要なカテゴリの表現力と限界に関する基礎的な結果を確立する。 具体的には、新しい構造はMP-TGNsとWA-TGNsの不適切さを明らかにし、どちらのカテゴリーも他方を仮定しないことを証明している。 我々は1-WL(Weisfeiler-Leman)テストを時間グラフに拡張し、最も強力なMP-TGNが時間WLと同じくらいの表現力を持つことを示す。 また,十分な深度MP-TGNはメモリの恩恵を受けられず,MP/WA-TGNはガースなどのグラフ特性を計算できないことを示す。 これらの理論的洞察は、注入的時間的メッセージパッシングと相対的な位置特徴を活用する新しいアーキテクチャであるPINTにつながります。 重要なことに、PINTはMP-TGNsとWA-TGNsよりも明らかに表現力が高い。 PINTは、いくつかの実世界のベンチマークで既存のTGNを著しく上回っている。

Temporal graph networks (TGNs) have gained prominence as models for embedding dynamic interactions, but little is known about their theoretical underpinnings. We establish fundamental results about the representational power and limits of the two main categories of TGNs: those that aggregate temporal walks (WA-TGNs), and those that augment local message passing with recurrent memory modules (MP-TGNs). Specifically, novel constructions reveal the inadequacy of MP-TGNs and WA-TGNs, proving that neither category subsumes the other. We extend the 1-WL (Weisfeiler-Leman) test to temporal graphs, and show that the most powerful MP-TGNs should use injective updates, as in this case they become as expressive as the temporal WL. Also, we show that sufficiently deep MP-TGNs cannot benefit from memory, and MP/WA-TGNs fail to compute graph properties such as girth. These theoretical insights lead us to PINT -- a novel architecture that leverages injective temporal message passing and relative positional features. Importantly, PINT is provably more expressive than both MP-TGNs and WA-TGNs. PINT significantly outperforms existing TGNs on several real-world benchmarks.
翻訳日:2022-10-03 15:59:04 公開日:2022-09-29
# インターベンショナルツリーの理解 : その仕組みと理由

Understanding Interventional TreeSHAP : How and Why it Works ( http://arxiv.org/abs/2209.15123v1 )

ライセンス: Link先を確認
Gabriel Laberge and Yann Pequignot(参考訳) 共有値はSHAPライブラリの強力な理論的背景と効率的な実装のため、解釈可能な機械学習ではユビキタスである。 これらの値を計算することで、不透明モデルの入力特徴の数に対して指数的なコストが生じる。 現在、Interventional TreeSHAPのような効率的な実装では、決定木の集合を説明するものとして、この指数的負担が軽減されている。 Interventional TreeSHAPの人気は高まっているが、なぜ機能するのかという公式な証明はいまだに欠けている。 このような証明は,アルゴリズムの透明性を高めるだけでなく,これらのアイデアのさらなる発展を促すことを目的としている。 特に,Interventional TreeSHAPの証明はShapley-Taylorインデックスに容易に適用できる。

Shapley values are ubiquitous in interpretable Machine Learning due to their strong theoretical background and efficient implementation in the SHAP library. Computing these values used to induce an exponential cost with respect to the number of input features of an opaque model. Now, with efficient implementations such as Interventional TreeSHAP, this exponential burden is alleviated assuming one is explaining ensembles of decision trees. Although Interventional TreeSHAP has risen in popularity, it still lacks a formal proof of how/why it works. We provide such proof with the aim of not only increasing the transparency of the algorithm but also to encourage further development of these ideas. Notably, our proof for Interventional TreeSHAP is easily adapted to Shapley-Taylor indices.
翻訳日:2022-10-03 15:58:40 公開日:2022-09-29
# 複雑ネットワークに関する推論:論理プログラミングのアプローチ

Reasoning about Complex Networks: A Logic Programming Approach ( http://arxiv.org/abs/2209.15067v1 )

ライセンス: Link先を確認
Paulo Shakarian, Gerardo I. Simari, Devon Callahan(参考訳) 近年, 複雑なネットワークに関する推論は, 商業製品の普及, 病気の普及, アイデアの拡散など, 数多くの応用から, 重要な研究課題となっている。 本稿では,前回の研究で提案されたデシデラタのセットを満たす論理プログラミングに基づく形式的手法であるmancalog言語について,複雑なネットワークにおける推論手法の開発を推奨する。 我々の知る限りでは、このような基準を満たす最初の形式主義である。 まず、最小限のモデル(マルチ属性分析が可能である)を見つけるアルゴリズムに焦点をあて、次に、このフォーマリズムを特定の現実のシナリオに適用する方法に着目する。 この目的に向けて,ソーシャルネットワークにおけるグループメンバーシップ決定の課題について検討する。ソーシャルネットワークと,ネットワーク内の一部のグループメンバーシップが知られているグループの集合が与えられた場合,残りのグループ・個人ペアのメンバシップの程度を判断したい。 米国の主要都市における犯罪者ギャングの現在のソーシャルネットワークを含む、現実世界の2つのデータセットで実験結果を得るためのプロトタイプ実装を開発した。 このケースでは,ノードへのメンバシップの割り当てによって,サブグループの検出やコアグループメンバの識別など,他のソーシャルネットワークマイニング技術と組み合わせることで,犯罪ギャングの問題をより深く理解することができることを示す。

Reasoning about complex networks has in recent years become an important topic of study due to its many applications: the adoption of commercial products, spread of disease, the diffusion of an idea, etc. In this paper, we present the MANCaLog language, a formalism based on logic programming that satisfies a set of desiderata proposed in previous work as recommendations for the development of approaches to reasoning in complex networks. To the best of our knowledge, this is the first formalism that satisfies all such criteria. We first focus on algorithms for finding minimal models (on which multi-attribute analysis can be done), and then on how this formalism can be applied in certain real world scenarios. Towards this end, we study the problem of deciding group membership in social networks: given a social network and a set of groups where group membership of only some of the individuals in the network is known, we wish to determine a degree of membership for the remaining group-individual pairs. We develop a prototype implementation that we use to obtain experimental results on two real world datasets, including a current social network of criminal gangs in a major U.S.\ city. We then show how the assignment of degree of membership to nodes in this case allows for a better understanding of the criminal gang problem when combined with other social network mining techniques -- including detection of sub-groups and identification of core group members -- which would not be possible without further identification of additional group members.
翻訳日:2022-10-03 15:34:22 公開日:2022-09-29
# OAK4XAI:デジタル農業におけるアウトオフボックスeXplainable AIのモデル

OAK4XAI: Model towards Out-Of-Box eXplainable Artificial Intelligence for Digital Agriculture ( http://arxiv.org/abs/2209.15104v1 )

ライセンス: Link先を確認
Quoc Hung Ngo, Tahar Kechadi, Nhien-An Le-Khac(参考訳) 最近の機械学習アプローチは人工知能(AI)の応用に有効である。 高い精度で堅牢な結果が得られる。 しかしながら、これらの手法のほとんどは、結果と決定を支持するために人間に理解可能な説明を提供していない。 彼らは通常ブラックボックスとして振る舞うが、どのように意思決定が行われたかを理解するのは容易ではない。 説明可能な人工知能(XAI)は、意思決定と訓練されたAIモデルに対して、人間に理解可能な説明を提供しようとしている。 例えば、デジタル農業では、関連するドメインは、背景知識に関係のない特異または入力の特徴をしばしば提示する。 農業データへのデータマイニングプロセスの適用は、結果(知識)につながり、説明が難しい。 本稿では,この問題に対処するための知識マップモデルとXAIフレームワーク(OAK4XAI)としてのオントロジー設計を提案する。 フレームワークは、プロセスのデータ分析の部分だけでなく、フレームワークのモジュールとして提供されるオントロジーと知識マップモデルを通じて、ドメイン知識の意味論的な側面も考慮します。 進行中のxai研究の多くは、与えられた特徴値がモデル決定にどのように寄与するかを、正確かつ口頭で説明することを目的としている。 しかし、提案するアプローチは、データマイニングモデルに関わる概念、アルゴリズム、および値の一貫性のある情報と定義を提供することに焦点を当てている。 我々は農業における知識を説明するために農業コンピューティングオントロジー(AgriComO)を構築した。 AgriComOはよく設計された構造であり、農業やコンピューティング分野に適した幅広い概念と変換を含んでいる。

Recent machine learning approaches have been effective in Artificial Intelligence (AI) applications. They produce robust results with a high level of accuracy. However, most of these techniques do not provide human-understandable explanations for supporting their results and decisions. They usually act as black boxes, and it is not easy to understand how decisions have been made. Explainable Artificial Intelligence (XAI), which has received much interest recently, tries to provide human-understandable explanations for decision-making and trained AI models. For instance, in digital agriculture, related domains often present peculiar or input features with no link to background knowledge. The application of the data mining process on agricultural data leads to results (knowledge), which are difficult to explain. In this paper, we propose a knowledge map model and an ontology design as an XAI framework (OAK4XAI) to deal with this issue. The framework does not only consider the data analysis part of the process, but it takes into account the semantics aspect of the domain knowledge via an ontology and a knowledge map model, provided as modules of the framework. Many ongoing XAI studies aim to provide accurate and verbalizable accounts for how given feature values contribute to model decisions. The proposed approach, however, focuses on providing consistent information and definitions of concepts, algorithms, and values involved in the data mining models. We built an Agriculture Computing Ontology (AgriComO) to explain the knowledge mined in agriculture. AgriComO has a well-designed structure and includes a wide range of concepts and transformations suitable for agriculture and computing domains.
翻訳日:2022-10-03 15:33:59 公開日:2022-09-29
# Harmの定量的な説明

A Quantitative Account of Harm ( http://arxiv.org/abs/2209.15111v1 )

ライセンス: Link先を確認
Sander Beckers, Hana Chockler, Joseph Y. Halpern(参考訳) 共用論文 (Beckers et al. 2022) において、我々は害の質的な概念を定義した。 実践的な応用では、しばしば害を定量化する必要があり、例えば、可能な介入の集合から有害なレストを選択したい場合もあります。 まず, 1 つの個人を含む決定論的文脈における害の定量的定義を提示する。次に, 一つの個人に対する危害の概念から, 個人に対する害を集約する「社会的危害」概念へと, 文脈に関する不確実性に対処する上での問題点を考える。 これを行うための「従順」な方法(単に個人に期待される損害を負わせ、すべての個人に期待される損害を和らげれば、直観的あるいは不適切な回答につながり、代替案を議論し、意思決定理論の文献から仕事を引き出すことができる。

In a companion paper (Beckers et al. 2022), we defined a qualitative notion of harm: either harm is caused, or it is not. For practical applications, we often need to quantify harm; for example, we may want to choose the lest harmful of a set of possible interventions. We first present a quantitative definition of harm in a deterministic context involving a single individual, then we consider the issues involved in dealing with uncertainty regarding the context and going from a notion of harm for a single individual to a notion of "societal harm", which involves aggregating the harm to individuals. We show that the "obvious" way of doing this (just taking the expected harm for an individual and then summing the expected harm over all individuals can lead to counterintuitive or inappropriate answers, and discuss alternatives, drawing on work from the decision-theory literature.
翻訳日:2022-10-03 15:33:37 公開日:2022-09-29
# 安全クリティカルレーン変更時の運転者の回避行動のモデル化:2次元時間対衝突と深部強化学習

Modeling driver's evasive behavior during safety-critical lane changes:Two-dimensional time-to-collision and deep reinforcement learning ( http://arxiv.org/abs/2209.15133v1 )

ライセンス: Link先を確認
Hongyu Guo, Kun Xie and Mehdi Keyvan-Ekbatani(参考訳) 車線変更は複雑な運転行動であり、しばしば安全クリティカルな状況を伴う。 本研究の目的は,交通シミュレーションや衝突回避システムの開発を容易にする車線変更関連回避行動モデルを開発することである。 本研究には安全パイロットモデル展開(SPMD)プログラムからの大規模連結車両データを用いた。 2d-ttc (2-dimensional time-to-collision) という新しいサロゲート安全対策が提案されている。 2d-ttcの有効性は,検出されたコンフリクトリスクとアーカイブされたクラッシュとの間に高い相関関係を示した。 連続的な行動空間上の逐次決定過程を学習するディープ決定論的ポリシー勾配(DDPG)アルゴリズムは、特定された安全クリティカルな状況における回避行動のモデル化に用いられた。 その結果, 縦方向と横方向の両方の回避行動の再現において, 提案モデルの優位性を示した。

Lane changes are complex driving behaviors and frequently involve safety-critical situations. This study aims to develop a lane-change-related evasive behavior model, which can facilitate the development of safety-aware traffic simulations and predictive collision avoidance systems. Large-scale connected vehicle data from the Safety Pilot Model Deployment (SPMD) program were used for this study. A new surrogate safety measure, two-dimensional time-to-collision (2D-TTC), was proposed to identify the safety-critical situations during lane changes. The validity of 2D-TTC was confirmed by showing a high correlation between the detected conflict risks and the archived crashes. A deep deterministic policy gradient (DDPG) algorithm, which could learn the sequential decision-making process over continuous action spaces, was used to model the evasive behaviors in the identified safety-critical situations. The results showed the superiority of the proposed model in replicating both the longitudinal and lateral evasive behaviors.
翻訳日:2022-10-03 15:33:19 公開日:2022-09-29
# ウェアラブルデバイスからのストレスモニタリングのための機械学習:体系的文献レビュー

Machine Learning for Stress Monitoring from Wearable Devices: A Systematic Literature Review ( http://arxiv.org/abs/2209.15137v1 )

ライセンス: Link先を確認
Gideon Vos, Kelly Trinh, Zoltan Sarnyai, Mostafa Rahimi Azghadi(参考訳) はじめに。 ストレス応答は主観的、心理的、客観的に測定可能な生物学的成分の両方を有する。 両者は人によって異なる表現が可能であり、一般的なストレス測定モデルの開発が複雑になる。 これは、期間とストレスレベルを正確に検出する機械学習モデルを構築するために使用できる、ラベル付きデータセットが存在しないことでさらに複雑になる。 本研究の目的は,ウェアラブルデバイスを用いたストレス検出・監視の現状と,応用可能な機械学習技術の利用状況について概説することである。 メソッド。 本研究では,ストレスと関連する機械学習手法を検出するために設計されたデータセットを,ウェアラブルセンサデータをストレスバイオマーカーとして活用した論文の体系的レビューとメタ分析を行った。 Google Scholar、Crossref、DOAJ、PubMedの電子データベースを検索し、24の項目を同定し、最終分析に含めた。 レビューされた作品は、公開利用可能なストレスデータセット、機械学習、将来の研究方向の3つのカテゴリに合成された。 結果だ 文献では, 研究固有の試験および測定プロトコルが多種多様であった。 ストレス検出用にラベル付けされたいくつかの公開データセットが特定された。 また,従来の研究は,ラベル付けプロトコル,統計力の欠如,ストレスバイオマーカーの妥当性,一般化能力などの分野での欠点が指摘されている。 結論だ 既存の機械学習モデルの一般化はまださらなる研究が必要であり、この分野の研究は、より新しい、より実質的なデータセットが研究に利用可能になるにつれて、改善を提供し続けるだろう。

Introduction. The stress response has both subjective, psychological and objectively measurable, biological components. Both of them can be expressed differently from person to person, complicating the development of a generic stress measurement model. This is further compounded by the lack of large, labeled datasets that can be utilized to build machine learning models for accurately detecting periods and levels of stress. The aim of this review is to provide an overview of the current state of stress detection and monitoring using wearable devices, and where applicable, machine learning techniques utilized. Methods. This study reviewed published works contributing and/or using datasets designed for detecting stress and their associated machine learning methods, with a systematic review and meta-analysis of those that utilized wearable sensor data as stress biomarkers. The electronic databases of Google Scholar, Crossref, DOAJ and PubMed were searched for relevant articles and a total of 24 articles were identified and included in the final analysis. The reviewed works were synthesized into three categories of publicly available stress datasets, machine learning, and future research directions. Results. A wide variety of study-specific test and measurement protocols were noted in the literature. A number of public datasets were identified that are labeled for stress detection. In addition, we discuss that previous works show shortcomings in areas such as their labeling protocols, lack of statistical power, validity of stress biomarkers, and generalization ability. Conclusion. Generalization of existing machine learning models still require further study, and research in this area will continue to provide improvements as newer and more substantial datasets become available for study.
翻訳日:2022-10-03 15:33:03 公開日:2022-09-29
# ハイブリッド点対応による部分校正半一般化ポーズ

Partially calibrated semi-generalized pose from hybrid point correspondences ( http://arxiv.org/abs/2209.15072v1 )

ライセンス: Link先を確認
Snehal Bhayani, Viktor Larsson, Torsten Sattler, Janne Heikkila and Zuzana Kukelova(参考訳) 本稿では,2D-2Dと2D-3Dのハイブリッド通信から,焦点距離が不明な遠近カメラの半一般化ポーズ,すなわち2D-2Dと2D-3Dとの対応を推定する問題について検討する。 一般化カメラシステム内のカメラ構成について検討する。 従来未解決の難解な構成に実用的解法を導出するため,効率的な多項式解法を生成するための最先端法に基づいて,異なるパラメータ化と異なる解法戦略をテストした。 我々は,5つの2D-2D対応を持つH51fソルバと1つの2D-3D対応を持つH32fソルバ,3つの2D-2Dおよび2D-3D対応を持つH32fソルバ,および1つの2D-2Dおよび3つの2D-3D対応を持つH13fソルバを合成および実データに基づいて評価した。 これらの解法は, 3次元点における雑音の存在下で, 絶対ポーズ解法よりも優れた推定値が得られることを示す。

In this paper we study the problem of estimating the semi-generalized pose of a partially calibrated camera, i.e., the pose of a perspective camera with unknown focal length w.r.t. a generalized camera, from a hybrid set of 2D-2D and 2D-3D point correspondences. We study all possible camera configurations within the generalized camera system. To derive practical solvers to previously unsolved challenging configurations, we test different parameterizations as well as different solving strategies based on the state-of-the-art methods for generating efficient polynomial solvers. We evaluate the three most promising solvers, i.e., the H51f solver with five 2D-2D correspondences and one 2D-3D correspondence viewed by the same camera inside generalized camera, the H32f solver with three 2D-2D and two 2D-3D correspondences, and the H13f solver with one 2D-2D and three 2D-3D correspondences, on synthetic and real data. We show that in the presence of noise in the 3D points these solvers provide better estimates than the corresponding absolute pose solvers.
翻訳日:2022-10-03 15:32:36 公開日:2022-09-29
# 衛星ビルの自動構築監視

Automatic satellite building construction monitoring ( http://arxiv.org/abs/2209.15084v1 )

ライセンス: Link先を確認
Insaf Ashrapov, Dmitriy Malakhov, Anton Marchenkov, Anton Lulin and Dani El-Ayyass(参考訳) 衛星画像の有望な応用の1つは建設監視である。 これは、到達が難しい場所であっても、世界中の建設進捗を制御できる。 このアプローチの主なハードルのひとつは、画像データの解釈である。 本稿では,この問題に取り組むために,新しい深層学習手法をいくつか採用した。 様々な画像セグメンテーションとオブジェクト検出ネットワークが統合パイプラインに統合され、建設の進捗を判断するために使用された。

One of the promising applications of satellite images is building construction monitoring. It allows to control the construction progress around the world even in the locations that are hard to reach. One of the main hurdles of this approach is the interpretation of the image data. In this paper, we have employed several novel deep learning techniques to tackle the problem. Various image segmentation and object detection networks were combined into a unified pipeline, which was then used to determine the building construction progress.
翻訳日:2022-10-03 15:32:15 公開日:2022-09-29
# 概念整合性で大規模言語モデルを解き放つ

Unpacking Large Language Models with Conceptual Consistency ( http://arxiv.org/abs/2209.15093v1 )

ライセンス: Link先を確認
Pritish Sahu, Michael Cogswell, Yunye Gong, Ajay Divakaran(参考訳) 大型言語モデル(LLM)が「山の高さ」に「はい」と答えるなら、それは山が何であるかを知っていますか? 山に関する他の質問に対して、正しく、または正しく対応できるでしょうか? 大規模言語モデル(llm)の成功は、このようなクエリに正確に答えられるようになったことを示しているが、その能力は必ずしもアンカークエリに関連する概念の一般的な理解を意味するものではない。 関連する概念に対するllmの理解を測定するために,概念整合性を提案する。 この新しいメトリックは、概念的に関連する背景知識に関するクエリに対する応答がどの程度一貫性があるかを見つけることによって、モデルがいかにうまく機能するかを測定する。 そこで我々は,知識ベースにおける概念間の経路をトラバースして背景知識を抽出し,アンカークエリに対するモデルの応答を背景知識から予測する。 CSQAデータセットとConceptNet知識ベースを用いた常識推論における現在のLCMの性能について検討する。 概念整合性は他の指標と同様にLLMのスケールで増大するが、一般的なモデルは必ずしも高い概念整合性を持つとは限らない。 我々の分析は、異なる種類の関係、概念、プロンプトにまたがる概念整合性の顕著な変化を示す。 これは、人間が心の理論を適用し、直感的に相互作用できるモデルを構築するためのステップとなる。

If a Large Language Model (LLM) answers "yes" to the question "Are mountains tall?" then does it know what a mountain is? Can you rely on it responding correctly or incorrectly to other questions about mountains? The success of Large Language Models (LLMs) indicates they are increasingly able to answer queries like these accurately, but that ability does not necessarily imply a general understanding of concepts relevant to the anchor query. We propose conceptual consistency to measure a LLM's understanding of relevant concepts. This novel metric measures how well a model can be characterized by finding out how consistent its responses to queries about conceptually relevant background knowledge are. To compute it we extract background knowledge by traversing paths between concepts in a knowledge base and then try to predict the model's response to the anchor query from the background knowledge. We investigate the performance of current LLMs in a commonsense reasoning setting using the CSQA dataset and the ConceptNet knowledge base. While conceptual consistency, like other metrics, does increase with the scale of the LLM used, we find that popular models do not necessarily have high conceptual consistency. Our analysis also shows significant variation in conceptual consistency across different kinds of relations, concepts, and prompts. This serves as a step toward building models that humans can apply a theory of mind to, and thus interact with intuitively.
翻訳日:2022-10-03 15:26:25 公開日:2022-09-29
# MUG:ユーザインタフェースに基づく対話型マルチモーダルグラウンド

MUG: Interactive Multimodal Grounding on User Interfaces ( http://arxiv.org/abs/2209.15099v1 )

ライセンス: Link先を確認
Tao Li, Gang Li, Jingjie Zheng, Purple Wang, Yang Li(参考訳) 本稿では,ユーザとエージェントがインタフェース画面上で協調作業を行うマルチモーダルグラウンドのための対話型タスクMUGを提案する。 以前の作業はマルチモーダルuiを1ラウンドでモデル化した: ユーザはコマンドを与え、エージェントはコマンドに応答する。 しかし、現実的なシナリオでは、ターゲットアクションが本質的に自然言語での明瞭化が難しい場合、ユーザーコマンドは曖昧になる可能性がある。 mugは、エージェントの応答を見たときに、エージェントがアクションを洗練したり修正したりする追加のコマンドを与えるような、複数のインタラクションを可能にする。 このような相互作用は、現実世界のユースケースにおける接地性能を改善するために重要である。 この問題を調査するために,モバイルインタフェース上でのユーザエージェントインタラクションの77,820シーケンスからなる新しいデータセットを作成し,20%が複数ラウンドのインタラクションを含む。 ベンチマークの確立のために,我々はオフラインとオンラインの両方の評価を含む,様々なモデリング変種と評価戦略を実験した。 実験の結果,反復的なインタラクションを許すことで,テストデータセット全体では18%,課題部分集合では31%,絶対的なタスク完了率を大幅に向上できることがわかった。 我々の結果は問題のさらなる調査の基礎となった。

We present MUG, a novel interactive task for multimodal grounding where a user and an agent work collaboratively on an interface screen. Prior works modeled multimodal UI grounding in one round: the user gives a command and the agent responds to the command. Yet, in a realistic scenario, a user command can be ambiguous when the target action is inherently difficult to articulate in natural language. MUG allows multiple rounds of interactions such that upon seeing the agent responses, the user can give further commands for the agent to refine or even correct its actions. Such interaction is critical for improving grounding performances in real-world use cases. To investigate the problem, we create a new dataset that consists of 77,820 sequences of human user-agent interaction on mobile interfaces in which 20% involves multiple rounds of interactions. To establish our benchmark, we experiment with a range of modeling variants and evaluation strategies, including both offline and online evaluation-the online strategy consists of both human evaluation and automatic with simulators. Our experiments show that allowing iterative interaction significantly improves the absolute task completion by 18% over the entire test dataset and 31% over the challenging subset. Our results lay the foundation for further investigation of the problem.
翻訳日:2022-10-03 15:26:04 公開日:2022-09-29
# 対話応答生成におけるコモンセンス理解と推論のためのconceptnet infused dialogpt

ConceptNet infused DialoGPT for Underlying Commonsense Understanding and Reasoning in Dialogue Response Generation ( http://arxiv.org/abs/2209.15109v1 )

ライセンス: Link先を確認
Ye Liu, Wolfgang Maier, Wolfgang Minker, Stefan Ultes(参考訳) 事前学習された会話モデルは、巨大なデータセットで事前トレーニングされたにもかかわらず、対話インタラクションに隠された暗黙のコモンセンス(cs)の知識を捉えられなかった。 CS機能を有する対話エージェントを構築するために,まず,事前学習された会話モデルに外部知識を注入し,効率的なアダプタチューニングによる基本的なコモンセンスを確立する(第4部)。 第2に,CSの知識と文ペアの双方向関係を可能とし,CSのトリプレットを与えられた文を生成し,文を与えられたCSの知識を生成する「双方向学習」手法を提案する(第5部)。 最後に,この統合されたCS機能を活用して,対話エージェントが対話履歴に隠されたCS知識を理解できるようにし,関連する他の知識を推測して応答生成をさらに誘導する(第6部)。 実験の結果、CS\_Adapter融合は、DialoGPTが一連のCS知識を生成するのに役立つことが示された。 また、CommonGenトレーニングから適応したDialoGPT+CS\_Adapterレスポンスモデルでは、対話コンテキストに適合する基盤となるCSトリプレットを生成することができる。

The pre-trained conversational models still fail to capture the implicit commonsense (CS) knowledge hidden in the dialogue interaction, even though they were pre-trained with an enormous dataset. In order to build a dialogue agent with CS capability, we firstly inject external knowledge into a pre-trained conversational model to establish basic commonsense through efficient Adapter tuning (Section 4). Secondly, we propose the ``two-way learning'' method to enable the bidirectional relationship between CS knowledge and sentence pairs so that the model can generate a sentence given the CS triplets, also generate the underlying CS knowledge given a sentence (Section 5). Finally, we leverage this integrated CS capability to improve open-domain dialogue response generation so that the dialogue agent is capable of understanding the CS knowledge hidden in dialogue history on top of inferring related other knowledge to further guide response generation (Section 6). The experiment results demonstrate that CS\_Adapter fusion helps DialoGPT to be able to generate series of CS knowledge. And the DialoGPT+CS\_Adapter response model adapted from CommonGen training can generate underlying CS triplets that fits better to dialogue context.
翻訳日:2022-10-03 15:25:44 公開日:2022-09-29
# 印刷推定によるコピー検出パターンの異常局在化

Anomaly localization for copy detection patterns through print estimations ( http://arxiv.org/abs/2209.15625v1 )

ライセンス: Link先を確認
Brian Pulfer, Yury Belousov, Joakim Tutt, Roman Chaban, Olga Taran, Taras Holotyak, Slava Voloshynovskiy(参考訳) コピー検出パターン(CDP)は、製品の偽造から保護するための最近の技術である。 しかし、従来のコピー偽造とは対照的に、ディープラーニングベースの偽造は、従来の認証システムによるオリジナルとほとんど区別できないことが示されている。 古典的な教師付き学習とデジタルテンプレートに基づくシステムは、トレーニング時に偽cdpの知識を仮定し、目に見えないタイプの偽に一般化することはできない。 原本を印刷したコピーに基づく認証は、見知らぬ偽物や単純な認証指標であってもより良い結果をもたらす代替手段だが、印刷されたコピーの取得と保管の非現実的なコストが伴う。 本研究では、これらの欠点を克服するために、デジタルテンプレートとプリント元のCDPのみを必要とする機械学習(ML)ベースの認証システムを設計する。 その結果,提案システムは,偽CDPの異常を正確に検出することにより,偽CDPを効率よく認証し,偽CDPを検出できることが示唆された。 2台の産業用プリンタに印刷されたMLベースの偽造CDPに対して,調査中の認証システムの実証評価を行った。

Copy detection patterns (CDP) are recent technologies for protecting products from counterfeiting. However, in contrast to traditional copy fakes, deep learning-based fakes have shown to be hardly distinguishable from originals by traditional authentication systems. Systems based on classical supervised learning and digital templates assume knowledge of fake CDP at training time and cannot generalize to unseen types of fakes. Authentication based on printed copies of originals is an alternative that yields better results even for unseen fakes and simple authentication metrics but comes at the impractical cost of acquisition and storage of printed copies. In this work, to overcome these shortcomings, we design a machine learning (ML) based authentication system that only requires digital templates and printed original CDP for training, whereas authentication is based solely on digital templates, which are used to estimate original printed codes. The obtained results show that the proposed system can efficiently authenticate original and detect fake CDP by accurately locating the anomalies in the fake CDP. The empirical evaluation of the authentication system under investigation is performed on the original and ML-based fakes CDP printed on two industrial printers.
翻訳日:2022-10-03 15:15:23 公開日:2022-09-29
# 人工知能とデータ削減技術の融合による高精度長期空気温度予測

Accurate Long-term Air Temperature Prediction with a Fusion of Artificial Intelligence and Data Reduction Techniques ( http://arxiv.org/abs/2209.15424v1 )

ライセンス: Link先を確認
Du\v{s}an Fister, Jorge P\'erez-Aracil, C\'esar Pel\'aez-Rodr\'iguez, Javier Del Ser, Sancho Salcedo-Sanz(参考訳) 本稿では,ディープラーニング(畳み込みニューラルネットワーク),機械学習アルゴリズム,データ削減技術を考慮した3つのAIフレームワークを提案する。 具体的には,パリ(フランス)とC'ordoba(スペイン)の2つの異なる場所で,前月の入力データを用いて8月1日と8月2日の平均気温を予測する。 ターゲット変数は主に8月の最初の2週間で、2003年の大規模熱波など、フランスやイベリア半島に影響を及ぼす極端な現象の信号を含むことができる。 このように、長期の気温の正確な予測は、極端な出来事の帰属や再生可能エネルギーに関する他の問題など、気候変動に関連する様々な問題にも有用である。 本研究は, 異なる予測変数と目標(8月1日と2月2日の平均気温)との相関解析により, 再解析データに基づいて解析を行った。 最大の相関関係を持つ領域が位置しており、特徴選択プロセスの後、変数内の変数は、異なるディープラーニングとMLアルゴリズムの入力である。 この実験は、パリとC'ordoba地域の3つの提案されたAIフレームワークにおいて、非常に優れた予測スキルを示している。

In this paper three customised Artificial Intelligence (AI) frameworks, considering Deep Learning (convolutional neural networks), Machine Learning algorithms and data reduction techniques are proposed, for a problem of long-term summer air temperature prediction. Specifically, the prediction of average air temperature in the first and second August fortnights, using input data from previous months, at two different locations, Paris (France) and C\'ordoba (Spain), is considered. The target variable, mainly in the first August fortnight, can contain signals of extreme events such as heatwaves, like the mega-heatwave of 2003, which affected France and the Iberian Peninsula. Thus, an accurate prediction of long-term air temperature may be valuable also for different problems related to climate change, such as attribution of extreme events, and in other problems related to renewable energy. The analysis carried out this work is based on Reanalysis data, which are first processed by a correlation analysis among different prediction variables and the target (average air temperature in August first and second fortnights). An area with the largest correlation is located, and the variables within, after a feature selection process, are the input of different deep learning and ML algorithms. The experiments carried out show a very good prediction skill in the three proposed AI frameworks, both in Paris and C\'ordoba regions.
翻訳日:2022-10-03 15:07:14 公開日:2022-09-29
# 異種データのクラスタリングのための様相調整半定プログラム

Likelihood adjusted semidefinite programs for clustering heterogeneous data ( http://arxiv.org/abs/2209.15097v1 )

ライセンス: Link先を確認
Yubo Zhuang, Xiaohui Chen, Yun Yang(参考訳) クラスタリングは、広くデプロイされた教師なしの学習ツールである。 モデルベースのクラスタリングは、クラスタの形状が異なる場合、データの不均一性に取り組む柔軟なフレームワークである。 混合分布の確率に基づく推論は、しばしば非凸および高次元の客観的関数を含み、難しい計算と統計上の課題を課す。 古典的期待最大化 (EM) アルゴリズムは, 共分散行列を持つ標準ガウス混合モデル(英語版)の特別な場合においても, 観測データの対数類似度を最小化するサロゲート関数を最大化する, 計算的にスリフティ反復法である。 一方、最近の研究では、半定値プログラミング(SDP)を緩和した$K$-meansのユニークなグローバル解が、標準ガウス混合モデルの下でクラスタラベルを完全に復元するための情報理論的に鋭いしきい値を達成することが示されている。 本稿では,クラスタラベルをモデルパラメータとして統合することで,SDPのアプローチを一般化し,データヘテロジニティの存在下で観測される可能性を直接最大化する反復的精度調整SDP(iLA-SDP)手法を提案する。 iLA-SDPは、グループ固有のメンバシップ行列へのクラスタ割り当てを持ち上げることで、Centroidsの推定を回避している。 したがって、iLA-SDPはEMよりも初期化に敏感であり、高次元データでは安定である。 我々の数値実験により、iLA-SDPは、$K$-means, SDP, EMアルゴリズムなど、広く使われているクラスタリング法よりも低い誤クラスタリング誤差を実現できることが示された。

Clustering is a widely deployed unsupervised learning tool. Model-based clustering is a flexible framework to tackle data heterogeneity when the clusters have different shapes. Likelihood-based inference for mixture distributions often involves non-convex and high-dimensional objective functions, imposing difficult computational and statistical challenges. The classic expectation-maximization (EM) algorithm is a computationally thrifty iterative method that maximizes a surrogate function minorizing the log-likelihood of observed data in each iteration, which however suffers from bad local maxima even in the special case of the standard Gaussian mixture model with common isotropic covariance matrices. On the other hand, recent studies reveal that the unique global solution of a semidefinite programming (SDP) relaxed $K$-means achieves the information-theoretically sharp threshold for perfectly recovering the cluster labels under the standard Gaussian mixture model. In this paper, we extend the SDP approach to a general setting by integrating cluster labels as model parameters and propose an iterative likelihood adjusted SDP (iLA-SDP) method that directly maximizes the \emph{exact} observed likelihood in the presence of data heterogeneity. By lifting the cluster assignment to group-specific membership matrices, iLA-SDP avoids centroids estimation -- a key feature that allows exact recovery under well-separateness of centroids without being trapped by their adversarial configurations. Thus iLA-SDP is less sensitive than EM to initialization and more stable on high-dimensional data. Our numeric experiments demonstrate that iLA-SDP can achieve lower mis-clustering errors over several widely used clustering methods including $K$-means, SDP and EM algorithms.
翻訳日:2022-10-03 15:06:38 公開日:2022-09-29
# 3d ux-net : 医用画像セグメンテーションのための階層的トランスフォーマーの近代化

3D UX-Net: A Large Kernel Volumetric ConvNet Modernizing Hierarchical Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2209.15076v1 )

ライセンス: Link先を確認
Ho Hin Lee, Shunxing Bao, Yuankai Huo, Bennett A. Landman(参考訳) ビジョントランス(ViT)は、医療画像セグメンテーションのための現在の最先端(SOTA)モデルとして、畳み込みネットワーク(ConvNet)を急速に置き換えている。 階層変換器(例えばSwin Transformers)は、いくつかのConvNetプリミティブを再導入し、3D医療データセットにボリュームセグメンテーションを適用する実用性をさらに強化した。 ハイブリッドアプローチの有効性は、非局所的自己攻撃に対する大きな受容場と、多数のモデルパラメータによるものである。 本研究では,convnetモジュールを用いた階層的トランスフォーマーを適用した3d ux-netと呼ばれる軽量なボリューム性convnetを提案する。 具体的には、大きなカーネルサイズ(例えば 7\times7\times7$ から始まり)で体積深度の畳み込みを再検討し、スウィントランスフォーマーにインスパイアされたより大きなグローバルレセプティブフィールドを可能にする。 さらに,Swin Transformerブロックの多層パーセプトロン(MLP)をポイントワイド畳み込みで置き換えるとともに,正規化やアクティベーション層を減らしてモデル性能を向上させることにより,モデルパラメータの削減を図る。 3d ux-netは、ボリューム脳と腹部画像に関する3つの挑戦的な公開データセットを使用して、現在のsotaトランスフォーマー(例えばswiinunetr)と有利に競合する。 1) miccai challenge 2021 flare, 2)MICCAIチャレンジ2021 FeTA,及び 3)miccai challenge 2022 amos。 3D UX-Net は 0.929 から 0.938 Dice (FLARE2021) と 0.867 から 0.874 Dice (Feta2021) に改善された SwinUNETR を一貫して上回っている。 さらに、3d ux-net の amos2022 による転送学習能力を評価し,さらに 2.27\%$ dice (0.880 から 0.900) の改善を示す。 提案するモデルのソースコードはhttps://github.com/masilab/3dux-netで入手できます。

Vision transformers (ViTs) have quickly superseded convolutional networks (ConvNets) as the current state-of-the-art (SOTA) models for medical image segmentation. Hierarchical transformers (e.g., Swin Transformers) reintroduced several ConvNet priors and further enhanced the practical viability of adapting volumetric segmentation in 3D medical datasets. The effectiveness of hybrid approaches is largely credited to the large receptive field for non-local self-attention and the large number of model parameters. In this work, we propose a lightweight volumetric ConvNet, termed 3D UX-Net, which adapts the hierarchical transformer using ConvNet modules for robust volumetric segmentation. Specifically, we revisit volumetric depth-wise convolutions with large kernel size (e.g. starting from $7\times7\times7$) to enable the larger global receptive fields, inspired by Swin Transformer. We further substitute the multi-layer perceptron (MLP) in Swin Transformer blocks with pointwise depth convolutions and enhance model performances with fewer normalization and activation layers, thus reducing the number of model parameters. 3D UX-Net competes favorably with current SOTA transformers (e.g. SwinUNETR) using three challenging public datasets on volumetric brain and abdominal imaging: 1) MICCAI Challenge 2021 FLARE, 2) MICCAI Challenge 2021 FeTA, and 3) MICCAI Challenge 2022 AMOS. 3D UX-Net consistently outperforms SwinUNETR with improvement from 0.929 to 0.938 Dice (FLARE2021) and 0.867 to 0.874 Dice (Feta2021). We further evaluate the transfer learning capability of 3D UX-Net with AMOS2022 and demonstrates another improvement of $2.27\%$ Dice (from 0.880 to 0.900). The source code with our proposed model are available at https://github.com/MASILab/3DUX-Net.
翻訳日:2022-10-03 14:48:36 公開日:2022-09-29
# 実験用混合精度ニューラルネットワークのチューニング

Tuning of Mixture-of-Experts Mixed-Precision Neural Networks ( http://arxiv.org/abs/2209.15427v1 )

ライセンス: Link先を確認
Fabian Tschopp(参考訳) ディープラーニングは有用なデータ解析手法となっているが、分散コンピュータソフトウェアや組み込みデバイスへの主流の適応は、これまでは低かった。 多くの場合、主流のアプリケーションやデバイスにディープラーニング推論を追加するには、畳み込みニューラルネットワークに適した信号プロセッサを備えた新しいハードウェアが必要である。 この作業はcaffeに新しいデータ型(量子化された16ビットと8ビット整数、16ビット浮動小数点)を追加し、メモリを節約し、既存のコモディティグラフィックスプロセッサの推論速度を向上させる。 既存のモデルは、混合精度モードで強制的に実行できる。 さらに,画像分類のためのアレクサネットの推論速度を向上させるために,エキスパートの混合物のバリエーションを提案する。 メモリ使用量を3.29倍に削減し、特定のデバイスでの推論速度を3.01倍に向上しました。 提案手法が異なる機械学習問題にどのように適用できるかを,5つの簡単な例で示す。 モデル、例えばpythonスクリプトと修正されたcaffeライブラリで構成されるパイプライン全体は、オープンソースソフトウェアとして利用可能である。

Deep learning has become a useful data analysis method, however mainstream adaption in distributed computer software and embedded devices has been low so far. Often, adding deep learning inference in mainstream applications and devices requires new hardware with signal processors suited for convolutional neural networks. This work adds new data types (quantized 16-bit and 8-bit integer, 16-bit floating point) to Caffe in order to save memory and increase inference speed on existing commodity graphics processors with OpenCL, common in everyday devices. Existing models can be executed effortlessly in mixed-precision mode. Additionally, we propose a variation of mixture-of-experts to increase inference speed on AlexNet for image classification. We managed to decrease memory usage up to 3.29x while increasing inference speed up to 3.01x on certain devices. We demonstrate with five simple examples how the presented techniques can easily be applied to different machine learning problems. The whole pipeline, consisting of models, example python scripts and modified Caffe library, is available as Open Source software.
翻訳日:2022-10-03 14:41:31 公開日:2022-09-29
# 経路正規化による生成フローネットワークの改善

Improving Generative Flow Networks with Path Regularization ( http://arxiv.org/abs/2209.15092v1 )

ライセンス: Link先を確認
Anh Do and Duy Dinh and Tan Nguyen and Khuong Nguyen and Stanley Osher and Nhat Ho(参考訳) 生成フローネットワーク(gflownets)は、与えられた報酬関数に比例する確率の作用列によって構成対象を生成する確率的ポリシーを学習するためのモデルとして最近提案されている。 GFlowNetsの中心的な問題は、探索と一般化を改善することである。 本研究では,gflownetsの基盤構造に事前制約を課す最適輸送理論に基づく新しい経路正規化法を提案する。 前者は、gflownetsがターゲットディストリビューションの潜在構造をよりよく発見したり、アクティブラーニングのコンテキストで環境を探索する能力を高めるために設計されている。 経路正規化はGFlowNetのフローを制御し、2つのフォワードポリシー間の最適な輸送距離を最大化したり、最適な輸送距離を最小化することで一般化を改善することによって、より多様な新しい候補を生成する。 さらに、特定の場合における閉形式解を見つけることで正規化の効率的な実装と、正規化項を最小化する近似として使用できる有意義な上界を得る。 我々は, 合成ハイパーグリッド環境モデリング, 離散確率モデリング, 生物シーケンス設計など, 幅広いタスクにおける経路規則化の利点を実証的に示す。

Generative Flow Networks (GFlowNets) are recently proposed models for learning stochastic policies that generate compositional objects by sequences of actions with the probability proportional to a given reward function. The central problem of GFlowNets is to improve their exploration and generalization. In this work, we propose a novel path regularization method based on optimal transport theory that places prior constraints on the underlying structure of the GFlowNets. The prior is designed to help the GFlowNets better discover the latent structure of the target distribution or enhance its ability to explore the environment in the context of active learning. The path regularization controls the flow in GFlowNets to generate more diverse and novel candidates via maximizing the optimal transport distances between two forward policies or to improve the generalization via minimizing the optimal transport distances. In addition, we derive an efficient implementation of the regularization by finding its closed form solutions in specific cases and a meaningful upper bound that can be used as an approximation to minimize the regularization term. We empirically demonstrate the advantage of our path regularization on a wide range of tasks, including synthetic hypergrid environment modeling, discrete probabilistic modeling, and biological sequence design.
翻訳日:2022-10-03 14:38:54 公開日:2022-09-29
# 海洋SAR画像検索のためのサブアパーチャ分解による教師なし学習

Guided Unsupervised Learning by Subaperture Decomposition for Ocean SAR Image Retrieval ( http://arxiv.org/abs/2209.15034v1 )

ライセンス: Link先を確認
Nicolae-C\u{a}t\u{a}lin Ristea, Andrei Anghel, Mihai Datcu, Bertrand Chapron(参考訳) 衛星搭載合成開口レーダー(SAR)は、ほぼ全ての気象条件下で、海面粗さの正確な画像を提供することができる。 衛星が毎日取得する膨大なデータを考慮すると、物理的特徴抽出のための自動化技術が必要である。 教師付きディープラーニング手法が最先端の結果を得たとしても、大量のラベル付きデータが必要であり、海洋SAR画像の取得には困難かつ過度にコストがかかる。 この目的のために,海底分解 (subaperture decomposition, sd) アルゴリズムを用いて海面の教師なし学習検索を強化し,海洋研究者が大規模な海洋データベースを探索できるようにする。 我々は,教師なし自動エンコーダネットワークの検索精度を20%以上向上させることを実証的に証明した。 さらに,ドップラーセンタロイド画像が入力データとして使用される場合,sdは重要な性能向上をもたらすことを示し,教師なし物理誘導検索アルゴリズムへの道筋を導いた。

Spaceborne synthetic aperture radar (SAR) can provide accurate images of the ocean surface roughness day-or-night in nearly all weather conditions, being an unique asset for many geophysical applications. Considering the huge amount of data daily acquired by satellites, automated techniques for physical features extraction are needed. Even if supervised deep learning methods attain state-of-the-art results, they require great amount of labeled data, which are difficult and excessively expensive to acquire for ocean SAR imagery. To this end, we use the subaperture decomposition (SD) algorithm to enhance the unsupervised learning retrieval on the ocean surface, empowering ocean researchers to search into large ocean databases. We empirically prove that SD improve the retrieval precision with over 20% for an unsupervised transformer auto-encoder network. Moreover, we show that SD brings important performance boost when Doppler centroid images are used as input data, leading the way to new unsupervised physics guided retrieval algorithms.
翻訳日:2022-10-03 14:21:14 公開日:2022-09-29
# 確率的アナロジーマッピングによるゼロショット視覚推論

Zero-shot visual reasoning through probabilistic analogical mapping ( http://arxiv.org/abs/2209.15087v1 )

ライセンス: Link先を確認
Taylor W. Webb, Shuhao Fu, Trevor Bihl, Keith J. Holyoak, and Hongjing Lu(参考訳) 人間の推論は、表面的に異質な視覚入力を管理する高度に抽象的な共通点を識別する能力に基礎を置いている。 この能力でアルゴリズムを開発するための最近の取り組みは、視覚的推論タスクの広範な直接訓練を必要とするアプローチに重点を置いており、新しいコンテンツの問題に限定的な一般化をもたらす。 対照的に、認知科学における長い研究の伝統は、人間の類推的推論に基づく計算原理の解明に焦点を合わせてきたが、この研究は一般に手作業による表現に依存してきた。 本稿では、これらの2つのアプローチを合成する視覚的推論モデルであるVisiPAM(visual Probabilistic Analogical Mapping)を提案する。 VisiPAMは、自然主義的な視覚入力から直接派生した学習表現と、人間推論の認知理論から派生した類似性に基づくマッピング操作を用いる。 直接学習なしでは、VisiPAMはアナログマッピングタスクにおいて最先端のディープラーニングモデルよりも優れていることを示す。 さらに,ビジパムは,異なるカテゴリにまたがる3Dオブジェクトのマッピングを含む新しいタスクにおいて,人間のパフォーマンスパターンと密に一致している。

Human reasoning is grounded in an ability to identify highly abstract commonalities governing superficially dissimilar visual inputs. Recent efforts to develop algorithms with this capacity have largely focused on approaches that require extensive direct training on visual reasoning tasks, and yield limited generalization to problems with novel content. In contrast, a long tradition of research in cognitive science has focused on elucidating the computational principles underlying human analogical reasoning; however, this work has generally relied on manually constructed representations. Here we present visiPAM (visual Probabilistic Analogical Mapping), a model of visual reasoning that synthesizes these two approaches. VisiPAM employs learned representations derived directly from naturalistic visual inputs, coupled with a similarity-based mapping operation derived from cognitive theories of human reasoning. We show that without any direct training, visiPAM outperforms a state-of-the-art deep learning model on an analogical mapping task. In addition, visiPAM closely matches the pattern of human performance on a novel task involving mapping of 3D objects across disparate categories.
翻訳日:2022-10-03 14:20:56 公開日:2022-09-29
# 多角形状の汎用表現学習に向けて

Towards General-Purpose Representation Learning of Polygonal Geometries ( http://arxiv.org/abs/2209.15458v1 )

ライセンス: Link先を確認
Gengchen Mai, Chiyu Jiang, Weiwei Sun, Rui Zhu, Yao Xuan, Ling Cai, Krzysztof Janowicz, Stefano Ermon, Ni Lao(参考訳) 空間データに対するニューラルネットワーク表現学習は、地理人工知能(GeoAI)問題にとって共通のニーズである。 近年では、点、ポリライン、ネットワークの表現学習において多くの進歩がなされているが、ポリゴン、特に複雑な多角形幾何学ではほとんど進歩していない。 本研究では,多角形幾何学を(単多角形や多角形の有無にかかわらず)埋め込み空間にエンコードできる汎用多角形符号化モデルの開発に着目する。 結果の埋め込みは、形状分類や空間関係予測などの下流タスクに直接(あるいは微調整)することができる。 モデル一般化可能性を保証するために、ループ原点不変性、自明な頂点不変性、部分置換不変性、位相認識といういくつかの望ましい性質を同定する。 エンコーダの2つの異なる設計を探索する: 1つは空間領域内のすべての表現を導出し、もう1つはスペクトル領域表現を利用する。 空間領域のアプローチとして,1次元CNNベースのポリゴンエンコーダResNet1Dを提案する。 スペクトル領域のアプローチでは、全ての特性を自然に満足する非普遍フーリエ変換(NUFT)に基づくNUFTspecを開発する。 2つの課題について実験を行います 1)MNISTに基づく形状分類 2)DBSR-46KとDBSR-cplx46Kの2つの新しいデータセットに基づく空間関係予測 以上の結果から,NUFTspec と ResNet1D は,既存のベースラインよりも有意なマージンで優れていた。 ResNet1Dは形状不変幾何修正後のモデル性能劣化に悩まされているが、NUFTspecはNUFTの性質上、これらの変更に対して非常に堅牢である。

Neural network representation learning for spatial data is a common need for geographic artificial intelligence (GeoAI) problems. In recent years, many advancements have been made in representation learning for points, polylines, and networks, whereas little progress has been made for polygons, especially complex polygonal geometries. In this work, we focus on developing a general-purpose polygon encoding model, which can encode a polygonal geometry (with or without holes, single or multipolygons) into an embedding space. The result embeddings can be leveraged directly (or finetuned) for downstream tasks such as shape classification, spatial relation prediction, and so on. To achieve model generalizability guarantees, we identify a few desirable properties: loop origin invariance, trivial vertex invariance, part permutation invariance, and topology awareness. We explore two different designs for the encoder: one derives all representations in the spatial domain; the other leverages spectral domain representations. For the spatial domain approach, we propose ResNet1D, a 1D CNN-based polygon encoder, which uses circular padding to achieve loop origin invariance on simple polygons. For the spectral domain approach, we develop NUFTspec based on Non-Uniform Fourier Transformation (NUFT), which naturally satisfies all the desired properties. We conduct experiments on two tasks: 1) shape classification based on MNIST; 2) spatial relation prediction based on two new datasets - DBSR-46K and DBSR-cplx46K. Our results show that NUFTspec and ResNet1D outperform multiple existing baselines with significant margins. While ResNet1D suffers from model performance degradation after shape-invariance geometry modifications, NUFTspec is very robust to these modifications due to the nature of the NUFT.
翻訳日:2022-10-03 14:14:32 公開日:2022-09-29
# Spikformer: ニューラルネットワークがトランスフォーマーと出会うとき

Spikformer: When Spiking Neural Network Meets Transformer ( http://arxiv.org/abs/2209.15425v1 )

ライセンス: Link先を確認
Zhaokun Zhou, Yuesheng Zhu, Chao He, Yaowei Wang, Shuicheng Yan, Yonghong Tian, Li Yuan(参考訳) 我々は,spyking neural network (snn) と self-attention mechanism の2つの生物学的に妥当な構造について考察する。 前者はディープラーニングのためのエネルギ効率とイベント駆動のパラダイムを提供し、後者は機能依存性をキャプチャし、transformerが優れたパフォーマンスを達成することができる。 夫婦の結婚を探究することは直感的に有望である。 本稿では,snsの自己着脱能力と生物学的特性の両立を検討するとともに,spiking transformer (spikformer) という強力な枠組みとともに,新しいspiking self attention (ssa) を提案する。 SpikformerのSSAメカニズムは、スパイクフォームクエリ、キー、バリューをソフトマックスなしで使用することで、スパース視覚特徴をモデル化する。 計算はスパースであり、乗算を避けるため、SSAは効率的で計算エネルギー消費が少ない。 SSAを用いたSpikformerは、ニューロモルフィックと静的両方のデータセットのイメージ分類において、最先端のSNNのようなフレームワークよりも優れていることが示されている。 sew-resnet-152(60.2m,69.26%)と同サイズのspikformer(66.3mパラメータ)は、4つの時間ステップを使用してimagenetで74.81%のtop1精度を達成できる。

We consider two biologically plausible structures, the Spiking Neural Network (SNN) and the self-attention mechanism. The former offers an energy-efficient and event-driven paradigm for deep learning, while the latter has the ability to capture feature dependencies, enabling Transformer to achieve good performance. It is intuitively promising to explore the marriage between them. In this paper, we consider leveraging both self-attention capability and biological properties of SNNs, and propose a novel Spiking Self Attention (SSA) as well as a powerful framework, named Spiking Transformer (Spikformer). The SSA mechanism in Spikformer models the sparse visual feature by using spike-form Query, Key, and Value without softmax. Since its computation is sparse and avoids multiplication, SSA is efficient and has low computational energy consumption. It is shown that Spikformer with SSA can outperform the state-of-the-art SNNs-like frameworks in image classification on both neuromorphic and static datasets. Spikformer (66.3M parameters) with comparable size to SEW-ResNet-152 (60.2M,69.26%) can achieve 74.81% top1 accuracy on ImageNet using 4 time steps, which is the state-of-the-art in directly trained SNNs models.
翻訳日:2022-10-03 14:05:37 公開日:2022-09-29
# Dual Contrastive Consistency を用いたテキスト分類

Few-shot Text Classification with Dual Contrastive Consistency ( http://arxiv.org/abs/2209.15069v1 )

ライセンス: Link先を確認
Liwen Sun, Jiawei Han(参考訳) 本稿では,事前学習した言語モデルを用いて,各クラスに注釈付きサンプルを少数用意した少数ショットテキスト分類を行う方法について検討する。 このシナリオでは、従来のクロスエントロピー損失を微調整言語モデルに用いた場合、重大オーバーフィッティングが発生し、モデルの準最適一般化につながるため、ラベル付きデータが少ない場合の教師付きコントラスト学習と、膨大なラベル付きデータに対する整合性正規化を採用する。 さらに,モデルの性能をさらに高め,文表現を洗練するために,新しいコントラスト一貫性を提案する。 4つのデータセットに対して広範な実験を行った結果、我々のモデル(FTCC)が最先端の手法より優れ、堅牢性が高いことを示した。

In this paper, we explore how to utilize pre-trained language model to perform few-shot text classification where only a few annotated examples are given for each class. Since using traditional cross-entropy loss to fine-tune language model under this scenario causes serious overfitting and leads to sub-optimal generalization of model, we adopt supervised contrastive learning on few labeled data and consistency-regularization on vast unlabeled data. Moreover, we propose a novel contrastive consistency to further boost model performance and refine sentence representation. After conducting extensive experiments on four datasets, we demonstrate that our model (FTCC) can outperform state-of-the-art methods and has better robustness.
翻訳日:2022-10-03 14:05:11 公開日:2022-09-29
# 新たなトピックに取り組むには? Covid News NERの強力なラベルと弱いラベルを組み合わせる

How to tackle an emerging topic? Combining strong and weak labels for Covid news NER ( http://arxiv.org/abs/2209.15108v1 )

ライセンス: Link先を確認
Aleksander Ficek, Fangyu Liu, Nigel Collier(参考訳) 新たなトピックに名前付きエンティティ認識(NER)モデルをトレーニングできることは、特に既存のモデルやデータセットの範囲から新たなトピックが継続的に進化している医療領域において、多くの実世界のアプリケーションにとって不可欠である。 現実的な評価のために,新しいcovid-19 news nerデータセット(covidnews-ner)を導入し,アノテーション付き強いラベル付き文3000項目と,弱いラベル付き文13000項目を自動生成する。 提案するConTROSTERは,トランスファー学習を通じてNERを改善するために,弱いラベルと強いラベルを戦略的に組み合わせたレシピである。 弱ラベルと強ラベルを併用したトレーニングの分析を行い,ConTROSTERのCOVIDNEWS-NERに対する効果を示す。 1) 弱いデータを用いて初期バックボーンを定式化し, 強いデータや弱いデータのみをトレーニングした手法よりも優れていることを示す。 2)ドメイン外とドメイン内弱いラベルトレーニングの組み合わせは不可欠であり、単一のソースから弱いラベルをトレーニングする場合、飽和を克服することができる。

Being able to train Named Entity Recognition (NER) models for emerging topics is crucial for many real-world applications especially in the medical domain where new topics are continuously evolving out of the scope of existing models and datasets. For a realistic evaluation setup, we introduce a novel COVID-19 news NER dataset (COVIDNEWS-NER) and release 3000 entries of hand annotated strongly labelled sentences and 13000 auto-generated weakly labelled sentences. Besides the dataset, we propose CONTROSTER, a recipe to strategically combine weak and strong labels in improving NER in an emerging topic through transfer learning. We show the effectiveness of CONTROSTER on COVIDNEWS-NER while providing analysis on combining weak and strong labels for training. Our key findings are: (1) Using weak data to formulate an initial backbone before tuning on strong data outperforms methods trained on only strong or weak data. (2) A combination of out-of-domain and in-domain weak label training is crucial and can overcome saturation when being training on weak labels from a single source.
翻訳日:2022-10-03 14:04:56 公開日:2022-09-29
# 大深度ネットワークの暗黙のバイアス:非線形関数に対するランクの概念

Implicit Bias of Large Depth Networks: a Notion of Rank for Nonlinear Functions ( http://arxiv.org/abs/2209.15055v1 )

ライセンス: Link先を確認
Arthur Jacot(参考訳) ネットワークの深さが非線形関数よりもランクの概念に収束するにつれて、L_2$-regularizationやクロスエントロピーなどの損失を伴うネットワークの関数空間における暗黙のバイアスを記述する、均一な非線形性を持つ完全連結ニューラルネットワークの表現コストが収束することを示す。 次に、損失のグローバルミニマはデータの'true'ランクを回復するかどうかを問う:大きすぎる深さでは、大域的最小値がおよそランク1になる(ランクを推定する)ことを示し、真のランクを回復するデータポイントの数で成長する深さの範囲が存在することを議論する。 最後に, クラス境界のトポロジーに対する分類器のランクの影響を考察し, 最適な非線形ランクを持つオートエンコーダが自然に分断されていることを示す。

We show that the representation cost of fully connected neural networks with homogeneous nonlinearities - which describes the implicit bias in function space of networks with $L_2$-regularization or with losses such as the cross-entropy - converges as the depth of the network goes to infinity to a notion of rank over nonlinear functions. We then inquire under which conditions the global minima of the loss recover the `true' rank of the data: we show that for too large depths the global minimum will be approximately rank 1 (underestimating the rank); we then argue that there is a range of depths which grows with the number of datapoints where the true rank is recovered. Finally, we discuss the effect of the rank of a classifier on the topology of the resulting class boundaries and show that autoencoders with optimal nonlinear rank are naturally denoising.
翻訳日:2022-10-03 14:04:34 公開日:2022-09-29
# 分布シフト下における対向ロバストネスの一般化可能性

Generalizability of Adversarial Robustness Under Distribution Shifts ( http://arxiv.org/abs/2209.15042v1 )

ライセンス: Link先を確認
Kumail Alhamoud, Hasan Abed Al Kader Hammoud, Motasem Alfarra, Bernard Ghanem(参考訳) 経験的および認定された堅牢性の最近の進歩は、信頼性とデプロイ可能なDeep Neural Networks(DNN)を提供することを約束している。 この成功にもかかわらず、既存のDNNロバスト性の評価は、モデルがトレーニングしたのと同じ分布からサンプリングされた画像で行われている。 しかし、現実世界では、DNNは大きな分散シフトを示す動的な環境にデプロイされる可能性がある。 本研究では,経験的および認定された対向的ロバスト性と他の領域の一般化との相互作用を徹底的に検討する第一歩を踏み出す。 そのために、複数のドメイン上でロバストモデルをトレーニングし、その正確性とロバスト性を評価する。 1) 経験的および認定されたロバスト性は, 未認識領域に一般化し, (2) 一般化可能性のレベルは, ソース領域とターゲット領域のfidによって測定された入力視覚類似度とよく相関しない。 また,本研究は現実の医療応用にも拡張され,敵の増進により,見えない領域における堅牢性と一般化の精度が向上する。

Recent progress in empirical and certified robustness promises to deliver reliable and deployable Deep Neural Networks (DNNs). Despite that success, most existing evaluations of DNN robustness have been done on images sampled from the same distribution that the model was trained on. Yet, in the real world, DNNs may be deployed in dynamic environments that exhibit significant distribution shifts. In this work, we take a first step towards thoroughly investigating the interplay between empirical and certified adversarial robustness on one hand and domain generalization on another. To do so, we train robust models on multiple domains and evaluate their accuracy and robustness on an unseen domain. We observe that: (1) both empirical and certified robustness generalize to unseen domains, and (2) the level of generalizability does not correlate well with input visual similarity, measured by the FID between source and target domains. We also extend our study to cover a real-world medical application, in which adversarial augmentation enhances both the robustness and generalization accuracy in unseen domains.
翻訳日:2022-10-03 14:03:56 公開日:2022-09-29
# ダイナミックシーンにおけるカメラ再配置のためのグラフ注意ネットワーク

Graph Attention Network for Camera Relocalization on Dynamic Scenes ( http://arxiv.org/abs/2209.15056v1 )

ライセンス: Link先を確認
Mohamed Amine Ouali, Mohamed Bouguessa, Riadh Ksantini(参考訳) 動的環境における画像カメラの位置を推定するために,シーントライアングルメッシュ表現を学習するためのグラフアテンションネットワークに基づくアプローチを考案する。 以前のアプローチでは、シーンの構造を明示的にあるいは暗黙的に埋め込むシーン依存モデルを構築していた。 畳み込みニューラルネットワークや決定木を用いて、2D/3D-3D対応を確立する。 このようなマッピングはターゲットのシーンに適合し、環境の動的変化に対してうまく一般化しない。 本研究は,トライアングルメッシュを用いてカメラ再配置問題を解決する新しい手法を提案する。 3d-3dマッチングフレームワークは,(1)メッシュ頂点の埋め込みを計算するグラフニューラルネットワーク,(2)rgb-d画像に定義されたグリッドセルの埋め込みを計算する畳み込みニューラルネットワーク,(3)2つの埋め込み間の対応を確立するニューラルネットワークモデル,の3つのブロックで構成される。 これら3つのコンポーネントはエンドツーエンドでトレーニングされる。 最終的なポーズを予測するため、RANSACアルゴリズムを用いてカメラのポーズ仮説を生成し、ポイントクラウド表現を用いて予測を洗練する。 本手法は, rio10ベンチマークによる動的屋内カメラ再配置の精度を0.358$から0.506$に大幅に向上させる。

We devise a graph attention network-based approach for learning a scene triangle mesh representation in order to estimate an image camera position in a dynamic environment. Previous approaches built a scene-dependent model that explicitly or implicitly embeds the structure of the scene. They use convolution neural networks or decision trees to establish 2D/3D-3D correspondences. Such a mapping overfits the target scene and does not generalize well to dynamic changes in the environment. Our work introduces a novel approach to solve the camera relocalization problem by using the available triangle mesh. Our 3D-3D matching framework consists of three blocks: (1) a graph neural network to compute the embedding of mesh vertices, (2) a convolution neural network to compute the embedding of grid cells defined on the RGB-D image, and (3) a neural network model to establish the correspondence between the two embeddings. These three components are trained end-to-end. To predict the final pose, we run the RANSAC algorithm to generate camera pose hypotheses, and we refine the prediction using the point-cloud representation. Our approach significantly improves the camera pose accuracy of the state-of-the-art method from $0.358$ to $0.506$ on the RIO10 benchmark for dynamic indoor camera relocalization.
翻訳日:2022-10-03 14:03:38 公開日:2022-09-29
# augmented Regretのない$\alpha$-Coreを用いたオンラインサブセット選択

Online Subset Selection using $\alpha$-Core with no Augmented Regret ( http://arxiv.org/abs/2209.14222v2 )

ライセンス: Link先を確認
Sourav Sahoo, Samrat Mukhopadhyay and Abhishek Sinha(参考訳) オンライン学習環境における逐次スパースサブセット選択の問題について考察する。 集合 $[n]$ が $n$ 個の要素からなると仮定する。 $t^{\text{th}}$ ラウンドでは、モノトン報酬関数 $f_t: 2^{[N]} \to \mathbb{R}_+,$ が、$[N]の各サブセットに非負の報酬を割り当てる。 学習者は、そのラウンドに対する報酬関数$f_t$が$(k \leq n)$となる前に、$s_t \subseteq [n]$ of $k$要素を選択する。 その選択の結果、学習者は$t^{\text{th}}$のラウンドで$f_t(S_t)$の報酬を受け取る。 学習者の目標は、所定の時間軸に蓄積された累積報酬を最大化するオンラインサブセット選択ポリシーを設計することである。 そこで本研究では,大規模報酬関数の課題を解決するために,スコア(コア付きサブセット選択)と呼ばれるオンライン学習方針を提案する。 提案されたSCoreポリシーは、協調ゲーム理論の文献からCoreの概念を一般化した$\alpha$-Coreという新しい概念に基づいている。 我々は、$\alpha$-augmented regretという新しいパフォーマンス指標の観点から、SCoreポリシーの学習保証を確立します。 この新しい測定基準では、オフラインベンチマークのパワーはオンラインポリシーと比較して適切に強化されている。 下位モジュラーを含む幅広い報酬関数がスコアポリシーで効率的に学習できることを示すために、いくつかの例を示す。 また、SCoreポリシを半帯域フィードバックモデルでどのように使用できるのかを概説し、いくつかのオープンな問題で論文をまとめる。

We consider the problem of sequential sparse subset selections in an online learning setup. Assume that the set $[N]$ consists of $N$ distinct elements. On the $t^{\text{th}}$ round, a monotone reward function $f_t: 2^{[N]} \to \mathbb{R}_+,$ which assigns a non-negative reward to each subset of $[N],$ is revealed to a learner. The learner selects (perhaps randomly) a subset $S_t \subseteq [N]$ of $k$ elements before the reward function $f_t$ for that round is revealed $(k \leq N)$. As a consequence of its choice, the learner receives a reward of $f_t(S_t)$ on the $t^{\text{th}}$ round. The learner's goal is to design an online subset selection policy to maximize its expected cumulative reward accrued over a given time horizon. In this connection, we propose an online learning policy called SCore (Subset Selection with Core) that solves the problem for a large class of reward functions. The proposed SCore policy is based on a new concept of $\alpha$-Core, which is a generalization of the notion of Core from the cooperative game theory literature. We establish a learning guarantee for the SCore policy in terms of a new performance metric called $\alpha$-augmented regret. In this new metric, the power of the offline benchmark is suitably augmented compared to the online policy. We give several illustrative examples to show that a broad class of reward functions, including submodular, can be efficiently learned with the SCore policy. We also outline how the SCore policy can be used under a semi-bandit feedback model and conclude the paper with a number of open problems.
翻訳日:2022-10-03 13:55:35 公開日:2022-09-29
# 事前学習:自己監督型音声認識モデルにおけるターゲット付き、転送可能な敵例

Watch What You Pretrain For: Targeted, Transferable Adversarial Examples on Self-Supervised Speech Recognition models ( http://arxiv.org/abs/2209.13523v2 )

ライセンス: Link先を確認
Raphael Olivier, Hadi Abdullah and Bhiksha Raj(参考訳) 攻撃対象の敵攻撃は音声サンプルを生成し、ASR(Automatic Speech Recognition)システムに攻撃テキストを出力させる。 現実のブラックボックス設定において、asrモデルを利用するために、敵は転送可能性特性、すなわちプロキシasrのために生成された敵のサンプルを別のリモートasrを騙すことができる。 しかし、近年の研究では、大きなASRモデルに対する転送性は非常に難しいことが示されている。 本研究では,近年のASRアーキテクチャ,特に自己監督学習に基づくアーキテクチャは,実際にトランスファービリティに脆弱であることを示す。 我々は、Wav2Vec2、HuBERT、Data2Vec、WavLMといった最先端の自己教師型ASRモデルを評価することで、この現象の実証に成功した。 低レベルの付加ノイズが30dbの信号-ノイズ比を達成することで、最大80%の精度でターゲット転送性を達成できることを示す。 次に私たちは 1) Ablation study を用いて、自己指導型学習がその現象の主な原因であることを示す。 2) この現象を説明する。 これにより、現代のASRアーキテクチャは、敵のセキュリティ脅威に対してユニークに脆弱であることを示す。

A targeted adversarial attack produces audio samples that can force an Automatic Speech Recognition (ASR) system to output attacker-chosen text. To exploit ASR models in real-world, black-box settings, an adversary can leverage the transferability property, i.e. that an adversarial sample produced for a proxy ASR can also fool a different remote ASR. However recent work has shown that transferability against large ASR models is very difficult. In this work, we show that modern ASR architectures, specifically ones based on Self-Supervised Learning, are in fact vulnerable to transferability. We successfully demonstrate this phenomenon by evaluating state-of-the-art self-supervised ASR models like Wav2Vec2, HuBERT, Data2Vec and WavLM. We show that with low-level additive noise achieving a 30dB Signal-Noise Ratio, we can achieve target transferability with up to 80% accuracy. Next, we 1) use an ablation study to show that Self-Supervised learning is the main cause of that phenomenon, and 2) we provide an explanation for this phenomenon. Through this we show that modern ASR architectures are uniquely vulnerable to adversarial security threats.
翻訳日:2022-10-02 23:23:24 公開日:2022-09-29
# 法律インフォームス・コード:人間と人工知能をアライメントするための法情報学のアプローチ

Law Informs Code: A Legal Informatics Approach to Aligning Artificial Intelligence with Humans ( http://arxiv.org/abs/2209.13020v2 )

ライセンス: Link先を確認
John J Nay(参考訳) 私たちは現在、AIの振る舞いを確実に導く方法で、人間の目標と社会的価値を特定できません。 法的な解釈と法的な解釈は、不透明な人間の価値を妥当な指令に変換する計算エンジンを形成する。 ローインフォメーション・コード(law informs code)は、複雑な計算法的プロセスを捉え、それらをaiに埋め込む研究課題である。 法的な契約の当事者が将来の関係のあらゆる潜在的な事態を予測できないのと同様に、議会は提案された法案が適用される全ての状況を予測することができない。 法理論と実践は、これらの仕様問題に対処するための一連のツールを開発した。 例えば、法的な基準により、人間は共通の理解を発達させ、新しい状況に適応することができる。 法律のより散在的な使用(例えば、認可の脅威による悪行の抑止として)とは対照的に、人間の目標の伝達方法や社会の価値観の表現として活用され、法律はコードを知らせる。 本稿では,法的プロセス(法律作成法,法解釈法,契約起草法,標準の適用法,法的推論法など)が生み出すデータがどのように,本質的にあいまいな人間の目標の堅牢な仕様を促進するかを述べる。 これにより、人間-AIアライメントとAIの局所的有用性が向上する。 社会AIアライメントに向けて,多エージェントアライメントの応用哲学としての法を理解するための枠組みを提案する。 法律は歴史的に有望な政治権力の反映であり、したがって市民選好の完全な集積ではないが、適切に解析すれば、その蒸留は利用可能な社会的価値の最も正当な計算的理解を提供する。 法律が最終的に強力なAIに通知すると、法律を改善するための熟考的な政治プロセスがさらに意味を成す。

We are currently unable to specify human goals and societal values in a way that reliably directs AI behavior. Law-making and legal interpretation form a computational engine that converts opaque human values into legible directives. "Law Informs Code" is the research agenda capturing complex computational legal processes, and embedding them in AI. Similar to how parties to a legal contract cannot foresee every potential contingency of their future relationship, and legislators cannot predict all the circumstances under which their proposed bills will be applied, we cannot ex ante specify rules that provably direct good AI behavior. Legal theory and practice have developed arrays of tools to address these specification problems. For instance, legal standards allow humans to develop shared understandings and adapt them to novel situations. In contrast to more prosaic uses of the law (e.g., as a deterrent of bad behavior through the threat of sanction), leveraged as an expression of how humans communicate their goals, and what society values, Law Informs Code. We describe how data generated by legal processes (methods of law-making, statutory interpretation, contract drafting, applications of standards, legal reasoning, etc.) can facilitate the robust specification of inherently vague human goals. This increases human-AI alignment and the local usefulness of AI. Toward society-AI alignment, we present a framework for understanding law as the applied philosophy of multi-agent alignment. Although law is partly a reflection of historically contingent political power - and thus not a perfect aggregation of citizen preferences - if properly parsed, its distillation offers the most legitimate computational comprehension of societal values available. If law eventually informs powerful AI, engaging in the deliberative political process to improve law takes on even more meaning.
翻訳日:2022-10-02 23:21:59 公開日:2022-09-29
# NAG-GS:半増幅,加速,ロバスト確率最適化

NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizers ( http://arxiv.org/abs/2209.14937v1 )

ライセンス: Link先を確認
Valentin Leplat, Daniil Merkulov, Aleksandr Katrutsa, Daniel Bershatsky, Ivan Oseledets(参考訳) ディープニューラルネットワークのような古典的な機械学習モデルは、通常SGDアルゴリズムを用いて訓練される。 古典的なSGDは確率勾配流の離散化と解釈できる。 本稿では,(1)Nesterov-like Stochastic Differential Equation (SDE) と (2) 半単純ガウス・シーデル型離散化という2つの重要な要素に依存した,新しい,頑健で高速化された確率最適化手法を提案する。 得られた方法の収束と安定性は nag-gs と呼ばれ、二次関数の最小化の場合に初めて広く研究された。 この分析により、NAG-GSの安定性を確保しつつ、収束率の観点から最適なステップサイズ(もしくは学習率)を導き出すことができる。 これは,本手法のすべてのハイパーパラメータに対して,反復行列のスペクトル半径と定常な共分散行列を慎重に解析することによって達成される。 その結果,nag-gsは,ロジスティック回帰モデル,標準コンピュータビジョンデータセット上の残留ネットワークモデル,glueベンチマークのフレーム内のトランスフォーマーといった機械学習モデルのトレーニングにおいて,重み減衰を伴う運動量sgdやadamwといった最先端の手法と競合することがわかった。

Classical machine learning models such as deep neural networks are usually trained by using Stochastic Gradient Descent-based (SGD) algorithms. The classical SGD can be interpreted as a discretization of the stochastic gradient flow. In this paper we propose a novel, robust and accelerated stochastic optimizer that relies on two key elements: (1) an accelerated Nesterov-like Stochastic Differential Equation (SDE) and (2) its semi-implicit Gauss-Seidel type discretization. The convergence and stability of the obtained method, referred to as NAG-GS, are first studied extensively in the case of the minimization of a quadratic function. This analysis allows us to come up with an optimal step size (or learning rate) in terms of rate of convergence while ensuring the stability of NAG-GS. This is achieved by the careful analysis of the spectral radius of the iteration matrix and the covariance matrix at stationarity with respect to all hyperparameters of our method. We show that NAG-GS is competitive with state-of-the-art methods such as momentum SGD with weight decay and AdamW for the training of machine learning models such as the logistic regression model, the residual networks models on standard computer vision datasets, and Transformers in the frame of the GLUE benchmark.
翻訳日:2022-09-30 18:26:51 公開日:2022-09-29
# Transformerが境界値逆問題に遭遇

Transformer Meets Boundary Value Inverse Problems ( http://arxiv.org/abs/2209.14977v1 )

ライセンス: Link先を確認
Ruchi Guo and Shuhao Cao and Long Chen(参考訳) 境界値逆問題を解くために,変圧器を用いた深層直接サンプリング法を提案する。 慎重に設計したデータと再構成した画像の間に学習した逆演算子を評価することにより、リアルタイムな再構成を実現する。 タスク指向および構造結合型深層ニューラルネットワークを開発するための数学的問題の理論的構造からメリットを享受できるかどうか、どのように得るかという、基本的かつ批判的な質問をケーススタディとして提示する努力がなされている。 逆問題に対する直接サンプリング法に触発されて、1次元境界データは偏微分方程式に基づく特徴マップによって前処理され、異なる周波数入力チャネルで2次元調和拡張が得られる。 そして、学習可能な非局所カーネルを導入することにより、直接サンプリングの近似を修正注意機構に再キャストする。 提案手法は,よく知られていない非線形逆問題である電気インピーダンストモグラフィに適用する。 この新手法は,前者や同時代のオペレータ学習者よりも優れた精度を実現するとともに,雑音に対するロバスト性を示す。 この研究は、自然言語処理タスクのために発明されたにもかかわらず、注意機構が事前の数学的知識に適合して変更できる優れた柔軟性を提供し、最終的にはより物理に適合したニューラルアーキテクチャの設計につながるという洞察を強める。

A Transformer-based deep direct sampling method is proposed for solving a class of boundary value inverse problem. A real-time reconstruction is achieved by evaluating the learned inverse operator between carefully designed data and the reconstructed images. An effort is made to give a case study for a fundamental and critical question: whether and how one can benefit from the theoretical structure of a mathematical problem to develop task-oriented and structure-conforming deep neural network? Inspired by direct sampling methods for inverse problems, the 1D boundary data are preprocessed by a partial differential equation-based feature map to yield 2D harmonic extensions in different frequency input channels. Then, by introducing learnable non-local kernel, the approximation of direct sampling is recast to a modified attention mechanism. The proposed method is then applied to electrical impedance tomography, a well-known severely ill-posed nonlinear inverse problem. The new method achieves superior accuracy over its predecessors and contemporary operator learners, as well as shows robustness with respect to noise. This research shall strengthen the insights that the attention mechanism, despite being invented for natural language processing tasks, offers great flexibility to be modified in conformity with the a priori mathematical knowledge, which ultimately leads to the design of more physics-compatible neural architectures.
翻訳日:2022-09-30 18:26:27 公開日:2022-09-29
# 一般化Permutohedraによる最大プール応答の列挙

Enumeration of max-pooling responses with generalized permutohedra ( http://arxiv.org/abs/2209.14978v1 )

ライセンス: Link先を確認
Laura Escobar, Patricio Gallardo, Javier Gonz\'alez-Anaya, Jos\'e L. Gonz\'alez, Guido Mont\'ufar and Alejandro H. Morales(参考訳) 入力座標のシフトウィンドウを最大にすることで入力配列をダウンサンプルし、畳み込みニューラルネットワークでよく使用される関数であるmax-pooling layerの組合せについて検討する。 単純度のあるミンコフスキー和の頂点数を同値に数えることで、これらの関数の線型性領域の数に関する結果を得る。 このようなポリトープの面を特徴付けるとともに、プール窓やストライドの大きさに応じて1Dマックスプーリング層における頂点数と面数の生成関数と閉式を得るとともに、2Dマックスプーリングの特別な場合において頂点数を求める。

We investigate the combinatorics of max-pooling layers, which are functions that downsample input arrays by taking the maximum over shifted windows of input coordinates, and which are commonly used in convolutional neural networks. We obtain results on the number of linearity regions of these functions by equivalently counting the number of vertices of certain Minkowski sums of simplices. We characterize the faces of such polytopes and obtain generating functions and closed formulas for the number of vertices and facets in a 1D max-pooling layer depending on the size of the pooling windows and stride, and for the number of vertices in a special case of 2D max-pooling.
翻訳日:2022-09-30 18:26:06 公開日:2022-09-29
# 自律運転用自己設定型安定化リアルタイム検出学習

Self-Configurable Stabilized Real-Time Detection Learning for Autonomous Driving Applications ( http://arxiv.org/abs/2209.14525v1 )

ライセンス: Link先を確認
Won Joon Yun, Soohyun Park, Joongheon Kim, David Mohaisen(参考訳) 自律走行環境では,リアルタイムかつ高精度な物体検出を同時に行うことが重要となる。 しかし、既存のオブジェクト検出ニューラルネットワークシステムは、計算時間と精度のトレードオフが特徴であり、そのようなトレードオフを最適化することが不可欠である。 幸いなことに、多くの自動運転環境では、画像が連続的に表示され、光学フローを使用する機会を提供する。 本稿では,光学的フロー推定を用いた物体検出ニューラルネットワークの性能向上を図る。 また,安定性を考慮した時間平均性能最大化のためのLyapunov最適化フレームワークを提案する。 動的車両環境に適合するために光学フローを使用するかを適応的に決定し、車両の待ち行列安定性と平均性能を同時に確保する。 重要概念を検証するため,様々な物体検出ニューラルネットワークと光フロー推定ネットワークを用いて数値実験を行った。 さらに、リアルタイム物体検出ネットワークであるYOLOv3-tinyとFlowNet2-Sによる自己設定可能な安定化検出と光フロー推定ネットワークをそれぞれ示す。 実演では,提案フレームワークの精度が3.02%向上し,検出対象数が59.6%向上し,計算能力のキュー安定性が向上した。

Guaranteeing real-time and accurate object detection simultaneously is paramount in autonomous driving environments. However, the existing object detection neural network systems are characterized by a tradeoff between computation time and accuracy, making it essential to optimize such a tradeoff. Fortunately, in many autonomous driving environments, images come in a continuous form, providing an opportunity to use optical flow. In this paper, we improve the performance of an object detection neural network utilizing optical flow estimation. In addition, we propose a Lyapunov optimization framework for time-average performance maximization subject to stability. It adaptively determines whether to use optical flow to suit the dynamic vehicle environment, thereby ensuring the vehicle's queue stability and the time-average maximum performance simultaneously. To verify the key ideas, we conduct numerical experiments with various object detection neural networks and optical flow estimation networks. In addition, we demonstrate the self-configurable stabilized detection with YOLOv3-tiny and FlowNet2-S, which are the real-time object detection network and an optical flow estimation network, respectively. In the demonstration, our proposed framework improves the accuracy by 3.02%, the number of detected objects by 59.6%, and the queue stability for computing capabilities.
翻訳日:2022-09-30 18:24:11 公開日:2022-09-29
# 量子トンネルウォークによる非凸最適化のための量子スピードアップについて

On Quantum Speedups for Nonconvex Optimization via Quantum Tunneling Walks ( http://arxiv.org/abs/2209.14501v1 )

ライセンス: Link先を確認
Yizhou Liu, Weijie J. Su, Tongyang Li(参考訳) 古典的アルゴリズムは、局所ミニマを高い障壁で分離する非凸最適化問題に有効ではないことが多い。 本稿では,量子トンネルのグローバル効果を利用して,非凸最適化のための量子スピードアップの可能性を検討する。 具体的には、量子トンネルウォーク(QTW)と呼ばれる量子アルゴリズムを導入し、局所最小値が大域最小値である非凸問題に適用する。 局所最小値間の障壁が高いが薄く、最小値が平坦な場合、QTWは古典的確率勾配降下(SGD)よりも量子スピードアップを達成することを示す。 この観測に基づいて,従来のアルゴリズムでは,互いによく知っているターゲットを効率的に打つことはできないが,QTWは既知の井戸の近くで適切な初期状態を与えることができる。 最後に, 数値実験と相関する結果を得た。

Classical algorithms are often not effective for solving nonconvex optimization problems where local minima are separated by high barriers. In this paper, we explore possible quantum speedups for nonconvex optimization by leveraging the global effect of quantum tunneling. Specifically, we introduce a quantum algorithm termed the quantum tunneling walk (QTW) and apply it to nonconvex problems where local minima are approximately global minima. We show that QTW achieves quantum speedup over classical stochastic gradient descents (SGD) when the barriers between different local minima are high but thin and the minima are flat. Based on this observation, we construct a specific double-well landscape, where classical algorithms cannot efficiently hit one target well knowing the other well but QTW can when given proper initial states near the known well. Finally, we corroborate our findings with numerical experiments.
翻訳日:2022-09-30 18:22:11 公開日:2022-09-29
# 低安定化-複素量子状態は疑似乱数ではない

Low-Stabilizer-Complexity Quantum States Are Not Pseudorandom ( http://arxiv.org/abs/2209.14530v1 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang(参考訳) 安定度が低い」量子状態は、Haar-randomと効率的に区別できることを示す。 具体的には、$n$-qubit 純粋状態 $|\psi\rangle$ を考えると、$|\psi\rangle$ を区別する効率的なアルゴリズムを与える。 (i)ハールランダム、又は (ii)安定化子忠実度が少なくとも$\frac{1}{k}$(安定子状態が少なくとも$\frac{1}{k}$である)の状態で、これらのうちの1つが正しいことを約束する。 ブラックボックスで$|\psi\rangle$にアクセスすると、アルゴリズムは$O\! \left(k^{12} \log(1/\delta)\right)$|\psi\rangle$ と $o\! \left(n k^{12} \log(1/\delta)\right)$ time to succeed with probability at least $1-\delta$, and with access to a state preparation unitary for $|\psi\rangle$ (and its inverse, $o\! \left(k^{3} \log(1/\delta)\right)$クエリと$o\! \left(n k^{3} \log(1/\delta)\right)$ time suffice である。 結論として、計算的に擬似ランダムな量子状態、すなわち一階述語的な下界を作るためには、$\omega(\log(n))$$T$-gates が任意の Clifford+$T$ 回路で必要であることが証明される。

We show that quantum states with "low stabilizer complexity" can be efficiently distinguished from Haar-random. Specifically, given an $n$-qubit pure state $|\psi\rangle$, we give an efficient algorithm that distinguishes whether $|\psi\rangle$ is (i) Haar-random or (ii) a state with stabilizer fidelity at least $\frac{1}{k}$ (i.e., has fidelity at least $\frac{1}{k}$ with some stabilizer state), promised that one of these is the case. With black-box access to $|\psi\rangle$, our algorithm uses $O\!\left( k^{12} \log(1/\delta)\right)$ copies of $|\psi\rangle$ and $O\!\left(n k^{12} \log(1/\delta)\right)$ time to succeed with probability at least $1-\delta$, and, with access to a state preparation unitary for $|\psi\rangle$ (and its inverse), $O\!\left( k^{3} \log(1/\delta)\right)$ queries and $O\!\left(n k^{3} \log(1/\delta)\right)$ time suffice. As a corollary, we prove that $\omega(\log(n))$ $T$-gates are necessary for any Clifford+$T$ circuit to prepare computationally pseudorandom quantum states, a first-of-its-kind lower bound.
翻訳日:2022-09-30 18:21:56 公開日:2022-09-29
# 薬物発見・開発における因果推論

Causal inference in drug discovery and development ( http://arxiv.org/abs/2209.14664v1 )

ライセンス: Link先を確認
Tom Michoel and Jitao David Zhang(参考訳) 新しい薬を見つけるには、探究し、因果性を証明することです。 人間の知識、創造性、データ、マシンインテリジェンスを活用する新しいアプローチとして、因果推論は認知バイアスを減らし、薬物発見における意思決定を改善するという約束を果たす。 バリューチェーンにまたがって適用されているが、因果推論の概念と実践は、多くの実践者にとってあいまいである。 本稿では、因果推論の非技術的導入、最近の応用の見直し、薬物発見・開発における因果言語導入の機会と課題について論じる。

To discover new drugs is to seek and to prove causality. As an emerging approach leveraging human knowledge and creativity, data, and machine intelligence, causal inference holds the promise of reducing cognitive bias and improving decision making in drug discovery. While it has been applied across the value chain, the concepts and practice of causal inference remain obscure to many practitioners. This article offers a non-technical introduction to causal inference, reviews its recent applications, and discusses opportunities and challenges of adopting the causal language in drug discovery and development.
翻訳日:2022-09-30 18:21:28 公開日:2022-09-29
# FastPacket: 次世代NIDS用のFastTextをベースとした事前トレーニングパッケージの埋め込みを目指す

FastPacket: Towards Pre-trained Packets Embedding based on FastText for next-generation NIDS ( http://arxiv.org/abs/2209.14727v1 )

ライセンス: Link先を確認
Khloud Al Jallad(参考訳) 新しい攻撃は攻撃者によって日常的に使用されるようになっているが、ほとんどのIDSは生のパケット情報を無視し、PCAPファイルから抽出された基本的な統計情報を気にするので、侵入検知システムでは検出されない。 ネットワークプログラムを用いてパケットから固定された統計的特徴を抽出することはよいが、現在の課題を検出するには不十分である。 我々は,パケットから動的特徴の自動抽出にビッグデータとディープラーニングを利用する時が来たと考えている。 コンピュータービジョンと自然言語処理におけるディープラーニング事前学習モデルに触発される時が来たので、セキュリティ深層学習ソリューションは、将来の研究で使用される大規模なデータセットの事前学習モデルを持つことになる。 本稿では,テキストデータに対する高速テキストの成功に触発された文字レベルの埋め込みに基づくパケット埋め込み手法を提案する。 このアプローチをfastpacketと呼んでいます。 結果はCIC-IDS-2017データセットのサブセットで測定されるが,ビッグデータ事前学習モデルでは有望な結果が期待できる。 トレーニング済みのFastPacketをMAWIビッグデータセット上に構築し、FastTextのようなコミュニティで利用できるようにすることを提案します。 現在使われているNIDSより優れているように、複雑な攻撃を検知できるパケットレベルのNIDSの新しい時代を始めることができる。

New Attacks are increasingly used by attackers everyday but many of them are not detected by Intrusion Detection Systems as most IDS ignore raw packet information and only care about some basic statistical information extracted from PCAP files. Using networking programs to extract fixed statistical features from packets is good, but may not enough to detect nowadays challenges. We think that it is time to utilize big data and deep learning for automatic dynamic feature extraction from packets. It is time to get inspired by deep learning pre-trained models in computer vision and natural language processing, so security deep learning solutions will have its pre-trained models on big datasets to be used in future researches. In this paper, we proposed a new approach for embedding packets based on character-level embeddings, inspired by FastText success on text data. We called this approach FastPacket. Results are measured on subsets of CIC-IDS-2017 dataset, but we expect promising results on big data pre-trained models. We suggest building pre-trained FastPacket on MAWI big dataset and make it available to community, similar to FastText. To be able to outperform currently used NIDS, to start a new era of packet-level NIDS that can better detect complex attacks.
翻訳日:2022-09-30 18:21:18 公開日:2022-09-29
# 補間補間分解による特徴選択と定量戦略の多様化への応用

Feature Selection via the Intervened Interpolative Decomposition and its Application in Diversifying Quantitative Strategies ( http://arxiv.org/abs/2209.14532v1 )

ライセンス: Link先を確認
Jun Lu, Joerg Osterrieder(参考訳) 本稿では,観測行列の各列の優先度や重要性がそれぞれ異なる補間分解(interpolative decomposition, id)を計算する確率モデルを提案する。 このアプローチは、低ランク近似、特徴選択、データ内の隠れパターンの抽出によく使われ、行列因子は各データ次元に関連づけられた潜在変数である。 ベイズ推定のためのギブサンプリングを適用して最適化を行う。 本研究では,中国のaシェア株10株を含む実世界のデータセットにおける提案モデルを評価し,提案するベイズidアルゴリズム(iid)が既存のベイズidアルゴリズムと同等の再構成誤差を発生させ,スコアや優先度の高い特徴を選択できることを示す。

In this paper, we propose a probabilistic model for computing an interpolative decomposition (ID) in which each column of the observed matrix has its own priority or importance, so that the end result of the decomposition finds a set of features that are representative of the entire set of features, and the selected features also have higher priority than others. This approach is commonly used for low-rank approximation, feature selection, and extracting hidden patterns in data, where the matrix factors are latent variables associated with each data dimension. Gibbs sampling for Bayesian inference is applied to carry out the optimization. We evaluate the proposed models on real-world datasets, including ten Chinese A-share stocks, and demonstrate that the proposed Bayesian ID algorithm with intervention (IID) produces comparable reconstructive errors to existing Bayesian ID algorithms while selecting features with higher scores or priority.
翻訳日:2022-09-30 18:15:21 公開日:2022-09-29
# ミニバッチSIHTアルゴリズムの収束性

Convergence of the mini-batch SIHT algorithm ( http://arxiv.org/abs/2209.14536v1 )

ライセンス: Link先を確認
Saeed Damadi, Jinglai Shen(参考訳) Iterative Hard Thresholding (IHT)アルゴリズムはスパース最適化の効果的な決定論的アルゴリズムとして広く検討されている。 IHTアルゴリズムは各点におけるバッチ(フル)勾配の情報から恩恵を受け、この情報は生成されたシーケンスの収束解析において重要な鍵となる。 しかし、各イテレーションでのバッチ勾配の計算は計算コストが高いか非現実的であるため、機械学習や高次元統計応用ではこの強さは弱くなる。 幸いなことに、これらのアプリケーションでは、目的関数は、確率的ミニバッチ勾配によるバッチ勾配を近似するために利用できる和構造を持つ。 本稿では,スパース最適化のためのミニバッチStochastic IHT (SIHT) アルゴリズムについて検討する。 導出に必要となる最小バッチサイズの増加と可変化を必要とする従来の研究とは対照的に、我々は導出する下位境界に従ってミニバッチサイズを固定し、作業を示す。 目的値関数の確率収束を証明するために、まず臨界スパース確率勾配降下特性を確立する。 この確率勾配降下特性を用いて,確率的ミニバッチsihtが生成する列はスーパーマーチンゲール列であり,確率1に収束することを示す。 以前の仕事とは異なり、関数は制限された強い凸であると仮定しない。 我々の知る限り、スパース最適化の状況において、全てのステップのミニバッチサイズを固定することにより確率関数値の列が確率1と収束することが文献で示されているのはこれが初めてである。

The Iterative Hard Thresholding (IHT) algorithm has been considered extensively as an effective deterministic algorithm for solving sparse optimizations. The IHT algorithm benefits from the information of the batch (full) gradient at each point and this information is a crucial key for the convergence analysis of the generated sequence. However, this strength becomes a weakness when it comes to machine learning and high dimensional statistical applications because calculating the batch gradient at each iteration is computationally expensive or impractical. Fortunately, in these applications the objective function has a summation structure that can be taken advantage of to approximate the batch gradient by the stochastic mini-batch gradient. In this paper, we study the mini-batch Stochastic IHT (SIHT) algorithm for solving the sparse optimizations. As opposed to previous works where increasing and variable mini-batch size is necessary for derivation, we fix the mini-batch size according to a lower bound that we derive and show our work. To prove stochastic convergence of the objective value function we first establish a critical sparse stochastic gradient descent property. Using this stochastic gradient descent property we show that the sequence generated by the stochastic mini-batch SIHT is a supermartingale sequence and converges with probability one. Unlike previous work we do not assume the function to be a restricted strongly convex. To the best of our knowledge, in the regime of sparse optimization, this is the first time in the literature that it is shown that the sequence of the stochastic function values converges with probability one by fixing the mini-batch size for all steps.
翻訳日:2022-09-30 18:15:04 公開日:2022-09-29
# 局所多重校正

Proportional Multicalibration ( http://arxiv.org/abs/2209.14613v1 )

ライセンス: Link先を確認
William La Cava, Elle Lett, Guangya Wan(参考訳) マルチキャリブレーションは、全体的なキャリブレーションを維持しつつ、データ内の柔軟に定義されたグループ間のキャリブレーション誤差を制約する好適なフェアネス基準である。 しかし、結果確率がグループメンバーシップと相関すると、マルチキャリブドモデルは、ベースレートの低いグループ間で、ベースレートの高いグループよりも高いキャリブレーション誤差を示すことができる。 その結果、意思決定者は特定のグループのモデル予測を信頼するか、信頼できないかを学ぶことができる。 そこで本研究では,グループ間および予測ビン内におけるキャリブレーション誤差を制約する基準である比例多重化を提案する。 比例多重化を満足することは、モデルの多重化と微分校正、すなわち公平性の概念に触発されたより強固な公平性基準に結びつくことを証明している。 比例多重校正のためのリスク予測モデルの後処理アルゴリズムを提案し,それを実証的に評価する。 PMC後処理のシミュレーション研究と,救急外来入院の予測への応用について検討する。 比例多重化は, 分類性能の面では, ほとんど費用がかからない交叉群上でのモデルキャリブレーションフェアネスの同時測定を制御するための有望な基準であると考えられる。

Multicalibration is a desirable fairness criteria that constrains calibration error among flexibly-defined groups in the data while maintaining overall calibration. However, when outcome probabilities are correlated with group membership, multicalibrated models can exhibit a higher percent calibration error among groups with lower base rates than groups with higher base rates. As a result, it remains possible for a decision-maker to learn to trust or distrust model predictions for specific groups. To alleviate this, we propose proportional multicalibration, a criteria that constrains the percent calibration error among groups and within prediction bins. We prove that satisfying proportional multicalibration bounds a model's multicalibration as well its differential calibration, a stronger fairness criteria inspired by the fairness notion of sufficiency. We provide an efficient algorithm for post-processing risk prediction models for proportional multicalibration and evaluate it empirically. We conduct simulation studies and investigate a real-world application of PMC-postprocessing to prediction of emergency department patient admissions. We observe that proportional multicalibration is a promising criteria for controlling simultenous measures of calibration fairness of a model over intersectional groups with virtually no cost in terms of classification performance.
翻訳日:2022-09-30 18:14:39 公開日:2022-09-29
# コミュニティ検出の効率化のための品質の取引--グラフ間のインダクティブ手法

Trading off Quality for Efficiency of Community Detection: An Inductive Method across Graphs ( http://arxiv.org/abs/2209.14825v1 )

ライセンス: Link先を確認
Meng Qin, Chaorui Zhang, Bo Bai, Gong Zhang, Dit-Yan Yeung(参考訳) 多くのネットワークアプリケーションは、np-hard combinatorial optimization problem of community detection (cd)として定式化することができる。 NP硬度のため、CDの品質と効率のバランスをとることは依然として課題である。 既存のほとんどのCDメソッドはトランスダクティブであり、単一のグラフ上のCDにのみ独立に最適化されている。 これらの手法のいくつかは高度な機械学習技術を用いて高品質なCD結果を得るが、通常は複雑である。 他のアプローチでは、高速なヒューリスティック近似を使用してランタイムを低くするが、品質劣化に悩まされる可能性がある。 これらのトランスダクティブ手法とは対照的に,np-hardチャレンジを緩和するために,システムやシナリオのグラフにまたがる帰納的コミュニティ検出(icd)手法を提案する。 ICDは、まず、システムの主要な特性を捉えるために、履歴グラフ上の逆双対GNNのオフライントレーニングを行う。 トレーニングされたモデルは、さらに最適化することなく、オンラインcd用の新しい未認識グラフに直接一般化され、品質と効率のトレードオフが達成される。 ICDはまた、オフライントレーニングにおける置換不変コミュニティラベルをキャプチャし、修正されていないノード数とコミュニティを持つ新しいグラフ上のオンラインCDに取り組むこともできる。 一連のベンチマークの実験では、ICDは様々なベースラインに対して品質と効率の間に大きなトレードオフを達成できることを示した。

Many network applications can be formulated as NP-hard combinatorial optimization problems of community detection (CD). Due to the NP-hardness, to balance the CD quality and efficiency remains a challenge. Most existing CD methods are transductive, which are independently optimized only for the CD on a single graph. Some of these methods use advanced machine learning techniques to obtain high-quality CD results but usually have high complexity. Other approaches use fast heuristic approximation to ensure low runtime but may suffer from quality degradation. In contrast to these transductive methods, we propose an alternative inductive community detection (ICD) method across graphs of a system or scenario to alleviate the NP-hard challenge. ICD first conducts the offline training of an adversarial dual GNN on historical graphs to capture key properties of the system. The trained model is then directly generalized to new unseen graphs for online CD without additional optimization, where a better trade-off between quality and efficiency can be achieved. ICD can also capture the permutation invariant community labels in the offline training and tackle the online CD on new graphs with non-fixed number of nodes and communities. Experiments on a set of benchmarks demonstrate that ICD can achieve a significant trade-off between quality and efficiency over various baselines.
翻訳日:2022-09-30 18:14:19 公開日:2022-09-29
# 深層ニューラルネットワークに対する軽量ブラックボックス攻撃に向けて

Towards Lightweight Black-Box Attacks against Deep Neural Networks ( http://arxiv.org/abs/2209.14826v1 )

ライセンス: Link先を確認
Chenghao Sun, Yonggang Zhang, Wan Chaoqun, Qizhou Wang, Ya Li, Tongliang Liu, Bo Han and Xinmei Tian(参考訳) ブラックボックス攻撃は、ターゲットモデルのパラメータにアクセスすることなく、敵対的な例を生成し、デプロイされたディープニューラルネットワーク(dnn)の脅威をほとんど悪化させる。 しかし、以前の研究では、ブラックボックス攻撃はトレーニングデータやアウトプットがアクセスできない場合にターゲットモデルを誤解させることができない。 本研究では,ブラックボックス攻撃は,いくつかのテストサンプルしか利用できない極めて限定的なシナリオにおいて,現実的な攻撃を引き起こす可能性があると論じる。 具体的には、いくつかのテストサンプルでトレーニングされたDNNの浅い層を攻撃することで、強力な敵の例が生成される。 いくつかのサンプルが必要なので、これらの攻撃を軽量なブラックボックス攻撃と呼ぶ。 軽量攻撃を促進する主な課題は、浅い層の近似誤差による悪影響を軽減することである。 サンプル数が少ないため近似誤差を軽減できないため,軽量攻撃のためのエラートランスフォーマ(etf)を提案する。 すなわち、etfはパラメータ空間の近似誤差を特徴空間の摂動に変換し、特徴を乱すことによって誤差を緩和する。 実験では、etfによる軽量ブラックボックス攻撃が驚くべき結果を得た。 例えば、1つのカテゴリに1つのサンプルしか使用できないとしても、軽量なブラックボックス攻撃における攻撃成功率は、完全なトレーニングデータを持つブラックボックス攻撃よりもわずか3%低い。

Black-box attacks can generate adversarial examples without accessing the parameters of target model, largely exacerbating the threats of deployed deep neural networks (DNNs). However, previous works state that black-box attacks fail to mislead target models when their training data and outputs are inaccessible. In this work, we argue that black-box attacks can pose practical attacks in this extremely restrictive scenario where only several test samples are available. Specifically, we find that attacking the shallow layers of DNNs trained on a few test samples can generate powerful adversarial examples. As only a few samples are required, we refer to these attacks as lightweight black-box attacks. The main challenge to promoting lightweight attacks is to mitigate the adverse impact caused by the approximation error of shallow layers. As it is hard to mitigate the approximation error with few available samples, we propose Error TransFormer (ETF) for lightweight attacks. Namely, ETF transforms the approximation error in the parameter space into a perturbation in the feature space and alleviates the error by disturbing features. In experiments, lightweight black-box attacks with the proposed ETF achieve surprising results. For example, even if only 1 sample per category available, the attack success rate in lightweight black-box attacks is only about 3% lower than that of the black-box attacks with complete training data.
翻訳日:2022-09-30 18:13:58 公開日:2022-09-29
# AdaGrad on $\R^{d}$:Beyond Convexity, Non-Asymptotic Rate and Accelerationについて

On the Convergence of AdaGrad on $\R^{d}$: Beyond Convexity, Non-Asymptotic Rate and Acceleration ( http://arxiv.org/abs/2209.14827v1 )

ライセンス: Link先を確認
Zijian Liu, Ta Duy Nguyen, Alina Ene, Huy L. Nguyen(参考訳) 滑らかな凸最適化のためのAdaGradや他の適応手法の既存の分析は、典型的には有界領域径を持つ関数に対して行われる。 制約のない問題では、以前の研究は関数クラス全体に真となる明示的な定数因子を伴わない漸近収束率を保証する。 さらに、確率的設定では、AdaGradの修正版のみが、一般的に使われているものと異なり、最新の勾配はステップサイズを更新するのに使われていない。 本稿では,これらのギャップを埋め,AdaGradとその変種を滑らかな凸関数の標準設定およびより一般的なクエーサー凸関数の設定でより深く理解することを目的とする。 まず,バニラAdaGradの収束率を決定論的,確率的両面の制約のない問題に明示的に拘束する手法を示す。 第二に、平均的な反復ではなく、最後の反復の収束を示すことのできる AdaGrad の変種を提案する。 最後に,問題パラメータに明示的に依存した決定論的設定において,新しい高速化適応アルゴリズムと収束保証を与え,先行研究で示された漸近速度を改善した。

Existing analysis of AdaGrad and other adaptive methods for smooth convex optimization is typically for functions with bounded domain diameter. In unconstrained problems, previous works guarantee an asymptotic convergence rate without an explicit constant factor that holds true for the entire function class. Furthermore, in the stochastic setting, only a modified version of AdaGrad, different from the one commonly used in practice, in which the latest gradient is not used to update the stepsize, has been analyzed. Our paper aims at bridging these gaps and developing a deeper understanding of AdaGrad and its variants in the standard setting of smooth convex functions as well as the more general setting of quasar convex functions. First, we demonstrate new techniques to explicitly bound the convergence rate of the vanilla AdaGrad for unconstrained problems in both deterministic and stochastic settings. Second, we propose a variant of AdaGrad for which we can show the convergence of the last iterate, instead of the average iterate. Finally, we give new accelerated adaptive algorithms and their convergence guarantee in the deterministic setting with explicit dependency on the problem parameters, improving upon the asymptotic rate shown in previous works.
翻訳日:2022-09-30 18:13:36 公開日:2022-09-29
# META-STORM:非有界関数に対する一般化完全適応変数還元SGD

META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for Unbounded Functions ( http://arxiv.org/abs/2209.14853v1 )

ライセンス: Link先を確認
Zijian Liu, Ta Duy Nguyen, Thien Hang Nguyen, Alina Ene, Huy L. Nguyen(参考訳) 分散還元法(VR)の一般非凸確率最適化問題への適用について検討する。 この設定では、最近のSTORM(Cutkosky-Orabona '19)は、以前のVRメソッドが依存していた"メガバッチ"の勾配を計算することの欠点を克服している。 そこでstormは、vr効果を達成するために再帰的モーメントを利用し、後にstorm+ (levy et al., '21]) で完全に適応する。完全適応性は、ステップサイズを設定するために、目的の滑らかさや確率勾配の分散とノルムに対する境界といった、特定の問題固有のパラメータを取得する必要をなくす。 しかし、storm+ は、関数の値が有界であるという仮定に大きく依存しており、有用な関数の大きなクラスは除いている。 本研究では,非凸最適化のための最適収束率を保ちながら,この有界関数値仮定を解消する,storm+の一般化フレームワークであるmeta-stormを提案する。 META-STORMは完全な適応性を維持し、問題固有のパラメータを取得する必要をなくすだけでなく、問題パラメータへの収束率の依存性を改善する。 さらに、META-STORMは、以前のメソッドを仮定する幅広いパラメータ設定を利用することができ、より広い範囲の設定でより柔軟にすることができる。 最後に,共通の深層学習タスクにおける実験を通して,メタストームの有効性を示す。 提案アルゴリズムは,従来のSTORM+を改良し,コーディネート毎の更新と指数移動平均ヒューリスティックスを加えた後,広く使われているアルゴリズムと競合する。

We study the application of variance reduction (VR) techniques to general non-convex stochastic optimization problems. In this setting, the recent work STORM [Cutkosky-Orabona '19] overcomes the drawback of having to compute gradients of "mega-batches" that earlier VR methods rely on. There, STORM utilizes recursive momentum to achieve the VR effect and is then later made fully adaptive in STORM+ [Levy et al., '21], where full-adaptivity removes the requirement for obtaining certain problem-specific parameters such as the smoothness of the objective and bounds on the variance and norm of the stochastic gradients in order to set the step size. However, STORM+ crucially relies on the assumption that the function values are bounded, excluding a large class of useful functions. In this work, we propose META-STORM, a generalized framework of STORM+ that removes this bounded function values assumption while still attaining the optimal convergence rate for non-convex optimization. META-STORM not only maintains full-adaptivity, removing the need to obtain problem specific parameters, but also improves the convergence rate's dependency on the problem parameters. Furthermore, META-STORM can utilize a large range of parameter settings that subsumes previous methods allowing for more flexibility in a wider range of settings. Finally, we demonstrate the effectiveness of META-STORM through experiments across common deep learning tasks. Our algorithm improves upon the previous work STORM+ and is competitive with widely used algorithms after the addition of per-coordinate update and exponential moving average heuristics.
翻訳日:2022-09-30 18:13:17 公開日:2022-09-29
# フェデレーション学習におけるエネルギー消費と完了時間の共同最適化

Joint Optimization of Energy Consumption and Completion Time in Federated Learning ( http://arxiv.org/abs/2209.14900v1 )

ライセンス: Link先を確認
Xinyu Zhou, Jun Zhao, Huimei Han, Claude Guet(参考訳) Federated Learning(FL)は、プライバシ保護の特性から興味深い分散機械学習アプローチである。 エネルギーと実行遅延のトレードオフのバランスをとるために,2つの重みパラメータによる総エネルギー消費と完了時間の重み付けを最小化するために最適化問題を定式化する。 最適化変数には、FLシステム内の各デバイスの帯域幅、伝送電力、CPU周波数が含まれており、すべてのデバイスが基地局に接続し、グローバルモデルを協調的に訓練する。 本研究では,非凸最適化問題を2つのサブプロブレムに分解することで,各装置の帯域割り当て,伝送電力,CPU周波数を決定するリソース割り当てアルゴリズムを考案する。 さらに,提案アルゴリズムの収束解析と計算複雑性について述べる。 数値計算の結果,提案アルゴリズムは,異なる重みパラメータ(すなわち異なる要求)で性能が向上するだけでなく,その性能を上回っていることがわかった。

Federated Learning (FL) is an intriguing distributed machine learning approach due to its privacy-preserving characteristics. To balance the trade-off between energy and execution latency, and thus accommodate different demands and application scenarios, we formulate an optimization problem to minimize a weighted sum of total energy consumption and completion time through two weight parameters. The optimization variables include bandwidth, transmission power and CPU frequency of each device in the FL system, where all devices are linked to a base station and train a global model collaboratively. Through decomposing the non-convex optimization problem into two subproblems, we devise a resource allocation algorithm to determine the bandwidth allocation, transmission power, and CPU frequency for each participating device. We further present the convergence analysis and computational complexity of the proposed algorithm. Numerical results show that our proposed algorithm not only has better performance at different weight parameters (i.e., different demands) but also outperforms the state of the art.
翻訳日:2022-09-30 18:12:48 公開日:2022-09-29
# 無料ランチなし「privacy for free:データセットの凝縮はプライバシーにどのように役立つか」

No Free Lunch in "Privacy for Free: How does Dataset Condensation Help Privacy" ( http://arxiv.org/abs/2209.14987v1 )

ライセンス: Link先を確認
Nicholas Carlini and Vitaly Feldman and Milad Nasr(参考訳) データプライバシを保護するために設計された新しい方法は、慎重に精査する必要がある。 プライバシ保護の失敗は検出が難しいが,‘プライバシ保護’メソッドを実装するシステムが攻撃を受けると,破滅的な結果につながる可能性がある。 ICML 2022(Dong et al., 2022)のOutstanding Paper Awardに選ばれた最近の研究によると、データセット凝縮(DC)は機械学習モデルをトレーニングする際のデータプライバシを大幅に改善する。 この主張は、特定のデータセット凝縮法の理論解析と、既存のメンバーシップ推論攻撃に対する抵抗の実証評価によって支持されている。 本稿では, dong et al. (2022) の研究におけるクレームを考察し,その方法の実証的評価における大きな欠陥と理論的解析について述べる。 これらの欠陥は、DCが直感的なベースライン上でMLモデルのトレーニングのプライバシを改善するという統計的に重要な証拠を提供していないことを示唆している。 さらに,プライバシ保護MLの標準的なアプローチであるDP-SGDは,精度が向上し,(確実に)メンバーシップ攻撃の成功率も低下することを示す。

New methods designed to preserve data privacy require careful scrutiny. Failure to preserve privacy is hard to detect, and yet can lead to catastrophic results when a system implementing a ``privacy-preserving'' method is attacked. A recent work selected for an Outstanding Paper Award at ICML 2022 (Dong et al., 2022) claims that dataset condensation (DC) significantly improves data privacy when training machine learning models. This claim is supported by theoretical analysis of a specific dataset condensation technique and an empirical evaluation of resistance to some existing membership inference attacks. In this note we examine the claims in the work of Dong et al. (2022) and describe major flaws in the empirical evaluation of the method and its theoretical analysis. These flaws imply that their work does not provide statistically significant evidence that DC improves the privacy of training ML models over a naive baseline. Moreover, previously published results show that DP-SGD, the standard approach to privacy preserving ML, simultaneously gives better accuracy and achieves a (provably) lower membership attack success rate.
翻訳日:2022-09-30 18:12:32 公開日:2022-09-29
# 若年性クリア細胞腎細胞癌細胞株の鑑別を補助する領域による関連性集積

Correlated Feature Aggregation by Region Helps Distinguish Aggressive from Indolent Clear Cell Renal Cell Carcinoma Subtypes on CT ( http://arxiv.org/abs/2209.14657v1 )

ライセンス: Link先を確認
Karin Stacke, Indrani Bhattacharya, Justin R. Tse, James D. Brooks, Geoffrey A. Sonn, Mirabela Rusu(参考訳) 腎細胞癌(英: Renal cell carcinoma, RCC)は、臨床行動が異なるがんである。 若年性RCCは壊死を伴わない場合が多く、治療なしで監視できる。 攻撃性RCCは、しばしば高品位であり、迅速な検出と治療がなければ、転移と死を引き起こすことがある。 ほとんどの腎臓がんはctスキャンで検出されるが、グレーディングは侵襲的生検または手術の組織学に基づいている。 CT画像に対する攻撃性の決定は、リスク階層化と治療計画を容易にするために臨床的に重要である。 本研究の目的は, 病理像の特徴と相関する放射線学的特徴を機械学習で同定し, 病理像ではなくCT画像上でのがん攻撃性の評価を容易にすることである。 本稿では,放射線学とそれに対応する非整合病理画像との相関を利用して,クリアセルrccのアグレッシブネスを分類する新しい自動手法corrfabrを提案する。 CorrFABRは,(1) 放射線画像と病理画像から領域レベルの特徴を抽出する特徴集約,(2) 病的特徴と相関する放射線学的特徴を領域レベルで学習する融合,(3) 学習された関連特徴をCTのみを入力として用いた致死的なクリアセルRCCと攻撃的に区別する予測の3段階からなる。 したがって、訓練中、corrfabrは放射線画像と病理画像の両方から学習するが、推論中、corrfabrは、病理画像がない場合、ct単独で攻撃的な透明細胞rccと区別する。 CorrFABRは放射線学の特徴だけで分類性能を改善し、バイナリ分類F1スコアは0.68(0.04)から0.73(0.03)に増加した。 これはct画像上のクリアセルrccの攻撃性の分類を改善するために病理疾患の特徴を組み込む可能性を示す。

Renal cell carcinoma (RCC) is a common cancer that varies in clinical behavior. Indolent RCC is often low-grade without necrosis and can be monitored without treatment. Aggressive RCC is often high-grade and can cause metastasis and death if not promptly detected and treated. While most kidney cancers are detected on CT scans, grading is based on histology from invasive biopsy or surgery. Determining aggressiveness on CT images is clinically important as it facilitates risk stratification and treatment planning. This study aims to use machine learning methods to identify radiology features that correlate with features on pathology to facilitate assessment of cancer aggressiveness on CT images instead of histology. This paper presents a novel automated method, Correlated Feature Aggregation By Region (CorrFABR), for classifying aggressiveness of clear cell RCC by leveraging correlations between radiology and corresponding unaligned pathology images. CorrFABR consists of three main steps: (1) Feature Aggregation where region-level features are extracted from radiology and pathology images, (2) Fusion where radiology features correlated with pathology features are learned on a region level, and (3) Prediction where the learned correlated features are used to distinguish aggressive from indolent clear cell RCC using CT alone as input. Thus, during training, CorrFABR learns from both radiology and pathology images, but during inference, CorrFABR will distinguish aggressive from indolent clear cell RCC using CT alone, in the absence of pathology images. CorrFABR improved classification performance over radiology features alone, with an increase in binary classification F1-score from 0.68 (0.04) to 0.73 (0.03). This demonstrates the potential of incorporating pathology disease characteristics for improved classification of aggressiveness of clear cell RCC on CT images.
翻訳日:2022-09-30 18:07:04 公開日:2022-09-29
# デジタルと物理的な顔攻撃:レビューと一歩進めて

Digital and Physical Face Attacks: Reviewing and One Step Further ( http://arxiv.org/abs/2209.14692v1 )

ライセンス: Link先を確認
Chenqi Kong, Shiqi Wang, Haoliang Li(参考訳) 過去5年間で急速に進歩した顔認証は、最も普及した生体認証法となっている。 高精度な認識性能とユーザフレンドリーな使用法のおかげで、自動顔認識(AFR)は、デバイスアンロック、チェックイン、ファイナンシャルペイメントに対する多くの実用的な応用に爆発しました。 顔認証が驚くほど成功したにもかかわらず、印刷攻撃、リプレイ攻撃、および3Dマスク攻撃などの様々な顔提示攻撃(FPA)は、不信感を強く訴えている。 物理的な顔攻撃に加えて、顔ビデオや画像は悪意のあるハッカーが立ち上げた様々なデジタル攻撃技術に弱いため、一般大衆に脅威をもたらす可能性がある。 巨大なデジタル顔画像やビデオへのアクセスが制限されないことや、インターネット上を流れる簡単に使える顔操作ツールが開示されていることから、専門家のスキルを持たない非専門家のアタッカーは、高度なフェイク顔を容易に作成することができ、金融詐欺、偽装、個人情報盗難など、多くの危険な応用に繋がる。 本調査は,既存の文献を徹底的に分析し,さらなる注意を要する課題を浮き彫りにすることで,顔鑑識の完全性を高めることを目的とする。 本稿では,まず,物理的およびデジタル的な顔攻撃タイプとデータセットを包括的に調査する。 次に,既存の反撃手法の最新かつ最先端の進歩を概観し,その限界を強調する。 さらに,顔鑑定コミュニティにおける現在および今後の課題の今後の研究方向性について概説する。 最後に、前回の調査では研究されていない、物理的およびデジタル的な顔攻撃検出の必要性について考察した。

With the rapid progress over the past five years, face authentication has become the most pervasive biometric recognition method. Thanks to the high-accuracy recognition performance and user-friendly usage, automatic face recognition (AFR) has exploded into a plethora of practical applications over device unlocking, checking-in, and financial payment. In spite of the tremendous success of face authentication, a variety of face presentation attacks (FPA), such as print attacks, replay attacks, and 3D mask attacks, have raised pressing mistrust concerns. Besides physical face attacks, face videos/images are vulnerable to a wide variety of digital attack techniques launched by malicious hackers, causing potential menace to the public at large. Due to the unrestricted access to enormous digital face images/videos and disclosed easy-to-use face manipulation tools circulating on the internet, non-expert attackers without any prior professional skills are able to readily create sophisticated fake faces, leading to numerous dangerous applications such as financial fraud, impersonation, and identity theft. This survey aims to build the integrity of face forensics by providing thorough analyses of existing literature and highlighting the issues requiring further attention. In this paper, we first comprehensively survey both physical and digital face attack types and datasets. Then, we review the latest and most advanced progress on existing counter-attack methodologies and highlight their current limits. Moreover, we outline possible future research directions for existing and upcoming challenges in the face forensics community. Finally, the necessity of joint physical and digital face attack detection has been discussed, which has never been studied in previous surveys.
翻訳日:2022-09-30 18:06:24 公開日:2022-09-29
# エッジ誘導ネットワークを用いた軽量単眼深度推定

Lightweight Monocular Depth Estimation with an Edge Guided Network ( http://arxiv.org/abs/2209.14829v1 )

ライセンス: Link先を確認
Xingshuai Dong, Matthew A. Garratt, Sreenatha G. Anavatti, Hussein A. Abbass and Junyu Dong(参考訳) 単眼深度推定は、多くのロボット応用に適用できる重要な課題である。 既存の手法では、トレーニングによる深さ推定精度の向上に重点を置いているが、計算の複雑さは大きい。 近年の研究では、エッジ情報は、畳み込みニューラルネットワーク(CNN)の深さを推定するための重要な手がかりであることがわかった。 本研究は,これらの観測から着想を得た新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。 特に、ライトウェイトなエンコーダ-デコーダアーキテクチャから始め、入力画像の勾配や、バックボーンからのマルチスケール機能マップとして使用するエッジガイダンスブランチを埋め込んで、エッジ注意機能を学びます。 コンテキスト情報とエッジアテンションの特徴を集約するために,トランスフォーマーベースの特徴集約モジュール(TRFA)を設計する。 trfaはクロスアテンション機構を通じて、コンテキスト情報とエッジアテンション機能間の長距離依存関係をキャプチャする。 我々は、nyu depth v2データセットについて広範な実験を行う。 実験の結果,提案手法はNvidia GTX 1080 GPU上で96fpsで動作し,最先端の性能を精度で達成していることがわかった。

Monocular depth estimation is an important task that can be applied to many robotic applications. Existing methods focus on improving depth estimation accuracy via training increasingly deeper and wider networks, however these suffer from large computational complexity. Recent studies found that edge information are important cues for convolutional neural networks (CNNs) to estimate depth. Inspired by the above observations, we present a novel lightweight Edge Guided Depth Estimation Network (EGD-Net) in this study. In particular, we start out with a lightweight encoder-decoder architecture and embed an edge guidance branch which takes as input image gradients and multi-scale feature maps from the backbone to learn the edge attention features. In order to aggregate the context information and edge attention features, we design a transformer-based feature aggregation module (TRFA). TRFA captures the long-range dependencies between the context information and edge attention features through cross-attention mechanism. We perform extensive experiments on the NYU depth v2 dataset. Experimental results show that the proposed method runs about 96 fps on a Nvidia GTX 1080 GPU whilst achieving the state-of-the-art performance in terms of accuracy.
翻訳日:2022-09-30 18:05:56 公開日:2022-09-29
# 計算病理におけるFederated Stain Normalization

Federated Stain Normalization for Computational Pathology ( http://arxiv.org/abs/2209.14849v1 )

ライセンス: Link先を確認
Nicolas Wagner, Moritz Fuchs, Yuri Tolkach, Anirban Mukhopadhyay(参考訳) 近年は深層学習が注目されているが、主に自然画像の文脈において、ほとんど計算病理学の分野で進歩している。 しかし、深層連合学習は、多くの研究室のデータ多様性を反映したデータセットを作成する機会である。 さらに、データセット構築の労力を多数に分割することができる。 残念なことに、既存のアルゴリズムは計算病理学に簡単には適用できない。 主に異なる実験室は異なる染色様式を持っているため、これはありそうにない仮定である。 そこで本研究では,多くの研究室の染色スタイルを計算的に整列し,プライバシ保護方式で学習し,計算病理学におけるフェデレーション学習を促進できる生成モデルであるBottleGANを提案する。 我々は,PESOセグメンテーションデータセットに基づく異種多施設データセットを構築し,既存のフェデレート学習アルゴリズムと比較して,IOUを42.5%改善する。 BottleGANの実装はhttps://github.com/MECLabTUDA/BottleGANで公開されている。

Although deep federated learning has received much attention in recent years, progress has been made mainly in the context of natural images and barely for computational pathology. However, deep federated learning is an opportunity to create datasets that reflect the data diversity of many laboratories. Further, the effort of dataset construction can be divided among many. Unfortunately, existing algorithms cannot be easily applied to computational pathology since previous work presupposes that data distributions of laboratories must be similar. This is an unlikely assumption, mainly since different laboratories have different staining styles. As a solution, we propose BottleGAN, a generative model that can computationally align the staining styles of many laboratories and can be trained in a privacy-preserving manner to foster federated learning in computational pathology. We construct a heterogenic multi-institutional dataset based on the PESO segmentation dataset and improve the IOU by 42\% compared to existing federated learning algorithms. An implementation of BottleGAN is available at https://github.com/MECLabTUDA/BottleGAN
翻訳日:2022-09-30 18:05:37 公開日:2022-09-29
# 人間の運動拡散モデル

Human Motion Diffusion Model ( http://arxiv.org/abs/2209.14916v1 )

ライセンス: Link先を確認
Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Amit H. Bermano and Daniel Cohen-Or(参考訳) 自然で表現力のある人間のモーション生成は、コンピュータアニメーションの聖杯である。 これは、起こりうる動きの多様性、人間の知覚的感受性、正確に記述することの難しさなど、困難な課題である。 したがって、現在の生成解は低品質か表現性に制限がある。 拡散モデルは、他の領域ですでに顕著な生成能力を示しており、その多対多の性質から、人間の運動の候補として有望であるが、リソース不足で制御が難しい傾向がある。 本稿では,人間の動作領域に対する分類器のない拡散型生成モデルである運動拡散モデル(MDM)を紹介する。 mdmはトランスフォーマティブベースであり、モーションジェネレーションの文献からの洞察を組み合わせる。 注目すべき設計選択は、各拡散ステップにおけるノイズではなく、サンプルの予測である。 これにより、足の接触損失のような動きの位置や速度において確立された幾何学的損失の使用が容易になる。 示すように、MDMは汎用的なアプローチであり、条件付けの異なるモードと異なる生成タスクを可能にします。 私たちのモデルは軽量なリソースでトレーニングされているが、テキスト間移動とアクション間移動のベンチマークでは最先端の結果が得られている。 https://guytevet.github.io/mdm-page/。

Natural and expressive human motion generation is the holy grail of computer animation. It is a challenging task, due to the diversity of possible motion, human perceptual sensitivity to it, and the difficulty of accurately describing it. Therefore, current generative solutions are either low-quality or limited in expressiveness. Diffusion models, which have already shown remarkable generative capabilities in other domains, are promising candidates for human motion due to their many-to-many nature, but they tend to be resource hungry and hard to control. In this paper, we introduce Motion Diffusion Model (MDM), a carefully adapted classifier-free diffusion-based generative model for the human motion domain. MDM is transformer-based, combining insights from motion generation literature. A notable design-choice is the prediction of the sample, rather than the noise, in each diffusion step. This facilitates the use of established geometric losses on the locations and velocities of the motion, such as the foot contact loss. As we demonstrate, MDM is a generic approach, enabling different modes of conditioning, and different generation tasks. We show that our model is trained with lightweight resources and yet achieves state-of-the-art results on leading benchmarks for text-to-motion and action-to-motion. https://guytevet.github.io/mdm-page/ .
翻訳日:2022-09-30 18:05:19 公開日:2022-09-29
# GDIP:逆条件における物体検出のためのGated Differentiable Image Processing

GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions ( http://arxiv.org/abs/2209.14922v1 )

ライセンス: Link先を確認
Sanket Kalwar, Dhruv Patel, Aakash Aanegola, Krishna Reddy Konda, Sourav Garg, K Madhava Krishna(参考訳) 悪天候や照明条件下での物体の検出は、自動運転車の安全かつ継続的な運用に不可欠であり、未解決の問題である。 Gated Differentiable Image Processing (GDIP) ブロックはドメインに依存しないネットワークアーキテクチャで、既存のオブジェクト検出ネットワーク(ヨロなど)に接続でき、霧や低照度といった悪条件の画像でエンドツーエンドに訓練することができる。 提案するgdipブロックは,下流の物体検出損失から直接画像の強調を行う。 これは、複数の画像前処理(IP)技術のパラメータを学習し、その出力を新しいゲーティング機構で学習した重みを使って組み合わせることで達成される。 プログレッシブ画像強調のための多段階誘導手順によりGDIPをさらに改善する。 最後に,速度の精度をトレードオフして,Yoloのトレーニング用レギュレータとして使用できるGDIPの変種を提案し,推論中のGDIPベースの画像強調の必要性を排除し,高いスループットと実用的な実環境展開を実現する。 本研究では,PascalVOCやRTTS,低照度(ExDark)データセットなどの合成データセットの定量的,定性的な研究を通じて,最先端手法による検出性能の大幅な向上を示す。

Detecting objects under adverse weather and lighting conditions is crucial for the safe and continuous operation of an autonomous vehicle, and remains an unsolved problem. We present a Gated Differentiable Image Processing (GDIP) block, a domain-agnostic network architecture, which can be plugged into existing object detection networks (e.g., Yolo) and trained end-to-end with adverse condition images such as those captured under fog and low lighting. Our proposed GDIP block learns to enhance images directly through the downstream object detection loss. This is achieved by learning parameters of multiple image pre-processing (IP) techniques that operate concurrently, with their outputs combined using weights learned through a novel gating mechanism. We further improve GDIP through a multi-stage guidance procedure for progressive image enhancement. Finally, trading off accuracy for speed, we propose a variant of GDIP that can be used as a regularizer for training Yolo, which eliminates the need for GDIP-based image enhancement during inference, resulting in higher throughput and plausible real-world deployment. We demonstrate significant improvement in detection performance over several state-of-the-art methods through quantitative and qualitative studies on synthetic datasets such as PascalVOC, and real-world foggy (RTTS) and low-lighting (ExDark) datasets.
翻訳日:2022-09-30 18:05:00 公開日:2022-09-29
# EDA:3次元視覚・言語学習のためのテキストデカップリングとセンスアライメント

EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual and Language Learning ( http://arxiv.org/abs/2209.14941v1 )

ライセンス: Link先を確認
Yanmin Wu, Xinhua Cheng, Renrui Zhang, Zesen Cheng, Jian Zhang(参考訳) 3dビジュアルグラウンドは、リッチなセマンティックコンポーネントを持つ自由形式の自然言語記述によって言及されるポイントクラウド内のオブジェクトを見つけることを目的としている。 しかし、既存の方法では、すべての単語を結合した文レベルの特徴を抽出するか、オブジェクト名にもっとフォーカスするか、単語レベルの情報を失うか、他の属性を無視する。 この問題を軽減するため,文中のテキスト属性を明示的に分離し,細粒度言語と点クラウドオブジェクト間のDense Alignmentを実行するEDAを提案する。 具体的には、まずテキストデカップリングモジュールを提案し、各セマンティックコンポーネントのテキスト機能を生成する。 次に,テキスト位置アライメントとオブジェクト意味アライメントの2つのモダリティ間の密結合を監督するために,損失を2つ設計する。 さらに,オブジェクト名のないオブジェクトの探索と,記述に参照される補助オブジェクトの探索という,2つの新たなビジュアルグラウンドタスクを導入することで,モデルの密集したアライメント容量を徹底的に評価できる。 実験により,ScanRefer と SR3D/NR3D の2つの広義の視覚的接地データセットに対して最先端のパフォーマンスを実現し,新たに提案した2つのタスクに対して絶対的なリーダーシップを得ることができた。 コードはhttps://github.com/yanmin-wu/edaで入手できる。

3D visual grounding aims to find the objects within point clouds mentioned by free-form natural language descriptions with rich semantic components. However, existing methods either extract the sentence-level features coupling all words, or focus more on object names, which would lose the word-level information or neglect other attributes. To alleviate this issue, we present EDA that Explicitly Decouples the textual attributes in a sentence and conducts Dense Alignment between such fine-grained language and point cloud objects. Specifically, we first propose a text decoupling module to produce textual features for every semantic component. Then, we design two losses to supervise the dense matching between two modalities: the textual position alignment and object semantic alignment. On top of that, we further introduce two new visual grounding tasks, locating objects without object names and locating auxiliary objects referenced in the descriptions, both of which can thoroughly evaluate the model's dense alignment capacity. Through experiments, we achieve state-of-the-art performance on two widely-adopted visual grounding datasets , ScanRefer and SR3D/NR3D, and obtain absolute leadership on our two newly-proposed tasks. The code will be available at https://github.com/yanmin-wu/EDA.
翻訳日:2022-09-30 18:04:33 公開日:2022-09-29
# TruEyes: モバイルアプリでのマイクロタスクの利用による機械学習データセットのクラウドソーシング

TruEyes: Utilizing Microtasks in Mobile Apps for Crowdsourced Labeling of Machine Learning Datasets ( http://arxiv.org/abs/2209.14708v1 )

ライセンス: Link先を確認
Chandramohan Sudar, Michael Froehlich, Florian Alt(参考訳) 研究と産業における教師あり機械学習の利用の増加は、ラベル付きデータセットの必要性を高めた。 クラウドソーシングは、データラベルを作成する一般的な方法として登場した。 しかし、タスクの大規模なバッチ作業は作業者の疲労につながり、ラベルの品質に悪影響を及ぼす。 そこで我々は,TruEyesという共同クラウドソーシングシステムを紹介し,モバイルアプリユーザへのマイクロタスクの配布を可能にする。 TruEyesは、機械学習の実践者がラベル付けタスクをパブリッシュし、モバイルアプリ開発者は収益化のためにタスク広告を統合する。 N=296名の被験者を対象に実験を行った。 その結果,ラベル付きデータの質は従来のクラウドソーシング手法に匹敵し,ほとんどのユーザは従来の広告よりもタスク広告を好むことがわかった。 本システムの拡張について論じ,将来モバイル広告空間を生産資源として活用する方法について論じる。

The growing use of supervised machine learning in research and industry has increased the need for labeled datasets. Crowdsourcing has emerged as a popular method to create data labels. However, working on large batches of tasks leads to worker fatigue, negatively impacting labeling quality. To address this, we present TruEyes, a collaborative crowdsourcing system, enabling the distribution of micro-tasks to mobile app users. TruEyes allows machine learning practitioners to publish labeling tasks, mobile app developers to integrate task ads for monetization, and users to label data instead of watching advertisements. To evaluate the system, we conducted an experiment with N=296 participants. Our results show that the quality of the labeled data is comparable to traditional crowdsourcing approaches and most users prefer task ads over traditional ads. We discuss extensions to the system and address how mobile advertisement space can be used as a productive resource in the future.
翻訳日:2022-09-30 18:03:47 公開日:2022-09-29
# ConvRNN-T:ストリーム音声認識のための畳み込み強化リカレントニューラルネットワークトランスデューサ

ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers for Streaming Speech Recognition ( http://arxiv.org/abs/2209.14868v1 )

ライセンス: Link先を確認
Martin Radfar, Rohit Barnwal, Rupak Vignesh Swaminathan, Feng-Ju Chang, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris(参考訳) リカレントニューラルネットワークトランスデューサ(RNN-T)は、ストリーミングエンドツーエンド(E2E)のASR技術である。 RNN-Tでは、音響エンコーダは通常LSTMのスタックで構成される。 最近では、LSTMレイヤの代替として、RNN-Tのエンコーダをフロントエンドとアテンション層間の畳み込みレイヤで構成される改良されたTransformerエンコーダに置き換えるConformerアーキテクチャが導入されている。 本稿では,新たなストリーミングASRモデルであるConvolutional Augmented Recurrent Neural Network Transducers (ConvRNN-T)を導入する。 ConvRNN-Tは、大域的および局所的なオーディオコンテキスト表現をLSTM層に提供するために、因果1-D畳み込み層、圧縮と励起、ダイレーション、残余ブロックを利用する。 本稿では,RNN-T や Conformer ,ContextNet より優れる ConvRNN-T について述べる。 さらに、ConvRNN-TはConformerに比べて計算量が少ない。 ConvRNN-Tの精度とフットプリントの低さは、オンデバイスストリーミングのASR技術に有望な候補となる。

The recurrent neural network transducer (RNN-T) is a prominent streaming end-to-end (E2E) ASR technology. In RNN-T, the acoustic encoder commonly consists of stacks of LSTMs. Very recently, as an alternative to LSTM layers, the Conformer architecture was introduced where the encoder of RNN-T is replaced with a modified Transformer encoder composed of convolutional layers at the frontend and between attention layers. In this paper, we introduce a new streaming ASR model, Convolutional Augmented Recurrent Neural Network Transducers (ConvRNN-T) in which we augment the LSTM-based RNN-T with a novel convolutional frontend consisting of local and global context CNN encoders. ConvRNN-T takes advantage of causal 1-D convolutional layers, squeeze-and-excitation, dilation, and residual blocks to provide both global and local audio context representation to LSTM layers. We show ConvRNN-T outperforms RNN-T, Conformer, and ContextNet on Librispeech and in-house data. In addition, ConvRNN-T offers less computational complexity compared to Conformer. ConvRNN-T's superior accuracy along with its low footprint make it a promising candidate for on-device streaming ASR technologies.
翻訳日:2022-09-30 17:58:27 公開日:2022-09-29
# NAF:Sparse-View CBCT 再建のための神経減衰場

NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction ( http://arxiv.org/abs/2209.14540v1 )

ライセンス: Link先を確認
Ruyi Zha, Yanhao Zhang, Hongdong Li(参考訳) 本稿では,外的トレーニングデータを必要としないスパースビューCBCT再構成法(Cone Beam Computed Tomography)を提案する。 具体的には、所望の減衰係数を3次元空間座標の連続関数として表現し、完全連結深層ニューラルネットワークによってパラメータ化される。 我々は,実射影と合成射影の誤差を最小化し,離散的に投影を合成し,ネットワークを訓練する。 ハッシュ符号化を伴う学習ベースのエンコーダは、ネットワークが高周波の詳細を捉えるのに役立つ。 このエンコーダは、人間の器官の滑らかさと空間性を利用するため、高い性能と効率の点で一般的に使用される周波数領域エンコーダよりも優れている。 ヒトの臓器と幻のデータセットで実験が行われた。 提案手法は最先端の精度を実現し,計算時間を適度に短縮する。

This paper proposes a novel and fast self-supervised solution for sparse-view CBCT reconstruction (Cone Beam Computed Tomography) that requires no external training data. Specifically, the desired attenuation coefficients are represented as a continuous function of 3D spatial coordinates, parameterized by a fully-connected deep neural network. We synthesize projections discretely and train the network by minimizing the error between real and synthesized projections. A learning-based encoder entailing hash coding is adopted to help the network capture high-frequency details. This encoder outperforms the commonly used frequency-domain encoder in terms of having higher performance and efficiency, because it exploits the smoothness and sparsity of human organs. Experiments have been conducted on both human organ and phantom datasets. The proposed method achieves state-of-the-art accuracy and spends reasonably short computation time.
翻訳日:2022-09-30 17:55:49 公開日:2022-09-29
# persign: パーソナライズされたバングラデシュのサインレター合成

PerSign: Personalized Bangladeshi Sign Letters Synthesis ( http://arxiv.org/abs/2209.14591v1 )

ライセンス: Link先を確認
Mohammad Imrul Jubair, Ali Ahnaf, Tashfiq Nahiyan Khan, Ullash Bhattacharjee, Tanjila Joti(参考訳) バングラデシュの手話(BdSL)は、他の手話と同様、一般の人々にとって、特に文字の表現に関して学ぶのは難しい。 本ポスターでは,手話のジェスチャーを導入して人のイメージを再現するシステムであるPerSignを提案する。 この操作をパーソナライズし、手、手のひら、指の位置を適切に変更しながら、生成した画像が顔、肌の色、服装、背景などの初期画像プロファイルを変更できるようにする。 画像から画像への変換技術を用いて、タスクを達成するための独自のデータセットを構築する。 翻訳画像は,BdSLの知識がなくても,手話(手話を使う人)と非手話のコミュニケーションギャップを低減できると考えている。

Bangladeshi Sign Language (BdSL) - like other sign languages - is tough to learn for general people, especially when it comes to expressing letters. In this poster, we propose PerSign, a system that can reproduce a person's image by introducing sign gestures in it. We make this operation personalized, which means the generated image keeps the person's initial image profile - face, skin tone, attire, background - unchanged while altering the hand, palm, and finger positions appropriately. We use an image-to-image translation technique and build a corresponding unique dataset to accomplish the task. We believe the translated image can reduce the communication gap between signers (person who uses sign language) and non-signers without having prior knowledge of BdSL.
翻訳日:2022-09-30 17:55:27 公開日:2022-09-29
# 3次元密度不確かさ推定のためのクロスポイント埋め込みの検討

Exploring Cross-Point Embeddings for 3D Dense Uncertainty Estimation ( http://arxiv.org/abs/2209.14602v1 )

ライセンス: Link先を確認
Kaiwen Cai, Chris Xiaoxuan Lu, Xiaowei Huang(参考訳) 密度の高い予測タスクは3dポイント雲では一般的であるが、大小点とその埋め込みの固有の不確かさは長い間無視されてきた。 本研究では,3次元点雲の密度予測タスクに対する新しい不確実性推定手法であるCUEを提案する。 計量学習にインスパイアされたCUEの鍵となる考え方は、従来の密接な予測パイプラインへのクロスポイント埋め込みを探ることである。 具体的には、CUEは確率的埋め込みモデルを構築し、埋め込み空間に巨大な点の計量アライメントを強制する。 cue は,(1)3次元幾何学的特徴学習において,初めて適切に調整された密接な不確かさを得たこと,(2) 意味セグメンテーションにおいて,不確かさを43.8%減らすこと,の2つの異なるタスクにおける3次元点雲の密集不確実性推定のための汎用的かつ効果的なツールであることを示す。 不確実性はすべて予測性能を損なうことなく推定される。

Dense prediction tasks are common for 3D point clouds, but the inherent uncertainties in massive points and their embeddings have long been ignored. In this work, we present CUE, a novel uncertainty estimation method for dense prediction tasks of 3D point clouds. Inspired by metric learning, the key idea of CUE is to explore cross-point embeddings upon a conventional dense prediction pipeline. Specifically, CUE involves building a probabilistic embedding model and then enforcing metric alignments of massive points in the embedding space. We demonstrate that CUE is a generic and effective tool for dense uncertainty estimation of 3D point clouds in two different tasks: (1) in 3D geometric feature learning we for the first time obtain well-calibrated dense uncertainty, and (2) in semantic segmentation we reduce uncertainty`s Expected Calibration Error of the state-of-the-arts by 43.8%. All uncertainties are estimated without compromising predictive performance.
翻訳日:2022-09-30 17:55:12 公開日:2022-09-29
# フレーム変換とデータ駆動型プリエントネットワークによる球面像の描画

Spherical Image Inpainting with Frame Transformation and Data-driven Prior Deep Networks ( http://arxiv.org/abs/2209.14604v1 )

ライセンス: Link先を確認
Jianfei Li, Chaoyan Huang, Raymond Chan, Han Feng, Micheal Ng, Tieyong Zeng(参考訳) 球面画像処理は、自動運転車の全方位ビジョン、地球規模の気候モデリング、医療画像など、多くの重要な分野に広く応用されている。 平坦な画像のために開発されたアルゴリズムを球面に拡張するのは簡単ではない。 本研究では,深層学習に基づく正規化器を用いた球面画像の塗布作業に焦点をあてる。 平面画像に対する既存モデルのナイーブな応用ではなく、高速方向球面ハールフレームレット変換を採用し、フレームレット変換のスパーシティ仮定に基づく新しい最適化フレームワークを開発した。 さらに、プログレッシブエンコーダ-デコーダアーキテクチャを使用することで、新しいより優れたディープcnnデノイザーを注意深く設計し、暗黙の正規化として動作する。 最後に,cnn denoiserを事前にトレーニングすることにより効率的に実装可能な最適化モデルを取り扱うためのプラグ・アンド・プレイ法を提案する。 数値実験により, 提案アルゴリズムは損傷した球面画像を大幅に復元し, 深層学習デノイザとプラグ・アンド・プレイモデルを用いて, 純粋に最高の性能が得られることを示した。

Spherical image processing has been widely applied in many important fields, such as omnidirectional vision for autonomous cars, global climate modelling, and medical imaging. It is non-trivial to extend an algorithm developed for flat images to the spherical ones. In this work, we focus on the challenging task of spherical image inpainting with deep learning-based regularizer. Instead of a naive application of existing models for planar images, we employ a fast directional spherical Haar framelet transform and develop a novel optimization framework based on a sparsity assumption of the framelet transform. Furthermore, by employing progressive encoder-decoder architecture, a new and better-performed deep CNN denoiser is carefully designed and works as an implicit regularizer. Finally, we use a plug-and-play method to handle the proposed optimization model, which can be implemented efficiently by training the CNN denoiser prior. Numerical experiments are conducted and show that the proposed algorithms can greatly recover damaged spherical images and achieve the best performance over purely using deep learning denoiser and plug-and-play model.
翻訳日:2022-09-30 17:54:53 公開日:2022-09-29
# 非線形変数相関による因果推論の医療への応用

Causal Inference via Nonlinear Variable Decorrelation for Healthcare Applications ( http://arxiv.org/abs/2209.14975v1 )

ライセンス: Link先を確認
Junda Wang, Weijian Li, Han Wang, Hanjia Lyu, Caroline Thirukumaran, Addisu Mesfin, Jiebo Luo(参考訳) 因果推論とモデル解釈可能性の研究は、特に医療とバイオインフォマティクスの分野で注目を集めている。 この分野での最近の成功にもかかわらず、人間の解釈可能な表現を持つ非線形環境下での特徴は十分に研究されていない。 この問題に対処するために,線形および非線形結合を扱う可変相関正規化器を用いた新しい手法を提案する。 さらに,ルールマイニングに基づく新たな表現としてアソシエーションルールを用い,モデルの解釈性を高めるために,人間の判断パターンの近さをさらに高めるために,アソシエーションルールを活用した。 4つの医療データセット(合成された1つのデータセットと異なる病気に関する3つの現実世界のコレクション)で広範な実験が行われている。 パラメータ推定と因果計算のベースラインアプローチと比較した定量的結果は、モデルの優れた性能を示している。 さらに, 医療専門家による専門家評価により, 提案モデルの有効性と解釈性が検証された。

Causal inference and model interpretability research are gaining increasing attention, especially in the domains of healthcare and bioinformatics. Despite recent successes in this field, decorrelating features under nonlinear environments with human interpretable representations has not been adequately investigated. To address this issue, we introduce a novel method with a variable decorrelation regularizer to handle both linear and nonlinear confounding. Moreover, we employ association rules as new representations using association rule mining based on the original features to further proximate human decision patterns to increase model interpretability. Extensive experiments are conducted on four healthcare datasets (one synthetically generated and three real-world collections on different diseases). Quantitative results in comparison to baseline approaches on parameter estimation and causality computation indicate the model's superior performance. Furthermore, expert evaluation given by healthcare professionals validates the effectiveness and interpretability of the proposed model.
翻訳日:2022-09-30 17:48:34 公開日:2022-09-29
# 連続学習のための複数モード

Multiple Modes for Continual Learning ( http://arxiv.org/abs/2209.14996v1 )

ライセンス: Link先を確認
Siddhartha Datta, Nigel Shadbolt(参考訳) データストリームの入力にモデルパラメータを適用することは、ディープラーニングのスケーラビリティにとって重要な要素である。 興味深いことに、オンライン設定における事前連続的な学習戦略は、古いタスクを思い出すために更新されたパラメータをローカルパラメータサブスペースに不注意に固定する。 この観察から,複数のパラメータモードの構築とモード毎のタスク割り当てのトレードオフを定式化する。 モード最適化タスク割り当て(MOTA)は,複数のモードを並列にトレーニングし,モードごとのタスク割り当てを最適化する。 我々は,ベースライン型連続学習戦略やサブポピュレーション,ドメイン,タスクシフトなど,様々な分布シフトの改善を実証的に示す。

Adapting model parameters to incoming streams of data is a crucial factor to deep learning scalability. Interestingly, prior continual learning strategies in online settings inadvertently anchor their updated parameters to a local parameter subspace to remember old tasks, else drift away from the subspace and forget. From this observation, we formulate a trade-off between constructing multiple parameter modes and allocating tasks per mode. Mode-Optimized Task Allocation (MOTA), our contributed adaptation strategy, trains multiple modes in parallel, then optimizes task allocation per mode. We empirically demonstrate improvements over baseline continual learning strategies and across varying distribution shifts, namely sub-population, domain, and task shift.
翻訳日:2022-09-30 17:48:21 公開日:2022-09-29
# 無線アクセスネットワークの性能解析のための標準相関に基づくフレームワーク

A canonical correlation-based framework for performance analysis of radio access networks ( http://arxiv.org/abs/2209.14684v1 )

ライセンス: Link先を確認
Furqan Ahmed, Muhammad Zeeshan Asghar, Jyri H\"am\"al\"ainen(参考訳) データ駆動最適化と機械学習に基づく無線アクセスネットワークのパフォーマンス診断は、基盤となるデータソースの性質だけでなく、複雑な時空間的関係や、ユーザモビリティとトラフィックパターンの違いによるセル間の相互依存によって生じる大きな課題を伴っている。 本稿では,これらの構成と性能管理データセットについて検討し,多変量解析を用いて重要な性能指標を用いてセル間の関係を同定する。 そこで本研究では,次元削減だけでなく,多変量データの集合間の関係解析にも有効な手法である正準相関解析(CCA)に基づく新しいフレームワークを活用する。 ケーススタディでは,商用セルネットワークにおけるセル停止に基づく省エネユースケースについて論じ,CCAを適用して,同一セクターにおけるカバーセルのKPIに対する容量セル停止の影響を分析した。 LTE Networkのデータは、サンプルケースの分析に使用される。 CCAは,ネットワーク計画データと構成データだけでなく,動的パフォーマンスデータとの鍵となる関係を識別し,次元的削減,性能解析,根本原因分析などの課題を解決するための有効な手法である,と結論付けた。

Data driven optimization and machine learning based performance diagnostics of radio access networks entails significant challenges arising not only from the nature of underlying data sources but also due to complex spatio-temporal relationships and interdependencies between cells due to user mobility and varying traffic patterns. We discuss how to study these configuration and performance management data sets and identify relationships between cells in terms of key performance indicators using multivariate analysis. To this end, we leverage a novel framework based on canonical correlation analysis (CCA), which is a highly effective method for not only dimensionality reduction but also for analyzing relationships across different sets of multivariate data. As a case study, we discuss energy saving use-case based on cell shutdown in commercial cellular networks, where we apply CCA to analyze the impact of capacity cell shutdown on the KPIs of coverage cell in the same sector. Data from LTE Network is used to analyzed example case. We conclude that CCA is a viable approach for identifying key relationships not only between network planning and configuration data, but also dynamic performance data, paving the way for endeavors such as dimensionality reduction, performance analysis, and root cause analysis for performance diagnostics.
翻訳日:2022-09-30 17:47:23 公開日:2022-09-29
# ロボットスキル学習による実験室の自動化の高速化

Accelerating Laboratory Automation Through Robot Skill Learning For Sample Scraping ( http://arxiv.org/abs/2209.14875v1 )

ライセンス: Link先を確認
Gabriella Pizzuto, Hetong Wang, Hatem Fakhruldeen, Bei Peng, Kevin S. Luck and Andrew I. Cooper(参考訳) 実験室実験におけるロボット工学の潜在的な利用は、科学者を退屈な作業から解放し、気候変動や世界中の病気のリスクといったトピックの問題が大きな利益をもたらす新しい材料を得る過程を加速させる魅力的な手段となる。 実験ワークフローには、すでに自動化の恩恵を受けるものもあるが、例えば、異なるツール、化学物質、ガラス製品など、異種システムを扱う際に必要となる高いモーター機能のために、サンプル準備が手作業で実行されるのが一般的である。 化学分野における基本的なワークフローは結晶化であり、結晶から3次元の分子構造を得る多型スクリーニング(polymorph screening)という応用がある。 このプロセスでは、合成分子は時間とお金の両方でコストがかかるため、できるだけ多くのサンプルを回収することが最も重要である。 この目的のために、化学者は、イメージングプレートの転送前にサンプル内容を回収するために、バイアルをスクラップする必要がある。 このプロセスの自動化は、ロボット挿入タスクを超えて、サンプルバイエルである制約された環境で粒状運動を行うという基本的な要件のため、難しい。 本研究は, 人体化学者がバイアルから粉末を抽出する方法に触発されて, スクラップ政策を学習するモデルレス強化学習法を提案し, 完全自律的な試料スクラップ法を提案する。 そこで我々はまず,シミュレーションバイアルに挿入した実験室スクレーパを用いて,パンダ・フランカ・エミカロボットを用いたシミュレーション環境を構築し,スクレーピング政策がいかにうまく学習できるかを実証する。 次に,実験室環境下での実際のロボットマニピュレータ上での手法の評価を行い,粉体を各種の装置で自律的にスクラップできることを示す。

The potential use of robotics for laboratory experiments offers an attractive route to alleviate scientists from tedious tasks while accelerating the process of obtaining new materials, where topical issues such as climate change and disease risks worldwide would greatly benefit. While some experimental workflows can already benefit from automation, it is common that sample preparation is still carried out manually due to the high level of motor function required when dealing with heterogeneous systems, e.g., different tools, chemicals, and glassware. A fundamental workflow in chemical fields is crystallisation, where one application is polymorph screening, i.e., obtaining a three dimensional molecular structure from a crystal. For this process, it is of utmost importance to recover as much of the sample as possible since synthesising molecules is both costly in time and money. To this aim, chemists have to scrape vials to retrieve sample contents prior to imaging plate transfer. Automating this process is challenging as it goes beyond robotic insertion tasks due to a fundamental requirement of having to execute fine-granular movements within a constrained environment that is the sample vial. Motivated by how human chemists carry out this process of scraping powder from vials, our work proposes a model-free reinforcement learning method for learning a scraping policy, leading to a fully autonomous sample scraping procedure. To realise that, we first create a simulation environment with a Panda Franka Emika robot using a laboratory scraper which is inserted into a simulated vial, to demonstrate how a scraping policy can be learned successfully. We then evaluate our method on a real robotic manipulator in laboratory settings, and show that our method can autonomously scrape powder across various setups.
翻訳日:2022-09-30 17:47:02 公開日:2022-09-29
# 大規模言語モデルを用いたPythonアサインメントのバグ修復

Repairing Bugs in Python Assignments Using Large Language Models ( http://arxiv.org/abs/2209.14876v1 )

ライセンス: Link先を確認
Jialu Zhang, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Ruzica Piskac, Gustavo Soares, Gust Verbruggen(参考訳) 学生は学習プロセスの一部として、入門的なプログラミング課題に間違いを犯すことが多い。 残念ながら、これらのミスに対してカスタムの修理を行うには、クラスインストラクターによるかなりの時間と労力が必要になる。 自動プログラム修復(APR)技術は、そのような修正を合成するために使用できる。 これまでの研究は、教育領域におけるAPRの象徴的および神経的テクニックの使用を探求してきた。 どちらのアプローチも、相当なエンジニアリング努力または大量のデータとトレーニングを必要とする。 我々は、Codexのようなコードで訓練された大規模な言語モデルを用いて、Pythonプログラミングの入門にAPRシステム(MMAPR)を構築することを提案する。 本システムでは,複数モーダルプロンプト,反復クエリ,テストケースベースの数ショット選択,プログラムチャンキングを組み合わせることで,構文的および意味的誤りを解消することができる。 我々は,286の実際の学生プログラム上でMMAPRを評価し,最新のPython構文修復エンジン,BIFI,最新のPython意味修復エンジンを組み合わせたベースラインであるRefactoryと比較した。 MMAPRはより多くのプログラムを修正でき、平均して小さなパッチを作成できる。

Students often make mistakes on their introductory programming assignments as part of their learning process. Unfortunately, providing custom repairs for these mistakes can require a substantial amount of time and effort from class instructors. Automated program repair (APR) techniques can be used to synthesize such fixes. Prior work has explored the use of symbolic and neural techniques for APR in the education domain. Both types of approaches require either substantial engineering efforts or large amounts of data and training. We propose to use a large language model trained on code, such as Codex, to build an APR system -- MMAPR -- for introductory Python programming assignments. Our system can fix both syntactic and semantic mistakes by combining multi-modal prompts, iterative querying, test-case-based selection of few-shots, and program chunking. We evaluate MMAPR on 286 real student programs and compare to a baseline built by combining a state-of-the-art Python syntax repair engine, BIFI, and state-of-the-art Python semantic repair engine for student assignments, Refactory. We find that MMAPR can fix more programs and produce smaller patches on average.
翻訳日:2022-09-30 17:46:32 公開日:2022-09-29
# ロバスト・動的ロボットロコモーションのための低周波運動制御の学習

Learning Low-Frequency Motion Control for Robust and Dynamic Robot Locomotion ( http://arxiv.org/abs/2209.14887v1 )

ライセンス: Link先を確認
Siddhant Gangapurwala, Luigi Campanaro and Ioannis Havoutis(参考訳) ロボットの移動はしばしば、運動制御周波数を増加させることでロバスト性と反応性を最大化することを目的としてアプローチされる。 この直感的な概念に挑戦して,学習したモーションコントローラを実数点cの4倍の8hzで動作させることで,ロバストでダイナミックなロコモーションを実現する。 このロボットは、1.5m/sの高速度を頑健かつ反復的に達成し、不均一な地形を横切ることができ、予期せぬ外乱に耐えることができる。 さらに、5Hzから200Hzの周波数で訓練・実行された深部強化学習(RL)に基づくモーションコントロールポリシーの比較分析を行った。 我々は,低周波政策がシステムの動作速度や変動に敏感でないことを示す。 これは、動的ランダム化やアクティベーションモデリングを使わずに、sim-to-real転送が成功する程度である。 我々はこの主張を厳密な経験的評価を通して支持する。 さらに、再現性を支援するために、トレーニングとデプロイメントのコードをhttps://ori-drs.github.io/lfmc/で拡張分析する。

Robotic locomotion is often approached with the goal of maximizing robustness and reactivity by increasing motion control frequency. We challenge this intuitive notion by demonstrating robust and dynamic locomotion with a learned motion controller executing at as low as 8 Hz on a real ANYmal C quadruped. The robot is able to robustly and repeatably achieve a high heading velocity of 1.5 m/s, traverse uneven terrain, and resist unexpected external perturbations. We further present a comparative analysis of deep reinforcement learning (RL) based motion control policies trained and executed at frequencies ranging from 5 Hz to 200 Hz. We show that low-frequency policies are less sensitive to actuation latencies and variations in system dynamics. This is to the extent that a successful sim-to-real transfer can be performed even without any dynamics randomization or actuation modeling. We support this claim through a set of rigorous empirical evaluations. Moreover, to assist reproducibility, we provide the training and deployment code along with an extended analysis at https://ori-drs.github.io/lfmc/.
翻訳日:2022-09-30 17:46:13 公開日:2022-09-29
# コンピュータ支援自動車開発におけるグラフモデリング

Graph Modeling in Computer Assisted Automotive Development ( http://arxiv.org/abs/2209.14910v1 )

ライセンス: Link先を確認
Anahita Pakiman, Jochen Garcke(参考訳) 事故の安全性を重視した,車両開発のための知識グラフのグラフモデリングを検討する。 ドメイン内の関連する概念を含む、さまざまな構造化および非構造化データソースからの情報を含む組織スキーマが提供される。 特に,クラッシュコンピュータ支援エンジニアリング(CAE)データのセマンティクスを提案し,開発プロセス中のクラッシュCAEデータの検索性,フィルタリング,レコメンデーション,予測を可能にする。 このグラフモデリングは、研究開発プロセスと車両安全性の文脈におけるCAEデータについて考察する。 これにより、車両の安全性能を評価するために使用されるプロトコルにCAEデータを接続する。 R&DプロセスにはCADエンジニアリングと安全属性が含まれており、多分野の問題解決に焦点を当てている。 グラフモデリングにおけるこれまでの取り組みを本提案と比較し,その強みと限界を議論し,今後の作業領域を特定する。

We consider graph modeling for a knowledge graph for vehicle development, with a focus on crash safety. An organized schema that incorporates information from various structured and unstructured data sources is provided, which includes relevant concepts within the domain. In particular, we propose semantics for crash computer aided engineering (CAE) data, which enables searchability, filtering, recommendation, and prediction for crash CAE data during the development process. This graph modeling considers the CAE data in the context of the R\&D development process and vehicle safety. Consequently, we connect CAE data to the protocols that are used to assess vehicle safety performances. The R\&D process includes CAD engineering and safety attributes, with a focus on multidisciplinary problem-solving. We describe previous efforts in graph modeling in comparison to our proposal, discuss its strengths and limitations, and identify areas for future work.
翻訳日:2022-09-30 17:45:53 公開日:2022-09-29
# 分散強化学習における価値分布は最適化にどのように役立つか?

How Does Value Distribution in Distributional Reinforcement Learning Help Optimization? ( http://arxiv.org/abs/2209.14513v1 )

ライセンス: Link先を確認
Ke Sun, Bei Jiang, Linglong Kong(参考訳) 分布強化学習(rl)におけるベルマン力学から確率分布のセットを学習する問題を考える。 優れた性能を得ることに成功したにもかかわらず、分布RLの値分布がどのように機能するかはまだよく分かっていない。 本研究では、ニューラルネットワークZ-Iteration~(Neural FZI)フレームワークにおける古典的RL上の付加価値分布情報を活用することにより、分布RLの最適化の利点を分析する。 まず, 分布RLの分布損失は, 良好な滑らかさ特性を持ち, 最適化安定性を促進する傾向にある安定勾配を享受できることを実証する。 さらに、戻り分布を分解することにより、分布RLの加速効果を明らかにする。 分布 rl は,特定の分布 rl アルゴリズムに対して,各環境における勾配推定のばらつきから求めた値分布近似が適切であれば好適に動作できることがわかった。 厳密な実験は分布RLの安定な最適化挙動を検証し、古典的なRLと比較して加速効果に寄与する。 本研究の成果は,分散RLアルゴリズムの値分布が最適化にどのように役立つかを示す。

We consider the problem of learning a set of probability distributions from the Bellman dynamics in distributional reinforcement learning~(RL) that learns the whole return distribution compared with only its expectation in classical RL. Despite its success to obtain superior performance, we still have a poor understanding of how the value distribution in distributional RL works. In this study, we analyze the optimization benefits of distributional RL by leverage of additional value distribution information over classical RL in the Neural Fitted Z-Iteration~(Neural FZI) framework. To begin with, we demonstrate that the distribution loss of distributional RL has desirable smoothness characteristics and hence enjoys stable gradients, which is in line with its tendency to promote optimization stability. Furthermore, the acceleration effect of distributional RL is revealed by decomposing the return distribution. It turns out that distributional RL can perform favorably if the value distribution approximation is appropriate, measured by the variance of gradient estimates in each environment for any specific distributional RL algorithm. Rigorous experiments validate the stable optimization behaviors of distributional RL, contributing to its acceleration effects compared to classical RL. The findings of our research illuminate how the value distribution in distributional RL algorithms helps the optimization.
翻訳日:2022-09-30 17:40:09 公開日:2022-09-29
# グラフニューラルネットワークがいかに強力か

How Powerful is Implicit Denoising in Graph Neural Networks ( http://arxiv.org/abs/2209.14514v1 )

ライセンス: Link先を確認
Songtao Liu, Rex Ying, Hanze Dong, Lu Lin, Jinghui Chen, Dinghao Wu(参考訳) グラフニューラルネットワーク(gnns)は,その強力な表現学習能力により,グラフ構造化データ処理に広く利用されている。 一般的に、GNNは非予測ノイズを暗黙的に除去できると考えられている。 しかし、グラフニューラルネットワークにおける暗黙のノイズ発生効果の分析は依然として行われている。 本研究では,包括的理論的研究を行い,gnnにおいて暗黙的な発声がいつ,なぜ起こるのかを分析した。 具体的には,雑音行列の収束特性について検討する。 我々の理論的分析は、暗黙の認知は接続性、グラフサイズ、GNNアーキテクチャに大きく依存していることを示唆している。 さらに,グラフ信号の雑音化問題を拡張することにより,逆グラフ信号雑音化問題(agsd)を形式的に定義・提案する。 このような問題を解決することで、ノード表現の滑らかさと暗黙的消音効果を高めることができるロバストなグラフ畳み込みが得られる。 広範な実験評価により,提案モデルの理論的解析と有効性が検証された。

Graph Neural Networks (GNNs), which aggregate features from neighbors, are widely used for graph-structured data processing due to their powerful representation learning capabilities. It is generally believed that GNNs can implicitly remove the non-predictive noises. However, the analysis of implicit denoising effect in graph neural networks remains open. In this work, we conduct a comprehensive theoretical study and analyze when and why the implicit denoising happens in GNNs. Specifically, we study the convergence properties of noise matrix. Our theoretical analysis suggests that the implicit denoising largely depends on the connectivity, the graph size, and GNN architectures. Moreover, we formally define and propose the adversarial graph signal denoising (AGSD) problem by extending graph signal denoising problem. By solving such a problem, we derive a robust graph convolution, where the smoothness of the node representations and the implicit denoising effect can be enhanced. Extensive empirical evaluations verify our theoretical analyses and the effectiveness of our proposed model.
翻訳日:2022-09-30 17:39:50 公開日:2022-09-29
# 高忠実性生成行動モデリングによるオフライン強化学習

Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling ( http://arxiv.org/abs/2209.14548v1 )

ライセンス: Link先を確認
Huayu Chen, Cheng Lu, Chengyang Ying, Hang Su and Jun Zhu(参考訳) オフライン強化学習では、重み付け回帰は、学習されたポリシーが行動方針に近づき、サンプル外の行動を選択するのを防ぐための一般的な方法である。 本研究は,政策モデルの分布表現性に制限があるため,従来の手法では,初期モチベーションから逸脱した未確認行動を選択することができることを示す。 この問題に対処するために,我々は学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。 鍵となる洞察は、そのような疎結合は、クローズドフォーム表現で明示的にパラメータ化されたポリシーモデルを学ぶことを避けることである。 行動ポリシーを直接学習することで、拡散法などの生成モデリングにおける既存の進歩を活用し、多様な振る舞いをモデル化することができる。 動作評価では,本手法をサンプル内計画手法と組み合わせて,サンプル外動作の選択を回避し,計算効率を向上する。 D4RLデータセットに対する実験結果から,提案手法は最先端のオフラインRL手法と比較して,特にAntMazeのような複雑なタスクにおいて,競争力や優れた性能を実現することが示された。 また,本手法が複数の特徴的かつ類似的な戦略を含む異種データセットから学習できることを実証的に実証した。

In offline reinforcement learning, weighted regression is a common method to ensure the learned policy stays close to the behavior policy and to prevent selecting out-of-sample actions. In this work, we show that due to the limited distributional expressivity of policy models, previous methods might still select unseen actions during training, which deviates from their initial motivation. To address this problem, we adopt a generative approach by decoupling the learned policy into two parts: an expressive generative behavior model and an action evaluation model. The key insight is that such decoupling avoids learning an explicitly parameterized policy model with a closed-form expression. Directly learning the behavior policy allows us to leverage existing advances in generative modeling, such as diffusion-based methods, to model diverse behaviors. As for action evaluation, we combine our method with an in-sample planning technique to further avoid selecting out-of-sample actions and increase computational efficiency. Experimental results on D4RL datasets show that our proposed method achieves competitive or superior performance compared with state-of-the-art offline RL methods, especially in complex tasks such as AntMaze. We also empirically demonstrate that our method can successfully learn from a heterogeneous dataset containing multiple distinctive but similarly successful strategies, whereas previous unimodal policies fail.
翻訳日:2022-09-30 17:39:38 公開日:2022-09-29
# 線形収束アルゴリズムの計算複雑性

Computational Complexity of Sub-linear Convergent Algorithms ( http://arxiv.org/abs/2209.14558v1 )

ライセンス: Link先を確認
Hilal AlQuabeh, Farha AlBreiki(参考訳) 目的関数を解くために使用される機械学習アルゴリズムの最適化は非常に興味深い。 勾配降下や確率勾配降下などの共通アルゴリズムを最適化するためのいくつかの手法を探索した。 これらの手法の1つは、大規模最適化の経験的リスク最小化(ERM)問題を解決するため、適応サンプリングによる勾配分散の低減である。 本稿では,小サンプルから始めて幾何的に拡大し,前のサンプルERMの解を用いて新しいERMを計算する方法について検討する。 これにより、線形収束の1次最適化アルゴリズムでEMMの問題を解くが、計算複雑性は低い。 本論文は, アプローチの理論的証明から始まり, 勾配降下と勾配降下の適応サンプリングと, 異なるデータセット上の適応サンプリングADAMとを比較した2つの実験を行った。

Optimizing machine learning algorithms that are used to solve the objective function has been of great interest. Several approaches to optimize common algorithms, such as gradient descent and stochastic gradient descent, were explored. One of these approaches is reducing the gradient variance through adaptive sampling to solve large-scale optimization's empirical risk minimization (ERM) problems. In this paper, we will explore how starting with a small sample and then geometrically increasing it and using the solution of the previous sample ERM to compute the new ERM. This will solve ERM problems with first-order optimization algorithms of sublinear convergence but with lower computational complexity. This paper starts with theoretical proof of the approach, followed by two experiments comparing the gradient descent with the adaptive sampling of the gradient descent and ADAM with adaptive sampling ADAM on different datasets.
翻訳日:2022-09-30 17:39:14 公開日:2022-09-29
# DiGress: グラフ生成のための離散化拡散

DiGress: Discrete Denoising diffusion for graph generation ( http://arxiv.org/abs/2209.14734v1 )

ライセンス: Link先を確認
Clement Vignac, Igor Krawczuk, Antoine Siraudin, Bohan Wang, Volkan Cevher, Pascal Frossard(参考訳) 本稿では,カテゴリノードとエッジ属性を持つグラフを生成するための離散分節拡散モデルである digress を紹介する。 本モデルでは,ノイズのあるグラフを段階的に編集する拡散過程(エッジの追加や削除,カテゴリの変更)と,この過程を逆転するグラフトランスフォーマーネットワークを定義する。 これら2つの要素が組み合わさって,グラフ上の分布学習を,単純な分類タスクに還元する。 拡散中のノードとエッジの限界分布を保存する新しいマルコフノイズモデルを提案し,各拡散ステップでノイズグラフから導出した補助グラフ理論的特徴を加えることにより,サンプル品質をさらに向上する。 最後に,グラフレベル特徴量の生成条件付けのためのガイダンス手順を提案する。 全体として、DiGressは分子および非分子のデータセットで最先端のパフォーマンスを達成し、平面グラフのデータセットで最大3倍の妥当性が向上する。 特に、スマイルやフラグメントのような分子特異的な表現を用いることなく、1.3mの薬物様分子を含む大きなグアカモールデータセットにスケールする最初のモデルである。

This work introduces DiGress, a discrete denoising diffusion model for generating graphs with categorical node and edge attributes. Our model defines a diffusion process that progressively edits a graph with noise (adding or removing edges, changing the categories), and a graph transformer network that learns to revert this process. With these two ingredients in place, we reduce distribution learning over graphs to a simple sequence of classification tasks. We further improve sample quality by proposing a new Markovian noise model that preserves the marginal distribution of node and edge types during diffusion, and by adding auxiliary graph-theoretic features derived from the noisy graph at each diffusion step. Finally, we propose a guidance procedure for conditioning the generation on graph-level features. Overall, DiGress achieves state-of-the-art performance on both molecular and non-molecular datasets, with up to 3x validity improvement on a dataset of planar graphs. In particular, it is the first model that scales to the large GuacaMol dataset containing 1.3M drug-like molecules without using a molecule-specific representation such as SMILES or fragments.
翻訳日:2022-09-30 17:38:59 公開日:2022-09-29
# ドメイン一般化のためのフラッターミニマへのグラディエントベース混合学習

Learning Gradient-based Mixup towards Flatter Minima for Domain Generalization ( http://arxiv.org/abs/2209.14742v1 )

ライセンス: Link先を確認
Danni Peng, Sinno Jialin Pan(参考訳) トレーニングデータとテストデータの分散シフトに対処するために、ドメイン一般化(DG)は複数のソースドメインを活用して、目に見えないドメインによく一般化するモデルを学ぶ。 しかし,既存のDG手法は,機能領域における期待領域の範囲が限られているため,ソース領域へのオーバーフィットに悩まされることが多い。 そこで本研究では,データ補間と外挿を併用して,潜在的な未知領域をカバーすることを提案する。 制約のない外挿による有害な影響を防止するため,FGMix(Flatness-aware Gradient-based Mixup)という,インスタンス重みの生成ポリシーを慎重に設計した。 このポリシーは勾配に基づく類似性を用いて、より不変な情報を持つインスタンスにより大きな重みを割り当て、より一般化するためにフラットなミニマへの類似性関数を学ぶ。 DomainBedベンチマークでは、FGMixの様々な設計の有効性を検証し、他のDGアルゴリズムよりも優れていることを示す。

To address the distribution shifts between training and test data, domain generalization (DG) leverages multiple source domains to learn a model that generalizes well to unseen domains. However, existing DG methods generally suffer from overfitting to the source domains, partly due to the limited coverage of the expected region in feature space. Motivated by this, we propose to perform mixup with data interpolation and extrapolation to cover the potential unseen regions. To prevent the detrimental effects of unconstrained extrapolation, we carefully design a policy to generate the instance weights, named Flatness-aware Gradient-based Mixup (FGMix). The policy employs a gradient-based similarity to assign greater weights to instances that carry more invariant information, and learns the similarity function towards flatter minima for better generalization. On the DomainBed benchmark, we validate the efficacy of various designs of FGMix and demonstrate its superiority over other DG algorithms.
翻訳日:2022-09-30 17:38:40 公開日:2022-09-29
# Model Zoos: ニューラルネットワークモデルのさまざまな人口のデータセット

Model Zoos: A Dataset of Diverse Populations of Neural Network Models ( http://arxiv.org/abs/2209.14764v1 )

ライセンス: Link先を確認
Konstantin Sch\"urholt, Diyar Taskiran, Boris Knyazev, Xavier Gir\'o-i-Nieto, Damian Borth(参考訳) 過去数年間、ニューラルネットワーク(NN)は、実験室環境から、多くの現実世界の問題の最先端へと進化してきた。 NNモデル(すなわち、ウェイトとバイアス)は、トレーニング中にウェイト空間のユニークな軌道上で進化することが示されている。 その後、そのようなニューラルネットワークモデル(モデル動物園と呼ばれる)の人口は、重み空間の構造を形成する。 これらの構造の幾何学、曲率、滑らかさはトレーニング状態に関する情報を含み、個々のモデルの潜在性を明らかにすることができると考えている。 そのようなモデル動物園では、新しいアプローチを研究できる (i)モデル分析。 (ii)未知の学習ダイナミクスの発見。 (iii)そのような人口の豊かな表現を学ぶこと、又は (iv)モデル動物園をnn重みとバイアスの生成的モデリングに活用する。 残念なことに、標準化されたモデル動物園と利用可能なベンチマークの欠如は、NNの人口に関するさらなる研究の摩擦を著しく増大させた。 本研究は,NNモデルの系統的および多様な個体群を含むモデル動物園の新たなデータセットを公開し,さらなる研究を行う。 提案したモデル動物園データセットは8つの画像データセットに基づいており、異なるハイパーパラメータの組み合わせで訓練された27のモデル動物園からなり、50'360のユニークなNNモデルと、その双生児を含む。 さらに、モデルzooデータに対して、動物園の詳細な分析と、複数のダウンストリームタスクのベンチマークを提供します。 データセットはwww.modelzoos.ccにある。

In the last years, neural networks (NN) have evolved from laboratory environments to the state-of-the-art for many real-world problems. It was shown that NN models (i.e., their weights and biases) evolve on unique trajectories in weight space during training. Following, a population of such neural network models (referred to as model zoo) would form structures in weight space. We think that the geometry, curvature and smoothness of these structures contain information about the state of training and can reveal latent properties of individual models. With such model zoos, one could investigate novel approaches for (i) model analysis, (ii) discover unknown learning dynamics, (iii) learn rich representations of such populations, or (iv) exploit the model zoos for generative modelling of NN weights and biases. Unfortunately, the lack of standardized model zoos and available benchmarks significantly increases the friction for further research about populations of NNs. With this work, we publish a novel dataset of model zoos containing systematically generated and diverse populations of NN models for further research. In total the proposed model zoo dataset is based on eight image datasets, consists of 27 model zoos trained with varying hyperparameter combinations and includes 50'360 unique NN models as well as their sparsified twins, resulting in over 3'844'360 collected model states. Additionally, to the model zoo data we provide an in-depth analysis of the zoos and provide benchmarks for multiple downstream tasks. The dataset can be found at www.modelzoos.cc.
翻訳日:2022-09-30 17:38:22 公開日:2022-09-29
# 強化学習における一般化のための学習パリモニカルダイナミクス

Learning Parsimonious Dynamics for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2209.14781v1 )

ライセンス: Link先を確認
Tankred Saanum and Eric Schulz(参考訳) 人間は熟練したナビゲーターです。私たちは新しい場所を適切に操作し、今まで見たことのない場所に戻ったときに気づき、これまで訪れたことのない環境の一部を通るショートカットを思いつくことができます。 一方、モデルに基づく強化学習における現在の手法は、トレーニング分布外における環境力学の一般化に苦慮している。 このギャップを埋めるには2つの原則がある,と我々は主張する。 人間は環境力学を単純な言葉で考える傾向がある -- 私たちは、経路に沿って見るものではなく、場所の空間座標に関する情報を含む抽象的なラテント空間における軌道について推論する。 さらに、私たちの環境の新たな場所での移動は、私たちが慣れ親しんだ部分と同じように働くと仮定する。 これらの2つの原理は一緒に働く: 力学が相似的な性質を示すのは、潜在空間にある。 このようなパシモニアス力学を学習するモデルを開発する。 変分的目的を用いて, 局所線形変換を用いた潜在空間における経験的遷移の再構築を訓練し, 極力明確な変換の実施を推奨した。 本フレームワークを用いて,様々な政策学習および計画タスクにおいて,並列潜在ダイナミクスモデルを学習するの有用性を実証する。

Humans are skillful navigators: We aptly maneuver through new places, realize when we are back at a location we have seen before, and can even conceive of shortcuts that go through parts of our environments we have never visited. Current methods in model-based reinforcement learning on the other hand struggle with generalizing about environment dynamics out of the training distribution. We argue that two principles can help bridge this gap: latent learning and parsimonious dynamics. Humans tend to think about environment dynamics in simple terms -- we reason about trajectories not in reference to what we expect to see along a path, but rather in an abstract latent space, containing information about the places' spatial coordinates. Moreover, we assume that moving around in novel parts of our environment works the same way as in parts we are familiar with. These two principles work together in tandem: it is in the latent space that the dynamics show parsimonious characteristics. We develop a model that learns such parsimonious dynamics. Using a variational objective, our model is trained to reconstruct experienced transitions in a latent space using locally linear transformations, while encouraged to invoke as few distinct transformations as possible. Using our framework, we demonstrate the utility of learning parsimonious latent dynamics models in a range of policy learning and planning tasks.
翻訳日:2022-09-30 17:38:00 公開日:2022-09-29
# 可変共分散規則化は自己監督表現におけるペアワイズ独立を強制する

Variance Covariance Regularization Enforces Pairwise Independence in Self-Supervised Representations ( http://arxiv.org/abs/2209.14905v1 )

ライセンス: Link先を確認
Gr\'egoire Mialon, Randall Balestriero, and Yann LeCun(参考訳) VICReg、Barlow Twins、W-MSEといった自己監督学習(SSL)手法は、プロジェクタの出力の共分散行列を制約または規則化することにより、共同埋め込みアーキテクチャの崩壊を避ける。 本研究は, 可変共分散正規化(VCReg)を作成した戦略の重要な特性を明らかにする。 より正確には、VCRegは学習した表現の特徴間のペアワイズ独立を強制することを示す。 この結果は、プロジェクタの出力に適用されるvcregを、プロジェクタの入力に適用されるカーネル独立性基準にブリッジすることで生じる。 これはvcregの最初の理論的動機と説明を提供する。 研究成果を実証的に検証する (i)VCRegを用いたSSLメソッドは、他の方法よりもペアワイズ独立性の高い視覚表現を学習する。 (i)プロジェクタの特性が対独立性を好む証拠を作成し、プロジェクタの学習から独立して出現することを示す。 (II)VICRegの非自明な性能向上を得るためにこれらの知見を用いる。 3)VCRegのスコープは独立成分分析の解法としてSSLを超えていることを実証する。 SSLなどにおけるVCRegの採用を支持することを願っています。

Self-Supervised Learning (SSL) methods such as VICReg, Barlow Twins or W-MSE avoid collapse of their joint embedding architectures by constraining or regularizing the covariance matrix of their projector's output. This study highlights important properties of such strategy, which we coin Variance-Covariance regularization (VCReg). More precisely, we show that VCReg enforces pairwise independence between the features of the learned representation. This result emerges by bridging VCReg applied on the projector's output to kernel independence criteria applied on the projector's input. This provides the first theoretical motivations and explanations of VCReg. We empirically validate our findings where (i) we observe that SSL methods employing VCReg learn visual representations with greater pairwise independence than other methods, (i) we put in evidence which projector's characteristics favor pairwise independence, and show it to emerge independently from learning the projector, (ii) we use these findings to obtain nontrivial performance gains for VICReg, (iii) we demonstrate that the scope of VCReg goes beyond SSL by using it to solve Independent Component Analysis. We hope that our findings will support the adoption of VCReg in SSL and beyond.
翻訳日:2022-09-30 17:37:39 公開日:2022-09-29
# ゼロショット強化学習は存在するか?

Does Zero-Shot Reinforcement Learning Exist? ( http://arxiv.org/abs/2209.14935v1 )

ライセンス: Link先を確認
Ahmed Touati, J\'er\'emy Rapin, Yann Ollivier(参考訳) ゼロショットRLエージェントは、初期報酬のない学習フェーズの後、任意のRLタスクを、追加の計画や学習なしで即座に解決できるエージェントである。 これは、報酬中心のRLパラダイムから、環境内の任意の命令に従う「制御可能な」エージェントへのシフトを表している。 現在のrlエージェントは、関連するタスクのファミリーを最善の方法で解決するか、あるいは各タスクの計画が必要となる。 後続特徴(SF) [BBQ+18] やフォワードバック(FB) 表現 [TO21] を用いて、近似ゼロショットRLの戦略が提案されているが、試験は限られている。 これらのスキーム間の関係を明らかにした後、改良された損失モデルと新しいSFモデルを導入し、教師なしRLベンチマーク[LYL+21]のタスクでゼロショットRLスキームを体系的に実行可能であることをテストする。 探索から普遍表現学習を遠ざけるために、オフラインで作業し、既存の複数のリプレイバッファ上でテストを繰り返します。 SFは基本状態の特徴の選択に悩まされているようだ。 ラプラシア固有関数を持つSFは、オートエンコーダ、逆好奇性、遷移モデル、低ランク遷移行列、コントラスト学習、多様性(APS)に基づくSFは、一貫性がない。 対照的に、FB表現は1つの原則付き基準から初等および後継の特徴を共同で学習する。 彼らは最良かつ一貫してボード上で動作し、優れたリプレイバッファで監督されたrlパフォーマンスの85%をゼロショット方式で達成した。

A zero-shot RL agent is an agent that can solve any RL task in a given environment, instantly with no additional planning or learning, after an initial reward-free learning phase. This marks a shift from the reward-centric RL paradigm towards "controllable" agents that can follow arbitrary instructions in an environment. Current RL agents can solve families of related tasks at best, or require planning anew for each task. Strategies for approximate zero-shot RL ave been suggested using successor features (SFs) [BBQ+ 18] or forward-backward (FB) representations [TO21], but testing has been limited. After clarifying the relationships between these schemes, we introduce improved losses and new SF models, and test the viability of zero-shot RL schemes systematically on tasks from the Unsupervised RL benchmark [LYL+21]. To disentangle universal representation learning from exploration, we work in an offline setting and repeat the tests on several existing replay buffers. SFs appear to suffer from the choice of the elementary state features. SFs with Laplacian eigenfunctions do well, while SFs based on auto-encoders, inverse curiosity, transition models, low-rank transition matrix, contrastive learning, or diversity (APS), perform unconsistently. In contrast, FB representations jointly learn the elementary and successor features from a single, principled criterion. They perform best and consistently across the board, reaching 85% of supervised RL performance with a good replay buffer, in a zero-shot manner.
翻訳日:2022-09-30 17:37:16 公開日:2022-09-29
# 4D-StOP:時空間オブジェクト生成とアグリゲーションを用いた4次元LiDARの光学分割

4D-StOP: Panoptic Segmentation of 4D LiDAR using Spatio-temporal Object Proposal Generation and Aggregation ( http://arxiv.org/abs/2209.14858v1 )

ライセンス: Link先を確認
Lars Kreuzberg, Idil Esen Zulfikar, Sabarinath Mahadevan, Francis Engelmann, Bastian Leibe(参考訳) 本研究では,4dパンオプティカルlidarセグメンテーションの課題に取り組むための新しいパラダイムである4dストップを提案する。 4D-StOPは、まず投票に基づく中心予測を用いて時空間の時空間的提案を生成する。 これらのトラックレットの提案は、学習した幾何学的特徴を用いてさらに集約される。 トラックレット集約法は、時間ボリューム全体にわたって映像レベル4dシーン表現を効果的に生成する。 これは、ガウス確率分布で表される時空間埋め込みを使用する既存のエンドツーエンドのトレーニング可能な最先端のアプローチとは対照的である。 投票に基づくトラックレット生成法と幾何的特徴に基づくアグリゲーションにより,ガウス確率分布を用いた4Dボリューム全体をモデル化した場合に比べて,汎視的LiDARセグメンテーションの品質が大幅に向上した。 4d-stopは、semantickittiテストデータセットに適用した場合、63.9 lstqというスコアで、現在の最高のエンドツーエンドトレーニング可能な方法に比べて大きな(+7%)改善を達成している。 コードと事前トレーニングされたモデルは、https://github.com/LarsKreuzberg/4D-StOPで利用可能である。

In this work, we present a new paradigm, called 4D-StOP, to tackle the task of 4D Panoptic LiDAR Segmentation. 4D-StOP first generates spatio-temporal proposals using voting-based center predictions, where each point in the 4D volume votes for a corresponding center. These tracklet proposals are further aggregated using learned geometric features. The tracklet aggregation method effectively generates a video-level 4D scene representation over the entire space-time volume. This is in contrast to existing end-to-end trainable state-of-the-art approaches which use spatio-temporal embeddings that are represented by Gaussian probability distributions. Our voting-based tracklet generation method followed by geometric feature-based aggregation generates significantly improved panoptic LiDAR segmentation quality when compared to modeling the entire 4D volume using Gaussian probability distributions. 4D-StOP achieves a new state-of-the-art when applied to the SemanticKITTI test dataset with a score of 63.9 LSTQ, which is a large (+7%) improvement compared to current best-performing end-to-end trainable methods. The code and pre-trained models are available at: https://github.com/LarsKreuzberg/4D-StOP.
翻訳日:2022-09-30 17:31:42 公開日:2022-09-29
# データ合成によるマスク誘導画像人物除去

Mask-Guided Image Person Removal with Data Synthesis ( http://arxiv.org/abs/2209.14890v1 )

ライセンス: Link先を確認
Yunliang Jiang, Chenyang Gu, Zhenfeng Xue, Xiongtao Zhang, Yong Liu(参考訳) 一般的な物体除去の特殊な場合として、画像人物除去はソーシャルメディアや刑事捜査領域においてますます重要な役割を担っている。 人的領域の完全性と人間の姿勢の複雑さのため、人的除去には独自のジレンマがある。 本稿では,データ合成の観点からこれらの問題に取り組むための新しいアイデアを提案する。 イメージパーソン除去のための専用データセットの欠如について,画像,マスク,グラウンド真理をそれぞれ自動生成する2つのデータセット生成手法を提案する。 次に,局所的な画像劣化に似た学習フレームワークを提案し,マスクを用いて特徴抽出プロセスを導出し,さらにテクスチャ情報を収集して最終的な予測を行う。 細部を精巧にするために、細かな訓練戦略がさらに適用される。 データ合成と学習のフレームワークは互いにうまく合っている。 実験により,本手法の有効性を定量的かつ定性的に検証し,実画像と合成画像のいずれにおいても優れた一般化能力を有することを示す。

As a special case of common object removal, image person removal is playing an increasingly important role in social media and criminal investigation domains. Due to the integrity of person area and the complexity of human posture, person removal has its own dilemmas. In this paper, we propose a novel idea to tackle these problems from the perspective of data synthesis. Concerning the lack of dedicated dataset for image person removal, two dataset production methods are proposed to automatically generate images, masks and ground truths respectively. Then, a learning framework similar to local image degradation is proposed so that the masks can be used to guide the feature extraction process and more texture information can be gathered for final prediction. A coarse-to-fine training strategy is further applied to refine the details. The data synthesis and learning framework combine well with each other. Experimental results verify the effectiveness of our method quantitatively and qualitatively, and the trained network proves to have good generalization ability either on real or synthetic images.
翻訳日:2022-09-30 17:31:17 公開日:2022-09-29
# ソースフリードメイン一般化のためのドメイン統一型プロンプト表現

Domain-Unified Prompt Representations for Source-Free Domain Generalization ( http://arxiv.org/abs/2209.14926v1 )

ライセンス: Link先を確認
Hongjing Niu, Hanting Li, Feng Zhao, and Bin Li(参考訳) ドメイン一般化(dg、domain generalization)とは、モデルが未知のドメインで動作するようにすることを目的としている。 現在のDGデータセットのスケールと多様性によって制限されているため、既存の手法がオープンワールドシナリオ(SFやピクセルスタイルなど)の様々な領域にスケールすることは困難である。 したがって、ソースフリー領域一般化(SFDG)タスクは必要で困難である。 この問題に対処するために,大規模視覚言語事前学習モデル(例えばCLIP)に基づくアプローチを提案する。 提案手法は既存のDGデータセットよりも多くのドメインを含むドメインバンクから多様なプロンプトを生成する。 さらに,提案手法は,これらのプロンプトからドメイン統一表現を生成し,オープンワールドドメインからのサンプルを処理することができる。 PACS、VLCS、OfficeHome、DomainNetといった主流のDGデータセットに対する大規模な実験により、提案手法は、トレーニングにソースドメインデータを必要とするSOTA(State-of-the-art)DG法と比較して、競合的な性能を達成することが示された。 さらに,提案手法のオープンワールドドメイン一般化能力を評価するために,2つのドメインからなる小さなデータセットを収集する。 ソースコードとデータセットはhttps://github.com/muse1998/Source-Free-Domain-Generalizationで公開される。

Domain generalization (DG), aiming to make models work on unseen domains, is a surefire way toward general artificial intelligence. Limited by the scale and diversity of current DG datasets, it is difficult for existing methods to scale to diverse domains in open-world scenarios (e.g., science fiction and pixelate style). Therefore, the source-free domain generalization (SFDG) task is necessary and challenging. To address this issue, we propose an approach based on large-scale vision-language pretraining models (e.g., CLIP), which exploits the extensive domain information embedded in it. The proposed scheme generates diverse prompts from a domain bank that contains many more diverse domains than existing DG datasets. Furthermore, our method yields domain-unified representations from these prompts, thus being able to cope with samples from open-world domains. Extensive experiments on mainstream DG datasets, namely PACS, VLCS, OfficeHome, and DomainNet, show that the proposed method achieves competitive performance compared to state-of-the-art (SOTA) DG methods that require source domain data for training. Besides, we collect a small datasets consists of two domains to evaluate the open-world domain generalization ability of the proposed method. The source code and the dataset will be made publicly available at https://github.com/muse1998/Source-Free-Domain-Generalization
翻訳日:2022-09-30 17:31:03 公開日:2022-09-29
# DirectTracker: 直接画像アライメントと光度バンドル調整を用いた3次元多物体追跡

DirectTracker: 3D Multi-Object Tracking Using Direct Image Alignment and Photometric Bundle Adjustment ( http://arxiv.org/abs/2209.14965v1 )

ライセンス: Link先を確認
Mariia Gladkova, Nikita Korobov, Nikolaus Demmel, Aljo\v{s}a O\v{s}ep, Laura Leal-Taix\'e and Daniel Cremers(参考訳) 直接法は視覚計測とSLAMの応用において優れた性能を示した。 本研究では,3次元多目的追跡の課題に有効性を活用することを提案する。 そこで本研究では,3次元物体検出のための短期追跡とスライディングウインドウ光度束調整を効果的に組み合わせたDirectTrackerを提案する。 オブジェクトの提案はスパース・スライディングウインドウ・ポイントクラウドに基づいて推定され、画像と世界空間の一貫性を確保するために、3Dと2Dのキューを慎重に組み合わせた最適化ベースのコスト関数を用いてさらに洗練される。 本稿では,最近導入された高次追従精度(hota)指標とユニオン類似度尺度上の一般化交点を用いて3次元トラッキングの評価を行い,視覚ベーストラッカの評価におけるユニオン上交差点の使用の制約を軽減することを提案する。 カークラスにおけるKITTIトラッカーの評価を行い、2Dと3Dの両方で追跡対象の競合性能を示す。

Direct methods have shown excellent performance in the applications of visual odometry and SLAM. In this work we propose to leverage their effectiveness for the task of 3D multi-object tracking. To this end, we propose DirectTracker, a framework that effectively combines direct image alignment for the short-term tracking and sliding-window photometric bundle adjustment for 3D object detection. Object proposals are estimated based on the sparse sliding-window pointcloud and further refined using an optimization-based cost function that carefully combines 3D and 2D cues to ensure consistency in image and world space. We propose to evaluate 3D tracking using the recently introduced higher-order tracking accuracy (HOTA) metric and the generalized intersection over union similarity measure to mitigate the limitations of the conventional use of intersection over union for the evaluation of vision-based trackers. We perform evaluation on the KITTI Tracking benchmark for the Car class and show competitive performance in tracking objects both in 2D and 3D.
翻訳日:2022-09-30 17:30:39 公開日:2022-09-29
# 効果的な視覚トランスフォーマートレーニング:データ中心の視点

Effective Vision Transformer Training: A Data-Centric Perspective ( http://arxiv.org/abs/2209.15006v1 )

ライセンス: Link先を確認
Benjia Zhou and Pichao Wang and Jun Wan and Yanyan Liang and Fan Wang(参考訳) ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して有望な性能を示しているが、ViTのトレーニングはCNNよりもはるかに難しい。 本稿では,ddp(dynamic data proportion)とkar(knowledge assimilation rate)を含むいくつかの指標を定義し,学習過程を調査し,形成,成長,探索の3つの周期に分類する。 特に、トレーニングの最終段階では、モデルの最適化にはトレーニング例のごく一部しか使われていないことを観察しています。 トレーニングのEVERY段階において、豊富な‘効果的な’トレーニング例を提供することは可能か? この問題に対処するには,2つの重要な質問に対処する必要がある。‘ie’,個々のトレーニング例の‘エフェクトネス’の測定方法,そして,アウトアウト時に十分な数の‘エフェクト’例を体系的に生成する方法だ。 最初の質問に答えるために、トレーニングサンプルの ``difficulty'' をトレーニングサンプルの ``effectiveness'' を測定する指標として採用できることを見出した。 2つ目の問題に対処するため,我々は,これらの進化段階におけるトレーニングデータの‘差分’分布を動的に調整することを提案する。 この2つの目的を達成するために,トレーニングサンプルの ‘`difficulty'' を動的に計測し,異なるトレーニング段階のモデルに対して ‘effective'' サンプルを生成する,データ中心型vitトレーニングフレームワークを提案する。 さらに,「有効な」サンプルの数をさらに増やし,ViTの後期トレーニング段階における過適合問題を緩和するために,パッチレベルの消去戦略であるPatchErasingを提案する。 大規模な実験は、提案したデータ中心のViTトレーニングフレームワークとテクニックの有効性を示す。

Vision Transformers (ViTs) have shown promising performance compared with Convolutional Neural Networks (CNNs), but the training of ViTs is much harder than CNNs. In this paper, we define several metrics, including Dynamic Data Proportion (DDP) and Knowledge Assimilation Rate (KAR), to investigate the training process, and divide it into three periods accordingly: formation, growth and exploration. In particular, at the last stage of training, we observe that only a tiny portion of training examples is used to optimize the model. Given the data-hungry nature of ViTs, we thus ask a simple but important question: is it possible to provide abundant ``effective'' training examples at EVERY stage of training? To address this issue, we need to address two critical questions, \ie, how to measure the ``effectiveness'' of individual training examples, and how to systematically generate enough number of ``effective'' examples when they are running out. To answer the first question, we find that the ``difficulty'' of training samples can be adopted as an indicator to measure the ``effectiveness'' of training samples. To cope with the second question, we propose to dynamically adjust the ``difficulty'' distribution of the training data in these evolution stages. To achieve these two purposes, we propose a novel data-centric ViT training framework to dynamically measure the ``difficulty'' of training samples and generate ``effective'' samples for models at different training stages. Furthermore, to further enlarge the number of ``effective'' samples and alleviate the overfitting problem in the late training stage of ViTs, we propose a patch-level erasing strategy dubbed PatchErasing. Extensive experiments demonstrate the effectiveness of the proposed data-centric ViT training framework and techniques.
翻訳日:2022-09-30 17:29:46 公開日:2022-09-29
# Chandojnanam: サンスクリットメーターの識別と利用システム

Chandojnanam: A Sanskrit Meter Identification and Utilization System ( http://arxiv.org/abs/2209.14924v1 )

ライセンス: Link先を確認
Hrishikesh Terdalkar, Arnab Bhattacharya(参考訳) ウェブベースのサンスクリットメーター(Chanda)の識別・利用システムであるChandj\~n\=anamを提案する。 メーターを識別するコア機能に加えて、メトリックパターンのグラフィカルな表現であるスキャンを表示するためのフレンドリーなユーザインターフェースも備えている。 このシステムは、バックエンドに光学式文字認識(OCR)エンジンを用いてアップロードされた画像からメートルの識別をサポートする。 また、テキストファイル全体を一度に処理することもできる。 テキストは2つのモードで処理でき、個々の行のリストとして扱うか、詩のコレクションとして扱うことができる。 行や節が既知のメートルと正確に一致しないとき、Chandoj\~n\=anam はシーケンスマッチングに基づいてファジィ(近似および閉)マッチングを見つけることができる。 これにより、誤ったデジタルコーパスのメーターベースの補正の範囲が開放される。 このシステムはhttps://sanskrit.iitk.ac.in/jnanasangraha/chanda/で利用可能であり、Pythonライブラリの形式のソースコードはhttps://github.com/hrishikeshrt/chanda/で入手できる。

We present Chandoj\~n\=anam, a web-based Sanskrit meter (Chanda) identification and utilization system. In addition to the core functionality of identifying meters, it sports a friendly user interface to display the scansion, which is a graphical representation of the metrical pattern. The system supports identification of meters from uploaded images by using optical character recognition (OCR) engines in the backend. It is also able to process entire text files at a time. The text can be processed in two modes, either by treating it as a list of individual lines, or as a collection of verses. When a line or a verse does not correspond exactly to a known meter, Chandoj\~n\=anam is capable of finding fuzzy (i.e., approximate and close) matches based on sequence matching. This opens up the scope of a meter-based correction of erroneous digital corpora. The system is available for use at https://sanskrit.iitk.ac.in/jnanasangraha/chanda/, and the source code in the form of a Python library is made available at https://github.com/hrishikeshrt/chanda/.
翻訳日:2022-09-30 17:29:15 公開日:2022-09-29
# 言語モデルを用いた脚本と演劇スクリプトの共執筆:産業専門家による評価

Co-Writing Screenplays and Theatre Scripts with Language Models: An Evaluation by Industry Professionals ( http://arxiv.org/abs/2209.14958v1 )

ライセンス: Link先を確認
Piotr Mirowski, Kory W. Mathewson, Jaylen Pittman, Richard Evans(参考訳) 言語モデルは作家からますます関心を集めている。 しかし、そのようなモデルは長距離意味コヒーレンスを欠いており、長文の創作に有用性が制限されている。 dramatronと呼ばれるシステムにおいて、言語モデルを階層的に適用することで、この制限に対処します。 プロンプト・チェーンを通じて構造的なコンテキストを構築することで、ramatronはタイトル、キャラクター、ストーリービート、ロケーション記述、対話を備えたコヒーレントなスクリプトや脚本を作成できる。 本稿では,演劇と映画業界の専門家15名を対象に,対話型共同制作システムとしてのpraytronの有用性について考察する。 参加者は演劇の脚本と脚本を共同執筆し、公開インタビューを行った。 我々は,本作品の演出を視聴したインタビュアーとレビュアーの双方から批判的なリフレクションを報告し,人間-機械の共創性において,ドラマトロンと階層的テキスト生成がいかに有用かを説明する。 最後に,共同創造性へのドラマトロンの適合性,盗作や偏見を含む倫理的考察,およびそのようなツールの設計と展開のための参加モデルについて論じる。

Language models are increasingly attracting interest from writers. However, such models lack long-range semantic coherence, limiting their usefulness for longform creative writing. We address this limitation by applying language models hierarchically, in a system we call Dramatron. By building structural context via prompt chaining, Dramatron can generate coherent scripts and screenplays complete with title, characters, story beats, location descriptions, and dialogue. We illustrate Dramatron's usefulness as an interactive co-creative system with a user study of 15 theatre and film industry professionals. Participants co-wrote theatre scripts and screenplays with Dramatron and engaged in open-ended interviews. We report critical reflections both from our interviewees and from independent reviewers who watched stagings of the works to illustrate how both Dramatron and hierarchical text generation could be useful for human-machine co-creativity. Finally, we discuss the suitability of Dramatron for co-creativity, ethical considerations -- including plagiarism and bias -- and participatory models for the design and deployment of such tools.
翻訳日:2022-09-30 17:28:53 公開日:2022-09-29
# 連続空間における強化学習のためのディープアンサンブルポリシーの階層的学習

Hierarchical Training of Deep Ensemble Policies for Reinforcement Learning in Continuous Spaces ( http://arxiv.org/abs/2209.14488v1 )

ライセンス: Link先を確認
Gang Chen and Victoria Huang(参考訳) 多くのアクター-批判的深層強化学習(drl)アルゴリズムは、高次元連続状態と動作空間を含む複雑な制御タスクを含む様々な挑戦的強化学習(rl)問題に取り組むことで最先端の性能を達成している。 広く報告された成功にもかかわらず、既存のDRLアルゴリズムは、しばしば非効率な探索問題に悩まされ、学習の安定性と性能が制限される。 この制限に対処するため、最近いくつかのアンサンブルDRLアルゴリズムが提案され、探索と学習過程の安定化が図られている。 しかし,既存のアンサンブルアルゴリズムの多くは,学習者同士の協調を明示的に制御することなく,個別に学習者を訓練するように設計されている。 本論文では,多段階統合手法に基づく基礎学習者のアンサンブルを学習するための新しい手法を提案する。 新しい多段階学習手法により,明示的なlearner間パラメータ共有によるlearner間協調を促進する,新しい階層型drl学習アルゴリズムの開発が可能となった。 この新しいアルゴリズムの設計は理論的に検証されている。 また、このアルゴリズムは複数のベンチマークRL問題において、最先端のDRLアルゴリズムよりも優れていることを示す。

Many actor-critic deep reinforcement learning (DRL) algorithms have achieved cutting-edge performance in tackling various challenging reinforcement learning (RL) problems, including complex control tasks with high-dimensional continuous state and action spaces. Despite of widely reported success, existing DRL algorithms often suffer from the ineffective exploration issue, resulting in limited learning stability and performance. To address this limitation, several ensemble DRL algorithms have been proposed recently to boost exploration and stabilize the learning process. However, many existing ensemble algorithms are designed to train each base learner individually without controlling explicitly the collaboration among the trained base learners. In this paper, we propose a new technique to train an ensemble of base learners based on the multi-step integration methods. The new multi-step training technique enables us to develop a new hierarchical training algorithm for ensemble DRL that promotes inter-learner collaboration through explicit inter-learner parameter sharing. The design of our new algorithm is verified theoretically. The algorithm is also shown empirically to outperform several cutting-edge DRL algorithms on multiple benchmark RL problems.
翻訳日:2022-09-30 17:28:14 公開日:2022-09-29
# 見るべき場所を教える--低解像度顔認識のための注意相似知識蒸留

Teaching Where to Look: Attention Similarity Knowledge Distillation for Low Resolution Face Recognition ( http://arxiv.org/abs/2209.14498v1 )

ライセンス: Link先を確認
Sungho Shin, Joosoon Lee, Junseok Lee, Yeonguk Yu, Kyoobin Lee(参考訳) ディープラーニングは顔認識ベンチマークでは優れた性能を達成しているが、低解像度(LR)画像では性能が大幅に低下する。 本稿では,教師として高分解能(HR)ネットワークから得られた注目マップを,学生としてLRネットワークに転送し,LR認識性能を向上させる注意類似知識蒸留手法を提案する。 HR画像から得られた事前知識に基づいてLR画像から物体の領域を近似できる人間にインスパイアされ,コサイン類似性を用いて知識蒸留損失を設計し,学生ネットワークの注意を教師ネットワークの注意に似せるようにした。 様々なLR面関連ベンチマーク実験により、提案手法はLR設定における認識性能を全般的に向上し、よく構築された注目マップを単純に転送することで、最先端の結果よりも優れることを確認した。 コードと事前訓練されたモデルはhttps://github.com/gist-ailab/teaching-where-lookで公開されている。

Deep learning has achieved outstanding performance for face recognition benchmarks, but performance reduces significantly for low resolution (LR) images. We propose an attention similarity knowledge distillation approach, which transfers attention maps obtained from a high resolution (HR) network as a teacher into an LR network as a student to boost LR recognition performance. Inspired by humans being able to approximate an object's region from an LR image based on prior knowledge obtained from HR images, we designed the knowledge distillation loss using the cosine similarity to make the student network's attention resemble the teacher network's attention. Experiments on various LR face related benchmarks confirmed the proposed method generally improved recognition performances on LR settings, outperforming state-of-the-art results by simply transferring well-constructed attention maps. The code and pretrained models are publicly available in the https://github.com/gist-ailab/teaching-where-to-look.
翻訳日:2022-09-30 17:22:23 公開日:2022-09-29
# サブ最適ビット割り当ての補正

Correcting the Sub-optimal Bit Allocation ( http://arxiv.org/abs/2209.14575v1 )

ライセンス: Link先を確認
Tongda Xu, Han Gao, Yuanyuan Wang, Hongwei Qin, Yan Wang, Jingjing Liu, Ya-Qin Zhang(参考訳) 本稿では,ニューラルビデオ圧縮(NVC)におけるビット割り当ての問題について検討する。 第一に,近年のビット割り当て手法が最適であると主張するのは,その実装によるサブ最適であることを明らかにした。 具体的には, その準最適性は, 非分解変分体後部潜伏剤に対する半同化変分推論(SAVI)の不適切な適用に関係している。 そこで我々は, 補正された最適ビット割り当てアルゴリズムを導出するために, 補正版SAVIの補正版では, 勾配上昇によるバックプロパゲートを再帰的に適用する必要があることを示した。 修正ビット割り当ての計算不可能性のため,効率的な近似法を設計して実用化する。 実験結果から,提案手法はr-d性能とビットレート誤差の点で不正確なビット割当を大幅に改善し,他の全てのビット割当法を大きく上回った。 補足資料には、ソースコードが設けられている。

In this paper, we investigate the problem of bit allocation in Neural Video Compression (NVC). First, we reveal that a recent bit allocation approach claimed to be optimal is, in fact, sub-optimal due to its implementation. Specifically, we find that its sub-optimality lies in the improper application of semi-amortized variational inference (SAVI) on latent with non-factorized variational posterior. Then, we show that the corrected version of SAVI on non-factorized latent requires recursively applying back-propagating through gradient ascent, based on which we derive the corrected optimal bit allocation algorithm. Due to the computational in-feasibility of the corrected bit allocation, we design an efficient approximation to make it practical. Empirical results show that our proposed correction significantly improves the incorrect bit allocation in terms of R-D performance and bitrate error, and outperforms all other bit allocation methods by a large margin. The source code is provided in the supplementary material.
翻訳日:2022-09-30 17:22:05 公開日:2022-09-29
# 空間的モーメントプーリングは神経画像評価を改善する

Spatial Moment Pooling Improves Neural Image Assessment ( http://arxiv.org/abs/2209.14583v1 )

ライセンス: Link先を確認
Tongda Xu, Yifan Shao, Yan Wang, Hongwei Qin(参考訳) 近年,畳み込みニューラルネットワーク(CNN)に基づく視覚画像品質評価(IQA)に注目が集まっている。 多数の作業は、CNNから深い機能の抽出から始まります。 そして、それらの特徴を空間平均プール(SAP)と完全に接続された層を通して処理し、品質を予測する。 本稿では,SAP(1^{st}$ moment)を空間的モーメントプーリング(SMP)に拡張し,高次モーメント(分散,歪等)を取り入れた。 さらに,高次モーメントの勾配計算における数値問題を回避するために,学習フレンドリな正規化を提供する。 実験結果から, SAP を SMP にアップグレードするだけで CNN ベースの IQA 手法が大幅に向上し, 技術性能が向上することが示唆された。

In recent years, there has been widespread attention drawn to convolutional neural network (CNN) based blind image quality assessment (IQA). A large number of works start by extracting deep features from CNN. Then, those features are processed through spatial average pooling (SAP) and fully connected layers to predict quality. Inspired by full reference IQA and texture features, in this paper, we extend SAP ($1^{st}$ moment) into spatial moment pooling (SMP) by incorporating higher order moments (such as variance, skewness). Moreover, we provide learning friendly normalization to circumvent numerical issue when computing gradients of higher moments. Experimental results suggest that simply upgrading SAP to SMP significantly enhances CNN-based blind IQA methods and achieves state of the art performance.
翻訳日:2022-09-30 17:21:50 公開日:2022-09-29
# モーメントネットワークを用いたポリプセグメンテーションのためのオンライン擬似ラベリング

Online pseudo labeling for polyp segmentation with momentum networks ( http://arxiv.org/abs/2209.14599v1 )

ライセンス: Link先を確認
Toan Pham Van, Linh Bao Doan, Thanh Tung Nguyen, Duc Trung Tran, Quan Van Nguyen, Dinh Viet Sang(参考訳) セマンティックセグメンテーションは医用画像診断システムの開発に欠かせない課題である。 しかし、注釈付き医療データセットの構築は高価である。 したがって、この状況では半教師付き手法が重要である。 半教師付き学習では、ラベルの品質がモデルパフォーマンスにおいて重要な役割を果たす。 本研究では,学生ネットワークの学習に使用する擬似ラベルの品質を高めるための,新しい擬似ラベリング戦略を提案する。 我々は、ラベル付きデータセット上で教師モデルを訓練し、訓練された教師を用いて学生のトレーニングに擬似ラベルを描画する多段階半教師訓練アプローチに従う。 これにより、擬似ラベルはトレーニングの進行とともに更新され、より正確になる。 従来の方法と我々の方法の主な違いは、学生の研修過程で教師モデルを更新することである。 したがって、学生の学習過程で擬似ラベルの品質が向上する。 また、トレーニング中に元のモデルのスローコピー版である運動量モデルを用いて、擬似ラベルの品質を高めるための単純かつ効果的な戦略を提案する。 学生のトレーニング中に擬似ラベルの再レンダリングと組み合わせて運動量モデルを適用することで、ラベル付きデータとして使用されるデータセットのわずか20%で、平均84.1%のDice Scoreを5つのデータセット(Kvarsir、CVC-ClinicDB、ETIS-LaribPolypDB、CVC-ColonDB、CVC-300)で達成した。 実験結果は, 通常の手法を3%超え, ある程度のデータセットで完全に教師付きの結果に近づいた。 ソースコードと事前訓練済みモデルはhttps://github.com/sun-asterisk-research/online learning sslで利用可能です。

Semantic segmentation is an essential task in developing medical image diagnosis systems. However, building an annotated medical dataset is expensive. Thus, semi-supervised methods are significant in this circumstance. In semi-supervised learning, the quality of labels plays a crucial role in model performance. In this work, we present a new pseudo labeling strategy that enhances the quality of pseudo labels used for training student networks. We follow the multi-stage semi-supervised training approach, which trains a teacher model on a labeled dataset and then uses the trained teacher to render pseudo labels for student training. By doing so, the pseudo labels will be updated and more precise as training progress. The key difference between previous and our methods is that we update the teacher model during the student training process. So the quality of pseudo labels is improved during the student training process. We also propose a simple but effective strategy to enhance the quality of pseudo labels using a momentum model -- a slow copy version of the original model during training. By applying the momentum model combined with re-rendering pseudo labels during student training, we achieved an average of 84.1% Dice Score on five datasets (i.e., Kvarsir, CVC-ClinicDB, ETIS-LaribPolypDB, CVC-ColonDB, and CVC-300) with only 20% of the dataset used as labeled data. Our results surpass common practice by 3% and even approach fully-supervised results on some datasets. Our source code and pre-trained models are available at https://github.com/sun-asterisk-research/online learning ssl
翻訳日:2022-09-30 17:21:35 公開日:2022-09-29
# 3次元ゼロショット学習のためのプロンプト誘導シーン生成

Prompt-guided Scene Generation for 3D Zero-Shot Learning ( http://arxiv.org/abs/2209.14690v1 )

ライセンス: Link先を確認
Majid Nasiri, Ali Cheraghian, Townim Faisal Chowdhury, Sahar Ahmadi, Morteza Saberi, Shafin Rahman(参考訳) 3Dポイントのクラウドデータのゼロショット学習は、その2D画像と比較すると、未解決の問題である。 3Dデータは、堅牢な事前訓練された特徴抽出モデルが利用できないため、ZSLに新たな課題をもたらす。 この問題に対処するために,ネットワークをよりよく学習するために3次元データを拡張した3次元シーン生成と監視手法を提案し,目に見えないオブジェクトの複雑な相互作用を探索する。 まず、2つの3dモデルの点雲をプロンプトによって記述されたある方法でマージする。 プロンプトは、各3dシーンを記述するアノテーションのように振る舞う。 その後,提案するアーキテクチャをエンドツーエンドでトレーニングするために,対比学習を行う。 3dシーンは、オブジェクトがコンテキストに現れると、人気言語モデル(bertなど)が高いパフォーマンスを達成できるため、単一オブジェクトよりもオブジェクトをより効率的に関連付けることができると主張する。 提案手法は,3次元ZSLの性能向上のために,データ拡張とプロンプトベースのアノテーション/カプセル化をカプセル化する。 我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端ZSLと一般化ZSLの性能を実現した。

Zero-shot learning on 3D point cloud data is a related underexplored problem compared to its 2D image counterpart. 3D data brings new challenges for ZSL due to the unavailability of robust pre-trained feature extraction models. To address this problem, we propose a prompt-guided 3D scene generation and supervision method that augments 3D data to learn the network better, exploring the complex interplay of seen and unseen objects. First, we merge point clouds of two 3D models in certain ways described by a prompt. The prompt acts like the annotation describing each 3D scene. Later, we perform contrastive learning to train our proposed architecture in an end-to-end manner. We argue that 3D scenes can relate objects more efficiently than single objects because popular language models (like BERT) can achieve high performance when objects appear in a context. Our proposed prompt-guided scene generation method encapsulates data augmentation and prompt-based annotation/captioning to improve 3D ZSL performance. We have achieved state-of-the-art ZSL and generalized ZSL performance on synthetic (ModelNet40, ModelNet10) and real-scanned (ScanOjbectNN) 3D object datasets.
翻訳日:2022-09-30 17:21:05 公開日:2022-09-29
# 計画的同変ニューラルネットワークの探索

In Search of Projectively Equivariant Neural Networks ( http://arxiv.org/abs/2209.14719v1 )

ライセンス: Link先を確認
Georg B\"okman, Axel Flinth, Fredrik Kahl(参考訳) 線形ニューラルネットワーク層の等価性はよく研究されている。 この研究において、同値条件は射影的意味でのみ真となるように緩和する。 特に、射影同値関係と通常の同値関係を考察し、重要な例では問題が実際に同値であることを示す。 3d の回転群は射影平面上で射影的に作用する。 2D-2D対応をフィルタリングするネットワーク設計における回転平衡の実際的重要性を実験的に検討する。 完全な同変モデルは性能が悪く、強いベースラインに不変の単純な付加が改善をもたらすが、これは改良された同変によるものではないようである。

Equivariance of linear neural network layers is well studied. In this work, we relax the equivariance condition to only be true in a projective sense. In particular, we study the relation of projective and ordinary equivariance and show that for important examples, the problems are in fact equivalent. The rotation group in 3D acts projectively on the projective plane. We experimentally study the practical importance of rotation equivariance when designing networks for filtering 2D-2D correspondences. Fully equivariant models perform poorly, and while a simple addition of invariant features to a strong baseline yields improvements, this seems to not be due to improved equivariance.
翻訳日:2022-09-30 17:20:34 公開日:2022-09-29
# 圧縮領域における残差の動的蓄積を用いた行動認識の高速化

Speeding Up Action Recognition Using Dynamic Accumulation of Residuals in Compressed Domain ( http://arxiv.org/abs/2209.14757v1 )

ライセンス: Link先を確認
Ali Abdari, Pouria Amirjan, Azadeh Mansouri(参考訳) カメラの普及に伴い、ビデオベースの監視アプローチは、生活支援など様々な目的のためにかなりの注目を集めている。 時間的冗長性と生の動画のサイズは、ビデオ処理アルゴリズムに関連する2つの最も一般的な問題である。 既存の手法の多くは、連続したフレームを探索することで精度を高めることに重点を置いており、これは手間がかかり、リアルタイムアプリケーションでは考慮できない。 ビデオは主に圧縮フォーマットで保存され送信されるため、この種のビデオは多くのデバイスで利用可能である。 圧縮ビデオには、運動ベクトルや量子化係数などの有益な情報が多数含まれている。 この情報を適切に利用することで、ビデオ理解手法の性能を大幅に向上させることができる。 本稿では,光部分復号処理によって得られる圧縮ビデオで直接利用できる残差データの利用法を提案する。 さらに, 類似残差を蓄積する手法を提案し, 動作認識のための処理フレーム数を劇的に削減した。 圧縮領域に蓄積された残差のみにニューラルネットワークを適用することで、性能が向上する一方、分類結果は生のビデオアプローチと高い競争力を持つ。

With the widespread use of installed cameras, video-based monitoring approaches have seized considerable attention for different purposes like assisted living. Temporal redundancy and the sheer size of raw videos are the two most common problematic issues related to video processing algorithms. Most of the existing methods mainly focused on increasing accuracy by exploring consecutive frames, which is laborious and cannot be considered for real-time applications. Since videos are mostly stored and transmitted in compressed format, these kinds of videos are available on many devices. Compressed videos contain a multitude of beneficial information, such as motion vectors and quantized coefficients. Proper use of this available information can greatly improve the video understanding methods' performance. This paper presents an approach for using residual data, available in compressed videos directly, which can be obtained by a light partially decoding procedure. In addition, a method for accumulating similar residuals is proposed, which dramatically reduces the number of processed frames for action recognition. Applying neural networks exclusively for accumulated residuals in the compressed domain accelerates performance, while the classification results are highly competitive with raw video approaches.
翻訳日:2022-09-30 17:20:25 公開日:2022-09-29
# Decoupled Decoder を用いた学習ガウス後部アグリゲーションによるBeta-VAE訓練

Training \beta-VAE by Aggregating a Learned Gaussian Posterior with a Decoupled Decoder ( http://arxiv.org/abs/2209.14783v1 )

ライセンス: Link先を確認
Jianning Li, Jana Fragemann, Seyed-Ahmad Ahmadi, Jens Kleesiek, and Jan Egger(参考訳) 変分オートエンコーダ(vae)におけるkldの損失とkldの損失は、しばしば敵対的な役割を演じ、2つの損失のバランスを達成するために$\beta$-vaeのkldの損失の重みをチューニングすることは、トリッキーでデータセット特有のタスクである。 結果として、VAEトレーニングの現在の実践は、重み$\beta$が慎重に調整されない場合、復元フィリティと潜伏空間の連続性$/$$分散の間のトレードオフをもたらすことが多い。 本稿では,2つの損失の対角的メカニズムの直観と注意深い分析を行い,その知見に基づいて,VAEを訓練するためのシンプルで効果的な2段階の手法を提案する。 具体的には、学習したガウス後部$z \sim q_{\theta} (z|x)$をKLD損失から分離したデコーダで集約し、入力データ$x$の新しい条件分布$p_{\phi} (x|z)$を学習するように訓練する。 実験的に、結束されたvaeは、潜在空間に関するガウスの仮定を最大に満たすが、一方で、潜在空間が$\mathcal{n}(\mathbf{0},i)$ でゆるく正規化される場合に匹敵する再構成誤差が得られる。 提案手法では、一般的なVAEトレーニングプラクティスに必要な特定のデータセットが与えられた場合、ハイパーパラメータ(KLD重み$\beta$)チューニングを必要としない。 本手法は, 3次元頭蓋骨再建と形状完成を目的とした医療データセットを用いて評価し, 提案手法を用いてトレーニングしたVAEの有望な生成能力を示す。 さらに,潜在変数の操作を誘導することで,既存のオートエンコーダ(ae)ベースのアプローチとvaeなどの生成的アプローチとの接続を確立した。 コードとトレーニング済みのウェイトはhttps://github.com/jianningli/skullvaeで入手できる。

The reconstruction loss and the Kullback-Leibler divergence (KLD) loss in a variational autoencoder (VAE) often play antagonistic roles, and tuning the weight of the KLD loss in $\beta$-VAE to achieve a balance between the two losses is a tricky and dataset-specific task. As a result, current practices in VAE training often result in a trade-off between the reconstruction fidelity and the continuity$/$disentanglement of the latent space, if the weight $\beta$ is not carefully tuned. In this paper, we present intuitions and a careful analysis of the antagonistic mechanism of the two losses, and propose, based on the insights, a simple yet effective two-stage method for training a VAE. Specifically, the method aggregates a learned Gaussian posterior $z \sim q_{\theta} (z|x)$ with a decoder decoupled from the KLD loss, which is trained to learn a new conditional distribution $p_{\phi} (x|z)$ of the input data $x$. Experimentally, we show that the aggregated VAE maximally satisfies the Gaussian assumption about the latent space, while still achieves a reconstruction error comparable to when the latent space is only loosely regularized by $\mathcal{N}(\mathbf{0},I)$. The proposed approach does not require hyperparameter (i.e., the KLD weight $\beta$) tuning given a specific dataset as required in common VAE training practices. We evaluate the method using a medical dataset intended for 3D skull reconstruction and shape completion, and the results indicate promising generative capabilities of the VAE trained using the proposed method. Besides, through guided manipulation of the latent variables, we establish a connection between existing autoencoder (AE)-based approaches and generative approaches, such as VAE, for the shape completion problem. Codes and pre-trained weights are available at https://github.com/Jianningli/skullVAE
翻訳日:2022-09-30 17:20:11 公開日:2022-09-29
# SymmNeRF: シングルビュービュー合成に先立って対称性を探求する学習

SymmNeRF: Learning to Explore Symmetry Prior for Single-View View Synthesis ( http://arxiv.org/abs/2209.14819v1 )

ライセンス: Link先を確認
Xingyi Li, Chaoyi Hong, Yiran Wang, Zhiguo Cao, Ke Xian, Guosheng Lin(参考訳) 単一画像からのオブジェクトの新たなビュー合成の問題について検討する。 既存の手法は、単一ビュービュー合成の可能性を示している。 しかし、特に自閉した地域では、細かい外観の細部を回復することはできなかった。 これは単一のビューが限られた情報しか提供しないためである。 人工物は通常対称的な外観を示し、さらに事前の知識をもたらす。 そこで本研究では,シーン表現に明示的に対称性を埋め込むことによるパフォーマンス向上の可能性について検討する。 本稿では, 局所条件と大域条件を組み合わせたニューラル放射場(NeRF)に基づくフレームワークであるSymphNeRFを提案する。 特に、SymNeRFは、ハイパーネットワークによってパラメータが生成されるNeRFへの追加入力として、ピクセル整列画像特徴と対応する対称特徴を取り上げている。 パラメータはイメージエンコードされた潜在符号に条件付けされているため、SymNeRFはシーン独立であり、新しいシーンに一般化することができる。 合成および実世界のデータセットの実験により、SymNeRFはポーズ変換によらず、より詳細で新しいビューを合成し、目に見えないオブジェクトに適用した場合に良い一般化を示す。 コードは、https://github.com/xingyi-li/SymmNeRF.comで入手できる。

We study the problem of novel view synthesis of objects from a single image. Existing methods have demonstrated the potential in single-view view synthesis. However, they still fail to recover the fine appearance details, especially in self-occluded areas. This is because a single view only provides limited information. We observe that manmade objects usually exhibit symmetric appearances, which introduce additional prior knowledge. Motivated by this, we investigate the potential performance gains of explicitly embedding symmetry into the scene representation. In this paper, we propose SymmNeRF, a neural radiance field (NeRF) based framework that combines local and global conditioning under the introduction of symmetry priors. In particular, SymmNeRF takes the pixel-aligned image features and the corresponding symmetric features as extra inputs to the NeRF, whose parameters are generated by a hypernetwork. As the parameters are conditioned on the image-encoded latent codes, SymmNeRF is thus scene-independent and can generalize to new scenes. Experiments on synthetic and realworld datasets show that SymmNeRF synthesizes novel views with more details regardless of the pose transformation, and demonstrates good generalization when applied to unseen objects. Code is available at: https://github.com/xingyi-li/SymmNeRF.
翻訳日:2022-09-30 17:19:31 公開日:2022-09-29
# 虚偽ニュース検出のための粗視から細分化されたエビデンス蒸留ニューラルネットワーク

A Coarse-to-fine Cascaded Evidence-Distillation Neural Network for Explainable Fake News Detection ( http://arxiv.org/abs/2209.14642v1 )

ライセンス: Link先を確認
Zhiwei Yang, Jing Ma, Hechang Chen, Hongzhan Lin, Ziyang Luo, Yi Chang(参考訳) 既存の偽ニュース検出手法は、あるニュースを真または偽と分類し、真偽の説明を提供することを目的としており、顕著な性能を達成する。 しかし、彼らはしばしば手動の事実チェックレポートの自動化ソリューションを調整し、限られたニュース報道と遅延の抑止に苦しむ。 あるニュースが事実確認や公表されていない場合、関連する生のレポートが様々なメディアに散発され、ニュースの主張を検証し、その判断を説明するための群衆の知恵を含んでいる。 本稿では,このような生の報告に基づいて,偽ニュースの検出を解き明かすためのcofcedニューラルネットを提案する。 具体的には,まず web テキスト表現に階層型エンコーダを用い,次に2つのカスケード型セレクタを開発し,選択した top-k レポート上で最も説明可能な文を粗い方法で選択する。 さらに、説明可能な2つのフェイクニュースデータセットを構築し、公開している。 実験結果から,本モデルは最先端のベースラインを著しく上回り,多様な評価視点から高品質な説明が得られた。

Existing fake news detection methods aim to classify a piece of news as true or false and provide veracity explanations, achieving remarkable performances. However, they often tailor automated solutions on manual fact-checked reports, suffering from limited news coverage and debunking delays. When a piece of news has not yet been fact-checked or debunked, certain amounts of relevant raw reports are usually disseminated on various media outlets, containing the wisdom of crowds to verify the news claim and explain its verdict. In this paper, we propose a novel Coarse-to-fine Cascaded Evidence-Distillation (CofCED) neural network for explainable fake news detection based on such raw reports, alleviating the dependency on fact-checked ones. Specifically, we first utilize a hierarchical encoder for web text representation, and then develop two cascaded selectors to select the most explainable sentences for verdicts on top of the selected top-K reports in a coarse-to-fine manner. Besides, we construct two explainable fake news datasets, which are publicly available. Experimental results demonstrate that our model significantly outperforms state-of-the-art baselines and generates high-quality explanations from diverse evaluation perspectives.
翻訳日:2022-09-30 17:13:19 公開日:2022-09-29
# GROOT: 生成シークエンシャルラベリングのための補正リワード最適化

GROOT: Corrective Reward Optimization for Generative Sequential Labeling ( http://arxiv.org/abs/2209.14694v1 )

ライセンス: Link先を確認
Kazuma Hashimoto and Karthik Raman(参考訳) 逐次ラベリングは基本的なNLPタスクであり、多くのアプリケーションのバックボーンを形成する。 seq2seqモデルの教師付き学習(t5など)は、これらの問題で大きな成功を収めている。 しかしながら、これらのモデルのトレーニング目標と、実践的な応用において私たちが関心を持つメトリクスとデシラタとの間には、大きな隔たりがある。 例えば、実用的なシーケンスタギングアプリケーションは、ゴールドラベル付きシーケンスの可能性を最大化するという標準的な目的とは全く異なる、特定の精度のリコールトレードオフ(トップk予測の)を最適化したいかもしれない。 このギャップを埋めるために、テキストシーケンスの生成的リワード最適化のためのシンプルで効果的なフレームワークであるGROOTを提案する。 GROOTは生成逐次ラベリングモデルをトレーニングして、デコーダ出力分布と(ブラックボックス)報酬関数の値とを一致させる。 反復学習システムを用いて、まず予測候補を生成し、エラーを訂正し、最後に(報酬値に基づいて)それらの候補と対比する。 4つの公開ベンチマークで広範な実験によって示されたように、GROOTはすべての報酬指標を大幅に改善する。 さらに、grootは、上位$k$の候補の品質向上によって示されるように、全体的なデコーダ分布の改善にも繋がる。

Sequential labeling is a fundamental NLP task, forming the backbone of many applications. Supervised learning of Seq2Seq models (like T5) has shown great success on these problems. However there remains a significant disconnect between the training objectives of these models vs the metrics and desiderata we care about in practical applications. For example, a practical sequence tagging application may want to optimize for a certain precision-recall trade-off (of the top-k predictions) which is quite different from the standard objective of maximizing the likelihood of the gold labeled sequence. Thus to bridge this gap, we propose GROOT -- a simple yet effective framework for Generative Reward Optimization Of Text sequences. GROOT works by training a generative sequential labeling model to match the decoder output distribution with that of the (black-box) reward function. Using an iterative training regime, we first generate prediction candidates, then correct errors in them, and finally contrast those candidates (based on their reward values). As demonstrated via extensive experiments on four public benchmarks, GROOT significantly improves all reward metrics. Furthermore, GROOT also leads to improvements of the overall decoder distribution as evidenced by the quality gains of the top-$k$ candidates.
翻訳日:2022-09-30 17:12:56 公開日:2022-09-29
# トークン単位認識におけるロバスト性検査のための摂動とサブポピュレーション

Perturbations and Subpopulations for Testing Robustness in Token-Based Argument Unit Recognition ( http://arxiv.org/abs/2209.14780v1 )

ライセンス: Link先を確認
Jonathan Kamp, Lisa Beinborn, Antske Fokkens(参考訳) Argument Unit Recognition and Classification は、テキストから引数単位を識別し、それをpro または against として分類することを目的としている。 このタスクのためにシステムを開発する際に必要となる設計上の選択の1つは、分類の単位が何であるかである:トークンのセグメントまたは全文。 従来の研究では、トークンレベルの微調整言語モデルは、文章を直接訓練するよりも、文章を分類する上でより堅牢な結果をもたらすことが示唆されている。 当初この主張を導いた研究を再現し、トークンベースのシステムが文ベースのシステムと比較して何を学んだかをさらに調査する。 トークンベースと文ベースシステム間の行動差を分析するための系統的テストを開発する。 この結果から,手動の摂動例やデータの特定のサブポピュレーションにおいて,トークンベースモデルの方が文ベースモデルよりも比較的堅牢であることが示唆された。

Argument Unit Recognition and Classification aims at identifying argument units from text and classifying them as pro or against. One of the design choices that need to be made when developing systems for this task is what the unit of classification should be: segments of tokens or full sentences. Previous research suggests that fine-tuning language models on the token-level yields more robust results for classifying sentences compared to training on sentences directly. We reproduce the study that originally made this claim and further investigate what exactly token-based systems learned better compared to sentence-based ones. We develop systematic tests for analysing the behavioural differences between the token-based and the sentence-based system. Our results show that token-based models are generally more robust than sentence-based models both on manually perturbed examples and on specific subpopulations of the data.
翻訳日:2022-09-30 17:12:36 公開日:2022-09-29
# TERMinator:科学テキスト処理システム

TERMinator: A system for scientific texts processing ( http://arxiv.org/abs/2209.14854v1 )

ライセンス: Link先を確認
Elena Bruches, Olga Tikhobaeva, Yana Dementyeva, Tatiana Batura(参考訳) 本稿では,科学用語を実体とみなす科学文献から,実体の抽出とそれら間の意味的関係について考察する。 本稿では,2つのタスクに対するアノテーションを含むデータセットを提案し,言語モデルが単語認識に与える影響と関係抽出のための異なるアプローチの比較を行うためのTERMinatorと呼ばれるシステムを開発した。 実験によると、ターゲット言語で事前トレーニングされた言語モデルは、必ずしも最高のパフォーマンスを示すとは限らない。 また、ヒューリスティックなアプローチを追加することで、特定のタスクの全体的な品質が向上する可能性がある。 開発ツールと注釈付きコーパスはhttps://github.com/iis-research-team/terminatorで公開されている。

This paper is devoted to the extraction of entities and semantic relations between them from scientific texts, where we consider scientific terms as entities. In this paper, we present a dataset that includes annotations for two tasks and develop a system called TERMinator for the study of the influence of language models on term recognition and comparison of different approaches for relation extraction. Experiments show that language models pre-trained on the target language are not always show the best performance. Also adding some heuristic approaches may improve the overall quality of the particular task. The developed tool and the annotated corpus are publicly available at https://github.com/iis-research-team/terminator and may be useful for other researchers.
翻訳日:2022-09-30 17:12:21 公開日:2022-09-29
# Generate-and-Retrieve: セマンティック解析の検索を改善するために予測を使用する

Generate-and-Retrieve: use your predictions to improve retrieval for semantic parsing ( http://arxiv.org/abs/2209.14899v1 )

ライセンス: Link先を確認
Yury Zemlyanskiy, Michiel de Jong, Joshua Ainslie, Panupong Pasupat, Peter Shaw, Linlu Qiu, Sumit Sanghai, Fei Sha(参考訳) 意味解析に対する最近の一般的なアプローチは、exemplarsと呼ばれるトレーニングサンプルのセットを検索し追加することでシーケンス列モデルを強化している。 このレシピの有効性は、特に低リソース環境では困難である正しいパースを生成するのに役立つ情報的例を取り出す能力によって制限されている。 既存の検索は通常、クエリと例の入力の類似性に基づいている。 我々は,出力が類似する例題を検索する検索手順であるgandrを提案する。 GandRfirstは入力ベースの検索で予備予測を生成する。 そして、最終的な予測を生成するために使用される予備予測と同様の出力で例を検索する。 GandRは、複数の低リソースのセマンティックパーシングタスクに、その技術の状態を設定する。

A common recent approach to semantic parsing augments sequence-to-sequence models by retrieving and appending a set of training samples, called exemplars. The effectiveness of this recipe is limited by the ability to retrieve informative exemplars that help produce the correct parse, which is especially challenging in low-resource settings. Existing retrieval is commonly based on similarity of query and exemplar inputs. We propose GandR, a retrieval procedure that retrieves exemplars for which outputs are also similar. GandRfirst generates a preliminary prediction with input-based retrieval. Then, it retrieves exemplars with outputs similar to the preliminary prediction which are used to generate a final prediction. GandR sets the state of the art on multiple low-resource semantic parsing tasks.
翻訳日:2022-09-30 17:12:09 公開日:2022-09-29
# 物理インフォームドニューラルネットワークに対するマルチモード非線形シュリンガー方程式のスケーリング変換

Scaling transformation of the multimode nonlinear Schr\"odinger equation for physics-informed neural networks ( http://arxiv.org/abs/2209.14641v1 )

ライセンス: Link先を確認
Ivan Chuprov and Dmitry Efremenko and Jiexing Gao and Pavel Anisimov and Viacheslav Zemlyakov(参考訳) 単一モード光ファイバ(SMF)は現代の通信システムのバックボーンとなっている。 しかし、そのスループットは近い将来理論上の限界に達することが期待されている。 マルチモードファイバ(MMF)の利用は、この容量を補正する最も有望なソリューションの1つである。 それでも、MMFにおける光伝搬を記述する微分方程式はSMFよりもはるかに高度であり、現実的なシナリオの大部分において計算的に要求されるMMFベースのシステムの数値モデリングを実現する。 物理インフォームドニューラルネットワーク(PINN)は、様々な領域における従来の数値的アプローチよりも優れていることが知られており、SMFにおける光伝搬を記述する非線形シュリンガー方程式(NLSE)にうまく適用されている。 しかし,マルチモードNLSE(MMNLSE)へのPINNの適用に関する総合的研究はいまだ不十分である。 我々の知る限り,本論文はMMNLSEのためのPINNのパラダイムを最初に展開し,NLSEと類似したPINNの簡単な実装がうまくいかないことを実証するものである。 我々はピン収束を妨げる全ての問題を特定し、ピンが関連するすべての物理効果を捉えるゼロ次分散係数の新たなスケーリング変換を導入する。 シミュレーションにより,スプリットステップフーリエ法 (SSF) とよく一致し, 数値的に到達可能な伝播距離を数百mまで延長した。 主な制限はすべて強調されている。

Single-mode optical fibers (SMFs) have become the backbone of modern communication systems. However, their throughput is expected to reach its theoretical limit in the nearest future. Utilization of multimode fibers (MMFs) is considered as one of the most promising solutions rectifying this capacity crunch. Nevertheless, differential equations describing light propagation in MMFs are a way more sophisticated than those for SMFs, which makes numerical modelling of MMF-based systems computationally demanding and impractical for the most part of realistic scenarios. Physics-informed neural networks (PINNs) are known to outperform conventional numerical approaches in various domains and have been successfully applied to the nonlinear Schr\"odinger equation (NLSE) describing light propagation in SMFs. A comprehensive study on application of PINN to the multimode NLSE (MMNLSE) is still lacking though. To the best of our knowledge, this paper is the first to deploy the paradigm of PINN for MMNLSE and to demonstrate that a straightforward implementation of PINNs by analogy with NLSE does not work out. We pinpoint all issues hindering PINN convergence and introduce a novel scaling transformation for the zero-order dispersion coefficient that makes PINN capture all relevant physical effects. Our simulations reveal good agreement with the split-step Fourier (SSF) method and extend numerically attainable propagation lengths up to several hundred meters. All major limitations are also highlighted.
翻訳日:2022-09-30 17:11:59 公開日:2022-09-29
# 複数のコンポーネントを持つスパースPCA

Sparse PCA With Multiple Components ( http://arxiv.org/abs/2209.14790v1 )

ライセンス: Link先を確認
Ryan Cory-Wright, Jean Pauphilet(参考訳) スパース主成分分析(英: sparse principal component analysis)は、高次元データセットの分散を解釈可能な方法で説明できる特徴と主成分(pcs)の組み合わせを得るための基数的手法である。 中心となるのは、空間性と直交性に制約のある凸最大化問題を解くことである。 既存の作業課題の多くは、1つのスパースPCを反復的に計算したり、共分散行列を縮めるようなヒューリスティックな手法によるスパースPCAである。 我々は,直交条件をランク制約として再構成し,スパルシリティとランク制約を同時に最適化することで,この状況に挑戦する。 我々は, 厳密な半有限緩和を設計し, 高品質な上界を提供する2階錐体版を提案する。 また,各pcの個々のスパース性が特定されたときに保持される有効な2次円錐不等式をデザインし,これらの不等式が我々の緩和を著しく強化することを示す。 さらに,p = 100 または 1000 個の特徴を持つ実世界のデータセットと r \in {2, 3} 成分に対して,1%-5% の有界ギャップを持つ解を得るために,これらの緩和の厳密性を利用する正確な方法と丸め機構を提案する。 提案手法の性能をスパイクされた共分散条件で検討し, 直交性および空間性制約を同時に考慮すると, ROC曲線の2%-8%の改善が得られたことを示す。 全体として、本手法は、複数のコンポーネントによるスパースPCA問題の解法であり、事実上の難解な方法で(ほぼ)最適性を証明できる。

Sparse Principal Component Analysis is a cardinal technique for obtaining combinations of features, or principal components (PCs), that explain the variance of high-dimensional datasets in an interpretable manner. At its heart, this involves solving a sparsity and orthogonality constrained convex maximization problem, which is extremely computationally challenging. Most existing work address sparse PCA via heuristics such as iteratively computing one sparse PC and deflating the covariance matrix, which does not guarantee the orthogonality, let alone the optimality, of the resulting solution. We challenge this status by reformulating the orthogonality conditions as rank constraints and optimizing over the sparsity and rank constraints simultaneously. We design tight semidefinite relaxations and propose tractable second-order cone versions of these relaxations which supply high-quality upper bounds. We also design valid second-order cone inequalities which hold when each PC's individual sparsity is specified, and demonstrate that these inequalities tighten our relaxations significantly. Moreover, we propose exact methods and rounding mechanisms that exploit these relaxations' tightness to obtain solutions with a bound gap on the order of 1%-5% for real-world datasets with p = 100s or 1000s of features and r \in {2, 3} components. We investigate the performance of our methods in spiked covariance settings and demonstrate that simultaneously considering the orthogonality and sparsity constraints leads to improvements in the Area Under the ROC curve of 2%-8% compared to state-of-the-art deflation methods. All in all, our approach solves sparse PCA problems with multiple components to certifiable (near) optimality in a practically tractable fashion.
翻訳日:2022-09-30 17:04:15 公開日:2022-09-29
# ベトナム法典の多段階情報検索

Multi-stage Information Retrieval for Vietnamese Legal Texts ( http://arxiv.org/abs/2209.14494v1 )

ライセンス: Link先を確認
Nhat-Minh Pham, Ha-Thanh Nguyen, Trong-Hop Do(参考訳) 本研究はベトナムの法律文書における情報検索(IR)の問題を扱う。 多くの言語でよく研究されているにもかかわらず、情報検索はベトナムの研究コミュニティからはあまり注目を集めていない。 これは、処理が難しい法的文書の場合、特に当てはまります。 本研究では,文変換器を用いたベトナムの法律文書の情報検索手法を提案する。 さらに, 異なる変圧器モデル, ランキングスコア, 音節レベル, 単語レベル訓練の比較実験を行った。 実験の結果,提案モデルはベトナム語文書の情報検索研究で用いられているモデルよりも優れていることがわかった。

This study deals with the problem of information retrieval (IR) for Vietnamese legal texts. Despite being well researched in many languages, information retrieval has still not received much attention from the Vietnamese research community. This is especially true for the case of legal documents, which are hard to process. This study proposes a new approach for information retrieval for Vietnamese legal documents using sentence-transformer. Besides, various experiments are conducted to make comparisons between different transformer models, ranking scores, syllable-level, and word-level training. The experiment results show that the proposed model outperforms models used in current research on information retrieval for Vietnamese documents.
翻訳日:2022-09-30 17:02:05 公開日:2022-09-29
# babeを用いた遠隔監視によるニューラルメディアバイアス検出 -専門家によるバイアスアノテーション-

Neural Media Bias Detection Using Distant Supervision With BABE -- Bias Annotations By Experts ( http://arxiv.org/abs/2209.14557v1 )

ライセンス: Link先を確認
Timo Spinde, Manuel Plank, Jan-David Krieger, Terry Ruas, Bela Gipp, Akiko Aizawa(参考訳) メディアの報道は、イベントに対する大衆の認識に大きな影響を与えている。 しかし、メディアはしばしば偏見を抱いている。 ニュース記事に偏る一つの方法は、単語の選択を変更することである。 単語選択によるバイアスの自動識別は、主にゴールド標準データセットの欠如と高いコンテキスト依存のために困難である。 本稿では,メディアバイアス研究のエキスパートが作成した,堅牢で多様なデータセットであるBABEについて述べる。 また、このドメイン内で専門家のラベル付けが不可欠である理由を分析します。 当社のデータセットは,既存の作業よりもアノテーションの品質とアノテーション間合意が向上しています。 トピックとアウトレットのバランスが取れた3,700の文で構成され、単語と文のレベルでメディアバイアスラベルを含んでいる。 また,本データに基づいて,ニュース記事中のバイアス文を自動的に検出する手法も導入した。 我々の最高のBERTベースのモデルは、遠いラベルからなるより大きなコーパスで事前訓練されている。 提案した教師付きデータセット上でモデルを微調整し評価し,既存の手法よりも高い0.804のマクロF1スコアを達成する。

Media coverage has a substantial effect on the public perception of events. Nevertheless, media outlets are often biased. One way to bias news articles is by altering the word choice. The automatic identification of bias by word choice is challenging, primarily due to the lack of a gold standard data set and high context dependencies. This paper presents BABE, a robust and diverse data set created by trained experts, for media bias research. We also analyze why expert labeling is essential within this domain. Our data set offers better annotation quality and higher inter-annotator agreement than existing work. It consists of 3,700 sentences balanced among topics and outlets, containing media bias labels on the word and sentence level. Based on our data, we also introduce a way to detect bias-inducing sentences in news articles automatically. Our best performing BERT-based model is pre-trained on a larger corpus consisting of distant labels. Fine-tuning and evaluating the model on our proposed supervised data set, we achieve a macro F1-score of 0.804, outperforming existing methods.
翻訳日:2022-09-30 17:01:57 公開日:2022-09-29
# COLO: 一段階要約のためのコントラスト学習に基づく再分類フレームワーク

COLO: A Contrastive Learning based Re-ranking Framework for One-Stage Summarization ( http://arxiv.org/abs/2209.14569v1 )

ライセンス: Link先を確認
Chenxin An, Ming Zhong, Zhiyong Wu, Qin Zhu, Xuanjing Huang, Xipeng Qiu(参考訳) 抽出的および抽象的要約システムの伝統的な訓練パラダイムは、常にトークンレベルまたは文レベルの訓練目標のみを使用する。 しかし、アウトプット・サマリーは常に、トレーニングと評価の不整合につながる要約レベルから評価される。 本稿では,COLOと呼ばれる一段階要約のためのコントラスト学習に基づくフレームワークを提案する。 比較対象をモデル化することにより、要約モデルが追加モジュールやパラメータなしで要約レベルスコアに従って直接要約を生成することができることを示す。 広範な実験により、cnn/dailymailベンチマークにおける1段階システムの抽出および抽象化の結果が、パラメータ効率と推論効率を維持しながら44.58および46.33ルージュ-1スコアに向上することが示された。 最先端のマルチステージシステムと比較して、100以上のGPUトレーニング時間を節約し、比較結果を維持しながら、推論中に3~8のスピードアップ比を得る。

Traditional training paradigms for extractive and abstractive summarization systems always only use token-level or sentence-level training objectives. However, the output summary is always evaluated from summary-level which leads to the inconsistency in training and evaluation. In this paper, we propose a Contrastive Learning based re-ranking framework for one-stage summarization called COLO. By modeling a contrastive objective, we show that the summarization model is able to directly generate summaries according to the summary-level score without additional modules and parameters. Extensive experiments demonstrate that COLO boosts the extractive and abstractive results of one-stage systems on CNN/DailyMail benchmark to 44.58 and 46.33 ROUGE-1 score while preserving the parameter efficiency and inference efficiency. Compared with state-of-the-art multi-stage systems, we save more than 100 GPU training hours and obtaining 3~8 speed-up ratio during inference while maintaining comparable results.
翻訳日:2022-09-30 17:01:42 公開日:2022-09-29
# コンパイル:中国の複雑性制御可能な定義生成のためのベンチマークデータセット

COMPILING: A Benchmark Dataset for Chinese Complexity Controllable Definition Generation ( http://arxiv.org/abs/2209.14614v1 )

ライセンス: Link先を確認
Jiaxin Yuan, Cunliang Kong, Chenhui Xie, Liner Yang, Erhong Yang(参考訳) 定義生成タスクは、特定の文脈内で単語の定義を自動的に生成することを目的としている。 しかし、異なる複雑さのためのデータセットが欠如しているため、モデルによって生成される定義は同じ複雑さレベルを維持する傾向がある。 本稿では,制御可能な複雑性レベルを持つ単語の定義を生成する新しいタスクを提案する。 それに応じて,中国の定義に関する詳細な情報を付与したデータセットのコンパイルを導入し,各定義にその複雑性レベルをラベル付けする。 コンパイルデータセットは74,303ワードと106,882定義を含む。 我々の知る限りでは、中国における定義生成タスクの最大のデータセットである。 このタスクのベースラインとして様々な代表生成メソッドを選択し,評価を行い,複雑性レベル定義の異なるモデル生成を支援する上で,データセットが優れた役割を担っていることを示す。 我々はCompilingデータセットが複雑性制御可能な定義生成のさらなる研究に役立つと考えている。

The definition generation task aims to generate a word's definition within a specific context automatically. However, owing to the lack of datasets for different complexities, the definitions produced by models tend to keep the same complexity level. This paper proposes a novel task of generating definitions for a word with controllable complexity levels. Correspondingly, we introduce COMPILING, a dataset given detailed information about Chinese definitions, and each definition is labeled with its complexity levels. The COMPILING dataset includes 74,303 words and 106,882 definitions. To the best of our knowledge, it is the largest dataset of the Chinese definition generation task. We select various representative generation methods as baselines for this task and conduct evaluations, which illustrates that our dataset plays an outstanding role in assisting models in generating different complexity-level definitions. We believe that the COMPILING dataset will benefit further research in complexity controllable definition generation.
翻訳日:2022-09-30 17:01:28 公開日:2022-09-29
# NVRadarNet:リアルタイムレーダー障害物と自律走行のための自由空間検出

NVRadarNet: Real-Time Radar Obstacle and Free Space Detection for Autonomous Driving ( http://arxiv.org/abs/2209.14499v1 )

ライセンス: Link先を確認
Alexander Popov, Patrik Gebhardt, Ke Chen, Ryan Oldja, Heeseok Lee, Shane Murray, Ruchi Bhargava, Nikolai Smolyanskiy(参考訳) 障害物検出は安全かつ効率的な自動運転に不可欠である。 この目的のために,自動車のRADARセンサを用いて動的障害物や自由空間を検出するディープニューラルネットワーク(DNN)であるNVRadarNetを提案する。 ネットワークは、複数のレーダーセンサーからの時間的蓄積データを使用して、動的な障害物を検出し、その方向をトップダウンバードズアイビュー(bev)で計算する。 ネットワークはまた、未分類の障害物を検出するために乾燥可能な自由空間を後退させる。 我々のDNNは、RAARデータのみから、障害物や自由空間の検出をリアルタイムで行うために、スパースRADAR信号を利用する最初の種である。 このネットワークは、実際の自動運転シナリオにおける自動運転車の認識に成功している。 ネットワークは組み込みGPU上でリアルタイムよりも高速に動作し、地理的領域にわたって優れた一般化を示す。

Detecting obstacles is crucial for safe and efficient autonomous driving. To this end, we present NVRadarNet, a deep neural network (DNN) that detects dynamic obstacles and drivable free space using automotive RADAR sensors. The network utilizes temporally accumulated data from multiple RADAR sensors to detect dynamic obstacles and compute their orientation in a top-down bird's-eye view (BEV). The network also regresses drivable free space to detect unclassified obstacles. Our DNN is the first of its kind to utilize sparse RADAR signals in order to perform obstacle and free space detection in real time from RADAR data only. The network has been successfully used for perception on our autonomous vehicles in real self-driving scenarios. The network runs faster than real time on an embedded GPU and shows good generalization across geographic regions.
翻訳日:2022-09-30 16:54:21 公開日:2022-09-29
# 自己教師付き血管セグメンテーションのための拡散逆表現学習

Diffusion Adversarial Representation Learning for Self-supervised Vessel Segmentation ( http://arxiv.org/abs/2209.14566v1 )

ライセンス: Link先を確認
Boah Kim, Yujin Oh, and Jong Chul Ye(参考訳) 医療画像における血管分割は血管疾患の診断と治療計画において重要な課題の1つである。 学習に基づくセグメンテーションのアプローチは広く研究されているが、教師ありの手法や背景構造が混乱しているため、ニューラルネットワークは教師なしの方法でのセグメンテーションを困難にしている。 そこで本研究では, 対数学習を用いた拡散確率モデルを用いた新しい拡散対数表現学習(DARL)モデルを導入し, 血管セグメンテーションに適用する。 特に,自己教師型血管分割において,DARLは拡散モジュールを用いて背景画像の分布を学習し,生成モジュールが効果的に血管表現を提供する。 また,切り替え可能な空間適応型非正規化に基づく逆学習により,本モデルでは,合成擬似容器画像と容器分割マスクを推定し,さらに,容器関連意味情報を捕捉する。 提案モデルがトレーニングされると,1ステップごとにセグメンテーションマスクを生成し,冠動脈造影および網膜画像の一般的な血管構造セグメンテーションに適用することができる。 各種データセットを用いた実験の結果, 従来の非教師なしおよび自己教師なしの容器分割法を有意に上回ることがわかった。

Vessel segmentation in medical images is one of the important tasks in the diagnosis of vascular diseases and therapy planning. Although learning-based segmentation approaches have been extensively studied, a large amount of ground-truth labels are required in supervised methods and confusing background structures make neural networks hard to segment vessels in an unsupervised manner. To address this, here we introduce a novel diffusion adversarial representation learning (DARL) model that leverages a denoising diffusion probabilistic model with adversarial learning, and apply it for vessel segmentation. In particular, for self-supervised vessel segmentation, DARL learns background image distribution using a diffusion module, which lets a generation module effectively provide vessel representations. Also, by adversarial learning based on the proposed switchable spatially-adaptive denormalization, our model estimates synthetic fake vessel images as well as vessel segmentation masks, which further makes the model capture vessel-relevant semantic information. Once the proposed model is trained, the model generates segmentation masks by one step and can be applied to general vascular structure segmentation of coronary angiography and retinal images. Experimental results on various datasets show that our method significantly outperforms existing unsupervised and self-supervised methods in vessel segmentation.
翻訳日:2022-09-30 16:54:08 公開日:2022-09-29
# 医療データ共有のためのデータセット蒸留

Dataset Distillation for Medical Dataset Sharing ( http://arxiv.org/abs/2209.14603v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 病院間で医療データセットを共有するのは、プライバシー保護の問題と、多くの高解像度医療画像の送受信に膨大なコストがかかるため困難である。 しかし、データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等のパフォーマンスを達成できるように、小さなデータセットを合成することができる。 そこで本稿では, 医用データセット共有のための新しい蒸留法を提案する。 新型コロナウイルスの胸部x線画像データセットにおける実験結果から, 匿名化胸部x線画像を用いても高い検出性能が得られた。

Sharing medical datasets between hospitals is challenging because of the privacy-protection problem and the massive cost of transmitting and storing many high-resolution medical images. However, dataset distillation can synthesize a small dataset such that models trained on it achieve comparable performance with the original large dataset, which shows potential for solving the existing medical sharing problems. Hence, this paper proposes a novel dataset distillation-based method for medical dataset sharing. Experimental results on a COVID-19 chest X-ray image dataset show that our method can achieve high detection performance even using scarce anonymized chest X-ray images.
翻訳日:2022-09-30 16:53:45 公開日:2022-09-29
# 顔のランドマーク予測とメタバースへの応用

Facial Landmark Predictions with Applications to Metaverse ( http://arxiv.org/abs/2209.14698v1 )

ライセンス: Link先を確認
Qiao Han, Jun Zhao, Kwok-Yan Lam(参考訳) 本研究では,映像から学習した唇のアニメーションを加えることで,メタバースキャラクタをよりリアルにすることを目的とする。 そこで本研究では,タコトロン2テキスト音声合成装置を拡張して,メルスペクトログラム1パスで唇の動きを生成する。 エンコーダとゲート層重みは、LJ Speech 1.1データセットで事前トレーニングされ、デコーダは、LRS3データセットから抽出されたTEDトークビデオの93クリップで再トレーニングされる。 新たなデコーダは,OpenFace 2.0のランドマーク予測器によって自動的に抽出されたラベルを用いて,20個のリップランドマーク位置の変位を予測する。 訓練は5分未満のビデオで7時間で完了した。 音声データと視覚音声データ間の伝達学習の有効性を示すため,プリ/ポストネットとプリトレーニングエンコーダ重みに対するアブレーション実験を行った。

This research aims to make metaverse characters more realistic by adding lip animations learnt from videos in the wild. To achieve this, our approach is to extend Tacotron 2 text-to-speech synthesizer to generate lip movements together with mel spectrogram in one pass. The encoder and gate layer weights are pre-trained on LJ Speech 1.1 data set while the decoder is retrained on 93 clips of TED talk videos extracted from LRS 3 data set. Our novel decoder predicts displacement in 20 lip landmark positions across time, using labels automatically extracted by OpenFace 2.0 landmark predictor. Training converged in 7 hours using less than 5 minutes of video. We conducted ablation study for Pre/Post-Net and pre-trained encoder weights to demonstrate the effectiveness of transfer learning between audio and visual speech data.
翻訳日:2022-09-30 16:53:35 公開日:2022-09-29
# R2C-GAN:Blind X線修復とCOVID-19分類のためのGANの復元

R2C-GAN: Restore-to-Classify GANs for Blind X-Ray Restoration and COVID-19 Classification ( http://arxiv.org/abs/2209.14770v1 )

ライセンス: Link先を確認
Mete Ahishali, Aysen Degerli, Serkan Kiranyaz, Tahir Hamid, Rashid Mazhar, Moncef Gabbouj(参考訳) 品質の悪い画像と混合した人工物の復元は、信頼性の高い診断に不可欠な役割を担っている。 既存の研究は、通常、アーティファクトの種類と重大さに強い仮定がある画像のデブラリング、ノイズ除去、露出補正などの特定の修復問題に焦点を当てている。 ブラインドx線修復の先駆的研究として,汎用的な画像復元と分類のための共同モデル,restore-to-classify generative adversarial networks (r2c-gans)を提案する。 このような共同で最適化されたモデルは、回復後に病気を無傷に保つ。 そのため,X線画像の画質の向上により診断性能が向上する。 この目的を達成するために,画像から画像への変換問題として,ノイズやぼやけた画像,あるいは露出の過剰な画像から高画質の画像領域への復元タスクを定義する。 提案したR2C-GANモデルは、未ペアトレーニングサンプルを用いて、2つの領域間の前方および逆変換を学習することができる。 同時に、関節分類は修復中に疾患のラベルを保存する。 さらに、R2C-GANは、ネットワーク深度を低減し、復元性能と分類性能をさらに向上させる運用層/ニューロンを備えている。 提案した関節モデルは、コロナウイルス病2019(COVID-19)分類のためのQaTa-COV19データセットで広範囲に評価されている。 提案手法では, 90%以上のF1スコアが得られた。 さらに、定性分析では、R2C-GANの修復性能が医師のグループによって承認される。 ソフトウェアの実装はhttps://github.com/meteahishali/R2C-GANで公開しています。

Restoration of poor quality images with a blended set of artifacts plays a vital role for a reliable diagnosis. Existing studies have focused on specific restoration problems such as image deblurring, denoising, and exposure correction where there is usually a strong assumption on the artifact type and severity. As a pioneer study in blind X-ray restoration, we propose a joint model for generic image restoration and classification: Restore-to-Classify Generative Adversarial Networks (R2C-GANs). Such a jointly optimized model keeps any disease intact after the restoration. Therefore, this will naturally lead to a higher diagnosis performance thanks to the improved X-ray image quality. To accomplish this crucial objective, we define the restoration task as an Image-to-Image translation problem from poor quality having noisy, blurry, or over/under-exposed images to high quality image domain. The proposed R2C-GAN model is able to learn forward and inverse transforms between the two domains using unpaired training samples. Simultaneously, the joint classification preserves the disease label during restoration. Moreover, the R2C-GANs are equipped with operational layers/neurons reducing the network depth and further boosting both restoration and classification performances. The proposed joint model is extensively evaluated over the QaTa-COV19 dataset for Coronavirus Disease 2019 (COVID-19) classification. The proposed restoration approach achieves over 90% F1-Score which is significantly higher than the performance of any deep model. Moreover, in the qualitative analysis, the restoration performance of R2C-GANs is approved by a group of medical doctors. We share the software implementation at https://github.com/meteahishali/R2C-GAN.
翻訳日:2022-09-30 16:53:20 公開日:2022-09-29
# オブジェクト検出モデルのための暗号化特徴マップによるアクセス制御

Access Control with Encrypted Feature Maps for Object Detection Models ( http://arxiv.org/abs/2209.14831v1 )

ライセンス: Link先を確認
Teru Nagamori, Hiroki Ito, AprilPyone MaungMaung, Hitoshi Kiya(参考訳) 本稿では,秘密鍵のない未許可ユーザに対して,訓練されたモデルの性能を損なうことなく,オブジェクト検出モデルに対する秘密鍵を用いたアクセス制御手法を提案する。 本手法は,認証ユーザに対して高い検出性能を提供するだけでなく,不正ユーザに対する性能を低下させることを可能にする。 画像分類モデルのアクセス制御には変換画像の利用が提案されているが,これらの画像は性能劣化のためオブジェクト検出モデルには使用できない。 そこで本論文では,入力画像の代わりに,選択した特徴マップを秘密鍵で暗号化してモデルを訓練し,テストする。 実験では、保護されていないモデルとほぼ同等の性能を持つが、キーを使わずに不正アクセスに対して堅牢性がある。

In this paper, we propose an access control method with a secret key for object detection models for the first time so that unauthorized users without a secret key cannot benefit from the performance of trained models. The method enables us not only to provide a high detection performance to authorized users but to also degrade the performance for unauthorized users. The use of transformed images was proposed for the access control of image classification models, but these images cannot be used for object detection models due to performance degradation. Accordingly, in this paper, selected feature maps are encrypted with a secret key for training and testing models, instead of input images. In an experiment, the protected models allowed authorized users to obtain almost the same performance as that of non-protected models but also with robustness against unauthorized access without a key.
翻訳日:2022-09-30 16:52:55 公開日:2022-09-29
# spotlight:フォーカスによる視覚言語モデルによるモバイルui理解

Spotlight: Mobile UI Understanding using Vision-Language Models with a Focus ( http://arxiv.org/abs/2209.14927v1 )

ライセンス: Link先を確認
Gang Li, Yang Li(参考訳) モバイルUI理解は、UI自動化やアクセシビリティといったさまざまなインタラクションタスクを実現する上で重要である。 以前のモバイルuiモデリングは、画面のビュー階層情報に依存しており、uiの構造データを直接提供し、画面ピクセルからのビジュアルモデリングの課題を回避できることを期待している。 しかし、ビュー階層は必ずしも利用できないため、オブジェクト記述の欠如やバウンディングボックスの位置の不一致によってしばしば破損する。 その結果、ビュー階層の使用は短期的な利益をもたらすが、最終的にはモデルの適用性と性能を妨げる可能性がある。 本稿では,モバイルUI理解のための視覚のみのアプローチであるSpotlightを提案する。 具体的には、uiのスクリーンショットと、画面上の関心領域(フォーカス)のみを入力として使用する、ビジョン言語モデルを拡張します。 この一般的なアーキテクチャはスケーラブルで、様々なUIモデリングタスクを実行することができる。 実験の結果,いくつかの代表的なuiタスクのsoma結果を取得し,スクリーンショットと階層ビューの両方を入力として使用する従来のメソッドよりも優れていた。 さらに,提案モデルのマルチタスク学習と数ショットプロンプト能力について検討し,マルチタスク学習の方向性において有望な結果を示す。

Mobile UI understanding is important for enabling various interaction tasks such as UI automation and accessibility. Previous mobile UI modeling often depends on the view hierarchy information of a screen, which directly provides the structural data of the UI, with the hope to bypass challenging tasks of visual modeling from screen pixels. However, view hierarchy is not always available, and is often corrupted with missing object descriptions or misaligned bounding box positions. As a result, although using view hierarchy offers some short-term gains, it may ultimately hinder the applicability and performance of the model. In this paper, we propose Spotlight, a vision-only approach for mobile UI understanding. Specifically, we enhance a vision-language model that only takes the screenshot of the UI and a region of interest on the screen -- the focus -- as the input. This general architecture is easily scalable and capable of performing a range of UI modeling tasks. Our experiments show that our model obtains SoTA results on several representative UI tasks and outperforms previous methods that use both screenshots and view hierarchies as input. Furthermore, we explore the multi-task learning and few-shot prompting capacity of the proposed models, demonstrating promising results in the multi-task learning direction.
翻訳日:2022-09-30 16:52:41 公開日:2022-09-29
# DVS-Gesture-Chainを用いた事象に基づく行動認識におけるニューラルネットワークの時間的理解の評価

Evaluating the temporal understanding of neural networks on event-based action recognition with DVS-Gesture-Chain ( http://arxiv.org/abs/2209.14915v1 )

ライセンス: Link先を確認
Alex Vicente-Sola, Davide L. Manna, Paul Kirkland, Gaetano Di Caterina, Trevor Bihl(参考訳) 映像列の完全な知覚を実現するためには,ニューラルネットワーク(anns)による視覚タスクの時間的理解が不可欠である。 従来のフレームベースのビデオシーケンスを使用する場合に、その能力を評価するために、幅広いベンチマークデータセットが利用可能である。 対照的に、適切なデータセットがないため、神経形態的データをターゲットにしたシステムに対する評価は依然として課題である。 本研究では,DVS-Gesture-Chain(DVS-GC)と呼ばれるイベントベースのビデオシーケンスにおけるアクション認識のための新しいベンチマークタスクを定義する。 この方法論は、時間次元において任意に複雑なデータセットを作成することができる。 新たに定義されたタスクを用いて、フィードフォワードの畳み込みANNと畳み込みニューラルネットワーク(SNN)の時空間的理解を評価する。 本研究は、イベントの順序の理解を必要とする新しいDVS-GCとは異なり、時間的理解なしに、元のDVS Gestureベンチマークがネットワークによってどのように解決できるかを実証する。 そこから、スパイキングニューロンや時間依存重みなどの特定の要素が、繰り返し接続を必要とせずにフィードフォワードネットワークの時間的理解を可能にしていることを示す。 コード提供: https://github.com/vicentealex/dvs-gesture-chain

Enabling artificial neural networks (ANNs) to have temporal understanding in visual tasks is an essential requirement in order to achieve complete perception of video sequences. A wide range of benchmark datasets is available to allow for the evaluation of such capabilities when using conventional frame-based video sequences. In contrast, evaluating them for systems targeting neuromorphic data is still a challenge due to the lack of appropriate datasets. In this work we define a new benchmark task for action recognition in event-based video sequences, DVS-Gesture-Chain (DVS-GC), which is based on the temporal combination of multiple gestures from the widely used DVS-Gesture dataset. This methodology allows to create datasets that are arbitrarily complex in the temporal dimension. Using our newly defined task, we evaluate the spatio-temporal understanding of different feed-forward convolutional ANNs and convolutional Spiking Neural Networks (SNNs). Our study proves how the original DVS Gesture benchmark could be solved by networks without temporal understanding, unlike the new DVS-GC which demands an understanding of the ordering of events. From there, we provide a study showing how certain elements such as spiking neurons or time-dependent weights allow for temporal understanding in feed-forward networks without the need for recurrent connections. Code available at: https://github.com/VicenteAlex/DVS-Gesture-Chain
翻訳日:2022-09-30 16:46:43 公開日:2022-09-29
# 住宅短期負荷予測のためのセキュアなフェデレーション学習フレームワーク

A Secure Federated Learning Framework for Residential Short Term Load Forecasting ( http://arxiv.org/abs/2209.14547v1 )

ライセンス: Link先を確認
Muhammad Akbar Husnoo, Adnan Anwar, Nasser Hosseinzadeh, Shama Naz Islam, Abdun Naser Mahmood and Robin Doss(参考訳) スマートメータの測定は、正確な需要予測には不可欠だが、消費者のプライバシー、データ漏洩問題などいくつかの欠点に直面している。 近年の文献では、フェデレートラーニング(FL)を、短期的な負荷予測のためにプライベートな生データを公開することなく、モデルの協調学習を可能にする、将来性のあるプライバシー保護機械学習代替手段として検討している。 その美徳にもかかわらず、スタンダードflは、欠陥および/または悪意のあるクライアントによって実行されるビザンチン攻撃として知られる難解なサイバー脅威に対して依然として脆弱である。 したがって、ビザンチン脅威に対するフェデレートされた短期的負荷予測のロバスト性を向上させるため、我々は、flモデルとアーキテクチャのセキュリティを保護しつつ、個々のスマートメータのデータのプライバシを保証する、最先端のプライベートなflベースのフレームワークを開発した。 提案手法では,局所モデルトレーニング後に,クライアントが勾配の「符号」のみを制御センタに送信するサイン確率勾配降下(signsgd)アルゴリズムを用いて,勾配量子化の考え方を活用している。 ベンチマークニューラルネットワークと一連のビザンチン攻撃モデルを用いた実験で強調したように、提案手法はそのような脅威を効果的に軽減し、従来のFed-SGDモデルより優れている。

Smart meter measurements, though critical for accurate demand forecasting, face several drawbacks including consumers' privacy, data breach issues, to name a few. Recent literature has explored Federated Learning (FL) as a promising privacy-preserving machine learning alternative which enables collaborative learning of a model without exposing private raw data for short term load forecasting. Despite its virtue, standard FL is still vulnerable to an intractable cyber threat known as Byzantine attack carried out by faulty and/or malicious clients. Therefore, to improve the robustness of federated short-term load forecasting against Byzantine threats, we develop a state-of-the-art differentially private secured FL-based framework that ensures the privacy of the individual smart meter's data while protect the security of FL models and architecture. Our proposed framework leverages the idea of gradient quantization through the Sign Stochastic Gradient Descent (SignSGD) algorithm, where the clients only transmit the `sign' of the gradient to the control centre after local model training. As we highlight through our experiments involving benchmark neural networks with a set of Byzantine attack models, our proposed approach mitigates such threats quite effectively and thus outperforms conventional Fed-SGD models.
翻訳日:2022-09-30 16:45:27 公開日:2022-09-29
# アカデミックパフォーマンス予測における公平性指標としての等化オッズ

Towards Equalised Odds as Fairness Metric in Academic Performance Prediction ( http://arxiv.org/abs/2209.14670v1 )

ライセンス: Link先を確認
Jannik Dunkelau, Manh Khoi Duong(参考訳) フェアネスを意識した機械学習の文献は、さまざまなフェアネス概念を知っている。 しかし、一部の概念が互いに矛盾しているため、これらすべてを満たすことは不可能である。 本稿では,学業成績予測システム(APP)についてより詳しく検討し,どの公平性概念がこの課題に最も適しているかを考察する。 そこで,本論文では,どの公正概念を使うべきかを考察し,これらのガイドラインをAPPに適用する。 以上の結果から,APPのWYSIWYG世界観と,人口の長期的改善の可能性が示唆された。

The literature for fairness-aware machine learning knows a plethora of different fairness notions. It is however wellknown, that it is impossible to satisfy all of them, as certain notions contradict each other. In this paper, we take a closer look at academic performance prediction (APP) systems and try to distil which fairness notions suit this task most. For this, we scan recent literature proposing guidelines as to which fairness notion to use and apply these guidelines onto APP. Our findings suggest equalised odds as most suitable notion for APP, based on APP's WYSIWYG worldview as well as potential long-term improvements for the population.
翻訳日:2022-09-30 16:45:03 公開日:2022-09-29
# PolyBERT: 完全機械駆動超高速高分子情報処理を可能にする化学言語モデル

polyBERT: A chemical language model to enable fully machine-driven ultrafast polymer informatics ( http://arxiv.org/abs/2209.14803v1 )

ライセンス: Link先を確認
Christopher Kuenneth and Rampi Ramprasad(参考訳) ポリマーは日常生活の重要な部分です。 彼らの化学宇宙は非常に大きいので、前例のない機会と、適切なアプリケーション固有の候補を特定するための重要な課題が提示される。 我々は,この空間を,前例のない速度と精度で適切な候補に探索できる,エンドツーエンドの機械駆動型高分子インフォマティクスパイプラインを提案する。 このパイプラインには、PolyBERT(自然言語処理の概念にヒントを得た)と呼ばれるポリマーの化学指紋認証機能と、PolyBERTの指紋をさまざまな特性にマッピングするマルチタスク学習アプローチが含まれている。 polyBERTは、高分子の化学構造を化学言語として扱う化学言語学者である。 本手法は,精度を維持しつつ,手作りの指紋スキームを2桁の速度で計算し,現在利用可能な高分子物性予測の最も優れた概念を推定し,クラウドインフラストラクチャを含むスケーラブルなアーキテクチャへの展開の候補となる。

Polymers are a vital part of everyday life. Their chemical universe is so large that it presents unprecedented opportunities as well as significant challenges to identify suitable application-specific candidates. We present a complete end-to-end machine-driven polymer informatics pipeline that can search this space for suitable candidates at unprecedented speed and accuracy. This pipeline includes a polymer chemical fingerprinting capability called polyBERT (inspired by Natural Language Processing concepts), and a multitask learning approach that maps the polyBERT fingerprints to a host of properties. polyBERT is a chemical linguist that treats the chemical structure of polymers as a chemical language. The present approach outstrips the best presently available concepts for polymer property prediction based on handcrafted fingerprint schemes in speed by two orders of magnitude while preserving accuracy, thus making it a strong candidate for deployment in scalable architectures including cloud infrastructures.
翻訳日:2022-09-30 16:44:42 公開日:2022-09-29
# グラフニューラルネットワークによるグラフ異常検出の現状と課題

Graph Anomaly Detection with Graph Neural Networks: Current Status and Challenges ( http://arxiv.org/abs/2209.14930v1 )

ライセンス: Link先を確認
Hwan Kim, Byung Suk Lee, Won-Yong Shin, Sungsu Lim(参考訳) グラフは複雑なシステムのモデル化に広く使われており、グラフ内の異常を検出することは複雑なシステムの解析において重要なタスクである。 グラフ異常(Graph Anomalies)は、グラフの属性や構造が期待する通常のパターンに適合しないグラフのパターンである。 近年,グラフニューラルネットワーク(GNN)の研究が盛んに行われ,ノード分類,リンク予測,グラフ分類において,グラフ表現を効果的に学習する上で,メッセージパッシングによる高い表現能力のおかげで,困難な機械学習タスクを成功させた。 グラフ異常検出問題を解決するため、GNNベースの手法では、グラフ属性(または特徴)および/または構造に関する情報を活用して、異常を適切にスコアする。 本稿では,GNNモデルを用いたグラフ異常検出における最近の進歩について概説する。 具体的には、グラフタイプ(静的および動的)、異常タイプ(ノード、エッジ、サブグラフ、グラフ全体)、ネットワークアーキテクチャ(グラフオートエンコーダ、グラフ畳み込みネットワークなど)に基づいてGNNベースの手法を要約する。 我々の知る限り、この調査はGNNに基づくグラフ異常検出手法の総合的なレビューとしては初めてである。

Graphs are used widely to model complex systems, and detecting anomalies in a graph is an important task in the analysis of complex systems. Graph anomalies are patterns in a graph that do not conform to normal patterns expected of the attributes and/or structures of the graph. In recent years, graph neural networks (GNNs) have been studied extensively and have successfully performed difficult machine learning tasks in node classification, link prediction, and graph classification thanks to the highly expressive capability via message passing in effectively learning graph representations. To solve the graph anomaly detection problem, GNN-based methods leverage information about the graph attributes (or features) and/or structures to learn to score anomalies appropriately. In this survey, we review the recent advances made in detecting graph anomalies using GNN models. Specifically, we summarize GNN-based methods according to the graph type (i.e., static and dynamic), the anomaly type (i.e., node, edge, subgraph, and whole graph), and the network architecture (e.g., graph autoencoder, graph convolutional network). To the best of our knowledge, this survey is the first comprehensive review of graph anomaly detection methods based on GNNs.
翻訳日:2022-09-30 16:44:17 公開日:2022-09-29
# 依存データからのフローの正規化のトレーニング

Training Normalizing Flows from Dependent Data ( http://arxiv.org/abs/2209.14933v1 )

ライセンス: Link先を確認
Matthias Kirchler, Christoph Lippert, Marius Kloft(参考訳) 正規化フローは、密度推定器と生成モデルの間のハイブリッドとして機能する強力な非パラメトリック統計モデルである。 フローを正規化するための現在の学習アルゴリズムは、データポイントが独立してサンプリングされることを前提としており、これは実際に頻繁に違反される仮定であり、誤った密度推定とデータ生成につながる可能性がある。 本研究では,異なる依存構造に適した柔軟かつ効率的な学習アルゴリズムを導出するデータポイント間の依存関係を組み込んだフローの正規化手法を提案する。 観察間の依存関係を尊重することで,合成データと実世界のデータの両方において経験的結果が向上することを示す。

Normalizing flows are powerful non-parametric statistical models that function as a hybrid between density estimators and generative models. Current learning algorithms for normalizing flows assume that data points are sampled independently, an assumption that is frequently violated in practice, which may lead to erroneous density estimation and data generation. We propose a likelihood objective of normalizing flows incorporating dependencies between the data points, for which we derive a flexible and efficient learning algorithm suitable for different dependency structures. We show that respecting dependencies between observations can improve empirical results on both synthetic and real-world data.
翻訳日:2022-09-30 16:37:36 公開日:2022-09-29
# 統計的学習と逆問題:確率的勾配アプローチ

Statistical Learning and Inverse Problems: An Stochastic Gradient Approach ( http://arxiv.org/abs/2209.14967v1 )

ライセンス: Link先を確認
Yuri S. Fonseca and Yuri F. Saporito(参考訳) 逆問題は科学と工学において最重要である。 本稿では,統計的逆問題(SIP)のセットアップを検討し,SGDアルゴリズムが線形SIP設定においてどのように使用できるかを示す。 過剰リスクに対する一貫性と有限サンプル境界を提供する。 また,確率勾配の円滑化と経験的性能の向上に機械学習手法を活用するSGDアルゴリズムの修正を提案する。 我々は近年,関数線形回帰モデルという,非常に興味深い設定でアルゴリズムを実証している。 本稿では、実データ分類問題を伴う合成データ例と実データ例について考察する。

Inverse problems are paramount in Science and Engineering. In this paper, we consider the setup of Statistical Inverse Problem (SIP) and demonstrate how Stochastic Gradient Descent (SGD) algorithms can be used in the linear SIP setting. We provide consistency and finite sample bounds for the excess risk. We also propose a modification for the SGD algorithm where we leverage machine learning methods to smooth the stochastic gradients and improve empirical performance. We exemplify the algorithm in a setting of great interest nowadays: the Functional Linear Regression model. In this case we consider a synthetic data example and examples with a real data classification problem.
翻訳日:2022-09-30 16:37:26 公開日:2022-09-29
# 不変関数からの同変写像

Equivariant maps from invariant functions ( http://arxiv.org/abs/2209.14991v1 )

ライセンス: Link先を確認
Ben Blum-Smith and Soledad Villar(参考訳) 等価機械学習において、アイデアは、ある群作用に関してすべての関数が同値であるような仮説クラスに学習を制限することである。 既約表現や不変理論は、典型的にはそのような函数の空間をパラメータ化するために用いられる。 この注記では、より大きい空間上の不変多項式の特性を与えられた群 $g$ の作用に関して同変である線型空間の間のすべての多項式写像を表現する、マルグランジュに帰着する一般的な手続きを説明できる。 この方法はまた、$G$ がコンパクトリー群である場合の滑らかな同変写像をパラメトリゼーションする。

In equivariant machine learning the idea is to restrict the learning to a hypothesis class where all the functions are equivariant with respect to some group action. Irreducible representations or invariant theory are typically used to parameterize the space of such functions. In this note, we explicate a general procedure, attributed to Malgrange, to express all polynomial maps between linear spaces that are equivariant with respect to the action of a group $G$, given a characterization of the invariant polynomials on a bigger space. The method also parametrizes smooth equivariant maps in the case that $G$ is a compact Lie group.
翻訳日:2022-09-30 16:37:16 公開日:2022-09-29
# 顔画像に対する意味誘導型物体除去法--広帯域適用性とロバストスタイル保存

Semantics-Guided Object Removal for Facial Images: with Broad Applicability and Robust Style Preservation ( http://arxiv.org/abs/2209.14479v1 )

ライセンス: Link先を確認
Jookyung Song, Yeonjin Chang, Seonguk Park, Nojun Kwak(参考訳) 顔画像における物体の除去と画像の塗布は、顔画像を妨げる物体を特に標的にし、除去し、適切に再構成された顔画像に置き換えるタスクである。 u-net と modulated generator の2つの異なるアプローチは、それぞれ独自の利点があるが、それぞれのメソッドの固有の欠点に拘わらず、このタスクに広く支持されている。 従来の条件付きganのアプローチであるu-netは、未マスク領域の詳細な詳細を保持するが、再構成された画像のスタイルは、元の画像の他の部分と一致せず、occludingオブジェクトのサイズが十分に小さい場合にのみ頑健に動作する。 対照的に、変調された生成アプローチは、画像のより大きな隠蔽領域に対処でき、より一貫性のあるスタイルを提供するが、たいていは詳細な特徴のほとんどを見逃す。 この2つのモデル間のトレードオフは、一貫性のあるスタイルを維持しながら、顔の特徴の細かい詳細を保ちながら、どんなサイズのマスクにも適用できるモデルの発明を必要としている。 本稿では,変調生成器自体の修正であるsgin(semantics-guided inpainting network)を提案する。 セマンティックマップのガイダンスを用いて,より実践性を高めるために一対多の問題への方向性を与える顔の特徴を操作することができる。

Object removal and image inpainting in facial images is a task in which objects that occlude a facial image are specifically targeted, removed, and replaced by a properly reconstructed facial image. Two different approaches utilizing U-net and modulated generator respectively have been widely endorsed for this task for their unique advantages but notwithstanding each method's innate disadvantages. U-net, a conventional approach for conditional GANs, retains fine details of unmasked regions but the style of the reconstructed image is inconsistent with the rest of the original image and only works robustly when the size of the occluding object is small enough. In contrast, the modulated generative approach can deal with a larger occluded area in an image and provides {a} more consistent style, yet it usually misses out on most of the detailed features. This trade-off between these two models necessitates an invention of a model that can be applied to any size of mask while maintaining a consistent style and preserving minute details of facial features. Here, we propose Semantics-Guided Inpainting Network (SGIN) which itself is a modification of the modulated generator, aiming to take advantage of its advanced generative capability and preserve the high-fidelity details of the original image. By using the guidance of a semantic map, our model is capable of manipulating facial features which grants direction to the one-to-many problem for further practicability.
翻訳日:2022-09-30 16:37:06 公開日:2022-09-29
# 拡散型生成モデルのためのデノイジングmcmc

Denoising MCMC for Accelerating Diffusion-Based Generative Models ( http://arxiv.org/abs/2209.14593v1 )

ライセンス: Link先を確認
Beomsu Kim and Jong Chul Ye(参考訳) 拡散モデルは、スコア関数を用いて拡散過程の逆をシミュレートし、ノイズからデータを合成する強力な生成モデルである。 拡散モデルのサンプリング過程は、拡散過程の逆確率微分方程式(SDE)や通常の微分方程式(ODE)を解くものと解釈できる。 このことが、リバースS/ODEの効率的な統合技術開発に大きな関心を呼んだ。 本稿では,MCMC (Denoising MCMC, DMCMC) のスコアベースサンプリングを高速化するための直交的アプローチを提案する。 DMCMCは、まずMCMCを使用してデータと分散(または拡散時間)の積空間のサンプルを生成する。 次に、逆S/ODE積分器を用いてMCMCサンプルを復調する。 MCMCはデータ多様体の近傍を走行するため, DMCMC用クリーンサンプルの生成コストは, ノイズからクリーンサンプルを生成するコストよりもはるかに低い。 DMCMCの例であるDenoising Langevin Gibbs (DLG) は、CIFAR10とCelebA-HQ-256の画像生成のタスクで考慮された6つの逆S/ODEインテグレータの高速化に成功した。 特に、Karras et al. (2022) の積分器と、Song et al. (2021b) の事前学習スコアモデルを組み合わせることで、DLGはSOTAの結果を得る。 CIFAR10のスコア関数評価(NFE)の限られた数では、$\approx 10$ NFEのFIDが3.86ドル、$\approx 20$ NFEのFIDが2.63ドルである。 CelebA-HQ-256では、$\approx 160$ NFEのFIDが6.99ドルであり、スコアベースモデルのKimら(2022年)の最高記録、$4,000$ NFEのFIDが7.16ドルとなっている。 コード:https://github.com/1202kbs/DMCMC

Diffusion models are powerful generative models that simulate the reverse of diffusion processes using score functions to synthesize data from noise. The sampling process of diffusion models can be interpreted as solving the reverse stochastic differential equation (SDE) or the ordinary differential equation (ODE) of the diffusion process, which often requires up to thousands of discretization steps to generate a single image. This has sparked a great interest in developing efficient integration techniques for reverse-S/ODEs. Here, we propose an orthogonal approach to accelerating score-based sampling: Denoising MCMC (DMCMC). DMCMC first uses MCMC to produce samples in the product space of data and variance (or diffusion time). Then, a reverse-S/ODE integrator is used to denoise the MCMC samples. Since MCMC traverses close to the data manifold, the computation cost of producing a clean sample for DMCMC is much less than that of producing a clean sample from noise. To verify the proposed concept, we show that Denoising Langevin Gibbs (DLG), an instance of DMCMC, successfully accelerates all six reverse-S/ODE integrators considered in this work on the tasks of CIFAR10 and CelebA-HQ-256 image generation. Notably, combined with integrators of Karras et al. (2022) and pre-trained score models of Song et al. (2021b), DLG achieves SOTA results. In the limited number of score function evaluation (NFE) settings on CIFAR10, we have $3.86$ FID with $\approx 10$ NFE and $2.63$ FID with $\approx 20$ NFE. On CelebA-HQ-256, we have $6.99$ FID with $\approx 160$ NFE, which beats the current best record of Kim et al. (2022) among score-based models, $7.16$ FID with $4000$ NFE. Code: https://github.com/1202kbs/DMCMC
翻訳日:2022-09-30 16:36:37 公開日:2022-09-29
# ニューラルネットワークのプルーニングに複雑度は必要か? グローバル・マグニチュード・プルーニングの事例研究

Is Complexity Required for Neural Network Pruning? A Case Study on Global Magnitude Pruning ( http://arxiv.org/abs/2209.14624v1 )

ライセンス: Link先を確認
Manas Gupta, Efe Camci, Vishandi Rudy Keneta, Abhishek Vaidyanathan, Ritwik Kanodia, Chuan-Sheng Foo, Wu Min and Lin Jie(参考訳) ニューラルネットワークのプルーニングは、最近のニューラルネットワークから大量の重みを、精度を損なうことなく安全に除去できることが示されてから、この10年間で人気が高まっている。 それ以来、多くのプルーニング法が提案され、それぞれが以前のものより優れていると主張している。 今日では多くの最先端(SOTA)技術は、重要なスコアを利用した複雑な刈り込み手法に依存しており、バックプロパゲーションやヒューリスティックスに基づく刈り出しルールなどを通じてフィードバックを得ている。 より良い刈り取り結果を達成するために、複雑さを導入するこのパターンに疑問を呈します。 我々は,これらのSOTA手法を,高い性能を達成するのに複雑性が本当に必要であるかどうかを評価するために,素直なプルーニングベースラインであるグローバル・マグニチュード・プルーニング(Global MP)に対してベンチマークする。 グローバルMPは、その大きさの順に重みをランク付けし、最小のものをプーンする。 したがって、バニラ形式においては最も単純な刈り取り技法の一つである。 驚いたことに、バニラグローバルMPは、他のすべてのSOTA技術より優れており、新しいSOTA結果が得られる。 また,段階的に刈り上げを行う場合,FLOPsスペーシフィケーションの性能も向上する。 また、Global MPは、タスク、データセット、モデルにまたがって、優れたパフォーマンスで一般化可能であることもわかりました。 さらに,各層に保持する重量の最小限のしきい値を設定することで,多くのプルーニングアルゴリズムが高間隔,すなわち層崩壊で発生する共通問題を,Global MPで容易に解決することができる。 最後に、他の多くのSOTA技術とは異なり、Global MPは追加のアルゴリズム固有のハイパーパラメータを必要としない。 本稿では,様々なモデル (WRN-28-8, ResNet-32, ResNet-50, MobileNet-V1, FastGRNN) と複数のデータセット (CIFAR-10, ImageNet, HAR-2) について紹介する。 コードはhttps://github.com/manasgupta-1/GlobalMPで入手できる。

Pruning neural networks has become popular in the last decade when it was shown that a large number of weights can be safely removed from modern neural networks without compromising accuracy. Numerous pruning methods have been proposed since then, each claiming to be better than the previous. Many state-of-the-art (SOTA) techniques today rely on complex pruning methodologies utilizing importance scores, getting feedback through back-propagation or having heuristics-based pruning rules amongst others. We question this pattern of introducing complexity in order to achieve better pruning results. We benchmark these SOTA techniques against Global Magnitude Pruning (Global MP), a naive pruning baseline, to evaluate whether complexity is really needed to achieve higher performance. Global MP ranks weights in order of their magnitudes and prunes the smallest ones. Hence, in its vanilla form, it is one of the simplest pruning techniques. Surprisingly, we find that vanilla Global MP outperforms all the other SOTA techniques and achieves a new SOTA result. It also achieves good performance on FLOPs sparsification, which we find is enhanced, when pruning is conducted in a gradual fashion. We also find that Global MP is generalizable across tasks, datasets and models with superior performance. Moreover, a common issue that many pruning algorithms run into at high sparsity rates, namely, layer-collapse, can be easily fixed in Global MP by setting a minimum threshold of weights to be retained in each layer. Lastly, unlike many other SOTA techniques, Global MP does not require any additional algorithm specific hyper-parameters and is very straightforward to tune and implement. We showcase our findings on various models (WRN-28-8, ResNet-32, ResNet-50, MobileNet-V1 and FastGRNN) and multiple datasets (CIFAR-10, ImageNet and HAR-2). Code is available at https://github.com/manasgupta-1/GlobalMP.
翻訳日:2022-09-30 16:36:01 公開日:2022-09-29
# 教師なし領域適応のためのモデル一般化性の向上

Increasing Model Generalizability for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2209.14644v1 )

ライセンス: Link先を確認
Mohammad Rostami(参考訳) 教師なしドメイン適応に対処する主要なアプローチは、ソースとターゲットドメインのデータポイントを、共有ディープエンコーダの出力空間としてモデル化された埋め込み空間にマッピングすることである。 エンコーダは、埋め込み空間ドメインを非依存にし、ターゲットドメイン上でソース訓練された分類器を一般化できるように訓練される。 UDAの性能をさらに向上するための二次的なメカニズムは、モデル一般化性を改善するために、ソース領域の分布をよりコンパクトにすることだ。 組込み空間におけるクラス間マージンの増加は, UDAアルゴリズムの開発に有効であることを示す。 我々は、ソースドメインに対する内部的に学習されたマルチモーダル分布を推定し、事前学習の結果から学習し、ソースドメインにおけるクラス間分離を増加させ、ドメインシフトの影響を低減する。 この手法を用いることで,4つの標準ベンチマーク uda 画像分類データセットにおけるモデルの一般化性が向上することを示す。

A dominant approach for addressing unsupervised domain adaptation is to map data points for the source and the target domains into an embedding space which is modeled as the output-space of a shared deep encoder. The encoder is trained to make the embedding space domain-agnostic to make a source-trained classifier generalizable on the target domain. A secondary mechanism to improve UDA performance further is to make the source domain distribution more compact to improve model generalizability. We demonstrate that increasing the interclass margins in the embedding space can help to develop a UDA algorithm with improved performance. We estimate the internally learned multi-modal distribution for the source domain, learned as a result of pretraining, and use it to increase the interclass class separation in the source domain to reduce the effect of domain shift. We demonstrate that using our approach leads to improved model generalizability on four standard benchmark UDA image classification datasets and compares favorably against exiting methods.
翻訳日:2022-09-30 16:35:23 公開日:2022-09-29
# 生成モデルとしてのハイパー表現:非知覚ニューラルネットワーク重みのサンプリング

Hyper-Representations as Generative Models: Sampling Unseen Neural Network Weights ( http://arxiv.org/abs/2209.14733v1 )

ライセンス: Link先を確認
Konstantin Sch\"urholt, Boris Knyazev, Xavier Gir\'o-i-Nieto, Damian Borth(参考訳) モデル動物園に与えられたニューラルネットワーク重みの学習表現は、モデル検査からニューラルアーキテクチャ探索、知識蒸留まで、多くの潜在的な応用がある新興的で挑戦的な領域である。 近年, モデル動物園で訓練されたオートエンコーダは, モデル内の内在的・外在的特性を捉える超表現を学習することができた。 本研究では,新しいモデル重みをサンプリングするために,生成用ハイパー表現を拡張した。 本稿では,ハイパフォーマンスモデル生成の鍵となるレイヤワイズ損失正規化と,ハイパー表現のトポロジに基づくいくつかのサンプリング手法を提案する。 提案手法を用いて生成したモデルは多種多様であり, 性能が高く, ダウンストリームタスク(初期化, アンサンブルサンプリング, 転送学習)において, 強いベースラインを上回り得る。 以上の結果から,モデル動物園からハイパー表現による新しいモデルへの知識集約の可能性を示し,新たな研究の道筋を拓いた。

Learning representations of neural network weights given a model zoo is an emerging and challenging area with many potential applications from model inspection, to neural architecture search or knowledge distillation. Recently, an autoencoder trained on a model zoo was able to learn a hyper-representation, which captures intrinsic and extrinsic properties of the models in the zoo. In this work, we extend hyper-representations for generative use to sample new model weights. We propose layer-wise loss normalization which we demonstrate is key to generate high-performing models and several sampling methods based on the topology of hyper-representations. The models generated using our methods are diverse, performant and capable to outperform strong baselines as evaluated on several downstream tasks: initialization, ensemble sampling and transfer learning. Our results indicate the potential of knowledge aggregation from model zoos to new models via hyper-representations thereby paving the avenue for novel research directions.
翻訳日:2022-09-30 16:35:07 公開日:2022-09-29
# フェデレーション学習のためのメタ知識凝縮

Meta Knowledge Condensation for Federated Learning ( http://arxiv.org/abs/2209.14851v1 )

ライセンス: Link先を確認
Ping Liu and Xin Yu and Joey Tianyi Zhou(参考訳) 既存の連合学習パラダイムは通常、より強力なモデルを達成するために中央解法で分散モデルを広範囲に交換する。 しかし、特にデータ分散が異質である場合には、サーバと複数のクライアント間の通信に深刻な負担がかかる。 結果として、現在の連合学習方法は、トレーニングにおいて多くのコミュニケーションラウンドを必要とすることが多い。 既存のパラダイムとは違って,フェデレート学習におけるコミュニケーションコストを大幅に削減する新たな視点を導入する。 本稿では,まず,分散クライアントからメタ知識を抽出するメタ知識表現手法を提案する。 抽出されたメタ知識は、現在のモデルを改善するために使用できる重要な情報をエンコードする。 トレーニングが進むにつれて、トレーニングサンプルのフェデレーションモデルへの貢献も様々である。 そこで本研究では,現在のモデル更新に適応的に寄与できる動的重み付け機構を提案する。 そして、モデル更新のために、すべてのアクティブクライアントからの情報的なメタ知識をサーバに送信する。 異なるクライアント間で元のデータを公開せずに、組み合わせたメタ知識のモデルをトレーニングすることで、異種性の問題を大幅に軽減することができる。 さらに,データの不均一性をさらに改善するため,局所的メタ知識抽出のための条件初期化として,クライアント間でメタ知識を交換する。 提案手法の有効性と有効性を示す実験を行った。 注目すべきは、MNISTの通信予算が制限されている(すなわち10ラウンド)MNISTでは、最先端技術(74.07 % から9.95 % )よりも優れていることである。

Existing federated learning paradigms usually extensively exchange distributed models at a central solver to achieve a more powerful model. However, this would incur severe communication burden between a server and multiple clients especially when data distributions are heterogeneous. As a result, current federated learning methods often require a large number of communication rounds in training. Unlike existing paradigms, we introduce an alternative perspective to significantly decrease the communication cost in federate learning. In this work, we first introduce a meta knowledge representation method that extracts meta knowledge from distributed clients. The extracted meta knowledge encodes essential information that can be used to improve the current model. As the training progresses, the contributions of training samples to a federated model also vary. Thus, we introduce a dynamic weight assignment mechanism that enables samples to contribute adaptively to the current model update. Then, informative meta knowledge from all active clients is sent to the server for model update. Training a model on the combined meta knowledge without exposing original data among different clients can significantly mitigate the heterogeneity issues. Moreover, to further ameliorate data heterogeneity, we also exchange meta knowledge among clients as conditional initialization for local meta knowledge extraction. Extensive experiments demonstrate the effectiveness and efficiency of our proposed method. Remarkably, our method outperforms the state-of-the-art by a large margin (from $74.07\%$ to $92.95\%$) on MNIST with a restricted communication budget (i.e. 10 rounds).
翻訳日:2022-09-30 16:34:50 公開日:2022-09-29
# 現実世界のオブジェクト中心学習にギャップを埋める

Bridging the Gap to Real-World Object-Centric Learning ( http://arxiv.org/abs/2209.14860v1 )

ライセンス: Link先を確認
Maximilian Seitzer, Max Horn, Andrii Zadaianchuk, Dominik Zietlow, Tianjun Xiao, Carl-Johann Simon-Gabriel, Tong He, Zheng Zhang, Bernhard Sch\"olkopf, Thomas Brox, Francesco Locatello(参考訳) 人間は自然に環境を、世界に作用する適切な抽象レベルで実体に分解する。 機械学習アルゴリズムでこの分解を教師なしの方法で導くことは、重要な研究のラインとなっている。 しかし、現在の手法はシミュレーションデータに制限されているか、物体をうまく発見するために動きや深さの形で追加情報を必要とする。 そこで本研究では,自己教師ありで訓練されたモデルから特徴を再構築することは,オブジェクト中心表現を完全に教師なしの方法で生成するための十分な訓練信号であることを示すことにより,この限界を克服する。 我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れており、COCOやPASCALVOCのような実世界のデータセットにスケールする最初の教師なしオブジェクト中心学習モデルである。 DINOSAURは概念的には単純で、コンピュータビジョンの文献のより複雑なパイプラインに比べて競争力がある。

Humans naturally decompose their environment into entities at the appropriate level of abstraction to act in the world. Allowing machine learning algorithms to derive this decomposition in an unsupervised way has become an important line of research. However, current methods are restricted to simulated data or require additional information in the form of motion or depth in order to successfully discover objects. In this work, we overcome this limitation by showing that reconstructing features from models trained in a self-supervised manner is a sufficient training signal for object-centric representations to arise in a fully unsupervised way. Our approach, DINOSAUR, significantly out-performs existing object-centric learning models on simulated data and is the first unsupervised object-centric model that scales to real world-datasets such as COCO and PASCAL VOC. DINOSAUR is conceptually simple and shows competitive performance compared to more involved pipelines from the computer vision literature.
翻訳日:2022-09-30 16:34:30 公開日:2022-09-29
# dynamic surrogate switching: オンラインレコメンデーションにおける因子化マシン構成のサンプル効率検索

Dynamic Surrogate Switching: Sample-Efficient Search for Factorization Machine Configurations in Online Recommendations ( http://arxiv.org/abs/2209.14598v1 )

ライセンス: Link先を確認
Bla\v{z} \v{S}krlj, Adi Schwartz, Jure Ferle\v{z}, Davorin Kopi\v{c} and Naama Ziporin(参考訳) ハイパーパラメータ最適化は、与えられた学習タスクに関して、与えられた機械学習モデルの適切なハイパーパラメータ構成を特定するプロセスである。 より小さなデータセットでは、徹底的な検索が可能であるが、データサイズとモデルの複雑さが増加すると、構成評価の回数が主要な計算ボトルネックとなる。 この種の問題に取り組むための有望なパラダイムは、surrogateベースの最適化である。 このパラダイムの根底にある主な考え方は、ハイパーパラメータ空間と出力(ターゲット)空間の関係の漸進的に更新されたモデルを考えることである。 ハイパーパラメータとターゲットの関係を近似するために学習することで、surrogate(machine learning)モデルを使用して、大量のハイパーパラメータ構成をスコア付けし、直接機械学習エンジンの評価の範囲を超えて構成空間の一部を探ることができる。 一般に、最適化初期化の前にサロゲートが選択され、検索中に同じままである。 大規模オンラインレコメンデーションにおいて,最適化時のサロゲートの動的切替が,最も適切な因子化マシンベースモデルを選択するための実践的関連性について検討した。 我々はランダムフォレストやガウスのプロセスベースサロゲートのような確立されたベースラインに対して、数十億のインスタンスを含むデータセットのベンチマークを行った。 その結果,サロゲートスイッチングは学習エンジンの評価を減らしながら優れた性能が得られることがわかった。

Hyperparameter optimization is the process of identifying the appropriate hyperparameter configuration of a given machine learning model with regard to a given learning task. For smaller data sets, an exhaustive search is possible; However, when the data size and model complexity increase, the number of configuration evaluations becomes the main computational bottleneck. A promising paradigm for tackling this type of problem is surrogate-based optimization. The main idea underlying this paradigm considers an incrementally updated model of the relation between the hyperparameter space and the output (target) space; the data for this model are obtained by evaluating the main learning engine, which is, for example, a factorization machine-based model. By learning to approximate the hyperparameter-target relation, the surrogate (machine learning) model can be used to score large amounts of hyperparameter configurations, exploring parts of the configuration space beyond the reach of direct machine learning engine evaluation. Commonly, a surrogate is selected prior to optimization initialization and remains the same during the search. We investigated whether dynamic switching of surrogates during the optimization itself is a sensible idea of practical relevance for selecting the most appropriate factorization machine-based models for large-scale online recommendation. We conducted benchmarks on data sets containing hundreds of millions of instances against established baselines such as Random Forest- and Gaussian process-based surrogates. The results indicate that surrogate switching can offer good performance while considering fewer learning engine evaluations.
翻訳日:2022-09-30 16:30:00 公開日:2022-09-29
# 複数機械学習と深層学習を用いた電子健康記録(EHR)データに基づく患者の重症度分類

Patients' Severity States Classification based on Electronic Health Record (EHR) Data using Multiple Machine Learning and Deep Learning Approaches ( http://arxiv.org/abs/2209.14907v1 )

ライセンス: Link先を確認
A. N. M. Sajedul Alam, Rimi Reza, Asir Abrar, Tanvir Ahmed, Salsabil Ahmed, Shihab Sharar, Annajiat Alim Rasel(参考訳) 本研究は,複数の機械学習および深層学習アプローチを用いて,患者の電子的健康記録に基づく重症度状態の分類について検討する。 提案手法では,オープンソースのプラットフォームから収集したEHRデータセットを用いて重度を分類する。 例えば、openRefineを前処理に使用し、RapidMinerを3つのアルゴリズム(Fast Large Margin、Generalized Linear Model、Multi-layer Feed-forward Neural Network)の実装に使用し、TableauをGoogle Colabを使ったアルゴリズムの実装に使用しました。 ここでは、教師なしおよび教師なしのアルゴリズムと、半教師付きおよびディープラーニングアルゴリズムを実装した。 実験の結果、ハイパーパラメータチューニングランダムフォレストが、他の教師付き機械学習アルゴリズムを76%の精度で上回り、一般化線形アルゴリズムが最高精度スコア78%に達したのに対し、86%の精度スコアを持つハイパーパラメータチューニング階層クラスタリングと61%の精度のガウス混合モデルが他の教師なしアプローチを上回った。 次元の削減は、多くの教師なしのテクニックで多くの結果を改善した。 Deep Learningを実装するには、フィードフォワードニューラルネットワーク(multi-layer)と、半教師付き学習のためのFast Large Marginアプローチを採用しました。 速い大きなマージンは84%のリコールスコアと78%のf1スコアで非常に良好でした。 最後に,多層フィードフォワードニューラルネットワークは,75%の精度,75%の精度,87%のリコール,81%のf1スコアで良好に動作した。

This research presents an examination of categorizing the severity states of patients based on their electronic health records during a certain time range using multiple machine learning and deep learning approaches. The suggested method uses an EHR dataset collected from an open-source platform to categorize severity. Some tools were used in this research, such as openRefine was used to pre-process, RapidMiner was used for implementing three algorithms (Fast Large Margin, Generalized Linear Model, Multi-layer Feed-forward Neural Network) and Tableau was used to visualize the data, for implementation of algorithms we used Google Colab. Here we implemented several supervised and unsupervised algorithms along with semi-supervised and deep learning algorithms. The experimental results reveal that hyperparameter-tuned Random Forest outperformed all the other supervised machine learning algorithms with 76% accuracy as well as Generalized Linear algorithm achieved the highest precision score 78%, whereas the hyperparameter-tuned Hierarchical Clustering with 86% precision score and Gaussian Mixture Model with 61% accuracy outperformed other unsupervised approaches. Dimensionality Reduction improved results a lot for most unsupervised techniques. For implementing Deep Learning we employed a feed-forward neural network (multi-layer) and the Fast Large Margin approach for semi-supervised learning. The Fast Large Margin performed really well with a recall score of 84% and an F1 score of 78%. Finally, the Multi-layer Feed-forward Neural Network performed admirably with 75% accuracy, 75% precision, 87% recall, 81% F1 score.
翻訳日:2022-09-30 16:29:08 公開日:2022-09-29
# 強化学習アルゴリズムの概要と分類

Reinforcement Learning Algorithms: An Overview and Classification ( http://arxiv.org/abs/2209.14940v1 )

ライセンス: Link先を確認
Fadi AlMahamid, Katarina Grolinger(参考訳) アプリケーションやマシンをよりインテリジェントにしたいという願望と、人間のインタラクションなしで操作できるようにするという願望が、ニューラルネットワークやディープラーニング、その他の機械学習技術の革新を駆動している。 強化学習は主にビデオゲームで使用されているが、最近の進歩と多様で強力な強化アルゴリズムの開発により、強化学習コミュニティはビデオゲームのプレイから、自動運転車、配送ドローン、自動ロボティクスといった自律システムにおける複雑な現実の問題を解決することができた。 アプリケーションの環境とアルゴリズムの限界を理解することは、手持ちの問題を効率的に解決する適切な強化学習アルゴリズムを選択する上で重要な役割を担っている。 そこで本研究では,3つの環境タイプを特定し,これらの環境タイプに応じて強化学習アルゴリズムを分類する。 さらに,各カテゴリにおいて,アルゴリズム間の関係を識別する。 各アルゴリズムの概要は、アルゴリズムの基礎に関する洞察を提供し、アルゴリズム間の類似性と相違点をレビューする。 本研究は、現場の視点を提供し、実践者や研究者がユースケースに適したアルゴリズムを選択するのを助ける。

The desire to make applications and machines more intelligent and the aspiration to enable their operation without human interaction have been driving innovations in neural networks, deep learning, and other machine learning techniques. Although reinforcement learning has been primarily used in video games, recent advancements and the development of diverse and powerful reinforcement algorithms have enabled the reinforcement learning community to move from playing video games to solving complex real-life problems in autonomous systems such as self-driving cars, delivery drones, and automated robotics. Understanding the environment of an application and the algorithms' limitations plays a vital role in selecting the appropriate reinforcement learning algorithm that successfully solves the problem on hand in an efficient manner. Consequently, in this study, we identify three main environment types and classify reinforcement learning algorithms according to those environment types. Moreover, within each category, we identify relationships between algorithms. The overview of each algorithm provides insight into the algorithms' foundations and reviews similarities and differences among algorithms. This study provides a perspective on the field and helps practitioners and researchers to select the appropriate algorithm for their use case.
翻訳日:2022-09-30 16:28:37 公開日:2022-09-29
# 地域・地域政策としての反現実的説明の再考

Rethinking Counterfactual Explanations as Local and Regional Counterfactual Policies ( http://arxiv.org/abs/2209.14568v1 )

ライセンス: Link先を確認
Salim I. Amoukou, Nicolas J.B Brunel(参考訳) 対実的説明 (CE) でまだ解決されていない課題には、安定性、様々なCEの合成、可否保証の欠如がある。 より実践的な観点から、最近の研究では、規定された反事実的言説は個人によって正しく実装されないことが多く、ほとんどの最先端のCEアルゴリズムがこのノイズの多い環境で失敗する可能性が非常に高いことが示されている。 これらの問題に対処するため,各観測の局所的な反事実的ルールを緩やかに規定する確率的枠組みを提案し,CEを多種多様なものにするのではなく,与えられた高い確率で決定を変更できる範囲の値を与えるルールを提供する。 さらに、これらの規則から導かれた規則は、建設によって堅牢である。 これらの局所規則は、観測全体にわたる反事実説明の安定性を確保するために、地域反事実規則に集約される。 我々の地域および地域ルールは、規則がランダムフォレストに基づいて意思決定を変更する確率を一貫した推定器を使用するため、データ配信に忠実であることを保証する。 さらに、これらの確率は、決定を変更する確率が与えられた最小の変数群を選択するとき、解釈可能かつスパースな規則を与える。 カウンターファクトルールを計算するためのコードも利用可能であり、それらの関連性を標準CEや最近の同様の試みと比較する。

Among the challenges not yet resolved for Counterfactual Explanations (CE), there are stability, synthesis of the various CE and the lack of plausibility/sparsity guarantees. From a more practical point of view, recent studies show that the prescribed counterfactual recourses are often not implemented exactly by the individuals and demonstrate that most state-of-the-art CE algorithms are very likely to fail in this noisy environment. To address these issues, we propose a probabilistic framework that gives a sparse local counterfactual rule for each observation: we provide rules that give a range of values that can change the decision with a given high probability instead of giving diverse CE. In addition, the recourses derived from these rules are robust by construction. These local rules are aggregated into a regional counterfactual rule to ensure the stability of the counterfactual explanations across observations. Our local and regional rules guarantee that the recourses are faithful to the data distribution because our rules use a consistent estimator of the probabilities of changing the decision based on a Random Forest. In addition, these probabilities give interpretable and sparse rules as we select the smallest set of variables having a given probability of changing the decision. Codes for computing our counterfactual rules are available, and we compare their relevancy with standard CE and recent similar attempts.
翻訳日:2022-09-30 16:27:54 公開日:2022-09-29
# 整流流: 最適輸送のためのMarginal Preserving Approach

Rectified Flow: A Marginal Preserving Approach to Optimal Transport ( http://arxiv.org/abs/2209.14577v1 )

ライセンス: Link先を確認
Qiang Liu(参考訳) 我々は,2つの連続分布の最適輸送(ot)問題に対するフローベースのアプローチを提案する。$\pi_0,\pi_1$ on $\mathbb{r}^d$, 輸送コスト最小化$\mathbb{e}[c(x_1-x_0)]$ 結合の組$(x_0,x_1)$ それぞれ$x_0,x_1$ が$\pi_0,\pi_1$ であり,$c$ はコスト関数である。 本手法は,単純な非拘束回帰問題の解法によって学習される神経常微分方程式(ode)の列を反復的に構成し,限界制約を自動保存しながら単調に輸送コストを削減する。 これにより、有効な結合の集合内を移動して輸送コストを減少させる単調な内部アプローチが得られ、外部からの結合制約を強制する既存のアプローチと区別される。 この手法の主な考え方は、凸関数 $c$ によって引き起こされる輸送コストのファミリー全体を同時に削減する最近のアプローチである整流フロー(recurtified flow)から来ているが、特定の輸送コストを最小化するために調整されていない。 提案手法は,固定されたユーザ指定凸コスト関数$c$に対するOT問題の解決を保証する,整流の単一対象変種である。

We present a flow-based approach to the optimal transport (OT) problem between two continuous distributions $\pi_0,\pi_1$ on $\mathbb{R}^d$, of minimizing a transport cost $\mathbb{E}[c(X_1-X_0)]$ in the set of couplings $(X_0,X_1)$ whose marginal distributions on $X_0,X_1$ equals $\pi_0,\pi_1$, respectively, where $c$ is a cost function. Our method iteratively constructs a sequence of neural ordinary differentiable equations (ODE), each learned by solving a simple unconstrained regression problem, which monotonically reduce the transport cost while automatically preserving the marginal constraints. This yields a monotonic interior approach that traverses inside the set of valid couplings to decrease the transport cost, which distinguishes itself from most existing approaches that enforce the coupling constraints from the outside. The main idea of the method draws from rectified flow, a recent approach that simultaneously decreases the whole family of transport costs induced by convex functions $c$ (and is hence multi-objective in nature), but is not tailored to minimize a specific transport cost. Our method is a single-object variant of rectified flow that guarantees to solve the OT problem for a fixed, user-specified convex cost function $c$.
翻訳日:2022-09-30 16:27:31 公開日:2022-09-29
# シリアル再生としての拡散の解析

Analyzing Diffusion as Serial Reproduction ( http://arxiv.org/abs/2209.14821v1 )

ライセンス: Link先を確認
Raja Marjieh, Ilia Sucholutsky, Thomas A. Langlois, Nori Jacoby, Thomas L. Griffiths(参考訳) 拡散モデルは、データを徐々にノイズにマッピングする拡散過程を反転させることでサンプルを合成することを学ぶ生成モデルのクラスである。 これらのモデルは最近大きな成功を収めているが、その観測された性質の完全な理論的理解、特にノイズファミリーの選択に対する感度が弱く、良い合成のためにノイズレベルを適切にスケジューリングする役割が欠如している。 人間のエージェントが記憶からの刺激を反復的に観察し再現する「連続的再現」として知られる認知科学における拡散モデルとよく知られたパラダイムの対応を同定することにより、上記の拡散モデルの性質をこの対応の自然な結果として説明できることを示す。 そして、これらの重要な特徴を示すシミュレーションで理論解析を補完する。 私たちの研究は、認知科学の古典的なパラダイムが、最先端の機械学習問題に光を当てる方法を強調しています。

Diffusion models are a class of generative models that learn to synthesize samples by inverting a diffusion process that gradually maps data into noise. While these models have enjoyed great success recently, a full theoretical understanding of their observed properties is still lacking, in particular, their weak sensitivity to the choice of noise family and the role of adequate scheduling of noise levels for good synthesis. By identifying a correspondence between diffusion models and a well-known paradigm in cognitive science known as serial reproduction, whereby human agents iteratively observe and reproduce stimuli from memory, we show how the aforementioned properties of diffusion models can be explained as a natural consequence of this correspondence. We then complement our theoretical analysis with simulations that exhibit these key features. Our work highlights how classic paradigms in cognitive science can shed light on state-of-the-art machine learning problems.
翻訳日:2022-09-30 16:26:56 公開日:2022-09-29
# ニューラルネットワークによるSGDによる低次元表現の学習

Neural Networks Efficiently Learn Low-Dimensional Representations with SGD ( http://arxiv.org/abs/2209.14863v1 )

ライセンス: Link先を確認
Alireza Mousavi-Hosseini, Sejun Park, Manuela Girotti, Ioannis Mitliagkas, Murat A. Erdogdu(参考訳) そこで、入力である\boldsymbol{x}\in \mathbb{r}^d$ がガウス型であり、ターゲットである $y \in \mathbb{r}$ が多重インデックスモデル、すなわち$y=g(\langle\boldsymbol{u_1},\boldsymbol{x}\rangle,...,\langle\boldsymbol{u_k},\boldsymbol{x}\rangle)$ に従う確率的勾配降下(sgd)を用いて、任意の幅の2層ニューラルネットワーク(nn)を訓練する問題について検討する。 NNの第1層重みは、ウェイト崩壊を伴うオンラインSGDがトレーニングに使用されるとき、真のモデルのベクトル $\boldsymbol{u_1},...,\boldsymbol{u_k}$ で表される$k$次元の主部分空間に収束することを示す。 この現象は、$k \ll d$ のときにいくつかの重要な結果をもたらす。 まず、この小さな部分空間上で一様収束を行うことで、nnの幅に依存しないsgdの$t$反復後に$\mathcal{o}(\sqrt{{{kd}/{t}})$という一般化誤差を成立させる。 さらに、SGD で訓練された ReLU NN は、主方向を回復することで $y=f(\langle\boldsymbol{u},\boldsymbol{x}\rangle) + \epsilon$ という形の単一インデックスターゲットを学習できる。 これは既知の$d^{\Omega(p)}$サンプル要件とは対照的であり、SGDで訓練されたNNが初期化時に神経タンジェントカーネルより優れていることを示している。 最後に,SGD による近似低ランク構造を用いて,NN の圧縮性を保証する。

We study the problem of training a two-layer neural network (NN) of arbitrary width using stochastic gradient descent (SGD) where the input $\boldsymbol{x}\in \mathbb{R}^d$ is Gaussian and the target $y \in \mathbb{R}$ follows a multiple-index model, i.e., $y=g(\langle\boldsymbol{u_1},\boldsymbol{x}\rangle,...,\langle\boldsymbol{u_k},\boldsymbol{x}\rangle)$ with a noisy link function $g$. We prove that the first-layer weights of the NN converge to the $k$-dimensional principal subspace spanned by the vectors $\boldsymbol{u_1},...,\boldsymbol{u_k}$ of the true model, when online SGD with weight decay is used for training. This phenomenon has several important consequences when $k \ll d$. First, by employing uniform convergence on this smaller subspace, we establish a generalization error bound of $\mathcal{O}(\sqrt{{kd}/{T}})$ after $T$ iterations of SGD, which is independent of the width of the NN. We further demonstrate that, SGD-trained ReLU NNs can learn a single-index target of the form $y=f(\langle\boldsymbol{u},\boldsymbol{x}\rangle) + \epsilon$ by recovering the principal direction, with a sample complexity linear in $d$ (up to log factors), where $f$ is a monotonic function with at most polynomial growth, and $\epsilon$ is the noise. This is in contrast to the known $d^{\Omega(p)}$ sample requirement to learn any degree $p$ polynomial in the kernel regime, and it shows that NNs trained with SGD can outperform the neural tangent kernel at initialization. Finally, we also provide compressibility guarantees for NNs using the approximate low-rank structure produced by SGD.
翻訳日:2022-09-30 16:26:41 公開日:2022-09-29
# 特徴選択のための逐次注意

Sequential Attention for Feature Selection ( http://arxiv.org/abs/2209.14881v1 )

ライセンス: Link先を確認
MohammadHossein Bateni, Lin Chen, Matthew Fahrbach, Gang Fu, Vahab Mirrokni, Taisuke Yasuda(参考訳) 特徴選択は、リソース予算制約を受けるモデル品質を最大化する機械学習モデルの機能のサブセットを選択する際の問題である。 ニューラルネットワークでは、$\ell_1$正規化、注意、確率ゲートに基づく先行手法は、通常、1つの評価ラウンドの全ての特徴を選択し、選択中の特徴の残余値(すなわち、以前に選択された特徴に基づいて条件付けられた特徴の限界寄与)を無視している。 本稿では,ニューラルネットワークの最先端な実験結果を実現するSequential Attentionと呼ばれる特徴選択アルゴリズムを提案する。 このアルゴリズムは、グレディフォワード選択の効率的な実装に基づいており、各ステップの注意重みを限界特徴のプロキシとして利用する。 線形回帰モデルに対する逐次注意アルゴリズムに対する理論的洞察として,この設定への適応が古典的な直交マッチング追従アルゴリズム [prk1993] と同値であることを示し,その証明可能な保証をすべて継承する。 最後に、我々の理論および実証分析は、注意の有効性と過剰パラメータ化との関連について、独立した関心を持つかもしれない新しい説明を提供する。

Feature selection is the problem of selecting a subset of features for a machine learning model that maximizes model quality subject to a resource budget constraint. For neural networks, prior methods, including those based on $\ell_1$ regularization, attention, and stochastic gates, typically select all of the features in one evaluation round, ignoring the residual value of the features during selection (i.e., the marginal contribution of a feature conditioned on the previously selected features). We propose a feature selection algorithm called Sequential Attention that achieves state-of-the-art empirical results for neural networks. This algorithm is based on an efficient implementation of greedy forward selection and uses attention weights at each step as a proxy for marginal feature importance. We provide theoretical insights into our Sequential Attention algorithm for linear regression models by showing that an adaptation to this setting is equivalent to the classical Orthogonal Matching Pursuit algorithm [PRK1993], and thus inherits all of its provable guarantees. Lastly, our theoretical and empirical analyses provide new explanations towards the effectiveness of attention and its connections to overparameterization, which might be of independent interest.
翻訳日:2022-09-30 16:25:46 公開日:2022-09-29
# クロスドメイン運動伝達のための動きと外観適応

Motion and Appearance Adaptation for Cross-Domain Motion Transfer ( http://arxiv.org/abs/2209.14529v1 )

ライセンス: Link先を確認
Borun Xu, Biao Wang, Jinhong Deng, Jiale Tao, Tiezheng Ge, Yuning Jiang, Wen Li, Lixin Duan(参考訳) モーション転送は、駆動ビデオの動作をソース画像に転送することを目的としている。 駆動ビデオのオブジェクトとソースイメージの間にかなりの違いがある場合、従来の単一ドメインのモーショントランスファーアプローチは、しばしば顕著な成果物を生成し、例えば、合成画像はソースイメージの人間の形を保存できない(cf)。 第1図 (a)。 この問題に対処するため,本研究では,原画像中の物体の形状と外観を保ちながら,合成画像中の物体を正規化して駆動フレーム内の物体の運動をキャプチャする,クロスドメインモーショントランスファーのための動き・外観適応(MAA)アプローチを提案する。 一方,合成画像の物体形状と駆動フレームが異なる可能性があるため,2つの画像の物体部分の角度の整合性を強制する形状不変な運動適応モジュールを設計し,動き情報をキャプチャする。 一方,合成画像の学習動作に影響を与えずに,合成画像の対応するパッチとソース画像との類似性を規則化する構造誘導型外観整合性モジュールを提案する。 提案するmaaモデルは,循環的再構成損失を伴うエンドツーエンドの訓練が可能であり,最終的に良好な運動伝達結果(cf)が得られる。 第1図 (b)。 我々は,人間のダンスデータセットであるMixamo-Video to Fashion-Videoと人間の顔データセットであるVox-Celeb to Cufsについて広範な実験を行った。

Motion transfer aims to transfer the motion of a driving video to a source image. When there are considerable differences between object in the driving video and that in the source image, traditional single domain motion transfer approaches often produce notable artifacts; for example, the synthesized image may fail to preserve the human shape of the source image (cf . Fig. 1 (a)). To address this issue, in this work, we propose a Motion and Appearance Adaptation (MAA) approach for cross-domain motion transfer, in which we regularize the object in the synthesized image to capture the motion of the object in the driving frame, while still preserving the shape and appearance of the object in the source image. On one hand, considering the object shapes of the synthesized image and the driving frame might be different, we design a shape-invariant motion adaptation module that enforces the consistency of the angles of object parts in two images to capture the motion information. On the other hand, we introduce a structure-guided appearance consistency module designed to regularize the similarity between the corresponding patches of the synthesized image and the source image without affecting the learned motion in the synthesized image. Our proposed MAA model can be trained in an end-to-end manner with a cyclic reconstruction loss, and ultimately produces a satisfactory motion transfer result (cf . Fig. 1 (b)). We conduct extensive experiments on human dancing dataset Mixamo-Video to Fashion-Video and human face dataset Vox-Celeb to Cufs; on both of these, our MAA model outperforms existing methods both quantitatively and qualitatively.
翻訳日:2022-09-30 16:19:41 公開日:2022-09-29
# 外科的ジェスチャー認識のための境界将来のMS-TCN++

Bounded Future MS-TCN++ for surgical gesture recognition ( http://arxiv.org/abs/2209.14647v1 )

ライセンス: Link先を確認
Adam Goldbraikh, Netanell Avisdris, Carla M. Pugh, Shlomi Laufer(参考訳) 近年,手術用ビデオベースアプリケーションの開発が進んでいる。 これらのアプリケーションの一部は、手続きが終わるとオフラインで動作し、他のアプリケーションはすぐに反応しなければならない。 しかし、処理中に応答を行う場合もありますが、いくつかの遅延は許容されます。 文献では、オンラインオフラインのパフォーマンスギャップが知られている。 本研究の目的は,性能遅延トレードオフを学習し,このトレードオフを利用するMS-TCN++ベースのアルゴリズムを設計することであった。 そこで我々は,可変組織シミュレータで縫合作業を行う24名の参加者の96本のビデオを含むオープン手術シミュレーションデータセットを用いた。 本研究では,サイドビューから取得した映像データを用いた。 ネットワークは手術のジェスチャーを識別するために訓練された。 単純なアプローチは、MS-TCN++の深さを減らすことであり、その結果、受容野が減少し、必要となる将来のフレームの数も減少する。 本手法は, 主に遅延が小さい場合に準最適であることを示した。 第2の方法は、各時間的畳み込みにおけるアクセス可能な未来を制限することである。 このように、ネットワーク設計に柔軟性があり、その結果、ナイーブなアプローチよりもはるかに優れたパフォーマンスを実現しています。

In recent times there is a growing development of video based applications for surgical purposes. Part of these applications can work offline after the end of the procedure, other applications must react immediately. However, there are cases where the response should be done during the procedure but some delay is acceptable. In the literature, the online-offline performance gap is known. Our goal in this study was to learn the performance-delay trade-off and design an MS-TCN++-based algorithm that can utilize this trade-off. To this aim, we used our open surgery simulation data-set containing 96 videos of 24 participants that perform a suturing task on a variable tissue simulator. In this study, we used video data captured from the side view. The Networks were trained to identify the performed surgical gestures. The naive approach is to reduce the MS-TCN++ depth, as a result, the receptive field is reduced, and also the number of required future frames is also reduced. We showed that this method is sub-optimal, mainly in the small delay cases. The second method was to limit the accessible future in each temporal convolution. This way, we have flexibility in the network design and as a result, we achieve significantly better performance than in the naive approach.
翻訳日:2022-09-30 16:19:14 公開日:2022-09-29
# RECALL: オブジェクト分類のためのリハーサルなし連続学習

RECALL: Rehearsal-free Continual Learning for Object Classification ( http://arxiv.org/abs/2209.14774v1 )

ライセンス: Link先を確認
Markus Knauer, Maximilian Denninger and Rudolph Triebel(参考訳) 畳み込みニューラルネットワークは、分類において顕著な結果を示すが、同時に新しいことを学ぶのに苦労する。 本稿では,ディープニューラルネットワークが未発見のオブジェクトカテゴリを継続的に学習し,事前シーケンスのデータを保存することなくリハーサルフリーなアプローチを提案する。 ネットワークは、新しいカテゴリをトレーニングする前に、古いカテゴリのロジットを計算することでカテゴリをリコールする。 これらはトレーニング中に古いカテゴリの変更を避けるために使用される。 新しいシーケンスごとに、新しいカテゴリに対応するために新しいヘッドが追加される。 忘れを緩和するために,分類を回帰に置き換える正規化戦略を提案する。 さらに,既知のカテゴリについて,未知のカテゴリと未知のカテゴリの密度変化を考慮したばらつきを含むマハラノビス損失を提案する。 最後に,25種類の対象カテゴリの合成画像を含む移動ロボット(hows-cl-25)の物体認識に適した,連続学習のための新しいデータセットを提案する。 われわれのアプローチRECALLはCORe50とiCIFAR-100で現在よりも優れており,HOWS-CL-25で最高の性能を発揮する。

Convolutional neural networks show remarkable results in classification but struggle with learning new things on the fly. We present a novel rehearsal-free approach, where a deep neural network is continually learning new unseen object categories without saving any data of prior sequences. Our approach is called RECALL, as the network recalls categories by calculating logits for old categories before training new ones. These are then used during training to avoid changing the old categories. For each new sequence, a new head is added to accommodate the new categories. To mitigate forgetting, we present a regularization strategy where we replace the classification with a regression. Moreover, for the known categories, we propose a Mahalanobis loss that includes the variances to account for the changing densities between known and unknown categories. Finally, we present a novel dataset for continual learning, especially suited for object recognition on a mobile robot (HOWS-CL-25), including 150,795 synthetic images of 25 household object categories. Our approach RECALL outperforms the current state of the art on CORe50 and iCIFAR-100 and reaches the best performance on HOWS-CL-25.
翻訳日:2022-09-30 16:18:57 公開日:2022-09-29
# eihi net: 分散の一般化パラダイム

EiHi Net: Out-of-Distribution Generalization Paradigm ( http://arxiv.org/abs/2209.14946v1 )

ライセンス: Link先を確認
Qinglai Wei, Beiming Yuan, Diancheng Chen(参考訳) 本稿では,深層学習におけるアウト・オブ・ディストリビューション(ood)一般化問題を解決するための新しいアイヒネットを開発した。 EiHi netは、どんな視覚的バックボーンでも祝福できるモデル学習パラダイムである。 このパラダイムは、インダクティブなサンプル特徴と、非決定的特徴とラベルとの擬似相関に苦しむ対応するカテゴリとの相関を求めるという、ディープモデルの以前の学習方法を変えることができる。 我々は,SimCLRとVIC-Regを最小の学習要素として,元の-正-負のサンプルペアを明示的に動的に確立し,深いモデルで特徴とラベルの因果関係に近い関係を反復的に確立し,擬似相関を抑える。 提案モデルをさらに検証し,確立された因果関係を強化するため,本手法では,直接的に表現空間を創出するために,ガイダンスの少ないループ型戦略を開発する。 最後に、開発されたEeiHiネットは、現在のSOTA結果と比較して、最も困難で典型的なOoDデータセットNicoにおいて、ドメイン情報(例えば、バックグラウンド、無関係な機能)なしで大幅に改善されている。

This paper develops a new EiHi net to solve the out-of-distribution (OoD) generalization problem in deep learning. EiHi net is a model learning paradigm that can be blessed on any visual backbone. This paradigm can change the previous learning method of the deep model, namely find out correlations between inductive sample features and corresponding categories, which suffers from pseudo correlations between indecisive features and labels. We fuse SimCLR and VIC-Reg via explicitly and dynamically establishing the original - positive - negative sample pair as a minimal learning element, the deep model iteratively establishes a relationship close to the causal one between features and labels, while suppressing pseudo correlations. To further validate the proposed model, and strengthen the established causal relationships, we develop a human-in-the-loop strategy, with few guidance samples, to prune the representation space directly. Finally, it is shown that the developed EiHi net makes significant improvements in the most difficult and typical OoD dataset Nico, compared with the current SOTA results, without any domain ($e.g.$ background, irrelevant features) information.
翻訳日:2022-09-30 16:18:39 公開日:2022-09-29
# ラベル有効ミーム分析のためのドメイン対応自己教師付き事前学習

Domain-aware Self-supervised Pre-training for Label-Efficient Meme Analysis ( http://arxiv.org/abs/2209.14667v1 )

ライセンス: Link先を確認
Shivam Sharma, Mohd Khizir Siddiqui, Md. Shad Akhtar, Tanmoy Chakraborty(参考訳) 既存の自己教師型学習戦略は、限定された目標セットか、主にユニモーダルアプリケーションをターゲットにした一般的な下流タスクに制約される。 これは、メタ分析のような複雑さやドメイン親和性の観点から異なる命令型マルチモーダルアプリケーションの進歩を孤立させてきた。 ここでは、Ext-PIE-NetとMM-SimCLRという2つの自己教師付き事前学習手法を紹介する。 (i)プレトレーニングの際、市販のマルチモーダルヘイトスピーチデータを用いる。 2)複数の専門用語タスクを取り入れた自己指導型学習を行うことにより,メタ分析に必要な複雑なマルチモーダル表現学習を実現する。 我々は,多彩なクロスモダリティ表現を学習し,ヘイトフルなミームタスクにおける一般的な線形探索を用いて評価する潜在的な変種を含む,異なる自己スーパービジョン戦略を試す。 提案手法はラベル効率のよいトレーニングを通じて完全に監督されたベースラインと強く競合し,memotion challengeの3つのタスクをそれぞれ0.18%,23.64%,0.93%のパフォーマンス向上でそれぞれ上回った。 さらに,HarMemeタスク上での競合性能を報告することにより,提案手法の一般化可能性を示す。 最後に,タスク固有の学習を分析し,ラベル付きトレーニングサンプルを少なくすることで,学習表現の質を実証的に確立し,自己スーパービジョン戦略の複雑さと手元にある下流タスクとの相関性を主張した。 本研究は,高効率な微調整および一般化可能な性能を実現するために,特別なプレテキストタスクを含む,より優れたマルチモーダル自己監督手法の必要性を強調した。

Existing self-supervised learning strategies are constrained to either a limited set of objectives or generic downstream tasks that predominantly target uni-modal applications. This has isolated progress for imperative multi-modal applications that are diverse in terms of complexity and domain-affinity, such as meme analysis. Here, we introduce two self-supervised pre-training methods, namely Ext-PIE-Net and MM-SimCLR that (i) employ off-the-shelf multi-modal hate-speech data during pre-training and (ii) perform self-supervised learning by incorporating multiple specialized pretext tasks, effectively catering to the required complex multi-modal representation learning for meme analysis. We experiment with different self-supervision strategies, including potential variants that could help learn rich cross-modality representations and evaluate using popular linear probing on the Hateful Memes task. The proposed solutions strongly compete with the fully supervised baseline via label-efficient training while distinctly outperforming them on all three tasks of the Memotion challenge with 0.18%, 23.64%, and 0.93% performance gain, respectively. Further, we demonstrate the generalizability of the proposed solutions by reporting competitive performance on the HarMeme task. Finally, we empirically establish the quality of the learned representations by analyzing task-specific learning, using fewer labeled training samples, and arguing that the complexity of the self-supervision strategy and downstream task at hand are correlated. Our efforts highlight the requirement of better multi-modal self-supervision methods involving specialized pretext tasks for efficient fine-tuning and generalizable performance.
翻訳日:2022-09-30 16:18:17 公開日:2022-09-29
# 非iidデータを用いた連合学習のためのラベル駆動知識蒸留

Label driven Knowledge Distillation for Federated Learning with non-IID Data ( http://arxiv.org/abs/2209.14520v1 )

ライセンス: Link先を確認
Minh-Duong Nguyen, Quoc-Viet Pham, Dinh Thai Hoang, Long Tran-Thanh, Diep N. Nguyen, Won-Joo Hwang(参考訳) 現実世界のアプリケーションでは,フェデレーション学習(federated learning, fl)は,(1)大規模iotネットワークに適用した場合のスケーラビリティ,(2)異種データを持つ環境に対する堅牢性,の2つの課題を満たしている。 最初の問題を実現するために,Full-stack FL (F2L) という新しいFLフレームワークの設計を目指す。 より具体的には、F2Lは階層的なネットワークアーキテクチャを使用しており、ネットワークシステム全体を再構築することなくFLネットワークを拡張することができる。 さらに,階層的ネットワーク設計の利点を生かして,グローバルサーバにおける新たなラベル駆動知識蒸留(lkd)技術を提案する。 現在の知識蒸留技術とは対照的に、LKDはすべての教師のモデルから十分な知識を持つ学生モデルを訓練することができる。 そこで本提案アルゴリズムは,非独立な同一分散データを用いたFLシステムの下での動作において,各領域のデータ分布(地域集約モデル)の知識を効果的に抽出し,クライアントモデル間のばらつきを低減する。 広範な実験の結果 (i)F2L法は全グローバル蒸留におけるFL効率を大幅に向上させることができる。 (II)F2Lは, 各通信サイクルで増大する代わりに, グローバル蒸留の段階が生じるにつれて, 急速に収束する。

In real-world applications, Federated Learning (FL) meets two challenges: (1) scalability, especially when applied to massive IoT networks; and (2) how to be robust against an environment with heterogeneous data. Realizing the first problem, we aim to design a novel FL framework named Full-stack FL (F2L). More specifically, F2L utilizes a hierarchical network architecture, making extending the FL network accessible without reconstructing the whole network system. Moreover, leveraging the advantages of hierarchical network design, we propose a new label-driven knowledge distillation (LKD) technique at the global server to address the second problem. As opposed to current knowledge distillation techniques, LKD is capable of training a student model, which consists of good knowledge from all teachers' models. Therefore, our proposed algorithm can effectively extract the knowledge of the regions' data distribution (i.e., the regional aggregated models) to reduce the divergence between clients' models when operating under the FL system with non-independent identically distributed data. Extensive experiment results reveal that: (i) our F2L method can significantly improve the overall FL efficiency in all global distillations, and (ii) F2L rapidly achieves convergence as global distillation stages occur instead of increasing on each communication cycle.
翻訳日:2022-09-30 16:16:52 公開日:2022-09-29
# 気象予報のための時空間予測手法の事例研究

A case study of spatiotemporal forecasting techniques for weather forecasting ( http://arxiv.org/abs/2209.14782v1 )

ライセンス: Link先を確認
Shakir Showkat Sofi, Ivan Oseledets(参考訳) 現実世界のプロセスの大部分は時空間的であり、それらによって生成されたデータは空間的および時間的進化の両方を示す。 天気はこの領域にある最も重要なプロセスの1つであり、天気予報は私たちの日々のルーチンの重要な部分になっています。 気象データ分析は最も複雑で困難な課題と考えられている。 数値気象予測モデルは現在最先端であるが、資源集約的で時間を要する。 多くの研究が、数値予測の代替として時系列モデルを提案した。 近年の研究は主に特定の場所での天気予報に重点を置いている。 したがって、モデルは時間的相関のみを捉えることができる。 この自己完結型論文は,地域データ駆動型気象予報,すなわち時空間相関を捉えるために,複数の緯度-経度点以上を予報する様々な手法を考察する。 その結果, 時空間予測モデルでは, 精度を向上しながら計算コストを低減し, 特に, 提案したテンソルトレインの動的モード分解に基づく予測モデルは, トレーニングを必要とせず, ConvLSTMと同等の精度を有することがわかった。 我々は、NASA POWER気象データセットを用いて、モデルを評価し、それらを現在の技術と比較する。

The majority of real-world processes are spatiotemporal, and the data generated by them exhibits both spatial and temporal evolution. Weather is one of the most important processes that fall under this domain, and forecasting it has become a crucial part of our daily routine. Weather data analysis is considered the most complex and challenging task. Although numerical weather prediction models are currently state-of-the-art, they are resource intensive and time-consuming. Numerous studies have proposed time-series-based models as a viable alternative to numerical forecasts. Recent research has primarily focused on forecasting weather at a specific location. Therefore, models can only capture temporal correlations. This self-contained paper explores various methods for regional data-driven weather forecasting, i.e., forecasting over multiple latitude-longitude points to capture spatiotemporal correlations. The results showed that spatiotemporal prediction models reduced computational cost while improving accuracy; in particular, the proposed tensor train dynamic mode decomposition-based forecasting model has comparable accuracy to ConvLSTM without the need for training. We use the NASA POWER meteorological dataset to evaluate the models and compare them with the current state of the art.
翻訳日:2022-09-30 16:10:48 公開日:2022-09-29
# 中国語amr解析のための二段階法

A Two-Stage Method for Chinese AMR Parsing ( http://arxiv.org/abs/2209.14512v1 )

ライセンス: Link先を確認
Liang Chen, Bofei Gao, Baobao Chang(参考訳) 本稿では,CAMRP-2022評価におけるシステムの詳細について述べる。 まず,概念予測と関係予測を含むアライメント生成を伴う中国語amr解析を行う2段階法を提案する。 本モデルはcamr 2.0テストセットとcamrp-2022のブラインドテストセットで0.7756および0.7074アライメント一致f1スコアを個別に達成する。 また,本手法で結論づけた誤差伝播やクラス不均衡問題などの結果と限界についても分析した。 コードとトレーニングされたモデルは、再現のためにhttps://github.com/PKUnlp-icler/Two-Stage-CAMRPでリリースされている。

In this paper, we provide a detailed description of our system at CAMRP-2022 evaluation. We firstly propose a two-stage method to conduct Chinese AMR Parsing with alignment generation, which includes Concept-Prediction and Relation-Prediction stages. Our model achieves 0.7756 and 0.7074 Align-Smatch F1 scores on the CAMR 2.0 test set and the blind-test set of CAMRP-2022 individually. We also analyze the result and the limitation such as the error propagation and class imbalance problem we conclude in the current method. Code and the trained models are released at https://github.com/PKUnlp-icler/Two-Stage-CAMRP for reproduction.
翻訳日:2022-09-30 16:10:31 公開日:2022-09-29
# 語彙モデルを用いた産業用表における名前付きエンティティ認識

Named Entity Recognition in Industrial Tables using Tabular Language Models ( http://arxiv.org/abs/2209.14812v1 )

ライセンス: Link先を確認
Aneta Koleva, Martin Ringsquandl, Mark Buckley, Rakebul Hasan and Volker Tresp(参考訳) 表形式のデータを符号化する特殊なトランスフォーマーベースのモデルは学術的関心を集めている。 表的なデータは産業全体に存在するが、テーブルトランスフォーマーの応用はいまだに欠けている。 本稿では,これらのモデルを,表構造スプレッドシートにエンティティが記述される産業的名前付きエンティティ認識(NER)問題に適用する方法について検討する。 スプレッドシートの技術的特性とラベル付きデータの欠如は、微調整トランスフォーマーベースのモデルにおいて大きな課題となる。 そこで我々は,利用可能なドメイン固有知識グラフに基づく専用テーブルデータ拡張戦略を開発した。 これは低リソースのシナリオでパフォーマンスが大幅に向上することを示している。 さらに,表構造を帰納的バイアスとして,表構造を線形列として比較した。 実験により,テーブルトランスフォーマーは他のベースラインよりも優れており,その表型インダクティブバイアスがトランスフォーマーモデルの収束に不可欠であることを確認した。

Specialized transformer-based models for encoding tabular data have gained interest in academia. Although tabular data is omnipresent in industry, applications of table transformers are still missing. In this paper, we study how these models can be applied to an industrial Named Entity Recognition (NER) problem where the entities are mentioned in tabular-structured spreadsheets. The highly technical nature of spreadsheets as well as the lack of labeled data present major challenges for fine-tuning transformer-based models. Therefore, we develop a dedicated table data augmentation strategy based on available domain-specific knowledge graphs. We show that this boosts performance in our low-resource scenario considerably. Further, we investigate the benefits of tabular structure as inductive bias compared to tables as linearized sequences. Our experiments confirm that a table transformer outperforms other baselines and that its tabular inductive bias is vital for convergence of transformer-based models.
翻訳日:2022-09-30 16:10:19 公開日:2022-09-29
# 臨床自然言語処理のための診断推論ベンチマーク dr.bench

DR.BENCH: Diagnostic Reasoning Benchmark for Clinical Natural Language Processing ( http://arxiv.org/abs/2209.14901v1 )

ライセンス: Link先を確認
Yanjun Gao, Dmitriy Dligach, Timothy Miller, John Caskey, Brihat Sharma, Matthew M Churpek, Majid Afshar(参考訳) 電子健康記録(ehr)の有意義な使用は、人工知能によって拡張された臨床意思決定支援システムと共にデジタル時代の進歩を続けている。 提供者体験を改善する上での優先事項は、情報の過負荷を克服し、認知的負担を軽減することである。 主要な医療ミスの1つは、ヒューリスティックスに依存する判断の系統的または予測可能な誤りによる診断エラーである。 臨床自然言語処理(cnlp)が、データから診断への前方的推論による診断推論をモデル化し、認知的負担と医療的誤りを低減できる可能性について検討していない。 cNLPの科学を前進させるための既存のタスクは、主に情報抽出と分類タスクによる名前付きエンティティ認識に焦点を当てている。 臨床診断推論能力を有するcNLPモデルの開発と評価のための新しいベンチマークとして,診断推論ベンチマーク(DR.BENCH)と呼ばれる新しいタスクスイートを導入する。 このスイートには、臨床テキスト理解、医療知識推論、診断生成に関する10の公開データセットからの6つのタスクが含まれている。 DR.BENCHは、訓練済みの言語モデルを評価する自然言語生成フレームワークとして設計された最初の臨床スイートである。 医療コーパスで継続的に訓練された大規模汎用ドメインモデルとモデルを用いた最先端の事前学習型生成言語モデルによる実験は、DR. BENCHでの評価において改善の機会を示す。 DR.BENCHはGitLabリポジトリとして公開されており、cNLPコミュニティのモデルをロードして評価するための体系的なアプローチです。

The meaningful use of electronic health records (EHR) continues to progress in the digital era with clinical decision support systems augmented by artificial intelligence. A priority in improving provider experience is to overcome information overload and reduce the cognitive burden so fewer medical errors and cognitive biases are introduced during patient care. One major type of medical error is diagnostic error due to systematic or predictable errors in judgment that rely on heuristics. The potential for clinical natural language processing (cNLP) to model diagnostic reasoning in humans with forward reasoning from data to diagnosis and potentially reduce the cognitive burden and medical error has not been investigated. Existing tasks to advance the science in cNLP have largely focused on information extraction and named entity recognition through classification tasks. We introduce a novel suite of tasks coined as Diagnostic Reasoning Benchmarks, DR.BENCH, as a new benchmark for developing and evaluating cNLP models with clinical diagnostic reasoning ability. The suite includes six tasks from ten publicly available datasets addressing clinical text understanding, medical knowledge reasoning, and diagnosis generation. DR.BENCH is the first clinical suite of tasks designed to be a natural language generation framework to evaluate pre-trained language models. Experiments with state-of-the-art pre-trained generative language models using large general domain models and models that were continually trained on a medical corpus demonstrate opportunities for improvement when evaluated in DR. BENCH. We share DR. BENCH as a publicly available GitLab repository with a systematic approach to load and evaluate models for the cNLP community.
翻訳日:2022-09-30 16:10:07 公開日:2022-09-29
# 大規模言語モデルを用いた合成意味解析

Compositional Semantic Parsing with Large Language Models ( http://arxiv.org/abs/2209.15003v1 )

ライセンス: Link先を確認
Andrew Drozdov, Nathanael Sch\"arli, Ekin Akyu\"urek, Nathan Scales, Xinying Song, Xinyun Chen, Olivier Bousquet, Denny Zhou(参考訳) 人間は、新しいタスクを提示すると、構成的に推論できる。 従来の研究では、適切なプロンプト技術により、大きな言語モデル(LLM)がSCANのような人工的な合成一般化タスクを解くことができることが示されている。 本研究では,より大きな語彙を持つより現実的な意味解析タスクにおけるさらなる課題を特定し,これらの課題に対処する。 最良手法は最小限のプロンプトに基づいており、プロンプトベースの構文解析を用いて問題を分解し、この分解を用いて適切な例を選択し、セマンティック解析を逐次生成する。 本手法では,従来の手法で使用したトレーニングデータの1%しか必要とせず,CFQの新たな状態を設定することができる。 私たちのアプローチの一般的な性質から、同様の取り組みが他のタスクやドメイン、特に知識集約型アプリケーションで新たな結果をもたらすことを期待しています。

Humans can reason compositionally when presented with new tasks. Previous research shows that appropriate prompting techniques enable large language models (LLMs) to solve artificial compositional generalization tasks such as SCAN. In this work, we identify additional challenges in more realistic semantic parsing tasks with larger vocabulary and refine these prompting techniques to address them. Our best method is based on least-to-most prompting: it decomposes the problem using prompting-based syntactic parsing, then uses this decomposition to select appropriate exemplars and to sequentially generate the semantic parse. This method allows us to set a new state of the art for CFQ while requiring only 1% of the training data used by traditional approaches. Due to the general nature of our approach, we expect similar efforts will lead to new results in other tasks and domains, especially for knowledge-intensive applications.
翻訳日:2022-09-30 16:09:41 公開日:2022-09-29
# 双方向言語モデルもほんのわずかの学習者

Bidirectional Language Models Are Also Few-shot Learners ( http://arxiv.org/abs/2209.14500v1 )

ライセンス: Link先を確認
Ajay Patel, Bryan Li, Mohammad Sadegh Rasooli, Noah Constant, Colin Raffel, Chris Callison-Burch(参考訳) GPT-3(Brown et al., 2020)のような大規模言語モデルは、いくつかのラベル付き例でのみ誘導された後、微調整をせずに任意のタスクを実行できる。 任意のタスクを自然言語プロンプトとして再構成することができ、言語モデルに対して、プロンプトベースの学習として知られるパラダイムで間接的にタスクを実行するように要求することができる。 これまで、創発的なプロンプトベースの学習能力は、主に一方向言語モデルで実証されてきた。 しかし、マスキング言語モデリングのような目的を限定して事前学習された双方向言語モデルは、トランスファー学習においてより強力な学習表現を生み出す。 これは双方向モデルを促す可能性を動機づけるが、その事前学習目標により、既存のプロンプトパラダイムとほとんど互換性がない。 SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。 機械翻訳タスクをケーススタディとして用い, 双方向mT5モデル(Xue et al., 2021)をSAPで促し, mT5のパラメータが約50%少ないにもかかわらず, GPT-3 や XGLM (Lin et al., 2021) のような一方向モデルの少数ショット翻訳よりも優れていることを示す。 さらに,SAPが質問応答や要約に有効であることを示す。 第一に,プロンプトベース学習は,一方向モデルだけでなく,幅広い言語モデルの創発的特性であることを示した。

Large language models such as GPT-3 (Brown et al., 2020) can perform arbitrary tasks without undergoing fine-tuning after being prompted with only a few labeled examples. An arbitrary task can be reformulated as a natural language prompt, and a language model can be asked to generate the completion, indirectly performing the task in a paradigm known as prompt-based learning. To date, emergent prompt-based learning capabilities have mainly been demonstrated for unidirectional language models. However, bidirectional language models pre-trained on denoising objectives such as masked language modeling produce stronger learned representations for transfer learning. This motivates the possibility of prompting bidirectional models, but their pre-training objectives have made them largely incompatible with the existing prompting paradigm. We present SAP (Sequential Autoregressive Prompting), a technique that enables the prompting of bidirectional models. Utilizing the machine translation task as a case study, we prompt the bidirectional mT5 model (Xue et al., 2021) with SAP and demonstrate its few-shot and zero-shot translations outperform the few-shot translations of unidirectional models like GPT-3 and XGLM (Lin et al., 2021), despite mT5's approximately 50% fewer parameters. We further show SAP is effective on question answering and summarization. For the first time, our results demonstrate prompt-based learning is an emergent property of a broader class of language models, rather than only unidirectional models.
翻訳日:2022-09-30 16:08:41 公開日:2022-09-29
# 医用データ共有のためのソフトラベルデータセット蒸留による圧縮胃画像生成

Compressed Gastric Image Generation Based on Soft-Label Dataset Distillation for Medical Data Sharing ( http://arxiv.org/abs/2209.14635v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 背景と目的:医療情報の横断的フローを可能にし,高精度なコンピュータ支援診断システムを構築するためには,医療データの共有が不可欠である。 しかし、大量の医療データセット、保存された深層畳み込みニューラルネットワーク(dcnn)モデルの膨大なメモリ、および患者のプライバシ保護は、医療データ共有の非効率化につながる可能性がある。 そこで本研究では,医療データ共有のためのソフトラベルデータセット蒸留法を提案する。 方法:提案手法では,医療画像データの有効情報を蒸留し,匿名医療データ共有のために異なるデータ分布を持つ圧縮画像を生成する。 さらに,本手法はDCNNモデルの重みを抽出し,効率的な医用データ共有のためのトレーニングモデルの保存に必要なメモリを削減できる。 結果: 提案手法は, 数万枚の画像を複数のソフトラベル画像に圧縮し, トレーニングしたモデルのサイズを原サイズの数百分の1に削減する。 蒸留後に得られた圧縮画像は視覚的に匿名化されており,患者の個人情報は含まない。 さらに,少ない圧縮画像で高検出性能を実現することができる。 結論: 実験の結果, 提案手法は医療データ共有の効率性と安全性を向上させることができることが示された。

Background and objective: Sharing of medical data is required to enable the cross-agency flow of healthcare information and construct high-accuracy computer-aided diagnosis systems. However, the large sizes of medical datasets, the massive amount of memory of saved deep convolutional neural network (DCNN) models, and patients' privacy protection are problems that can lead to inefficient medical data sharing. Therefore, this study proposes a novel soft-label dataset distillation method for medical data sharing. Methods: The proposed method distills valid information of medical image data and generates several compressed images with different data distributions for anonymous medical data sharing. Furthermore, our method can extract essential weights of DCNN models to reduce the memory required to save trained models for efficient medical data sharing. Results: The proposed method can compress tens of thousands of images into several soft-label images and reduce the size of a trained model to a few hundredths of its original size. The compressed images obtained after distillation have been visually anonymized; therefore, they do not contain the private information of the patients. Furthermore, we can realize high-detection performance with a small number of compressed images. Conclusions: The experimental results show that the proposed method can improve the efficiency and security of medical data sharing.
翻訳日:2022-09-30 16:02:20 公開日:2022-09-29
# ラプラシアンスペクトル下の累積最大スケール領域に基づくデータセット複雑性評価

Dataset Complexity Assessment Based on Cumulative Maximum Scaled Area Under Laplacian Spectrum ( http://arxiv.org/abs/2209.14743v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) データセット複雑性アセスメント(dataset complexity assessment)は、分類器を訓練する前に複雑性計算を伴うデータセットの分類性能を予測することを目的としている。 深層畳み込みニューラルネットワーク(DCNN)のトレーニングプロセスは、ハイパーパラメータの不確実性と異なるデータセットによって導入されたドメインシフトのため、反復的かつ時間を要する。 したがって、DCNNモデルをトレーニングする前にデータセットの複雑さを効果的に評価することで分類性能を予測することが重要である。 本稿では,6つのデータセットに対して最先端の複雑性評価性能を達成できる累積最大スケール領域(cmsAULS)を提案する。

Dataset complexity assessment aims to predict classification performance on a dataset with complexity calculation before training a classifier, which can also be used for classifier selection and dataset reduction. The training process of deep convolutional neural networks (DCNNs) is iterative and time-consuming because of hyperparameter uncertainty and the domain shift introduced by different datasets. Hence, it is meaningful to predict classification performance by assessing the complexity of datasets effectively before training DCNN models. This paper proposes a novel method called cumulative maximum scaled Area Under Laplacian Spectrum (cmsAULS), which can achieve state-of-the-art complexity assessment performance on six datasets.
翻訳日:2022-09-30 16:02:02 公開日:2022-09-29
# make-a-video:テキスト-ビデオデータのないテキスト-ビデオ生成

Make-A-Video: Text-to-Video Generation without Text-Video Data ( http://arxiv.org/abs/2209.14792v1 )

ライセンス: Link先を確認
Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman(参考訳) 我々は,テキスト・ツー・イメージ(t2i)生成の最近の著しい進歩をテキスト・ツー・ビデオ(t2v)に直接翻訳する手法であるmake-a-videoを提案する。 私たちの直感は単純で、世界がどのように見えるか、どのように表現されているか、ペアのテキスト画像データから学び、教師なしのビデオ映像から世界がどのように動くかを学ぶ。 make-a-videoには3つの利点がある:(1)t2vモデルのトレーニングを加速する(スクラッチから視覚的およびマルチモーダル表現を学習する必要がない)、(2)テキストビデオのペアデータを必要としない、(3)生成されたビデオは、今日の画像生成モデルの広さ(美学の多様性、幻想的な描写など)を継承する。 我々は,新しい空間時空間モジュールを用いたT2Iモデルを用いた簡易かつ効果的な構築法を設計する。 まず、フル時間的U-Netとアテンソルを分解し、空間と時間で近似する。 第2に,映像デコーダ,補間モデル,およびt2v以外の様々な応用が可能な2つの超解像モデルを用いて,高分解能・フレームレート映像を生成するための空間的時間パイプラインを設計する。 空間的・時間的解像度、テキストへの忠実さ、品質のあらゆる面において、Make-A-Videoは質的・定量的な測定によって決定されるように、テキスト・ビデオ生成における新しい最先端技術を設定する。

We propose Make-A-Video -- an approach for directly translating the tremendous recent progress in Text-to-Image (T2I) generation to Text-to-Video (T2V). Our intuition is simple: learn what the world looks like and how it is described from paired text-image data, and learn how the world moves from unsupervised video footage. Make-A-Video has three advantages: (1) it accelerates training of the T2V model (it does not need to learn visual and multimodal representations from scratch), (2) it does not require paired text-video data, and (3) the generated videos inherit the vastness (diversity in aesthetic, fantastical depictions, etc.) of today's image generation models. We design a simple yet effective way to build on T2I models with novel and effective spatial-temporal modules. First, we decompose the full temporal U-Net and attention tensors and approximate them in space and time. Second, we design a spatial temporal pipeline to generate high resolution and frame rate videos with a video decoder, interpolation model and two super resolution models that can enable various applications besides T2V. In all aspects, spatial and temporal resolution, faithfulness to text, and quality, Make-A-Video sets the new state-of-the-art in text-to-video generation, as determined by both qualitative and quantitative measures.
翻訳日:2022-09-30 16:01:49 公開日:2022-09-29
# スタイル歩行合成のための拡散確率モデル

Denoising Diffusion Probabilistic Models for Styled Walking Synthesis ( http://arxiv.org/abs/2209.14828v1 )

ライセンス: Link先を確認
Edmund J. C. Findlay, Haozheng Zhang, Ziyi Chang and Hubert P. H. Shum(参考訳) デジタル人間のためのリアルな動きを生成するには、多くのグラフィックスアプリケーションに時間がかかる。 データ駆動型モーション合成アプローチは,近年,深い生成モデルを通じて着実に進歩している。 これらの結果は高品質なモーションを提供するが、通常、モーションスタイルの多様性に苦しむ。 そこで本研究では,2つのタスクを1つのパイプラインに統合し,従来の動作合成法と比較してスタイル多様性を増大させる手法として,ddpm(denoising diffusion probabilistic model)を用いた枠組みを提案する。 実験結果から,本システムは高品質で多様な歩行運動を生成できることがわかった。

Generating realistic motions for digital humans is time-consuming for many graphics applications. Data-driven motion synthesis approaches have seen solid progress in recent years through deep generative models. These results offer high-quality motions but typically suffer in motion style diversity. For the first time, we propose a framework using the denoising diffusion probabilistic model (DDPM) to synthesize styled human motions, integrating two tasks into one pipeline with increased style diversity compared with traditional motion synthesis methods. Experimental results show that our system can generate high-quality and diverse walking motions.
翻訳日:2022-09-30 16:01:19 公開日:2022-09-29
# REST: ジェネレーティブアクション認識のためのRetrieveとSelf-Train

REST: REtrieve & Self-Train for generative action recognition ( http://arxiv.org/abs/2209.15000v1 )

ライセンス: Link先を確認
Adrian Bulat and Enrique Sanchez and Brais Martinez and Georgios Tzimiropoulos(参考訳) 本研究は、(アクションクラスラベルではなく)ビデオを記述する自由形式のアクション特有のキャプションを出力とする生成的アクション/ビデオ認識モデルを訓練することである。 生成的アプローチは、よりきめ細かい、人間が読めるアウトプットを生成し、自然にオープンワールドであるといった実用的な利点がある。 そこで本研究では,事前学習した生成視覚言語(v&l)基盤モデルを映像・動作認識に適応させる手法を提案する。 最近、ビデオ/アクションにコントラスト学習(例:クリップ)で訓練されたv&lモデルを最善の知識に適応させる試みがいくつかあったが、私たちはこの目標を生成モデルで達成するための最初の方法を提案する。 まず、アクションクラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。 これを緩和するために、restは2つの重要なコンポーネントからなるトレーニングフレームワークである: 擬似カプセル生成と自己学習によって生成モデルをアクション/ビデオに適応させる教師なしの方法、すなわち、アクション固有のラベルを使わずに、(b)各ビデオの疑似カプセル化の多種多様な集合を発見してモデルを訓練するためのクリップに基づく検索アプローチ。 重要なことは、両コンポーネントが高い精度を得るために必要であることを示している。 我々は,ゼロショット動作認識の問題に対するrestの評価を行い,対照学習に基づく手法と比較して,我々のアプローチが極めて競争力が高いことを示す。 コードは利用可能になる。

This work is on training a generative action/video recognition model whose output is a free-form action-specific caption describing the video (rather than an action class label). A generative approach has practical advantages like producing more fine-grained and human-readable output, and being naturally open-world. To this end, we propose to adapt a pre-trained generative Vision & Language (V&L) Foundation Model for video/action recognition. While recently there have been a few attempts to adapt V&L models trained with contrastive learning (e.g. CLIP) for video/action, to the best of our knowledge, we propose the very first method that sets outs to accomplish this goal for a generative model. We firstly show that direct fine-tuning of a generative model to produce action classes suffers from severe overfitting. To alleviate this, we introduce REST, a training framework consisting of two key components: an unsupervised method for adapting the generative model to action/video by means of pseudo-caption generation and Self-training, i.e. without using any action-specific labels; (b) a Retrieval approach based on CLIP for discovering a diverse set of pseudo-captions for each video to train the model. Importantly, we show that both components are necessary to obtain high accuracy. We evaluate REST on the problem of zero-shot action recognition where we show that our approach is very competitive when compared to contrastive learning-based methods. Code will be made available.
翻訳日:2022-09-30 16:00:50 公開日:2022-09-29
# 拡張型近所注意変圧器

Dilated Neighborhood Attention Transformer ( http://arxiv.org/abs/2209.15001v1 )

ライセンス: Link先を確認
Ali Hassani, Humphrey Shi(参考訳) トランスフォーマーは急速に、モダリティ、ドメイン、タスクにまたがる、最も大きなディープラーニングアーキテクチャの1つになりつつある。 ビジョンでは、現在進行中のプレーントランスフォーマーへの取り組みに加えて、パフォーマンスと既存のフレームワークへの容易な統合のおかげで、階層トランスフォーマーも大きな注目を集めている。 これらのモデルは、通常、スライディングウィンドウ近傍注意 (na) やスウィントランスのシフトウィンドウ自己注意 (shifted window self attention) のような局所的な注意機構を用いる。 自己注意の二次的複雑性の低減に効果があるが、局所的な注意は自己注意の最も望ましい2つの特性、すなわち長距離依存間モデリングとグローバル受容場を弱める。 本稿では,自然でフレキシブルで効率的なNA拡張であるDilated Neighborhood Attention (DiNA)を紹介する。 na の局所的注意力と dina のグローバル的注意力の欠如は相互に補完するものであり,それゆえ dilated neighborhood attention transformer (dinat) を導入する。 DiNATの派生型は、NATやSwinといった注目ベースのベースラインや、現代の畳み込みベースラインであるConvNeXtよりも大幅に改善されている。 当社の大規模モデルは,cocoオブジェクト検出では1.5%,cocoインスタンスセグメンテーションでは1.3%,ade20k意味セグメンテーションでは1.1%,スループットでは1.1%,swinよりも先行しています。 我々は, NAとDiNAの組み合わせが, 本論文で紹介したタスクを超えて, 様々なタスクに力を与える可能性があると考えている。 この方向、ビジョン、そしてそれ以上の研究を支援し、奨励するために、我々のプロジェクトをhttps://github.com/SHI-Labs/Neighborhood-Attention-Transformerでオープンソース化しました。

Transformers are quickly becoming one of the most heavily applied deep learning architectures across modalities, domains, and tasks. In vision, on top of ongoing efforts into plain transformers, hierarchical transformers have also gained significant attention, thanks to their performance and easy integration into existing frameworks. These models typically employ localized attention mechanisms, such as the sliding-window Neighborhood Attention (NA) or Swin Transformer's Shifted Window Self Attention. While effective at reducing self attention's quadratic complexity, local attention weakens two of the most desirable properties of self attention: long range inter-dependency modeling, and global receptive field. In this paper, we introduce Dilated Neighborhood Attention (DiNA), a natural, flexible and efficient extension to NA that can capture more global context and expand receptive fields exponentially at no additional cost. NA's local attention and DiNA's sparse global attention complement each other, and therefore we introduce Dilated Neighborhood Attention Transformer (DiNAT), a new hierarchical vision transformer built upon both. DiNAT variants enjoy significant improvements over attention-based baselines such as NAT and Swin, as well as modern convolutional baseline ConvNeXt. Our Large model is ahead of its Swin counterpart by 1.5% box AP in COCO object detection, 1.3% mask AP in COCO instance segmentation, and 1.1% mIoU in ADE20K semantic segmentation, and faster in throughput. We believe combinations of NA and DiNA have the potential to empower various tasks beyond those presented in this paper. To support and encourage research in this direction, in vision and beyond, we open-source our project at: https://github.com/SHI-Labs/Neighborhood-Attention-Transformer.
翻訳日:2022-09-30 16:00:25 公開日:2022-09-29
# DreamFusion: 2次元拡散を用いたテキストから3D

DreamFusion: Text-to-3D using 2D Diffusion ( http://arxiv.org/abs/2209.14988v1 )

ライセンス: Link先を確認
Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall(参考訳) テキスト-画像合成の最近の進歩は、何十億もの画像-テキストペアで訓練された拡散モデルによって推進されている。 このアプローチを3D合成に適用するには、ラベル付き3Dデータの大規模なデータセットと、3Dデータを識別するための効率的なアーキテクチャが必要です。 本研究では,事前学習した2次元テキストから画像への拡散モデルを用いて,テキストから3次元への合成を行うことにより,これらの制約を回避する。 本稿では,パラメトリック画像生成器の最適化に2次元拡散モデルを用いることが可能な,確率密度蒸留に基づく損失を導入する。 この損失をDeepDreamライクな手法を用いて、ランダムに初期化した3Dモデル(ニューラルレージアンスフィールドまたはNeRF)を勾配降下により最適化し、ランダムな角度からの2Dレンダリングで低損失を得る。 得られたテキストの3dモデルは任意の角度から見ることができ、任意の照明でリライトしたり、任意の3d環境に合成することができる。 提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を示す。

Recent breakthroughs in text-to-image synthesis have been driven by diffusion models trained on billions of image-text pairs. Adapting this approach to 3D synthesis would require large-scale datasets of labeled 3D data and efficient architectures for denoising 3D data, neither of which currently exist. In this work, we circumvent these limitations by using a pretrained 2D text-to-image diffusion model to perform text-to-3D synthesis. We introduce a loss based on probability density distillation that enables the use of a 2D diffusion model as a prior for optimization of a parametric image generator. Using this loss in a DeepDream-like procedure, we optimize a randomly-initialized 3D model (a Neural Radiance Field, or NeRF) via gradient descent such that its 2D renderings from random angles achieve a low loss. The resulting 3D model of the given text can be viewed from any angle, relit by arbitrary illumination, or composited into any 3D environment. Our approach requires no 3D training data and no modifications to the image diffusion model, demonstrating the effectiveness of pretrained image diffusion models as priors.
翻訳日:2022-09-30 15:59:47 公開日:2022-09-29
# B安定性を持つ部分観測可能なRL:統一構造条件とシャープサンプル効率アルゴリズム

Partially Observable RL with B-Stability: Unified Structural Condition and Sharp Sample-Efficient Algorithms ( http://arxiv.org/abs/2209.14990v1 )

ライセンス: Link先を確認
Fan Chen, Yu Bai, Song Mei(参考訳) エージェントがシステムの真の基盤状態に関する部分的情報のみを観察できる部分的可観測性は、Reinforcement Learning (RL)の現実的な応用において、ユビキタスである。 理論的には、部分的可観測性の下での最適に近いポリシーの学習は、指数関数的なサンプルの複雑さにより最悪の場合、難しいことが知られている。 最近の研究では、多項式のサンプルで学習可能ないくつかの扱いやすいサブクラス、例えば部分可観測マルコフ決定プロセス(英語版)(pomdps)を特定している。 しかし,本研究はまだ初期段階であり,(1)サンプル効率の学習が可能な統一的な構造条件が欠如している,(2)既知の抽出可能なサブクラスに対する既存のサンプル複雑度は,十分に観測可能なRLよりも少ない,などの特徴がある。 本稿では, 予測状態表現(PSR)の一般設定における部分観測可能RLの3つの側面について述べる。 まず、自然かつ統一的なPSRの構造条件である「emph{B-stability}」を提案する。 B-stable PSRは、弱いPOMDP、低ランクの将来のPMDP、デオード可能なPOMDP、レギュラーPSRなどの、既知の抽出可能なサブクラスの大部分を含んでいる。 次に,任意のb-stable psrが関連する問題パラメータの多項式サンプルで学習可能であることを示す。 上記のサブクラスでインスタンス化されると、サンプルの複雑さは現在のベストクラスよりも大幅に向上する。 最後に, 最適最大次数推定, 推定対決定, モデルベース最適後サンプリングの3つのアルゴリズムを同時に実現した。 後者の2つのアルゴリズムは、POMDP/PSRのサンプル効率向上のための新しいアルゴリズムである。

Partial Observability -- where agents can only observe partial information about the true underlying state of the system -- is ubiquitous in real-world applications of Reinforcement Learning (RL). Theoretically, learning a near-optimal policy under partial observability is known to be hard in the worst case due to an exponential sample complexity lower bound. Recent work has identified several tractable subclasses that are learnable with polynomial samples, such as Partially Observable Markov Decision Processes (POMDPs) with certain revealing or decodability conditions. However, this line of research is still in its infancy, where (1) unified structural conditions enabling sample-efficient learning are lacking; (2) existing sample complexities for known tractable subclasses are far from sharp; and (3) fewer sample-efficient algorithms are available than in fully observable RL. This paper advances all three aspects above for Partially Observable RL in the general setting of Predictive State Representations (PSRs). First, we propose a natural and unified structural condition for PSRs called \emph{B-stability}. B-stable PSRs encompasses the vast majority of known tractable subclasses such as weakly revealing POMDPs, low-rank future-sufficient POMDPs, decodable POMDPs, and regular PSRs. Next, we show that any B-stable PSR can be learned with polynomial samples in relevant problem parameters. When instantiated in the aforementioned subclasses, our sample complexities improve substantially over the current best ones. Finally, our results are achieved by three algorithms simultaneously: Optimistic Maximum Likelihood Estimation, Estimation-to-Decisions, and Model-Based Optimistic Posterior Sampling. The latter two algorithms are new for sample-efficient learning of POMDPs/PSRs.
翻訳日:2022-09-30 15:59:27 公開日:2022-09-29
# 密集地における固有次元推定:理論的および実験的解析

Intrinsic Dimensionality Estimation within Tight Localities: A Theoretical and Experimental Analysis ( http://arxiv.org/abs/2209.14475v1 )

ライセンス: Link先を確認
Laurent Amsaleg (CNRS-IRISA, France), Oussama Chelly (Amazon Web Services, Munich, Germany), Michael E. Houle (The University of Melbourne, Australia), Ken-ichi Kawarabayashi (National Institute of Informatics, Japan), Milo\v{s} Radovanovi\'c (University of Novi Sad, Serbia), Weeris Treeratanajaru (Bank of Thailand)(参考訳) 内在次元(ID)の正確な推定は、次元減少、外乱検出、類似性探索、サブスペースクラスタリングを含む多くのデータマイニングや機械学習タスクにおいて重要である。 しかし、それらの収束は一般に数百点のオーダーでサンプルサイズ(すなわち近傍サイズ)を必要とするため、既存のid推定手法は、データのサイズが小さい多くの自然群からなるアプリケーションでのみ有用である。 本稿では,20個のサンプル点からなる'tight'の局所性に対しても安定な局所ID推定手法を提案する。 この推定器は、最近発表された固有次元の極値-理論モデルである局所固有次元(LID)に基づいて、サンプル中の任意のペア距離にMLE技術を適用する。 実験結果から,提案手法は,最先端の推定値よりもずっと小さいサンプルサイズで,バイアスレベルを保ちながら,著しくばらつきを低減できることがわかった。

Accurate estimation of Intrinsic Dimensionality (ID) is of crucial importance in many data mining and machine learning tasks, including dimensionality reduction, outlier detection, similarity search and subspace clustering. However, since their convergence generally requires sample sizes (that is, neighborhood sizes) on the order of hundreds of points, existing ID estimation methods may have only limited usefulness for applications in which the data consists of many natural groups of small size. In this paper, we propose a local ID estimation strategy stable even for `tight' localities consisting of as few as 20 sample points. The estimator applies MLE techniques over all available pairwise distances among the members of the sample, based on a recent extreme-value-theoretic model of intrinsic dimensionality, the Local Intrinsic Dimension (LID). Our experimental results show that our proposed estimation technique can achieve notably smaller variance, while maintaining comparable levels of bias, at much smaller sample sizes than state-of-the-art estimators.
翻訳日:2022-09-30 15:52:53 公開日:2022-09-29
# 異種対話生成のための等サイズハードEMアルゴリズム

An Equal-Size Hard EM Algorithm for Diverse Dialogue Generation ( http://arxiv.org/abs/2209.14627v1 )

ライセンス: Link先を確認
Yuqiao Wen, Yongchang Hao, Yanshuai Cao, Lili Mou(参考訳) オープンドメイン対話システムは、自然言語テキストを通じて人間と対話することを目的としている。 しかし、広く成功したニューラルネットワークは、一般的な応答を生成する傾向があるため、対話システムではうまく機能しない。 本研究では,多様な対話生成のためのマルチデコーダモデルをトレーニングするためのEqHard-EMアルゴリズムを提案する。 このアルゴリズムはサンプルをハードな方法でデコーダに割り当て、さらに全てのデコーダが十分に訓練されていることを保証するために等割り当て制約を課す。 我々はアプローチを正当化するために詳細な理論的分析を提供する。 さらに,2つの大規模オープンドメイン対話データセットを用いた実験により,eqhard-emアルゴリズムが高品質な多様な応答を生成することを検証した。

Open-domain dialogue systems aim to interact with humans through natural language texts in an open-ended fashion. However, the widely successful neural networks may not work well for dialogue systems, as they tend to generate generic responses. In this work, we propose an Equal-size Hard Expectation--Maximization (EqHard-EM) algorithm to train a multi-decoder model for diverse dialogue generation. Our algorithm assigns a sample to a decoder in a hard manner and additionally imposes an equal-assignment constraint to ensure that all decoders are well-trained. We provide detailed theoretical analysis to justify our approach. Further, experiments on two large-scale, open-domain dialogue datasets verify that our EqHard-EM algorithm generates high-quality diverse responses.
翻訳日:2022-09-30 15:52:36 公開日:2022-09-29
# 予測の不確実性に対するベイジアンニューラルネットワークとポストキャリブレーション

Bayesian Neural Network Versus Ex-Post Calibration For Prediction Uncertainty ( http://arxiv.org/abs/2209.14594v1 )

ライセンス: Link先を確認
Satya Borgohain, Klaus Ackermann and Ruben Loaiza-Maya(参考訳) 分類中の予測の不確実性を考慮したニューラルネットワークからの確率的予測は、現実的かつ高インパクトな意思決定設定において不可欠である。 しかし、実際には、ほとんどのデータセットは非確率的ニューラルネットワークでトレーニングされている。 この良く知られた問題は、プレートスケーリング(ロジスティック)、等調、ベータキャリブレーションなどのポストホックなキャリブレーション手順の開発につながり、スコアを十分なキャリブレーションされた経験的確率に変換する。 キャリブレーションアプローチの正当な代替手段は、予測分布を直接モデル化するベイジアンニューラルネットワークを使用することである。 画像やテキストデータセットに適用されているが、表や小さなデータ構造では採用が限られている。 本稿では,ベイズニューラルネットワークが校正されたニューラルネットワークと比較して競争性能を向上し,幅広いデータセットで実験を行うことを示す。

Probabilistic predictions from neural networks which account for predictive uncertainty during classification is crucial in many real-world and high-impact decision making settings. However, in practice most datasets are trained on non-probabilistic neural networks which by default do not capture this inherent uncertainty. This well-known problem has led to the development of post-hoc calibration procedures, such as Platt scaling (logistic), isotonic and beta calibration, which transforms the scores into well calibrated empirical probabilities. A plausible alternative to the calibration approach is to use Bayesian neural networks, which directly models a predictive distribution. Although they have been applied to images and text datasets, they have seen limited adoption in the tabular and small data regime. In this paper, we demonstrate that Bayesian neural networks yields competitive performance when compared to calibrated neural networks and conduct experiments across a wide array of datasets.
翻訳日:2022-09-30 15:52:22 公開日:2022-09-29
# カーネルレジームにおける自己監督学習の併用

Joint Embedding Self-Supervised Learning in the Kernel Regime ( http://arxiv.org/abs/2209.14884v1 )

ライセンス: Link先を確認
Bobak T. Kiani, Randall Balestriero, Yubei Chen, Seth Lloyd, Yann LeCun(参考訳) 自己教師付き学習(SSL)の基本的な目標は、データを分類するためのラベルにアクセスすることなく、データの有用な表現を作ることである。 サンプル間の既知のあるいは構築された関係に基づいて表現を形成するSSLの現代的な手法は、このタスクで特に有効である。 本稿では,このフレームワークを拡張して,カーネルの特徴空間に作用する線形写像によって埋め込みが構築されるカーネルメソッドに基づくアルゴリズムを組み込むことを目標とする。 このカーネル・レジームでは、コントラスト的および非矛盾的損失関数の出力表現の最適な形式を求める方法を導出する。 この手順は、核空間の増補によって関連づけられた点と、それ以外の点を非相関化する誘導核として表される内積を持つ新しい表現空間を生成する。 カーネルモデルを小さなデータセットで分析し、自己教師付き学習アルゴリズムの共通特徴を特定し、下流タスクにおける性能に関する理論的洞察を得る。

The fundamental goal of self-supervised learning (SSL) is to produce useful representations of data without access to any labels for classifying the data. Modern methods in SSL, which form representations based on known or constructed relationships between samples, have been particularly effective at this task. Here, we aim to extend this framework to incorporate algorithms based on kernel methods where embeddings are constructed by linear maps acting on the feature space of a kernel. In this kernel regime, we derive methods to find the optimal form of the output representations for contrastive and non-contrastive loss functions. This procedure produces a new representation space with an inner product denoted as the induced kernel which generally correlates points which are related by an augmentation in kernel space and de-correlates points otherwise. We analyze our kernel model on small datasets to identify common features of self-supervised learning algorithms and gain theoretical insights into their performance on downstream tasks.
翻訳日:2022-09-30 15:52:08 公開日:2022-09-29
# 時間を無駄にするな! 最新の体重平均化によるイメージネットとBERTトレーニングの省力化

Stop Wasting My Time! Saving Days of ImageNet and BERT Training with Latest Weight Averaging ( http://arxiv.org/abs/2209.14981v1 )

ライセンス: Link先を確認
Jean Kaddour(参考訳) 大規模なデータセット上でのビジョンや言語モデルのトレーニングには、何日もかかる可能性がある。 WikiText-103 上の ImageNet と RoBERTa-Base モデルで ResNet50 をトレーニングした場合の 最大 68 時間と ~30 GPU 時間に対応するため, 最新のチェックポイントの重量を平均化することにより, 数十 のエポックの損失と精度でトレーニングの進行を高速化できることを示す。 また,結果を再現するためのコードとモデルのチェックポイント軌道を提供し,より高速な収束のために過去の重み付けを再利用する研究を容易にする。

Training vision or language models on large datasets can take days, if not weeks. We show that averaging the weights of the k latest checkpoints, each collected at the end of an epoch, can speed up the training progression in terms of loss and accuracy by dozens of epochs, corresponding to time savings up to ~68 and ~30 GPU hours when training a ResNet50 on ImageNet and RoBERTa-Base model on WikiText-103, respectively. We also provide the code and model checkpoint trajectory to reproduce the results and facilitate research on reusing historical weights for faster convergence.
翻訳日:2022-09-30 15:51:51 公開日:2022-09-29
# Optimistic MLE -- 部分観測可能なシーケンス決定のためのジェネリックモデルベースアルゴリズム

Optimistic MLE -- A Generic Model-based Algorithm for Partially Observable Sequential Decision Making ( http://arxiv.org/abs/2209.14997v1 )

ライセンス: Link先を確認
Qinghua Liu, Praneeth Netrapalli, Csaba Szepesvari, Chi Jin(参考訳) 本稿では,一般的な逐次決定のための簡単な学習アルゴリズムを提案する。 このアルゴリズムは、探索のための最適化とモデル推定のための最大類似度推定を組み合わせる。 我々は,OMLEが多項式数のサンプルにおいて,非常にリッチな逐次決定問題のクラスをほぼ最適に扱うことを証明した。 このリッチクラスには、既知のトラクタブルモデルベースの強化学習(RL)問題の大部分(表型MDP、因子付きMDP、低証人ランク問題、表型弱い展開/観測可能なPOMDP、複数ステップのデオード可能なPOMDPなど)だけでなく、従来はトラクタブルでない部分観測可能な設定において、多くの新しいRL問題も含まれている。 Notably, the new problems addressed by this paper include (1) observable POMDPs with continuous observation and function approximation, where we achieve the first sample complexity that is completely independent of the size of observation space; (2) well-conditioned low-rank sequential decision making problems (also known as Predictive State Representations (PSRs)), which include and generalize all known tractable POMDP examples under a more intrinsic representation; (3) general sequential decision making problems under SAIL condition, which unifies our existing understandings of model-based RL in both fully observable and partially observable settings. 本稿では,ベルマン/ウィットネスランクの自然な一般化として,部分的可観測性に対処するためのセイル条件を考察する。

This paper introduces a simple efficient learning algorithms for general sequential decision making. The algorithm combines Optimism for exploration with Maximum Likelihood Estimation for model estimation, which is thus named OMLE. We prove that OMLE learns the near-optimal policies of an enormously rich class of sequential decision making problems in a polynomial number of samples. This rich class includes not only a majority of known tractable model-based Reinforcement Learning (RL) problems (such as tabular MDPs, factored MDPs, low witness rank problems, tabular weakly-revealing/observable POMDPs and multi-step decodable POMDPs), but also many new challenging RL problems especially in the partially observable setting that were not previously known to be tractable. Notably, the new problems addressed by this paper include (1) observable POMDPs with continuous observation and function approximation, where we achieve the first sample complexity that is completely independent of the size of observation space; (2) well-conditioned low-rank sequential decision making problems (also known as Predictive State Representations (PSRs)), which include and generalize all known tractable POMDP examples under a more intrinsic representation; (3) general sequential decision making problems under SAIL condition, which unifies our existing understandings of model-based RL in both fully observable and partially observable settings. SAIL condition is identified by this paper, which can be viewed as a natural generalization of Bellman/witness rank to address partial observability.
翻訳日:2022-09-30 15:51:36 公開日:2022-09-29
# re-imagen: 検索型テキスト対画像生成器

Re-Imagen: Retrieval-Augmented Text-to-Image Generator ( http://arxiv.org/abs/2209.14491v1 )

ライセンス: Link先を確認
Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen(参考訳) テキスト対画像生成の研究は、大規模画像テキストデータで訓練された拡散と自己回帰モデルによって駆動される、多様でフォトリアリスティックな画像の生成において大きな進歩を遂げている。 最先端のモデルでは、共通実体の高品質な画像を生成することができるが、しばしば「Chortai(犬)」「Picarones(食物)」などの一般的でない物体の画像を生成するのが困難である。 この課題に対処するために,検索した情報を用いて高忠実で忠実な画像を生成するRetrieval-Augmented Text-to-Image Generator (Re-Imagen)を提案する。 テキストプロンプトが与えられると、re-imagenは外部のマルチモーダル知識ベースにアクセスして関連する(画像、テキスト)ペアを取得し、それらを参照として画像を生成する。 この検索ステップにより、Re-Imagenは、上述のエンティティの高レベルなセマンティクスと低レベルな視覚的詳細に関する知識を付加し、エンティティの視覚的外観を生成する精度を向上させる。 我々は,(画像,テキスト,検索)トリプルを含む構築されたデータセットで再画像化を訓練し,モデルにテキストのプロンプトと検索の両方に接地するよう教える。 さらに,テキストと検索条件の分類なし指導をインターリーブし,テキストと検索アライメントのバランスをとるための新しいサンプリング手法を開発した。 Re-ImagenはCOCO(ie, FID = 5.25)とWikiImage(ie, FID = 5.82)の2つの画像生成ベンチマークにおいて、微調整なしで新しいSoTA FID結果を達成する。 モデルの性能をさらに評価するために、EntityDrawBenchを導入する。これは、複数の視覚領域にまたがる頻繁な状態から稀な状態まで、多様なエンティティに対する画像生成を評価する新しいベンチマークである。 EntityDrawBenchでの人間による評価は、Re-Imagenがフォトリアリズムの最高の先行モデルと同等だが、特に少ない頻度のエンティティにおいて、はるかに忠実であることを示している。

Research on text-to-image generation has witnessed significant progress in generating diverse and photo-realistic images, driven by diffusion and auto-regressive models trained on large-scale image-text data. Though state-of-the-art models can generate high-quality images of common entities, they often have difficulty generating images of uncommon entities, such as `Chortai (dog)' or `Picarones (food)'. To tackle this issue, we present the Retrieval-Augmented Text-to-Image Generator (Re-Imagen), a generative model that uses retrieved information to produce high-fidelity and faithful images, even for rare or unseen entities. Given a text prompt, Re-Imagen accesses an external multi-modal knowledge base to retrieve relevant (image, text) pairs, and uses them as references to generate the image. With this retrieval step, Re-Imagen is augmented with the knowledge of high-level semantics and low-level visual details of the mentioned entities, and thus improves its accuracy in generating the entities' visual appearances. We train Re-Imagen on a constructed dataset containing (image, text, retrieval) triples to teach the model to ground on both text prompt and retrieval. Furthermore, we develop a new sampling strategy to interleave the classifier-free guidance for text and retrieval condition to balance the text and retrieval alignment. Re-Imagen achieves new SoTA FID results on two image generation benchmarks, such as COCO (ie, FID = 5.25) and WikiImage (ie, FID = 5.82) without fine-tuning. To further evaluate the capabilities of the model, we introduce EntityDrawBench, a new benchmark that evaluates image generation for diverse entities, from frequent to rare, across multiple visual domains. Human evaluation on EntityDrawBench shows that Re-Imagen performs on par with the best prior models in photo-realism, but with significantly better faithfulness, especially on less frequent entities.
翻訳日:2022-09-30 15:50:56 公開日:2022-09-29
# 識別的特徴抑圧によるニューラルネットワークトレーニングの規則化

Regularizing Neural Network Training via Identity-wise Discriminative Feature Suppression ( http://arxiv.org/abs/2209.14553v1 )

ライセンス: Link先を確認
Avraham Chapman, Lingqiao Liu(参考訳) ディープニューラルネットワークは、強い適合能力を有し、ランダムに割り当てられたクラスラベルであっても、トレーニングエラーの少ないことがよく知られている。 トレーニングサンプルの数が少ない場合やクラスラベルが騒がしい場合、ネットワークはトレーニングエラーを最小限にするために個々のインスタンス特有のパターンを記憶する傾向がある。 これは過剰適合と一般化性能の低下につながる。 本稿では,ネットワークが経験的エラー最小化のためにインスタンス固有のパターンに依存する傾向を抑制することで,対処方法を検討する。 提案手法は, 敵対的学習枠組みに基づいている。 各クラス内のサンプル内の個々のインスタンスを識別するために使用できる機能を抑制する。 これにより、クラス間で識別され、各クラス内で共通する機能のみを使用する分類器が生成される。 我々は,この手法をadversarial suppression of identity features (asif)と呼び,小型データセットやノイズラベルに直面する場合の一般化精度の向上に有用性を示す。 私たちのソースコードは利用可能です。

It is well-known that a deep neural network has a strong fitting capability and can easily achieve a low training error even with randomly assigned class labels. When the number of training samples is small, or the class labels are noisy, networks tend to memorize patterns specific to individual instances to minimize the training error. This leads to the issue of overfitting and poor generalisation performance. This paper explores a remedy by suppressing the network's tendency to rely on instance-specific patterns for empirical error minimisation. The proposed method is based on an adversarial training framework. It suppresses features that can be utilized to identify individual instances among samples within each class. This leads to classifiers only using features that are both discriminative across classes and common within each class. We call our method Adversarial Suppression of Identity Features (ASIF), and demonstrate the usefulness of this technique in boosting generalisation accuracy when faced with small datasets or noisy labels. Our source code is available.
翻訳日:2022-09-30 15:50:15 公開日:2022-09-29
# パラメータプルーニングを用いたデータセット蒸留

Dataset Distillation using Parameter Pruning ( http://arxiv.org/abs/2209.14609v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 高度なモデルの獲得は、多くの分野の大規模データセットに依存しているため、データセットとトレーニングモデルの保存は高価である。 解決策として、データセットの蒸留は、トレーニングされたモデルが元の大きなデータセットと同等に高いパフォーマンスを達成するように、小さなデータセットを合成することができる。 近年,ネットワークパラメータのマッチングによるデータセット蒸留法がいくつかのデータセットに対して有効であることが証明された。 しかし, 蒸留工程におけるいくつかのパラメータは一致しにくいため, 蒸留性能に悪影響を及ぼす。 そこで本研究では,パラメータ・プルーニング(パラメータ・プルーニング)を用いた新しい手法を提案する。 提案手法は, より堅牢な蒸留データセットを合成し, 蒸留プロセスにおいて, 難しいパラメータを抽出することにより蒸留性能を向上させる。 3つのデータセットを用いた実験の結果,提案法が他のsotaデータセット蒸留法よりも優れていた。

The acquisition of advanced models relies on large datasets in many fields, which makes storing datasets and training models expensive. As a solution, dataset distillation can synthesize a small dataset such that models trained on it achieve high performance on par with the original large dataset. The recently proposed dataset distillation method by matching network parameters has been proved effective for several datasets. However, a few parameters in the distillation process are difficult to match, which harms the distillation performance. Based on this observation, this paper proposes a new method to solve the problem using parameter pruning. The proposed method can synthesize more robust distilled datasets and improve the distillation performance by pruning difficult-to-match parameters in the distillation process. Experimental results on three datasets show that the proposed method outperformed other SOTA dataset distillation methods.
翻訳日:2022-09-30 15:49:57 公開日:2022-09-29
# 入射ニューラル表現を用いた連続PDEダイナミクス予測

Continuous PDE Dynamics Forecasting with Implicit Neural Representations ( http://arxiv.org/abs/2209.14855v1 )

ライセンス: Link先を確認
Yuan Yin, Matthieu Kirchmeyer, Jean-Yves Franceschi, Alain Rakotomamonjy, Patrick Gallinari(参考訳) 効果的なデータ駆動PDE予測手法は、しばしば固定空間および/または時間的離散化に依存する。 これにより、任意の時空間でフレキシブルな外挿を必要とする天気予報のような現実世界の応用に制限が生じる。 本研究では,空間連続関数の連続時間力学を用いてPDEの流れをモデル化する新しいデータ駆動型アプローチDINoを導入することで,この問題に対処する。 これは、学習されたODEによって時間的に駆動される小さな潜伏空間に、インプリシットニューラル表現を介して、その離散化とは無関係に空間観察を埋め込むことによって達成される。 この時間と空間の分離された柔軟な扱いにより、DINoは以下の利点を組み合わせた最初のデータ駆動モデルとなる。 任意の空間的および時間的位置から外挿し、不規則なグリッドや多様体から学ぶことができ、テスト時には新しいグリッドや解像度に一般化する。 DINoは、代表的PDEシステムの様々な挑戦的な一般化シナリオにおいて、代替のニューラルPDE予測器より優れている。

Effective data-driven PDE forecasting methods often rely on fixed spatial and / or temporal discretizations. This raises limitations in real-world applications like weather prediction where flexible extrapolation at arbitrary spatiotemporal locations is required. We address this problem by introducing a new data-driven approach, DINo, that models a PDE's flow with continuous-time dynamics of spatially continuous functions. This is achieved by embedding spatial observations independently of their discretization via Implicit Neural Representations in a small latent space temporally driven by a learned ODE. This separate and flexible treatment of time and space makes DINo the first data-driven model to combine the following advantages. It extrapolates at arbitrary spatial and temporal locations; it can learn from sparse irregular grids or manifolds; at test time, it generalizes to new grids or resolutions. DINo outperforms alternative neural PDE forecasters in a variety of challenging generalization scenarios on representative PDE systems.
翻訳日:2022-09-30 15:44:08 公開日:2022-09-29
# マルチタスクMLシステムの非同期・協調拡張のためのマルチエージェントフレームワーク

A Multi-Agent Framework for the Asynchronous and Collaborative Extension of Multitask ML Systems ( http://arxiv.org/abs/2209.14745v1 )

ライセンス: Link先を確認
Andrea Gesmundo(参考訳) 従来のml開発方法論では、個々の目的を持った多数のコントリビュータが、共有インテリジェントシステムの作成と拡張に協力することはできません。 このような共同方法論の導入は、イノベーションの速度を加速し、ML技術のアクセシビリティを高め、新しい能力の出現を可能にする。 これは抽象化境界の定義とmlモデルとメソッドのモジュール化表現によって達成できると考えています。 本稿では,動的大規模マルチタスクインテリジェントシステムの協調的および非同期拡張のためのマルチエージェントフレームワークを提案する。

Tradition ML development methodology does not enable a large number of contributors, each with distinct objectives, to work collectively on the creation and extension of a shared intelligent system. Enabling such a collaborative methodology can accelerate the rate of innovation, increase ML technologies accessibility and enable the emergence of novel capabilities. We believe that this can be achieved through the definition of abstraction boundaries and a modularized representation of ML models and methods. We present a multi-agent framework for collaborative and asynchronous extension of dynamic large-scale multitask intelligent systems.
翻訳日:2022-09-30 15:43:53 公開日:2022-09-29
# 非連続学習における崩壊の理解

Understanding Collapse in Non-Contrastive Learning ( http://arxiv.org/abs/2209.15007v1 )

ライセンス: Link先を確認
Alexander C. Li, Alexei A. Efros, Deepak Pathak(参考訳) 対照的に、自己教師付き表現学習(SSL)の性能は近年急上昇している。 byolやsimsiamのような最近の手法は、これらの対照的な方法を本質的に蒸留し、ダウンストリームのパフォーマンスに寄与しない、否定的な例を含むベルやホイッスルを取り除く。 これらの「非矛盾的」な手法は、大域的な最小値が自明な崩壊にあるにもかかわらず、負を使わずに驚くほどうまく機能する。 その結果,SimSiamはデータセットやモデルサイズに非常に敏感であることがわかった。 特に、SimSiam表現は、モデルがデータセットサイズに対して小さすぎる場合、部分次元の崩壊を受ける。 我々は,この崩壊の程度を計測する指標を提案し,微調整やラベルを使わずに下流タスクのパフォーマンスを予測できることを示す。 さらに、アーキテクチャ設計の選択とその下流性能への影響を分析する。 最後に,連続学習環境へのシフトがレギュラライザとして機能し,崩壊を防止することを実証し,連続学習と複数時間トレーニングのハイブリッドにより,imagenet上のresnet-18を用いて,リニアプローブ精度を最大18ポイント向上できることを示した。

Contrastive methods have led a recent surge in the performance of self-supervised representation learning (SSL). Recent methods like BYOL or SimSiam purportedly distill these contrastive methods down to their essence, removing bells and whistles, including the negative examples, that do not contribute to downstream performance. These "non-contrastive" methods work surprisingly well without using negatives even though the global minimum lies at trivial collapse. We empirically analyze these non-contrastive methods and find that SimSiam is extraordinarily sensitive to dataset and model size. In particular, SimSiam representations undergo partial dimensional collapse if the model is too small relative to the dataset size. We propose a metric to measure the degree of this collapse and show that it can be used to forecast the downstream task performance without any fine-tuning or labels. We further analyze architectural design choices and their effect on the downstream performance. Finally, we demonstrate that shifting to a continual learning setting acts as a regularizer and prevents collapse, and a hybrid between continual and multi-epoch training can improve linear probe accuracy by as many as 18 percentage points using ResNet-18 on ImageNet.
翻訳日:2022-09-30 15:43:45 公開日:2022-09-29
# 半構造化数学的推論のためのポリシー勾配による動的プロンプト学習

Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning ( http://arxiv.org/abs/2209.14610v1 )

ライセンス: Link先を確認
Pan Lu, Liang Qiu, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Tanmay Rajpurohit, Peter Clark, Ashwin Kalyan(参考訳) ヒューマンインテリジェンスの中核的な能力である数学的推論は抽象的思考と論理的推論において機械に固有の課題を提示している。 GPT-3のような最近の大規模事前学習言語モデルは、数学語問題(MWP)のようなテキスト形式で書かれた数学的推論タスクにおいて顕著な進歩を遂げている。 しかし、このモデルが表型データのような異種情報に対する数学推論を含むより複雑な問題に対処できるかどうかは不明である。 このギャップを埋めるために、テキストデータと表データの両方で数学的推論を必要とする38,431のオープンドメイングレードレベルの問題を含む新しいデータセットTabular Math Word Problems (TabMWP)を提案する。 TabMWPの各質問は、画像、半構造化テキスト、構造化テーブルとして表される表のコンテキストで整列される。 free-text と multi-choice の2種類の質問があり、各問題は多段階推論プロセスを明らかにするために gold solutions でアノテートされる。 我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。 以前の研究で示唆されたように、GPT-3は文脈内サンプルの選択に頼っているため、その性能は不安定であり、ほぼ偶然に劣化する可能性がある。 TabMWPのような複雑な問題を扱う場合、不安定な問題はより深刻である。 これを軽減するために,ポリシー勾配を利用して少量のトレーニングデータからコンテキスト内サンプルを抽出し,テスト例に対応するプロンプトを構築する,新しいアプローチであるPromptPGを提案する。 実験の結果,本手法は最適ベースラインを5.31%精度で上回り,確率的選択に比べて予測ばらつきを有意に低減し,文脈内サンプルの選定において有効性を検証した。

Mathematical reasoning, a core ability of human intelligence, presents unique challenges for machines in abstract thinking and logical reasoning. Recent large pre-trained language models such as GPT-3 have achieved remarkable progress on mathematical reasoning tasks written in text form, such as math word problems (MWP). However, it is unknown if the models can handle more complex problems that involve math reasoning over heterogeneous information, such as tabular data. To fill the gap, we present Tabular Math Word Problems (TabMWP), a new dataset containing 38,431 open-domain grade-level problems that require mathematical reasoning on both textual and tabular data. Each question in TabMWP is aligned with a tabular context, which is presented as an image, semi-structured text, and a structured table. There are two types of questions: free-text and multi-choice, and each problem is annotated with gold solutions to reveal the multi-step reasoning process. We evaluate different pre-trained models on TabMWP, including the GPT-3 model in a few-shot setting. As earlier studies suggest, since few-shot GPT-3 relies on the selection of in-context examples, its performance is unstable and can degrade to near chance. The unstable issue is more severe when handling complex problems like TabMWP. To mitigate this, we further propose a novel approach, PromptPG, which utilizes policy gradient to learn to select in-context examples from a small amount of training data and then constructs the corresponding prompt for the test example. Experimental results show that our method outperforms the best baseline by 5.31% on the accuracy metric and reduces the prediction variance significantly compared to random selection, which verifies its effectiveness in the selection of in-context examples.
翻訳日:2022-09-30 15:43:25 公開日:2022-09-29
# 一般雑音逆問題に対する拡散後方サンプリング

Diffusion Posterior Sampling for General Noisy Inverse Problems ( http://arxiv.org/abs/2209.14687v1 )

ライセンス: Link先を確認
Hyungjin Chung, Jeongsol Kim, Michael T. Mccann, Marc L. Klasky, Jong Chul Ye(参考訳) 拡散モデルは最近、高品質な再構成と既存の反復解法を組み合わせることの容易さから、強力な逆問題解法として研究されている。 しかし、ほとんどの研究はノイズのない環境で単純な線形逆問題を解決することに重点を置いている。 本研究では,拡散解法を拡張し,後方サンプリングのラプラス近似を用いて一般雑音(非線形逆問題)を効率的に処理する。 興味深いことに、得られた後続サンプリング方式は、厳密な測定整合性予測ステップを伴わずに、多様体拘束勾配の拡散サンプリングのブレンド版であり、以前の研究と比べてノイズの多い設定でより望ましい生成経路が得られる。 拡散モデルではガウシアンやポアソンのような様々な計測ノイズ統計を組み込むことができ、フーリエ位相探索や不均一な振れといった非線形逆問題も効率的に処理できることを示す。

Diffusion models have been recently studied as powerful generative inverse problem solvers, owing to their high quality reconstructions and the ease of combining existing iterative solvers. However, most works focus on solving simple linear inverse problems in noiseless settings, which significantly under-represents the complexity of real-world problems. In this work, we extend diffusion solvers to efficiently handle general noisy (non)linear inverse problems via the Laplace approximation of the posterior sampling. Interestingly, the resulting posterior sampling scheme is a blended version of diffusion sampling with the manifold constrained gradient without a strict measurement consistency projection step, yielding a more desirable generative path in noisy settings compared to the previous studies. Our method demonstrates that diffusion models can incorporate various measurement noise statistics such as Gaussian and Poisson, and also efficiently handle noisy nonlinear inverse problems such as Fourier phase retrieval and non-uniform deblurring.
翻訳日:2022-09-30 15:42:41 公開日:2022-09-29
# 潜在拡散モデルによる創作絵画

Creative Painting with Latent Diffusion Models ( http://arxiv.org/abs/2209.14697v1 )

ライセンス: Link先を確認
Xianchao Wu(参考訳) 近年、芸術絵画は数百種類のGANを応用して大きな進歩を遂げている。 しかし、敵対的な訓練は不安定でモードが崩壊する可能性があると報告されている。 近年,拡散モデルが逆訓練なしでganレベルのサンプル品質を達成している。 オートエンコーダが圧縮された潜在空間に元の画像を投影し、クロス注意がu-netを拡散のバックボーンとして拡張することで、潜在拡散モデルは安定して高い不妊像生成を達成している。 本稿では,現在潜伏拡散モデルにおける2つの方向,テキスト条件拡張とWikiartデータセットによるモデル再構成の創造的描画能力の向上に焦点をあてる。 テキスト条件拡張により、ユーザの入力プロンプトは時間的および空間的方向に拡張され、プロンプトの理解と説明が深まる。 Wikiartのデータセットには、最近400年間に1000人以上の有名アーティストによって描かれた80万点の有名なアートワークが含まれている。 再訓練を通じて、これらのアーティストに現代トピックに関する斬新で創造的な絵を描くよう依頼することができる。

Artistic painting has achieved significant progress during recent years by applying hundreds of GAN variants. However, adversarial training has been reported to be notoriously unstable and can lead to mode collapse. Recently, diffusion models have achieved GAN-level sample quality without adversarial training. Using autoencoders to project the original images into compressed latent spaces and cross attention enhanced U-Net as the backbone of diffusion, latent diffusion models have achieved stable and high fertility image generation. In this paper, we focus on enhancing the creative painting ability of current latent diffusion models in two directions, textual condition extension and model retraining with Wikiart dataset. Through textual condition extension, users' input prompts are expanded in temporal and spacial directions for deeper understanding and explaining the prompts. Wikiart dataset contains 80K famous artworks drawn during recent 400 years by more than 1,000 famous artists in rich styles and genres. Through the retraining, we are able to ask these artists to draw novel and creative painting on modern topics.
翻訳日:2022-09-30 15:42:25 公開日:2022-09-29
# バッチ正規化の説明

Batch Normalization Explained ( http://arxiv.org/abs/2209.14778v1 )

ライセンス: Link先を確認
Randall Balestriero, Richard G. Baraniuk(参考訳) 現代のディープネットワーク(DN)において重要でユビキタスでありながら理解されていない要素はバッチ正規化(BN)である。 これまで、BNがDN学習と推論のパフォーマンスを向上する理由を理解できたのは限られた進歩に過ぎない。 本稿では、BNを関数近似の観点から理論的に研究し、今日の最先端DNのほとんどが連続的な断片的アフィン(CPA)スプラインであり、入力空間(いわゆる「線形領域」)の分割上に定義されたアフィンマッピングを用いて、予測器とトレーニングデータに適合する。 BNは、DNの重みや勾配に基づく学習とは独立して、DNのスプラインパーティションの幾何学をデータに適合させる教師なしの学習技術であることを示す。 BNはDN学習のパフォーマンスを高める"スマート初期化"を提供する。これは、ランダムな重み付けで初期化されたDNでさえ、スプラインパーティションをデータと整合させるためである。 また,ミニバッチ間のBN統計量の変動は,分割境界と分類問題に対する決定境界に,ドロップアウトのようなランダムな摂動をもたらすことを示した。 このミニバッチ摂動はオーバーフィッティングを減少させ、トレーニングサンプルと決定境界との間のマージンを増加させることで一般化を改善する。

A critically important, ubiquitous, and yet poorly understood ingredient in modern deep networks (DNs) is batch normalization (BN), which centers and normalizes the feature maps. To date, only limited progress has been made understanding why BN boosts DN learning and inference performance; work has focused exclusively on showing that BN smooths a DN's loss landscape. In this paper, we study BN theoretically from the perspective of function approximation; we exploit the fact that most of today's state-of-the-art DNs are continuous piecewise affine (CPA) splines that fit a predictor to the training data via affine mappings defined over a partition of the input space (the so-called "linear regions"). {\em We demonstrate that BN is an unsupervised learning technique that -- independent of the DN's weights or gradient-based learning -- adapts the geometry of a DN's spline partition to match the data.} BN provides a "smart initialization" that boosts the performance of DN learning, because it adapts even a DN initialized with random weights to align its spline partition with the data. We also show that the variation of BN statistics between mini-batches introduces a dropout-like random perturbation to the partition boundaries and hence the decision boundary for classification problems. This per mini-batch perturbation reduces overfitting and improves generalization by increasing the margin between the training samples and the decision boundary.
翻訳日:2022-09-30 15:42:07 公開日:2022-09-29
# 不変因果特徴をもつ世界モデルのコントラスト的教師なし学習

Contrastive Unsupervised Learning of World Model with Invariant Causal Features ( http://arxiv.org/abs/2209.14932v1 )

ライセンス: Link先を確認
Rudra P.K. Poudel, Harit Pandya, Roberto Cipolla(参考訳) 本稿では,非分散原理を用いて因果的特徴を学習する世界モデルを提案する。 特に、非教師なし学習を用いて不変因果関係の特徴を学習し、無関係な部分や観察スタイルの増大にまたがる不変性を強制する。 世界モデルに基づく強化学習手法は、表現学習とポリシーを独立に最適化する。 これにより、表現学習モジュールへの監視信号の欠如により、逆損失実装が崩壊する。 本稿では,この問題を軽減するための介入不変な補助タスクを提案する。 具体的には、奥行き予測を用いて、分散を明示的に強制し、RGB観測空間のスタイル介入としてデータ拡張を利用する。 我々の設計は教師なし表現学習を利用して不変因果的特徴を持つ世界モデルを学ぶ。 提案手法は,iGibsonデータセット上の分布外ナビゲーションタスクにおいて,現状のモデルベースおよびモデルフリー強化学習法を著しく上回っている。 さらに,提案モデルは知覚学習モジュールのsim-to-real転送に優れている。 最後に、DeepMindコントロールスイートに対する我々のアプローチを評価し、深さが利用できないため、暗黙的に不変性を強制する。 それでも,提案手法は最先端のモデルと同等である。

In this paper we present a world model, which learns causal features using the invariance principle. In particular, we use contrastive unsupervised learning to learn the invariant causal features, which enforces invariance across augmentations of irrelevant parts or styles of the observation. The world-model-based reinforcement learning methods independently optimize representation learning and the policy. Thus naive contrastive loss implementation collapses due to a lack of supervisory signals to the representation learning module. We propose an intervention invariant auxiliary task to mitigate this issue. Specifically, we utilize depth prediction to explicitly enforce the invariance and use data augmentation as style intervention on the RGB observation space. Our design leverages unsupervised representation learning to learn the world model with invariant causal features. Our proposed method significantly outperforms current state-of-the-art model-based and model-free reinforcement learning methods on out-of-distribution point navigation tasks on the iGibson dataset. Moreover, our proposed model excels at the sim-to-real transfer of our perception learning module. Finally, we evaluate our approach on the DeepMind control suite and enforce invariance only implicitly since depth is not available. Nevertheless, our proposed model performs on par with the state-of-the-art counterpart.
翻訳日:2022-09-30 15:41:40 公開日:2022-09-29
# 組織病理画像合成のための形態素焦点拡散確率モデル

A Morphology Focused Diffusion Probabilistic Model for Synthesis of Histopathology Images ( http://arxiv.org/abs/2209.13167v2 )

ライセンス: Link先を確認
Puria Azadi Moghadam, Sanne Van Dalen, Karina C. Martin, Jochen Lennerz, Stephen Yip, Hossein Farahani, Ali Bashashati(参考訳) 病理学者による疾患組織の顕微鏡的研究は、1世紀以上にわたって癌診断と予後の基盤となっている。 近年,組織画像の解析と分類において,深層学習法が大きな進歩を遂げている。 しかし, 病理組織像の生成にはそのようなモデルの有用性が限られている。 これらの合成画像は、教育、熟練度テスト、プライバシー、データ共有など、病理学にいくつかの応用がある。 近年,高画質画像を生成するために拡散確率モデルが導入された。 そこで本研究では,脳腫瘍の高品位組織病理像を合成するために,形態的重み付けと色彩正規化を優先したモデルの利用の可能性について初めて検討した。 以上の結果から,拡散確率モデルでは幅広い病理像の合成が可能であり,生成的対向ネットワークよりも優れた性能を有することが示された。

Visual microscopic study of diseased tissue by pathologists has been the cornerstone for cancer diagnosis and prognostication for more than a century. Recently, deep learning methods have made significant advances in the analysis and classification of tissue images. However, there has been limited work on the utility of such models in generating histopathology images. These synthetic images have several applications in pathology including utilities in education, proficiency testing, privacy, and data sharing. Recently, diffusion probabilistic models were introduced to generate high quality images. Here, for the first time, we investigate the potential use of such models along with prioritized morphology weighting and color normalization to synthesize high quality histopathology images of brain cancer. Our detailed results show that diffusion probabilistic models are capable of synthesizing a wide range of histopathology images and have superior performance compared to generative adversarial networks.
翻訳日:2022-09-30 13:30:54 公開日:2022-09-29
# 単一画像超解像のためのマルチスケール注意ネットワーク

Multi-scale Attention Network for Single Image Super-Resolution ( http://arxiv.org/abs/2209.14145v2 )

ライセンス: Link先を確認
Yan Wang, Yusen Li, Gang Wang, and Xiaoguang Liu(参考訳) カーネルの大規模な分解とアテンション機構を活用することで、畳み込みニューラルネットワーク(CNN)は多くのハイレベルコンピュータビジョンタスクにおいてトランスフォーマーベースの手法と競合することができる。 しかし、長距離モデリングの利点により、自己注意型変圧器は依然として超解像度タスクを含む低レベルの視界を支配している。 本稿では、畳み込みSRネットワークの性能向上を図るため、MLKAとGSAUからなるCNNベースのマルチスケールアテンションネットワーク(MAN)を提案する。 mlka内では、lkaを多スケールおよびゲートスキームで修正し、様々な粒度レベルで豊富な注意マップを取得することにより、グローバルおよびローカル情報を統合し、潜在的なブロッキングアーティファクトを回避する。 GSAUでは、不要な線形層を除去し、情報的空間文脈を集約するためにゲート機構と空間的注意を統合する。 設計の有効性を確認するため,MLKAとGSAUの異なる数のMLKAとGSAUを単純に積み重ねることで,MANを複数の複雑度で評価する。 実験結果から,我々のMANは,最先端の性能と計算とのトレードオフを様々に達成できることが示された。 コードはhttps://github.com/icandle/man.comから利用できる。

By exploiting large kernel decomposition and attention mechanisms, convolutional neural networks (CNN) can compete with transformer-based methods in many high-level computer vision tasks. However, due to the advantage of long-range modeling, the transformers with self-attention still dominate the low-level vision, including the super-resolution task. In this paper, we propose a CNN-based multi-scale attention network (MAN), which consists of multi-scale large kernel attention (MLKA) and a gated spatial attention unit (GSAU), to improve the performance of convolutional SR networks. Within our MLKA, we rectify LKA with multi-scale and gate schemes to obtain the abundant attention map at various granularity levels, therefore jointly aggregating global and local information and avoiding the potential blocking artifacts. In GSAU, we integrate gate mechanism and spatial attention to remove the unnecessary linear layer and aggregate informative spatial context. To confirm the effectiveness of our designs, we evaluate MAN with multiple complexities by simply stacking different numbers of MLKA and GSAU. Experimental results illustrate that our MAN can achieve varied trade-offs between state-of-the-art performance and computations. Code is available at https://github.com/icandle/MAN.
翻訳日:2022-09-30 13:30:41 公開日:2022-09-29
# DVGAN:時間領域重力波物理のための安定化ワッサースタインGANトレーニング

DVGAN: Stabilize Wasserstein GAN training for time-domain Gravitational Wave physics ( http://arxiv.org/abs/2209.13592v2 )

ライセンス: Link先を確認
Tom Dooney, Stefano Bromuri, Lyana Curier(参考訳) 重力波(GW)検出器環境の時間領域観測をシミュレーションすることで、GW源の理解を深め、GW信号検出のためのデータセットを増強し、検出器のノイズを特徴づけるのに役立つ。 本稿では,dvganと呼ばれる3人のワッサースタイン生成敵ネットワーク(wgan)を用いて,入力信号の導関数を識別する補助識別器を含む固定長時間領域信号をシミュレートする新しい手法を提案する。 補助派生判別器からの敵意フィードバックを含む効果をバニラ2プレイヤーwganと比較するためにアブレーション研究が用いられる。 導関数の識別は1次元連続信号におけるgan成分の学習を学習中に安定化させる。 これにより、実際のサンプルと区別しにくいよりスムーズな生成信号が得られ、トレーニングデータの分布をよりよく把握できる。 DVGANはまた、高度なLIGO GW検出器で捕捉された実際の過渡的なノイズイベントをシミュレートするためにも用いられる。

Simulating time-domain observations of gravitational wave (GW) detector environments will allow for a better understanding of GW sources, augment datasets for GW signal detection and help in characterizing the noise of the detectors, leading to better physics. This paper presents a novel approach to simulating fixed-length time-domain signals using a three-player Wasserstein Generative Adversarial Network (WGAN), called DVGAN, that includes an auxiliary discriminator that discriminates on the derivatives of input signals. An ablation study is used to compare the effects of including adversarial feedback from an auxiliary derivative discriminator with a vanilla two-player WGAN. We show that discriminating on derivatives can stabilize the learning of GAN components on 1D continuous signals during their training phase. This results in smoother generated signals that are less distinguishable from real samples and better capture the distributions of the training data. DVGAN is also used to simulate real transient noise events captured in the advanced LIGO GW detector.
翻訳日:2022-09-30 13:30:18 公開日:2022-09-29
# DAMO-NLP at NLPCC-2022 Task 2: Knowledge Enhanced Robust NER for Speech Entity Linking

DAMO-NLP at NLPCC-2022 Task 2: Knowledge Enhanced Robust NER for Speech Entity Linking ( http://arxiv.org/abs/2209.13187v2 )

ライセンス: Link先を確認
Shen Huang, Yuchen Zhai, Xinwei Long, Yong Jiang, Xiaobin Wang, Yin Zhang and Pengjun Xie(参考訳) Speech Entity Linkingは、音声言語で名前付きエンティティを認識し、曖昧にすることを目的としている。 従来の方法は、asrシステムによって生成された音声スタイルやノイズの多い書き起こしにひどく苦しむ。 本稿では,知識強化型エンティティ認識(kener)と呼ばれる新しい手法を提案する。エンティティ認識段階に適切な知識を無痛に取り入れ,エンティティリンク全体の性能を向上させることにより,堅牢性を向上させることに焦点を当てる。 KENERはまず、言及なしの文の候補エンティティを検索し、その後、エンティティ記述を追加情報として利用して、参照を認識する。 密集した検索モジュールによって検索される候補エンティティは、入力が短い場合やうるさい場合には特に有用である。 さらに,認識段階と曖昧段階の両方において,検索対象の質を向上させるために,様々なデータサンプリング戦略と効果的な損失関数について検討する。 最後に、フィルタリングモジュールとのリンクが最終セーフガードとして適用され、間違った認識された言及をフィルタリングすることができる。 NLPCC-2022共有タスク2のトラック2におけるトラック1とトラック2の1位を達成した。

Speech Entity Linking aims to recognize and disambiguate named entities in spoken languages. Conventional methods suffer gravely from the unfettered speech styles and the noisy transcripts generated by ASR systems. In this paper, we propose a novel approach called Knowledge Enhanced Named Entity Recognition (KENER), which focuses on improving robustness through painlessly incorporating proper knowledge in the entity recognition stage and thus improving the overall performance of entity linking. KENER first retrieves candidate entities for a sentence without mentions, and then utilizes the entity descriptions as extra information to help recognize mentions. The candidate entities retrieved by a dense retrieval module are especially useful when the input is short or noisy. Moreover, we investigate various data sampling strategies and design effective loss functions, in order to improve the quality of retrieved entities in both recognition and disambiguation stages. Lastly, a linking with filtering module is applied as the final safeguard, making it possible to filter out wrongly-recognized mentions. Our system achieves 1st place in Track 1 and 2nd place in Track 2 of NLPCC-2022 Shared Task 2.
翻訳日:2022-09-30 13:26:53 公開日:2022-09-29
# サブワードtf-idfを用いた多言語探索

Multilingual Search with Subword TF-IDF ( http://arxiv.org/abs/2209.14281v2 )

ライセンス: Link先を確認
Artit Wangperawong(参考訳) 多言語検索はサブワードトークン化によって実現できる。 従来のTF-IDFアプローチの精度は、手作業によるトークン化や停止語、スリーミングルールに依存するが、サブワードTF-IDF(STF-IDF)はそのようなヒューリスティックを伴わずに高い精度を提供することができる。 さらに、サブワードトークン化モデルのトレーニングの一部として、本質的に多言語サポートを組み込むこともできる。 XQuAD評価は、STF-IDFの利点を証明している: 優れた情報検索精度は英語で85.4%、他の10言語で80%以上である。 これらの結果を再現するソフトウェアはText2Textの一部としてオープンソース化されている。

Multilingual search can be achieved with subword tokenization. The accuracy of traditional TF-IDF approaches depend on manually curated tokenization, stop words and stemming rules, whereas subword TF-IDF (STF-IDF) can offer higher accuracy without such heuristics. Moreover, multilingual support can be incorporated inherently as part of the subword tokenization model training. XQuAD evaluation demonstrates the advantages of STF-IDF: superior information retrieval accuracy of 85.4% for English and over 80% for 10 other languages without any heuristics-based preprocessing. The software to reproduce these results are open-sourced as a part of Text2Text: https://github.com/artitw/text2text
翻訳日:2022-09-30 13:26:36 公開日:2022-09-29
# 階層スライスワッサースタイン距離

Hierarchical Sliced Wasserstein Distance ( http://arxiv.org/abs/2209.13570v3 )

ライセンス: Link先を確認
Khai Nguyen and Tongzheng Ren and Huy Nguyen and Litu Rout and Tan Nguyen and Nhat Ho(参考訳) Sliced Wasserstein (SW) 距離は、次元の呪いに悩まされることなく、多数のサポートにスケールできるため、さまざまなアプリケーションシナリオで広く使用されている。 スライスされたワッサーシュタイン距離の値は、ラドン変換(RT)によって得られる原測度の1次元表現(投影)の間の輸送コストの平均である。 サポートの数で効率が良いにもかかわらず、スライスされたwasersteinの推定には、高次元の設定で比較的多くの投影が必要となる。 したがって、ミニバッチアプローチを利用するいくつかのディープラーニングアプリケーションのような次元と比較してサポート数が比較的小さいアプリケーションでは、Randon Transformの行列乗算による複雑さが主な計算ボトルネックとなる。 この問題に対処するために、ボトルネック投影と呼ばれる少数の投影を線形かつランダムに組み合わせることで、投影を導出することを提案する。 本稿では, 階層型ラドン変換 (HRT) を導入し, 再帰的にラドン変換の変種を適用した。 次にこのアプローチを,階層的スライスドワッサースタイン距離(hsw)と呼ばれる測度間の新しい計量に定式化する。 HRTのインジェクティビティを証明することにより、HSWの計量性を導出する。 さらに, HSW の SW 変種への接続や, 計算およびサンプルの複雑度などの理論的性質について検討する。 最後に,cifar10,celeba,tiny imagenetなどのベンチマークデータセットを用いた深部生成モデリングのタスクにおいて,hswの計算コストと生成品質を比較した。

Sliced Wasserstein (SW) distance has been widely used in different application scenarios since it can be scaled to a large number of supports without suffering from the curse of dimensionality. The value of sliced Wasserstein distance is the average of transportation cost between one-dimensional representations (projections) of original measures that are obtained by Radon Transform (RT). Despite its efficiency in the number of supports, estimating the sliced Wasserstein requires a relatively large number of projections in high-dimensional settings. Therefore, for applications where the number of supports is relatively small compared with the dimension, e.g., several deep learning applications where the mini-batch approaches are utilized, the complexities from matrix multiplication of Radon Transform become the main computational bottleneck. To address this issue, we propose to derive projections by linearly and randomly combining a smaller number of projections which are named bottleneck projections. We explain the usage of these projections by introducing Hierarchical Radon Transform (HRT) which is constructed by applying Radon Transform variants recursively. We then formulate the approach into a new metric between measures, named Hierarchical Sliced Wasserstein (HSW) distance. By proving the injectivity of HRT, we derive the metricity of HSW. Moreover, we investigate the theoretical properties of HSW including its connection to SW variants and its computational and sample complexities. Finally, we compare the computational cost and generative quality of HSW with the conventional SW on the task of deep generative modeling using various benchmark datasets including CIFAR10, CelebA, and Tiny ImageNet.
翻訳日:2022-09-30 13:25:45 公開日:2022-09-29
# 因果効果推定における外挿前の偽造

Falsification before Extrapolation in Causal Effect Estimation ( http://arxiv.org/abs/2209.13708v2 )

ライセンス: Link先を確認
Zeshan Hussain, Michael Oberst, Ming-Chieh Shih, David Sontag(参考訳) ランダム化対照試験(rcts)は、政策ガイドラインを作成する際の金本位制である。 しかし、RTTは狭いことが多く、より広い関心の人口のデータがない。 これらの集団における因果効果は、観察的データセットを用いてしばしば推定される。 観測的推定(例えば、複数の研究から)が与えられた場合、偏見のある観測的推定を拒否しようとするメタアルゴリズムを提案する。 rctと観測データの両方から推測可能な検証効果と因果効果を用いて,検証を行う。 このテストに合格しない推定子を拒絶した後、rctで観測されない部分群に対する外挿因果効果に対する保守的信頼区間を生成する。 少なくとも1つの観測推定器が漸近的に正常であり、検証効果と外挿効果の両方に一貫性があるという仮定の下で、本アルゴリズムが出力する間隔のカバレッジ確率の保証を提供する。 データセット間の因果効果伝達が必要な環境での仮説検証を容易にするため、フレキシブルな機械学習手法を用いて迷惑パラメータの推定を行う場合でも、グループ平均治療効果の二重ロバスト推定器が漸近的に正常である条件を与える。 半合成と実世界のデータセットに対する我々のアプローチの性質を説明し、標準のメタ分析技術と比較する。

Randomized Controlled Trials (RCTs) represent a gold standard when developing policy guidelines. However, RCTs are often narrow, and lack data on broader populations of interest. Causal effects in these populations are often estimated using observational datasets, which may suffer from unobserved confounding and selection bias. Given a set of observational estimates (e.g. from multiple studies), we propose a meta-algorithm that attempts to reject observational estimates that are biased. We do so using validation effects, causal effects that can be inferred from both RCT and observational data. After rejecting estimators that do not pass this test, we generate conservative confidence intervals on the extrapolated causal effects for subgroups not observed in the RCT. Under the assumption that at least one observational estimator is asymptotically normal and consistent for both the validation and extrapolated effects, we provide guarantees on the coverage probability of the intervals output by our algorithm. To facilitate hypothesis testing in settings where causal effect transportation across datasets is necessary, we give conditions under which a doubly-robust estimator of group average treatment effects is asymptotically normal, even when flexible machine learning methods are used for estimation of nuisance parameters. We illustrate the properties of our approach on semi-synthetic and real world datasets, and show that it compares favorably to standard meta-analysis techniques.
翻訳日:2022-09-30 13:25:21 公開日:2022-09-29