このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220504となっている論文です。

PDF登録状況(公開日: 20220504)

TitleAuthorsAbstract論文公表日・翻訳日
# 多ビット対称純状態における三部量子相関の測定

Measure of tripartite quantum correlation in multiqubit symmetric pure state ( http://arxiv.org/abs/2004.03358v2 )

ライセンス: Link先を確認
Ram Narayan Deb(参考訳) 我々は、N相関2レベル原子(量子ビット)の任意の対称純状態における三部分量子相関の直接測度を提案する。 我々は、集合中の原子の個々の原子演算子の観点から、集合擬スピン作用素の3次モーメントを計算し、原子間の全ての二部量子相関項が、それらの中の全ての可能な三部量子相関項だけを残して取り消されることを発見する。 3次モーメントは原子間の三成分量子相関のみからなることが観察された。 これにより、N原子間の三部量子相関のみを抽出し、これらの相関の測度と量子化を提案する。 また,このような多原子系において三成分量子相関が存在するための必要十分条件を提案する。 我々は,集合中の2レベル原子の擬スピン作用素の3次モーメントを決定する方法を実験的に推測する。

We propose a direct measure of tripartite quantum correlation in an arbitrary symmetric pure state of N correlated two-level atoms (qubits). We compute the third order moments of the collective pseudo-spin operators in terms of the individual atomic operators of the atoms in the assembly and find that all the bipartite quantum correlation terms among the atoms cancel out leaving only the all possible tripartite quantum correlation terms among them. We observe that the third order moments are made up of solely the tripartite quantum correlations among the atoms. This helps to extract out only the tripartite quantum correlations among the N atoms and propose a measure and quantification of these correlations. We also propose the necessary and sufficient condition for the presence of tripartite quantum correlation in such multi-atomic systems. We conjecture the way of determining the third order moments of the pseudo-spin operators of the two-level atoms in the assembly, experimentally.
翻訳日:2023-05-26 10:51:30 公開日:2022-05-04
# イメージ、感情、信頼度:ソーシャルメディアにおける感情的顔画像がニュースコンテンツバイアスの知覚と情報源信頼度に及ぼす影響

Images, Emotions, and Credibility: Effect of Emotional Facial Images on Perceptions of News Content Bias and Source Credibility in Social Media ( http://arxiv.org/abs/2102.13167v2 )

ライセンス: Link先を確認
Alireza Karduni, Ryan Wesslen, Douglas Markant, Wenwen Dou(参考訳) 画像はわれわれが消費するニュースコンテンツの不可欠な部分だ。 誤情報源からの感情的なイメージは、我々の判断に大きな影響を与える。 本研究では,感情的顔画像がニュースコンテンツのバイアス知覚と情報源の信頼性に及ぼす影響について2つの研究を行った。 研究1では、幸福感と怒りの表情画像がユーザーの判断に与える影響について検討する。 研究2では、特定の政治家に対するソースの体系的な感情的扱いに焦点を当てる。 以上の結果から,怒った表情の感情の累積効果が,ユーザのコンテンツバイアスや情報源の信頼性に影響を及ぼすことが示唆された。 情報源が特定の政治家を組織的に怒らせると、ユーザーはそれらの情報源を信頼性が低く、コンテンツは偏見が強いと考える傾向にある。 これらの結果は、表情の感情によって表される暗黙的な視覚命題が、ニュースコンテンツや情報源の信頼にどのように影響するかを強調している。

Images are an indispensable part of the news content we consume. Highly emotional images from sources of misinformation can greatly influence our judgements. We present two studies on the effects of emotional facial images on users' perception of bias in news content and the credibility of sources. In study 1, we investigate the impact of happy and angry facial images on users' decisions. In study 2, we focus on sources' systematic emotional treatment of specific politicians. Our results show that depending on the political orientation of the source, the cumulative effect of angry facial emotions impacts users' perceived content bias and source credibility. When sources systematically portray specific politicians as angry, users are more likely to find those sources as less credible and their content as more biased. These results highlight how implicit visual propositions manifested by emotions in facial expressions might have a substantial effect on our trust of news content and sources.
翻訳日:2023-04-09 22:31:29 公開日:2022-05-04
# Proof Blocks: 証明を書くための学習のための自動化可能な共有アクティビティ

Proof Blocks: Autogradable Scaffolding Activities for Learning to Write Proofs ( http://arxiv.org/abs/2106.11032v3 )

ライセンス: Link先を確認
Seth Poulsen, Mahesh Viswanathan, Geoffrey L. Herman, Matthew West(参考訳) proof blocksは,事前記述された証明行を正しい順序にドラッグ&ドロップすることで,証明を記述できるソフトウェアツールである。 これらの証明は完全に自動的に評価され、学生は自分の証明をどうしているかを素早くフィードバックすることができる。 問題を構築する際、インストラクタは、証明の行の依存関係グラフを特定し、正しい行の配置が完全なクレジットを受けられるようにする。 この革新は、学生に証明について質問できる質問の種類を増やすことでアセスメントツールを改善することができ、コンピュータの助けを借りて生徒が自分で学べる量を増やすことで、証明知識へのアクセスを拡大することができる。

Proof Blocks is a software tool which enables students to write proofs by dragging and dropping prewritten proof lines into the correct order. These proofs can be graded completely automatically, enabling students to receive rapid feedback on how they are doing with their proofs. When constructing a problem, the instructor specifies the dependency graph of the lines of the proof, so that any correct arrangement of the lines can receive full credit. This innovation can improve assessment tools by increasing the types of questions we can ask students about proofs, and can give greater access to proof knowledge by increasing the amount that students can learn on their own with the help of a computer.
翻訳日:2023-03-27 08:39:07 公開日:2022-05-04
# 時間依存量子発生器による絡み合いダイナミクス

Entanglement dynamics governed by time-dependent quantum generators ( http://arxiv.org/abs/2108.01669v2 )

ライセンス: Link先を確認
Artur Czerwinski(参考訳) 本稿では,時間依存線形発生器によって定義される絡み合いのダイナミクスについて検討する。 我々は,緩和速度が時間に依存するような脱コヒーレンスと消散を誘導する環境に結合した多レベル量子系を考える。 部分可換性の条件を適用することで、選択されたサブシステムのダイナミクスを正確に記述することができる。 より具体的には、絡み合った状態のダイナミクスを調べる。 この収束は、時間領域における2ビットの絡み合いの量を定量化するために用いられる。 このフレームワークは、時間ローカルジェネレータによって駆動される絡み合った状態の量子進化を調べるための効率的なツールである。 特に、時間内の絡み合いの回復を観察するために、非マルコフ効果を含めることができる。

In the article, we investigate entanglement dynamics defined by time-dependent linear generators. We consider multilevel quantum systems coupled to an environment that induces decoherence and dissipation, such that the relaxation rates depend on time. By applying the condition of partial commutativity, one can precisely describe the dynamics of selected subsystems. More specifically, we investigate the dynamics of entangled states. The concurrence is used to quantify the amount of two-qubit entanglement in the time domain. The framework appears an efficient tool for investigating quantum evolution of entangled states driven by time-local generators. In particular, non-Markovian effects can be included to observe the restoration of entanglement in time.
翻訳日:2023-03-20 00:36:28 公開日:2022-05-04
# 非マルコフ効果による量子マックスウェルのデーモン

Quantum Maxwell's Demon Assisted by Non-Markovian Effects ( http://arxiv.org/abs/2108.08855v2 )

ライセンス: Link先を確認
Kasper Poulsen, Marco Majland, Seth Lloyd, Morten Kjaergaard, and Nikolaj T. Zinner(参考訳) マックスウェルの悪魔は、量子デバイスの設計に必要な情報制御の極めて重要な例である。 熱力学において、デーモン(英: demon)は、情報のエントロピーの性質を利用して、貯水池間で励起を分類し、エントロピー全体を下げる知的存在である。 これまでのところ、マクスウェルの悪魔の実装はマルコフの浴場に限られている。 本研究では,そのような悪魔が非マルコフ効果によって支援される程度を超伝導回路プラットフォームを用いて検討する。 セットアップはデーモンコントロールキュートレットインターフェースで接続された2つの浴槽で、2つの浴槽の全体的なエントロピーが低下した場合のみ、励起の転送を可能にする。 最大のエントロピー還元は非マルコフ系で達成され、重要なことは、非マルコフ効果により、デーモン性能は適切なタイミングで最適化できる。 本結果は,量子マックスウェルデーモンにおける情報伝達速度を高めるために,非マルコフ効果を利用することができることを示す。

Maxwell's demon is the quintessential example of information control, which is necessary for designing quantum devices. In thermodynamics, the demon is an intelligent being who utilizes the entropic nature of information to sort excitations between reservoirs, thus lowering the total entropy. So far, implementations of Maxwell's demon have largely been limited to Markovian baths. In our work, we study the degree to which such a demon may be assisted by non-Markovian effects using a superconducting circuit platform. The setup is two baths connected by a demon-controlled qutrit interface, allowing the transfer of excitations only if the overall entropy of the two baths is lowered. The largest entropy reduction is achieved in a non-Markovian regime, and importantly, due to non-Markovian effects, the demon performance can be optimized through proper timing. Our results demonstrate that non-Markovian effects can be exploited to boost the information transfer rate in quantum Maxwell demons.
翻訳日:2023-03-18 00:57:53 公開日:2022-05-04
# 量子物質の相を学ぶための量子核

Quantum kernels to learn the phases of quantum matter ( http://arxiv.org/abs/2109.02686v2 )

ライセンス: Link先を確認
Teresa Sancho-Lorente, Juan Rom\'an-Roche, David Zueco(参考訳) 古典的な機械学習は、古典的および量子的な物質相の予測に成功している。 特に、カーネルメソッドは、学習プロセスと物理的順序パラメータを明示的に関連付け、解釈可能な結果を提供する能力で際立っている。 ここでは、量子カーネルを活用します。 これらは自然に \emph{fidelity} と関連しており、量子情報ツールの助けを借りて学習プロセスを解釈することができる。 特に、サポートベクターマシン(量子カーネル)を使用して、2階の量子相転移を予測・特徴付けしている。 サイト毎の忠実度(忠実度ではなく)が使用される場合の学習過程を説明し,理解する。 一般理論は、横フィールドのイジング連鎖で検証される。 小型システムでは, 臨界から遠ざかっても, アルゴリズムが正確な結果が得られることを示す。 さらに、より大きなサイズでは、正しい臨界指数$\nu$を抽出することで、この手法の成功を確認する。 最後に、量子プロセッサ内の物質相を分類するために、各部位ごとの忠実度に基づくアルゴリズムと、各部位ごとの忠実度に基づくアルゴリズムを2つ提示する。

Classical machine learning has succeeded in the prediction of both classical and quantum phases of matter. Notably, kernel methods stand out for their ability to provide interpretable results, relating the learning process with the physical order parameter explicitly. Here, we exploit quantum kernels instead. They are naturally related to the \emph{fidelity} and thus it is possible to interpret the learning process with the help of quantum information tools. In particular, we use a support vector machine (with a quantum kernel) to predict and characterize second order quantum phase transitions. We explain and understand the process of learning when the fidelity per site (rather than the fidelity) is used. The general theory is tested in the Ising chain in transverse field. We show that for small-sized systems, the algorithm gives accurate results, even when trained away from criticality. Besides, for larger sizes we confirm the success of the technique by extracting the correct critical exponent $\nu$. Finally, we present two algorithms, one based on fidelity and one based on the fidelity per site, to classify the phases of matter in a quantum processor.
翻訳日:2023-03-16 00:40:09 公開日:2022-05-04
# 0-$\pi$ qubitsにおける異常対称性の役割

Role of anomalous symmetry in 0-$\pi$ qubits ( http://arxiv.org/abs/2109.11824v2 )

ライセンス: Link先を確認
I.L. Egusquiza, A. I\~niguez, E. Rico, A. Villarino(参考訳) 我々は0-$\pi$超伝導回路の正確な全対称性解析を示す。 モデルのエネルギーパラメータのすべての値に対して、基底状態の頑健な2倍縮退を課す拡張異常対称性の制御パラメータ空間内の点を特定する。 解析的にも数値的にも、この異常対称性が低エネルギーセクターでどのように維持されているかを示し、堅牢な量子ビット工学の強い候補を提供する。

We present an exact full symmetry analysis of the 0-$\pi$ superconducting circuit. We identify points in control parameter space of enhanced anomalous symmetry, which imposes robust twofold degeneracy of its ground state, that is for all values of the energy parameters of the model. We show, both analytically and numerically, how this anomalous symmetry is maintained in the low-energy sector, thus providing us with a strong candidate for robust qubit engineering.
翻訳日:2023-03-13 21:07:22 公開日:2022-05-04
# 量子ドット単一光子源によるベルの不等式違反

Violation of Bell's inequality with quantum-dot single-photon sources ( http://arxiv.org/abs/2109.14712v2 )

ライセンス: Link先を確認
Eva M. Gonz\'alez-Ruiz, Sumanta K. Das, Peter Lodahl, Anders S. S{\o}rensen(参考訳) 決定論的単一光子源を用いたベルの不等式に対する抜け穴のない違反の可能性について検討する。 デバイス非依存の量子鍵分布への即時拡張により、このような違反を長距離にわたって達成するためのスキームの詳細な解析を行う。 実世界の単一光子源では避けられない重要な実験的欠陥の影響について検討し, 有限の光子不識別性, 単一光子純度, および全光源効率について検討した。 我々は、フォトニックナノ構造中の量子ドットに基づく最先端決定論的単一光子源の性能要件をベンチマークし、実験的な実現が到達範囲内にあることを見出した。 また、ソース効率に関して要求される要件を緩和するプロトコルのポストセレクト版に対する要求を評価する。

We investigate the possibility of realizing a loophole-free violation of Bell's inequality using deterministic single-photon sources. We provide a detailed analysis of a scheme to achieve such violations over long distances with immediate extensions to device-independent quantum key distribution. We investigate the effect of key experimental imperfections that are unavoidable in real-world single-photon sources including the finite degree of photon indistinguishability, single-photon purity, and the overall source efficiency. We benchmark the performance requirements to state-of-the-art deterministic single-photon sources based on quantum dots in photonic nanostructures and find that experimental realizations appear to be within reach. We also evaluate the requirements for a post-selected version of the protocol, which relaxes the demanding requirements with respect to the source efficiency.
翻訳日:2023-03-13 04:50:11 公開日:2022-05-04
# 量子ボリュームテストの再検討:理想分布、コンパイラ最適化、信頼区間、スケーラブルなリソース推定

Re-examining the quantum volume test: Ideal distributions, compiler optimizations, confidence intervals, and scalable resource estimations ( http://arxiv.org/abs/2110.14808v3 )

ライセンス: Link先を確認
Charles H. Baldwin, Karl Mayer, Natalie C. Brown, Ciar\'an Ryan-Anderson, David Hayes(参考訳) 量子ボリュームテスト(quantum volume test)は、量子コンピュータの完全なシステムベンチマークであり、量子ビット数、忠実度、接続性、その他有用なデバイスを構築する上で重要と思われる量に敏感である。 このテストは量子コンピュータの一般能力の1桁の尺度を作成するために設計されたが、その限界と運用上の意味については完全に理解されていない。 量子ボリュームテストにより、設計面、エラーに対する感度、基準通過、および量子コンピュータにおける通過の意味をよりよく理解する。 理想的な測定出力分布と共通コンパイラ最適化の有効性を含む、小さなキュービット数に対してテストが示す過渡的な挙動を解明する。 次に,異なるエラーモデルとコンパイラ最適化オプションに基づいて予測される重出力確率を推定し,将来のシステムの性能目標を予測するアルゴリズムを提案する。 さらに,従来の信頼区間構築について検討し,より典型的なショット数に対して,単発実験やオーバーホール実験において所望のカバレッジレベルを低くすることを示す。 そこで本研究では,典型的なショット数に対して所定の範囲に到達し,テストに合格する回路数においてより効率的な信頼区間構成を提案する。 qv=2^{10}$実験データセットを量子式システムモデルh1-1から収集した。 最後に,量子量テストが量子コンピュータの実用的あるいは運用的能力について,特に量子誤差補正の観点からどのような意味を持つのかを考察する。

The quantum volume test is a full-system benchmark for quantum computers that is sensitive to qubit number, fidelity, connectivity, and other quantities believed to be important in building useful devices. The test was designed to produce a single-number measure of a quantum computer's general capability, but a complete understanding of its limitations and operational meaning is still missing. We explore the quantum volume test to better understand its design aspects, sensitivity to errors, passing criteria, and what passing implies about a quantum computer. We elucidate some transient behaviors the test exhibits for small qubit number including the ideal measurement output distributions and the efficacy of common compiler optimizations. We then present an efficient algorithm for estimating the expected heavy output probability under different error models and compiler optimization options, which predicts performance goals for future systems. Additionally, we explore the original confidence interval construction and show that it underachieves the desired coverage level for single shot experiments and overachieves for more typical number of shots. We propose a new confidence interval construction that reaches the specified coverage for typical number of shots and is more efficient in the number of circuits needed to pass the test. We demonstrate these savings with a $QV=2^{10}$ experimental dataset collected from Quantinuum System Model H1-1. Finally, we discuss what the quantum volume test implies about a quantum computer's practical or operational abilities especially in terms of quantum error correction.
翻訳日:2023-03-10 02:58:39 公開日:2022-05-04
# 全時空間自由度における非線形干渉法

Nonlinear interferometry in all spatiotemporal degrees of freedom ( http://arxiv.org/abs/2111.08957v3 )

ライセンス: Link先を確認
Filippus S. Roux(参考訳) SU(1,1)干渉計の実用化における時空間自由度の影響について検討した。 最近開発されたウィグナー汎関数法は、全ての時空間自由度の観点から、そのようなSU(1,1)干渉計の位相感度を得るために用いられる。 実験的なスケールパラメータが干渉計の性能に与える影響を明らかにする。 解析は、量子メトロロジーの応用に役立つ情報を提供する。

The effects of the spatiotemporal degrees of freedom on the practical implementation of an SU(1,1) interferometry is investigated. A recently developed Wigner functional approach is used to obtain the phase sensitivity of such an SU(1,1) interferometry in terms of all the spatiotemporal degrees of freedom. It reveals how experimental scale parameters affect the performance of the interferometer. The analysis provides information that would be useful for quantum metrology applications.
翻訳日:2023-03-07 21:53:59 公開日:2022-05-04
# 局所化保護トポロジカル秩序の運動検出の局所積分

Local integrals of motion detection of localization-protected topological order ( http://arxiv.org/abs/2111.11543v3 )

ライセンス: Link先を確認
Thorsten B. Wahl, Florian Venn, Benjamin B\'eri(参考訳) 多体局在(MBL)相は位相的に区別できるが、これらの相を順序パラメータで区別することは困難である。 ここでは、MBL相の位相的不等式を数値的に示すために、量子回路によって変動的にパラメータ化される運動の局所積分がいかに位相的に異なるかを示す。 我々は,位相的に異なるmbl相と,順序パラメータに対するベンチマーク比較が可能となるフェルミオン鎖のアプローチを説明する。 また,DMRG-Xアルゴリズムを用いて高エネルギートポロジカルダブレットの抽出を行った。 本手法を高次元に応用し,密集多体スペクトルで隠されたMBLトポロジカル秩序とトポロジカル多重を同定する。

Many-body-localized (MBL) phases can be topologically distinct, but distinguishing these phases using order parameters can be challenging. Here we show how topologically distinct local integrals of motion, variationally parametrized by quantum circuits, can be used to numerically demonstrate the topological inequivalence of MBL phases. We illustrate our approach on a fermionic chain where both topologically distinct MBL phases and benchmark comparisons to order parameters are possible. We also use our approach, augmented by the DMRG-X algorithm, to extract high-energy topological doublets. We describe applying our methods to higher dimensions to identify MBL topological order and topological multiplets hidden by the dense many-body spectrum.
翻訳日:2023-03-07 04:02:23 公開日:2022-05-04
# ハミルトンの非摂動解析対角化とカップリング抑制とcQEDの強化への応用

Non-perturbative analytical diagonalization of Hamiltonians with application to coupling suppression and enhancement in cQED ( http://arxiv.org/abs/2112.00039v2 )

ライセンス: Link先を確認
Boxi Li, Tommaso Calarco and Felix Motzoi(参考訳) 効果的なハミルトン模型の導出は量子論において重要な役割を担い、近年では制御と工学の問題に特に重点を置いている。 本研究では,非摂動解析対角化(NPAD)と再帰シュリーファー・ヴォルフ変換(RSWT)という,効果的なハミルトンモデルを計算するための2つのシンボリックな方法を提案する。 NPAD はジャコビ反復を用いており、収束を維持しながら摂動理論の仮定なしで機能し、非常に幅広いモデルを扱うことができる。 摂動系では、項数が摂動次数で線形にしか増加せず、ユビキタス・シュリーファー・ウルフ法と比較して指数関数的に項数を減少させるin- built recursive structure(英語版)を利用するrswtに還元される。 この状態において、NPADはさらに指数関数的に減少し、すなわちシュリーファー=ヴォルフと比較して高い精度の展開に関係している。 どちらの手法も代数式で構成されており、記号計算のために容易に自動化できる。 本手法の適用を実証するため,超伝導量子ビット系のZZおよび交叉共振相互作用について検討した。 共振系および準分散系における結合の抑制と工学の両方について検討する。 提案手法により,実効ハミルトニアンの結合強度を数値計算値に匹敵する高精度で推定できる。

Deriving effective Hamiltonian models plays an essential role in quantum theory, with particular emphasis in recent years on control and engineering problems. In this work, we present two symbolic methods for computing effective Hamiltonian models: the Non-perturbative Analytical Diagonalization (NPAD) and the Recursive Schrieffer-Wolff Transformation (RSWT). NPAD makes use of the Jacobi iteration and works without the assumptions of perturbation theory while retaining convergence, allowing to treat a very wide range of models. In the perturbation regime, it reduces to RSWT, which takes advantage of an in-built recursive structure where remarkably the number of terms increases only linearly with perturbation order, exponentially decreasing the number of terms compared to the ubiquitous Schrieffer-Wolff method. In this regime, NPAD further gives an exponential reduction in terms, i.e. superexponential compared to Schrieffer-Wolff, relevant to high precision expansions. Both methods consist of algebraic expressions and can be easily automated for symbolic computation. To demonstrate the application of the methods, we study the ZZ and cross-resonance interactions of superconducting qubits systems. We investigate both suppressing and engineering the coupling in near-resonant and quasi-dispersive regimes. With the proposed methods, the coupling strength in the effective Hamiltonians can be estimated with high precision comparable to numerical results.
翻訳日:2023-03-06 06:52:02 公開日:2022-05-04
# 浴室タイル格子上のフラストレーションイジングモデルにおける量子秩序

Quantum orders in the frustrated Ising model on the bathroom tile lattice ( http://arxiv.org/abs/2201.09904v2 )

ライセンス: Link先を確認
Sumner N. Hearth, Siddhardh C. Morampudi, Chris R. Laumann(参考訳) 浴室タイル(4-8)格子上の完全フラストレーション量子イジングモデルの零および有限温度位相図を決定する。 位相図は2+1dの物理の富を示す。 一 正方形及び三角形の格子型の古典クーロン二量体液体 2. 量子次数分解誘起位相:$\mathbb{z}_4$,$\mathbb{z}_6$,$\mathbb{z}_8$対称性を破る。 3. 有限温度 Kosterlitz-Thouless (KT) 相が $\mathbb{Z}_6$ と $\mathbb{Z}_8$ に浮かぶ。 4.中間カップリングにおける(in)コンメンサート対称性破断相の階段 本研究では, ダイマーモデルマッピング, 摂動理論, ランダウ解析, 確率級数展開量子モンテカルロ (QMC-SSE) を組み合わせて, この精巧な位相図を構築した。 本研究は,d-waveアーキテクチャアニーラによるフラストレーション磁化の研究の基礎となるもので,4-8格子を‘クローニング’せずに自然に埋め込むことができ,競合するエネルギースケールの数を減少させる。 D-Wave 2000Qによるシミュレーションでは、位相図の高温部分と定性的な一致を示すが、低温の位相にはアクセスできない。

We determine the zero and finite temperature phase diagram of the fully frustrated quantum Ising model on the bathroom tile (4-8) lattice. The phase diagram exhibits a wealth of 2+1d physics, including 1. classical Coulomb dimer liquids of both square and triangular lattice types; 2. quantum order-by-disorder induced phases breaking $\mathbb{Z}_4$, $\mathbb{Z}_6$, and $\mathbb{Z}_8$ symmetries; 3. finite temperature Kosterlitz-Thouless (KT) phases floating over the $\mathbb{Z}_6$ and $\mathbb{Z}_8$ orders; and, 4. staircases of (in)-commensurate symmetry breaking phases at intermediate coupling. We establish this elaborate phase diagram using a combination of dimer model mapping, perturbation theory, Landau analysis and Stochastic Series Expansion Quantum Monte Carlo (QMC-SSE). Our results provide a baseline for studying frustrated magnetism with D-Wave architecture annealers, where the 4-8 lattice can be embedded naturally without `cloning', reducing the number of competing energy scales. Simulations with the D-Wave 2000Q demonstrate qualitative agreement with the high temperature portion of the phase diagram, but are unable to access the low temperature phases.
翻訳日:2023-02-28 00:29:44 公開日:2022-05-04
# 弱値から見た量子消去器

The Quantum Eraser from a Weak Values Perspective ( http://arxiv.org/abs/2201.10320v2 )

ライセンス: Link先を確認
Tom Rivlin(参考訳) 二重スリット実験の量子消去器変種とその「遅延選択」亜変種は、弱い値と弱い測定理論(ここで簡単に再導入される)の観点から検討される。 他のスピン状態を測定する際に「消去」できる特定のスピン状態を測定する際に現れる干渉縞は、特定の選択後の選択に依存する異常な弱い値であることが示される。 スピン測定の選択をある弱い測定の弱い値とすることで、量子消去器実験で何が起こるかについて物理的な主張ができるか、何ができないかを明確にする。 具体的には、粒子が通過する際のスリット(s)の選択に影響を与えるスピン状態の「再帰的」の選択に関する主張は不信であり、フリンジがどのように発生し、なぜ「消去される」のかを理解するための単純な枠組みが提示される。

The quantum eraser variant of the double-slit experiment, and its 'delayed choice' sub-variant, are considered from the perspective of weak value and weak measurement theory (which is briefly reintroduced here). The interference fringes that appear when measuring certain spin states, which can then be 'erased' when measuring other spin states, are shown to be anomalous weak values that depend on particular post-selection choices. By framing the choice of spin measurement as a weak value of a certain weak measurement, it is then made clear what physical claims can and cannot be made about what occurs in the quantum eraser experiment. Specifically, claims about the choice of spin-state `retrocausally' influencing the choice of slit(s) for the particles to travel through are discredited, and a simple framework is presented for understanding how the fringes arise and why they can be 'erased'.
翻訳日:2023-02-27 22:42:33 公開日:2022-05-04
# 相対論的還元密度行列汎関数論

Relativistic reduced density matrix functional theory ( http://arxiv.org/abs/2202.00328v4 )

ライセンス: Link先を確認
M. Rodr\'iguez-Mayorga and K.J.H. Giesbertz and L. Visscher(参考訳) 相対論的量子世界における相関効果を効率的に記述するための新しいアプローチとして、第一次還元密度行列(1-RDM)が鍵となる還元密度行列汎関数理論を考える。 本稿では,まず,この理論の適用性を相対論的領域に拡張するための理論的基礎を紹介する。 そして、いわゆるno-pair (np)近似を用いて、電子波動関数に着目し、陽電子からの明示的な寄与を無視して相対論的効果を近似的に処理する。 np近似の中では、この理論は非相対論的な場合と似ており、1-RDMの観点から電子-電子相互作用を記述する関数のみが未知である。 これは関数近似の構築を必要とするため、非相対論的文脈で使用されるいくつかの共通RDMFT近似の相対論的バージョンを示し、それらの性質について議論する。

As a new approach to efficiently describe correlation effects in the relativistic quantum world we propose to consider reduced density matrix functional theory, where the key quantity is the first-order reduced density matrix (1-RDM). In this work, we first introduce the theoretical foundations to extend the applicability of this theory to the relativistic domain. Then, using the so-called no-pair (np) approximation, we arrive at an approximate treatment of the relativistic effects by focusing on electronic wavefunctions and neglecting explicit contributions from positrons. Within the np approximation the theory becomes similar to the nonrelativistic case, with as unknown only the functional that describes the electron-electron interactions in terms of the 1-RDM. This requires the construction of functional approximations, and we therefore also present the relativistic versions of some common RDMFT approximations that are used in the nonrelativistic context and discuss their properties
翻訳日:2023-02-27 03:16:19 公開日:2022-05-04
# I>1/2のイオン超微細量子ビットの高忠実化と測定

High fidelity state preparation and measurement of ion hyperfine qubits with I > 1/2 ( http://arxiv.org/abs/2203.01920v2 )

ライセンス: Link先を確認
Fangzhao Alex An, Anthony Ransford, Andrew Schaffer, Lucas R. Sletten, John Gaebler, James Hostetter, and Grahame Vittorini(参考訳) I = 1/2$以上の核スピンを捕捉したイオン超微細量子ビットを用いた高忠実度状態調製・測定(SPAM)を実現する方法を提案する。 これらの高い核スピン同位体の基底状態は、単純な周波数選択状態の準備スキームにはならない。 この制限を回避するためにストロボスコープで強く弱い遷移を駆動し、双極子遷移と狭いマイクロ波または光四極子遷移を用いた高速光ポンピングを混合する。 この方法は、$I=3/2$同位体$^{137}\mbox{Ba}^+$で、$\left(9.0 \pm 1.3\right) \times 10^{-5}$$$-40.5 \pm 0.6$ dBのSPAM不忠実性を達成し、より広い範囲のイオン同位体と好ましい波長と質量を量子計算に利用できるようにする。

We present a method for achieving high fidelity state preparation and measurement (SPAM) using trapped ion hyperfine qubits with nuclear spins higher than $I = 1/2$. The ground states of these higher nuclear spin isotopes do not afford a simple frequency-selective state preparation scheme. We circumvent this limitation by stroboscopically driving strong and weak transitions, blending fast optical pumping using dipole transitions and narrow microwave or optical quadrupole transitions. We demonstrate this method with the $I=3/2$ isotope $^{137}\mbox{Ba}^+$ to achieve a SPAM infidelity of $\left(9.0 \pm 1.3\right) \times 10^{-5}$ ($-40.5 \pm 0.6$ dB), facilitating the use of a wider range of ion isotopes with favorable wavelengths and masses for quantum computation.
翻訳日:2023-02-23 05:33:27 公開日:2022-05-04
# 実験用シュリーファー・ヴォルフ変換:Fermi-Hubbardシミュレータにおける仮想ダビロン・ホール励起の動的抑制

Schrieffer-Wolff Transformations for Experiments: Dynamically Suppressing Virtual Doublon-Hole Excitations in a Fermi-Hubbard Simulator ( http://arxiv.org/abs/2203.07366v2 )

ライセンス: Link先を確認
Anant Kale, Jakob Hendrik Huhn, Muqing Xu, Lev Haldar Kendrick, Martin Lebrat, Christie Chiu, Geoffrey Ji, Fabian Grusdt, Annabelle Bohrdt, Markus Greiner(参考訳) エネルギースケールを分離した強い相互作用を持つシステムでは、低エネルギー有効ハミルトニアンは、低温における関連する物理学に関する洞察を提供する。 実効モデルにおける創発的相互作用は、高エネルギー状態の仮想励起によって媒介される: 例えば、フェルミ・ハッバードモデルにおける仮想ダブルロンホール励起は、導出された実効モデルである$t-J-3s$モデルにおいて反強磁性スピン交換相互作用を媒介する。 形式的には、この手順はユニタリシュリーファー=ヴォルフ基底変換によって記述される。 量子シミュレーションの文脈では、実験結果を解釈する効果的なモデルを考えるのが有利である。 しかし、ダブルロン-ホール対のような仮想励起は、物理観測値の測定を難なくすることができる。 ここでは, 量子シミュレータを用いて, 回転ベースで測定を行うことにより, より直接的に有効なモデルにアクセスできることを示す。 フェルミ・ハバード低エネルギー固有状態(または熱状態)上でシュリーファー・ウルフ変換を行い、光学格子中のフェルミイオン原子を用いて近似 $t-j-3s$ モデル状態を作成するプロトコルを提案する。 提案プロトコルでは,光格子深度を線形に傾斜させることで,仮想二重ホール変動を排除できるが,有効モデルのダイナミクスを凍結させるのに十分高速である。 我々は, 正確な対角化による数値計算を行い, 格子傾斜後の状態が$t-J-3s$モデル状態と最大重なる最適ランプ速度を求める。 我々は、リチウム-6 フェルミイオン量子ガス顕微鏡による実験データと比較し、このプロトコルの原理実証を示す。 より一般的に、このプロトコルは、幅広い量子シミュレーション実験において仮想励起の抑制を可能にすることにより、有効なモデルの研究に有用である。

In strongly interacting systems with a separation of energy scales, low-energy effective Hamiltonians help provide insights into the relevant physics at low temperatures. The emergent interactions in the effective model are mediated by virtual excitations of high-energy states: For example, virtual doublon-hole excitations in the Fermi-Hubbard model mediate antiferromagnetic spin-exchange interactions in the derived effective model, known as the $t-J-3s$ model. Formally this procedure is described by performing a unitary Schrieffer-Wolff basis transformation. In the context of quantum simulation, it can be advantageous to consider the effective model to interpret experimental results. However, virtual excitations such as doublon-hole pairs can obfuscate the measurement of physical observables. Here we show that quantum simulators allow one to access the effective model even more directly by performing measurements in a rotated basis. We propose a protocol to perform a Schrieffer-Wolff transformation on Fermi-Hubbard low-energy eigenstates (or thermal states) to dynamically prepare approximate $t-J-3s$ model states using fermionic atoms in an optical lattice. Our protocol involves performing a linear ramp of the optical lattice depth, which is slow enough to eliminate the virtual doublon-hole fluctuations but fast enough to freeze out the dynamics in the effective model. We perform a numerical study using exact diagonalization and find an optimal ramp speed for which the state after the lattice ramp has maximal overlap with the $t-J-3s$ model state. We compare our numerics to experimental data from our Lithium-6 fermionic quantum gas microscope and show a proof-of-principle demonstration of this protocol. More generally, this protocol can be beneficial to studies of effective models by enabling the suppression of virtual excitations in a wide range of quantum simulation experiments.
翻訳日:2023-02-22 03:20:27 公開日:2022-05-04
# 非エルミートおよび$\mathcal{PT}$-対称系の関数的再正規化群

Functional renormalization group for non-Hermitian and $\mathcal{PT}$-symmetric systems ( http://arxiv.org/abs/2203.08108v2 )

ライセンス: Link先を確認
Lukas Grunwald, Volker Meden and Dante M. Kennes(参考訳) 関数再正規化群の頂点拡大アプローチを非エルミート系に一般化する。 ある異常な期待値が消えない可能性があるので、エルミートの場合と比較して追加項がフロー方程式に現れる。 完全可解な$\mathcal{pt}$-symmetric non-linear toy-model を考慮し、非エルミート系における頂点展開のメリットと欠点を考察し、このモデルにおいて、摂動的動機付け切換スキーマにおける頂点展開の忠実性はエルミートの場合と同等であることを明らかにする。 頂点展開は非エルミート系の相関効果を研究するための有効な方法であると考えられる。

We generalize the vertex expansion approach of the functional renormalization group to non-Hermitian systems. As certain anomalous expectation values might not vanish, additional terms as compared to the Hermitian case can appear in the flow equations. We investigate the merits and shortcomings of the vertex expansion for non-Hermitian systems by considering an exactly solvable $\mathcal{PT}$-symmetric non-linear toy-model and reveal, that in this model, the fidelity of the vertex expansion in a perturbatively motivated truncation schema is comparable with that of the Hermitian case. The vertex expansion appears to be a viable method for studying correlation effects in non-Hermitian systems.
翻訳日:2023-02-22 01:13:34 公開日:2022-05-04
# 経済複雑性の政策的意味

The Policy Implications of Economic Complexity ( http://arxiv.org/abs/2205.02164v1 )

ライセンス: Link先を確認
C\'esar A. Hidalgo(参考訳) 近年、経済の複雑さは基礎研究や応用研究の活発な分野へと成長している。 しかし、重要な進歩にもかかわらず、経済の複雑さの政策的な影響はいまだ不明である。 ここでは,4つのWsに基づく枠組みにおける経済複雑性の政策的含意を整理する。「何を」アプローチは,目標活動や場所の特定に焦点をあて,「いつ」アプローチは,関連する活動と無関係な活動の発展を支援するか,「どこで」アプローチは知識の地理的拡散に焦点をあて,そして「誰が」アプローチは構造変化のエージェントが果たす役割に焦点を当てる。 この枠組みの目的は、近年の経済複雑性における研究の政策的意義を明らかにし、地域・国際開発における継続的な利用を促進することである。

In recent years economic complexity has grown into an active field of fundamental and applied research. Yet, despite important advances, the policy implications of economic complexity remain unclear. Here I organize the policy implications of economic complexity in a framework grounded on 4 Ws: "what" approaches, focused on identifying target activities and/or locations; "when" approaches, focused on when to time support for developing related and unrelated activities; "where" approaches, focused on the geographic diffusion of knowledge; and "who" approaches, focused on the role played by agents of structural change. The goal of this framework is to clarify the policy implications of recent work in economic complexity and to facilitate its continued use in regional and international development efforts.
翻訳日:2023-02-19 16:41:39 公開日:2022-05-04
# CRUSH: コンテキスト正規化とユーザによる自己教師型ヘイト音声検出

CRUSH: Contextually Regularized and User anchored Self-supervised Hate speech Detection ( http://arxiv.org/abs/2204.06389v2 )

ライセンス: Link先を確認
Souvic Chakraborty, Parag Dutta, Sumegh Roychowdhury, Animesh Mukherjee(参考訳) 過去10年間、ソーシャルネットワーキングプラットフォームを通じて人々の交流が急増している。 これらのソーシャルプラットフォームには肯定的な側面がいくつかあるが、この増加はサイバーいじめとヘイトスピーチの繁殖地となった。 NLPの最近の進歩は、しばしばそのような憎悪な内容の拡散を緩和するために使われてきた。 ヘイトスピーチ検出のタスクは通常,ソーシャルネットワークの文脈に適用できるため,ユーザ主導の自己スーパービジョンと文脈正規化を用いたヘイトスピーチ検出のフレームワークであるcrashを導入する。 提案手法は,2種類のタスクと複数のポピュラーなソーシャルメディアデータセットにおいて,過去の手法よりも1~12%の精度向上を実現している。

The last decade has witnessed a surge in the interaction of people through social networking platforms. While there are several positive aspects of these social platforms, the proliferation has led them to become the breeding ground for cyber-bullying and hate speech. Recent advances in NLP have often been used to mitigate the spread of such hateful content. Since the task of hate speech detection is usually applicable in the context of social networks, we introduce CRUSH, a framework for hate speech detection using user-anchored self-supervision and contextual regularization. Our proposed approach secures ~ 1-12% improvement in test set metrics over best performing previous approaches on two types of tasks and multiple popular english social media datasets.
翻訳日:2023-02-19 16:15:47 公開日:2022-05-04
# リスク、レジリエンス、報酬 - デジタルセックスワークへの移行の影響

Risk, Resilience and Reward: Impacts of Shifting to Digital Sex Work ( http://arxiv.org/abs/2203.12728v2 )

ライセンス: Link先を確認
Vaughn Hamilton, Hanna Barakat, Elissa M. Redmiles(参考訳) 新型コロナウイルスの感染拡大を受け、さまざまな産業の労働者は急速にリモートワークに移行した。 既存の作業は、このシフトがオフィスワーカーに与える影響を調査してきたが、非公式の労働セクターにおける、対人からオンラインワークへのシフトがいかに影響するかは、ほとんど調査されていない。 対面作業からオンライン作業への移行が、特に労働者集団であるセックスワーカーに与える影響について検討する。 グローバル・ノース7カ国の性労働者に対する34の質的インタビューを通じて、オンラインオンリーの性労働への転換が、(1)労働条件、(2)リスクと保護行動、(3)労働報酬にどのように影響したかを検証した。 オンラインワークは、性労働者の経済的および身体的幸福に利益をもたらす。 しかし、オンラインのみの作業は、より多くのプラットフォームで公開され、より明示的なコンテンツを共有する必要性から、新たな、より大きなデジタルおよびメンタルヘルスリスクをもたらす。 以上の結果から,デジタル性労働者と非公式労働者,特にデジタルコンテンツの作成・販売者に対して,デザインとプラットフォームガバナンスの提案を提案する。

Workers from a variety of industries rapidly shifted to remote work at the onset of the COVID-19 pandemic. While existing work has examined the impact of this shift on office workers, little work has examined how shifting from in-person to online work affected workers in the informal labor sector. We examine the impact of shifting from in-person to online-only work on a particularly marginalized group of workers: sex workers. Through 34 qualitative interviews with sex workers from seven countries in the Global North, we examine how a shift to online-only sex work impacted: (1) working conditions, (2) risks and protective behaviors, and (3) labor rewards. We find that online work offers benefits to sex workers' financial and physical well-being. However, online-only work introduces new and greater digital and mental health risks as a result of the need to be publicly visible on more platforms and to share more explicit content. From our findings we propose design and platform governance suggestions for digital sex workers and for informal workers more broadly, particularly those who create and sell digital content.
翻訳日:2023-02-19 15:49:47 公開日:2022-05-04
# competent computational thinking test (cctt) : 小学校における非プラグ型計算思考テストの開発と検証

The competent Computational Thinking test (cCTt): Development and validation of an unplugged Computational Thinking test for upper primary school ( http://arxiv.org/abs/2203.05980v2 )

ライセンス: Link先を確認
Laila El-Hamamsy, Mar\'ia Zapata-C\'aceres, Estefan\'ia Mart\'in Barroso, Francesco Mondada, Jessica Dehler Zufferey, Barbara Bruno(参考訳) あらゆるレベルの教育においてコンピュータ思考(CT)の重要性が増す中、有効かつ信頼性の高い評価を行うことが不可欠である。 現在、小学校ではそのような評価が欠落している。 そこで我々は,7~9歳の学生を対象にしたCT検査である,有能CT検査(cCTt)の開発と検証を行った。 第1フェーズでは,37名の専門家が調査・焦点グループを通じてcCTtの有効性を評価した。 第2フェーズでは、テストは1519人の学生に実施された。 楽器の心理測定特性を評価するため,古典的テスト理論,項目反応理論,確認因子分析を用いた。 評価の結果,cCTtは顔,構成,内容の妥当性が良好であった。 さらに, 対象年齢群の信頼性, 難易度, 識別性について, 学生データの心理測定分析を行った。 最後に、確認因子分析により、テストの短縮変異が確立される。 結論として,提案するccttは研究者や教育者等が使用するための有効で信頼性の高い機器であり,義務教育全体でのct評価のポートフォリオを拡大している。 今後CTをより徹底的に捉えていくための評価は、cCTtと他の評価方法を組み合わせることを検討するかもしれない。

With the increasing importance of Computational Thinking (CT) at all levels of education, it is essential to have valid and reliable assessments. Currently, there is a lack of such assessments in upper primary school. That is why we present the development and validation of the competent CT test (cCTt), an unplugged CT test targeting 7-9 year-old students. In the first phase, 37 experts evaluated the validity of the cCTt through a survey and focus group. In the second phase, the test was administered to 1519 students. We employed Classical Test Theory, Item Response Theory, and Confirmatory Factor Analysis to assess the instruments' psychometric properties. The expert evaluation indicates that the cCTt shows good face, construct, and content validity. Furthermore, the psychometric analysis of the student data demonstrates adequate reliability, difficulty, and discriminability for the target age groups. Finally, shortened variants of the test are established through Confirmatory Factor Analysis. To conclude, the proposed cCTt is a valid and reliable instrument, for use by researchers and educators alike, which expands the portfolio of validated CT assessments across compulsory education. Future assessments looking at capturing CT in a more exhaustive manner might consider combining the cCTt with other forms of assessments.
翻訳日:2023-02-19 15:33:20 公開日:2022-05-04
# 3電子ハイブリッドダブルウェル量子ビットにおける電子相関による分子生成とスペクトル

Molecular formations and spectra due to electron correlations in three-electron hybrid double-well qubits ( http://arxiv.org/abs/2204.02243v2 )

ライセンス: Link先を確認
Constantine Yannouleas, Uzi Landman(参考訳) 本研究では,多体波動関数のエネルギースペクトルと固有空間およびスピン構造を,GaAs非対称量子ドットに基づく3電子ハイブリッド量子ビットの場合のデチューニングパラメータの関数として,体系的なフル構成相互作用(FCI)計算により予測できることを示す。 具体的には、弱い相互作用と3電子二重ドットハイブリッド量子ビット全体を積分単位として扱う場合と比較して、強い電子相関から生じる予測分光パターンがウィグナー分子(WM)の形成を示すことが示されている。 wm形成の署名は、(1)非相互作用電子モデリングに対するエネルギーギャップの強い抑制、(2)左右の井戸における2電子占有に関連する状態の間に生じる一対の回避された交差の出現である。 ウィグナー分子はそれぞれの井戸内の電子局在と関連した物理的実体であり、以前に採用されていた独立粒子または2点ハバード理論モデルでは捕獲できない。 電荷やスピン密度などのFCI適応診断ツールと条件付き確率分布を併用することにより,強いWMの出現を深く研究する。 さらに、wmの発生に寄与する因子の徹底的な分析を補完するために、クーロン反発の強さの関数としてのエネルギースペクトル(定調)を算出する。 我々は最近の実験結果と顕著な一致を報告した。 現在のマルチウェル量子ドットのFCI法は、バレートロニクスの2バンドSi/SiGeハイブリッド量子ビットを扱うために容易に拡張でき、最近WMsの中心的な役割が確認された。

We show that systematic full configuration-interaction (FCI) calculations enable prediction of the energy spectra and the intrinsic spatial and spin structures of the many-body wave functions as a function of the detuning parameter for the case of three-electron hybrid qubits based on GaAs asymmetric double quantum dots. Specifically, in comparison with the case of weak interactions and treating the entire three-electron double-dot hybrid qubit as an integral unit, it is shown that the predicted spectroscopic patterns, originating from strong electron correlations, manifest the formation of Wigner molecules (WMs). Signatures of WM formation include: (1) a strong suppression of the energy gaps relative to the non-interacting-electrons modeling, and (2) the appearance of a pair of avoided crossings arising between states associated with two-electron occupancies in the left and right wells. The Wigner molecule is a physical entity associated with electron localization within each well and it cannot be captured by the previously employed independent-particle or two-site-Hubbard theoretical modeling of the hybrid qubits. The emergence of strong WMs is investigated in depth through the concerted use of FCI-adapted diagnostic tools like charge and spin densities, as well as conditional probability distributions. Furthermore, the energy spectrum as a function of the strength of the Coulomb repulsion (at constant detuning) is calculated in order to complement the thorough analysis of the factors contributing to WM emergence. We report remarkable agreement with recent experimental measurements. The present FCI methodology for multi-well quantum dots can be straightforwardly extended to treat valleytronic two-band Si/SiGe hybrid qubits, where the central role of the WMs was confirmed recently.
翻訳日:2023-02-18 05:27:55 公開日:2022-05-04
# 量子光による物質の位相相の制御

Controlling topological phases of matter with quantum light ( http://arxiv.org/abs/2204.05922v2 )

ライセンス: Link先を確認
Olesia Dmytruk and Marco Schir\`o(参考訳) 量子物質のトポロジカルな性質を制御することは、凝縮物質物理学の主要な目標である。 この方向における大きな努力は、非自明なトポロジーを持つ状態を操作および誘導するためにフロッケ駆動の形で古典的な光を使うことに費やされている。 キャビティ光子によって異なる経路が達成できる。 本稿では,一次元Su-Schrieffer-Heegerモデル(SSH)を単一モードキャビティに結合した位相遷移の原型モデルを考える。 量子光は、エッジモードをホストする有限長のエネルギースペクトルや位相位相図など、システムのトポロジカルな性質に影響を及ぼすことが示されている。 特に、格子幾何学と光・物質結合の強さによって、自明な位相を位相的位相にするか、量子空洞場を用いて逆向きにすることができる。 さらに、結合電子-光子系の偏光子スペクトルを計算し、位相遷移点において下方偏光子分岐が消えることに注意する。 この現象はSSHモデルの相転移を探査するために用いられる。

Controlling the topological properties of quantum matter is a major goal of condensed matter physics. A major effort in this direction has been devoted to using classical light in the form of Floquet drives to manipulate and induce states with non-trivial topology. A different route can be achieved with cavity photons. Here we consider a prototypical model for topological phase transition, the one-dimensional Su-Schrieffer-Heeger (SSH) model, coupled to a single mode cavity. We show that quantum light can affect the topological properties of the system, including the finite-length energy spectrum hosting edge modes and the topological phase diagram. In particular we show that depending on the lattice geometry and the strength of light-matter coupling one can either turn a trivial phase into a topological one or viceversa using quantum cavity fields. Furthermore, we compute the polariton spectrum of the coupled electron-photon system, and we note that the lower polariton branch disappears at the topological transition point. This phenomenon can be used to probe the phase transition in the SSH model.
翻訳日:2023-02-17 05:24:34 公開日:2022-05-04
# 有限要素法による20桁精度の二中心ディラック方程式の解法

Solution of the two-center Dirac equation with 20 digits precision using the finite-element technique ( http://arxiv.org/abs/2204.07087v2 )

ライセンス: Link先を確認
O. Kullie and S. Schiller(参考訳) 本研究では, 2 中心クーロン問題の完全相対論的数値解法を提案する。 単位核電荷の特別のケースは、実験的なトピックである${\rm h}_2^+$分子イオンとそのイソトポローグの正確な説明に関係している。 計算には2スピンminmax法と有限要素法を用いる。 計算された総エネルギーは、単位電荷に対して10^{-20}$の分数不確かさと2つの原子単位の結合長を推定している。 純粋相対論的貢献の分数的不確かさは、1\times10^{-17}$である。 この結果は将来の精密実験と関係があるが、現在、振動遷移周波数の量子電気力学的処理から生じる不確実性は大きい。 支配的です

We present a precise fully relativistic numerical solution of the two-center Coulomb problem. The special case of unit nuclear charges is relevant for the accurate description of the ${\rm H}_2^+$ molecular ion and its isotopologues, systems that are an active experimental topic. The computation utilizes the 2-spinor minmax approach and the finite-element method. The computed total energies have estimated fractional uncertainties of a few times $10^{-20}$ for unit charges and a bond length of 2 atomic units. The fractional uncertainty of the purely relativistic contribution is $1\times10^{-17}$. The result is relevant for future precision experiments, whereas at present the uncertainties arising from the quantum electrodynamic treatment of the rovibrational transition frequencies. are dominant.
翻訳日:2023-02-17 00:09:28 公開日:2022-05-04
# パラメトリズド量子回路による作業の量子証明

Quantum Proof of Work with Parametrized Quantum Circuits ( http://arxiv.org/abs/2204.10643v2 )

ライセンス: Link先を確認
Mikhail Y. Shalaginov and Michael Dubrovsky(参考訳) 過去10年間の量子技術の発展にもかかわらず、ノイズの多い量子ビットを持つ量子コンピュータには、まだ多くの実用的な応用がある。 量子超越性を示す努力は、古典的コンピュータでは達成できない計算の実証に主に焦点が当てられ、議論の的になっている。 量子優位性(古典的コンピュータのスピードアップ)は、今日の控えめな量子プロセッサにとってより実用的なマイルストーンです。 本研究では,量子コンピュータ互換作業証明(ビットコインマイニングで使用される暗号機構)のためのスキームを提案し,それを4量子ビット超伝導量子ノード上で検証した。

Despite all the progress in quantum technologies over the last decade, there is still a dearth of practical applications for quantum computers with a small number of noisy qubits. The effort to show quantum supremacy has been largely focused on demonstrating computations that cannot be accomplished on a classical computer at all, a difficult and controversial target. Quantum advantage (a speedup over classical computers) is a more practical milestone for today's modest quantum processors. In this work, we proposed a scheme for quantum-computer compatible proof of work (cryptographic mechanism used in Bitcoin mining) and verified it on a 4-qubit superconducting quantum node.
翻訳日:2023-02-16 01:08:46 公開日:2022-05-04
# 多目的最適化のための適応共振理論に基づくクラスタリングによる参照ベクトル適応と配偶選択戦略

Reference Vector Adaptation and Mating Selection Strategy via Adaptive Resonance Theory-based Clustering for Many-objective Optimization ( http://arxiv.org/abs/2204.10756v2 )

ライセンス: Link先を確認
Takato Kinoshita, Naoki Masuyama, Yiping Liu, Yusuke Nojima, Hisao Ishibuchi(参考訳) クラスタリングに基づく参照ベクトル適応を用いた分解型多目的進化アルゴリズム(MOEA)は、多目的最適化問題(MaOP)に対して優れた最適化性能を示す。 特に、トポロジカルな構造を持つクラスタリングアルゴリズム(ノードとエッジで構成されるネットワーク)を用いるアルゴリズムは、不規則なパレート最適フロント(PF)を持つMaOPの他のMOEAよりも優れた最適化性能を示す。 しかし,これらのアルゴリズムは探索過程において位相構造の情報を効果的に活用しない。 さらに,従来のクラスタリングアルゴリズムはクラスタリング性能が低く,検索プロセスに有用な情報を抽出する能力が阻害されている。 本稿では,位相構造を持つ適応共振理論に基づくクラスタリングを用いた適応参照ベクトル誘導進化アルゴリズムを提案する。 提案アルゴリズムは, 参照ベクトル適応だけでなく, 交配選択にもトポロジ構造の情報を利用する。 提案アルゴリズムは,78の試験問題に対する8つの最先端MOEAと比較した。 実験結果から,様々な特性を持つMaOP上で,提案アルゴリズムが他のアルゴリズムよりも優れた最適化性能を示した。

Decomposition-based multiobjective evolutionary algorithms (MOEAs) with clustering-based reference vector adaptation show good optimization performance for many-objective optimization problems (MaOPs). Especially, algorithms that employ a clustering algorithm with a topological structure (i.e., a network composed of nodes and edges) show superior optimization performance to other MOEAs for MaOPs with irregular Pareto optimal fronts (PFs). These algorithms, however, do not effectively utilize information of the topological structure in the search process. Moreover, the clustering algorithms typically used in conventional studies have limited clustering performance, inhibiting the ability to extract useful information for the search process. This paper proposes an adaptive reference vector-guided evolutionary algorithm using an adaptive resonance theory-based clustering with a topological structure. The proposed algorithm utilizes the information of the topological structure not only for reference vector adaptation but also for mating selection. The proposed algorithm is compared with 8 state-of-the-art MOEAs on 78 test problems. Experimental results reveal the outstanding optimization performance of the proposed algorithm over the others on MaOPs with various properties.
翻訳日:2023-02-16 00:59:06 公開日:2022-05-04
# ニュートリノ振動のデコヒーレンスにおける微視的およびマクロ的効果

Microscopic and Macroscopic Effects in the Decoherence of Neutrino Oscillations ( http://arxiv.org/abs/2204.10696v2 )

ライセンス: Link先を確認
Ting Cheng, Manfred Lindner, Werner Rodejohann(参考訳) 量子力学および古典的不確かさからの脱コヒーレンスを含むニュートリノ振動における非コヒーレンス効果のための汎用構造(層構造)を提案する。 この計算は、オープン量子システムの概念と場の量子論を組み合わせることで行われ、ミクロからマクロまでの位相空間からなる構造を形成する。 量子力学的不確実性は、固有の質量固有状態分離効果によってデコヒーレンスをパラメータ化し、古典的不確実性に対するデコヒーレンスは通常、統計的平均化効果によって支配される。 層構造の助けを借りて,前者を状態デコヒーレンス(sd),後者を位相デコヒーレンス(pd)と分類し,さらにsdとpdの双方が異なる層上の異なる相構造による位相洗浄効果によるものであることを結論付ける。 そのような効果は、与えられた幅のデコヒーレンスと不確かさの形状の単純な数値計算を許す。 我々の構造は一般的だが不確実性も大きいが、外部粒子のウェーブパックサイズ、生成および検出時の効果的な相互作用量、エネルギー再構成モデル、ニュートリノ生成プロファイルなど、注目すべきものはいくつかある。 さらに, 従来の速度測定法と新しい位相測定法を用いて, 不確かさパラメータによってパラメータ化されたSDおよびPDに対する実験感度を, 原子炉ニュートリノおよび崩壊時ニュートリノに対して推定した。

We present a generic structure (the layer structure) for decoherence effects in neutrino oscillations, which includes decoherence from quantum mechanical and classical uncertainties. The calculation is done by combining the concept of open quantum system and quantum field theory, forming a structure composed of phase spaces from microscopic to macroscopic level. Having information loss at different levels, quantum mechanical uncertainties parameterize decoherence by an intrinsic mass eigenstate separation effect, while decoherence for classical uncertainties is typically dominated by a statistical averaging effect. With the help of the layer structure, we classify the former as state decoherence (SD) and the latter as phase decoherence (PD), then further conclude that both SD and PD result from phase wash-out effects of different phase structures on different layers. Such effects admit for simple numerical calculations of decoherence for a given width and shape of uncertainties. While our structure is generic, so are the uncertainties, nonetheless, a few notable ones are: the wavepacket size of the external particles, the effective interaction volume at production and detection, the energy reconstruction model and the neutrino production profile. Furthermore, we estimate the experimental sensitivities for SD and PD parameterized by the uncertainty parameters, for reactor neutrinos and decay-at-rest neutrinos, using a traditional rate measuring method and a novel phase measuring method.
翻訳日:2023-02-16 00:57:37 公開日:2022-05-04
# 物質のニュートリノ振動における量子コヒーレンス

Quantum coherence in neutrino oscillation in matter ( http://arxiv.org/abs/2204.12332v2 )

ライセンス: Link先を確認
Z. Askaripour Ravari, M. M. Ettefaghi, and S. Miraboutalebi(参考訳) ニュートリノ振動のより詳細な研究は、標準モデルを超えた物理の確立を支援することに加えて、量子力学の基本的な側面を理解するためにも使われる可能性がある。 特に、ニュートリノ振動は、生成したニュートリノと検出されたニュートリノの量子状態が質量固有状態のコヒーレントな重ね合わせであり、ニュートリノの質量差が小さいため、このコヒーレンシーは伝播中に維持されるため起こることが分かっている。 本稿では, 媒体中のニュートリノ相互作用によるデコヒーレンスについて, 局在特性から生じるデコヒーレンスに加えて, 一定密度のニュートリノ相互作用によるデコヒーレンスについて考察する。 この目的のために、コヒーレンスを定量化し、その物質密度依存性を調べるために、$l_1\text{-norm}$を用いる。 以上の結果より, 物質媒体のコヒーレンスが真空より小さいことが一般的である。 しかし、いくつかの物質密度に対して、局所化コヒーレンス長は無限となる。 したがって、これらの場合、$l_1\text{-norm}$は真空以上である。

A closer and more detailed study of neutrino oscillation, in addition to assisting us in founding physics beyond the standard model, can potentially be used to understand the fundamental aspects of quantum mechanics. In particular, we know that the neutrino oscillation occurs because the quantum states of the produced and detected neutrinos are a coherent superposition of the mass eigenstates, and this coherency is maintained during the propagation due to the small mass difference of neutrinos. In this paper, we consider the decoherence due to the neutrino interaction in the material medium with constant density in addition to the decoherence coming from the localization properties. For this purpose, we use $l_1\text{-norm}$ in order to quantify the coherence and investigate its dependence on the matter density. According to our results, in general, the coherence in material medium is less than vacuum. However, there exist exceptions; for some matter densities, the localization coherence lengths become infinite. So, for these cases, $l_1\text{-norm}$ in matter is more than the vacuum.
翻訳日:2023-02-15 12:05:14 公開日:2022-05-04
# ニュートリノ振動における量子コヒーレンスに対する重力効果

Gravitational Effects on Quantum Coherence in Neutrino Oscillation ( http://arxiv.org/abs/2204.12314v2 )

ライセンス: Link先を確認
M. M. Ettefaghi, R. Ramezani Arani, and Z. S. Tabatabaei Lotfi(参考訳) 本稿では,シュワルツシルト計量で伝播する2つのフレーバーニュートリノの量子コヒーレンスについて検討する。 実際、この問題は、Leggett-Garg不等式 (LGI) のパラメータ $K_{3}$ を計算し、また $l_{1}$-norm, ${\cal C}(\rho)$ を定量的に評価することによって定性的に検討される。 弱場近似を用いて、重力効果は、何らかの間隔のエネルギーに対してK_{3}$の最大値が破れないように減少し、量子コヒーレンス(英語版)の最大値である${\cal C}(\rho)$が変化しないことを示す。

In this paper, we investigate the quantum coherence for two flavor neutrinos propagating in a Schwarzschild metric. In fact, this issue is explored both qualitatively via calculating the parameter $K_{3}$ in Leggett-Garg inequality (LGI) and also quantitatively by evaluating the $l_{1}$-norm, ${\cal C}(\rho)$. Using the weak field approximations, we show that the gravitational effects decrease the maximum value of $K_{3}$ for some intervals of energy such a way that there is no violation, while it leaves the maximum amount of the quantum coherence, ${\cal C}(\rho)$ unchanged.
翻訳日:2023-02-15 12:04:39 公開日:2022-05-04
# 短パルス列に駆動される低減衰高調波発振器:解析解析

Underdamped harmonic oscillator driven by a train of short pulses: Analytical analysis ( http://arxiv.org/abs/2205.01832v1 )

ライセンス: Link先を確認
Chanseul Lee and Tai Hyun Yoon(参考訳) 周期的な短パルスによって駆動される弱減衰調和振動子(UHO)の理論モデルは、古典的、半古典的、量子物理学に多くの応用を見出すことができる。 ここでは3つの異なるパルス列を駆動する1次元古典 uho に対して, 時間周期解 (it time- periodic solutions) と調和解 (it harmonic solutions) という2種類の異なる解析解を提示する。 それらはディラックコム、四角いパルスの列車、同じパルスからパルスまでの時間間隔がT$とパルス幅が2\tau$のガウスパルスの列車である。 2つの正方形パルスとガウス型パルスの解は、パルス幅が2\tau \rightarrow 0$のときディラックコームの解に近づく。 特に、ディラックコムとガウスパルスの調和解は、繰り返し周波数 $\omega_{\rm R} = 2\pi/T$ の調和項を2階まで表すことができる。 提案する解析解は,非減衰振動周波数$\omega = \sqrt{\omega_0^2-\gamma^2}$,自然周波数$\omega_0$,減衰速度$\gamma$などの系のパラメータを,t$と2\tau$の異なる駆動力パラメータに対する非線形曲線フィッティングによって実験的に決定する実用的な方法を提供する。

A theoretical model of an underdamped harmonic oscillator (UHO) driven by periodic short pulses may find plenty of applications in classical, semiclassical, and quantum physics. We present here two different forms of analytical solutions: {\it time-periodic solutions} and {\it harmonic solutions} for one-dimensional classical UHO driven by three different trains of short pulses. They are a Dirac comb, a train of square pulses, and a train of Gaussian pulses with the same pulse-to-pulse time interval $T$ and pulse width $2\tau$. Two solutions for square and Gaussian pulses approach to that of the Dirac comb when the pulse width $2\tau \rightarrow 0$ as expected. In particular, the harmonic solutions for Dirac comb and Gaussian pulses could be expressed approximately with harmonic terms of the repetition frequency $\omega_{\rm R} = 2\pi/T$ up to the second order. The presented analytical solutions would provide a practical way to determine experimentally the system parameters such as the underdamped oscillation frequency $\omega = \sqrt{\omega_0^2-\gamma^2}$, the natural frequency $\omega_0$, and the damping rate $\gamma$, by nonlinear curve fitting procedures for different driving force parameters of $T$ and $2\tau$.
翻訳日:2023-02-14 09:20:01 公開日:2022-05-04
# 量子重力における相補性-絡み合いトレードオフ

Complementarity-Entanglement Tradeoff in Quantum Gravity ( http://arxiv.org/abs/2205.01967v1 )

ライセンス: Link先を確認
Yusef Maleki and Alireza Maleki(参考訳) 重力の量子化は、現代物理学の核心において最も重要で、非常に明快な課題の1つである。 この長年の問題を解決する試みは、重力の量子的側面に光を遮る直接的な経験的証拠(すなわち重力を検知する)への道は、現在の能力をはるかに超えているように思われる。 近年,重力によって引き起こされる絡み合いが,重力の量子的性質を観察するために用いられることが発見されている。 これらのスキームは量子重力を研究するための有望なツールを提供するが、スキームの基本的および経験的な側面はまだ発見されていない。 量子の絡み合い、量子の不確かさ、相補性原理が量子物理学の他の2つの基礎的な側面であるという事実を考えると、重力の量子の性質はこれらの特徴をすべて示さなければならない。 ここでは、重力と量子物理学をより広義かつ深い文脈で接続する量子重力設定において、量子力学のこれら3つの非古典的な側面をテストするためのインターフェロメトリ・プラットフォームを配置する。 この研究で示されているように、量子重力の3つの基本的な特徴はすべてフレーム化され、干渉法で完全に解析することができる。

Quantization of the gravity remains one of the most important, yet extremely illusive, challenges at the heart of modern physics. Any attempt to resolve this long-standing problem seems to be doomed, as the route to any direct empirical evidence (i.e., detecting gravitons) for shedding light on the quantum aspect of the gravity is far beyond the current capabilities. Recently, it has been discovered that gravitationally-induced entanglement, tailored in the interferometric frameworks, can be used to witness the quantum nature of the gravity. Even though these schemes offer promising tools for investigating quantum gravity, many fundamental and empirical aspects of the schemes are yet to be discovered. Considering the fact that, beside quantum entanglement, quantum uncertainty and complementarity principles are the two other foundational aspects of quantum physics, the quantum nature of the gravity needs to manifest all of these features. Here, we lay out an interferometric platform for testing these three nonclassical aspects of quantum mechanics in quantum gravity setting, which connects gravity and quantum physics in a broader and deeper context. As we show in this work, all of these three fundamental features of quantum gravity can be framed and fully analyzed in an interferometric scheme.
翻訳日:2023-02-14 09:17:32 公開日:2022-05-04
# 量子プログラムの補助言語としてのBirkhoff-von Neumann量子論理

Birkhoff-von Neumann Quantum Logic as an Assertion Language for Quantum Programs ( http://arxiv.org/abs/2205.01959v1 )

ライセンス: Link先を確認
Mingsheng Ying(参考訳) 量子変数を持つ一階述語論理は、量子プログラムの様々な性質(例えば正しさ)を指定・推論するためのアサーション言語として必要である。 驚くべきことに、そのような論理は文献に欠落しており、既存の一階 birkhoff-von neumann 量子論理は古典変数とそれらの上での量子化のみを扱う。 本稿では,Birkhoff-von Neumann量子論理を量子変数上の普遍的および存在的量子化器で一階拡張することにより,このギャップを埋める。 例えば、量子計算や量子情報で研究されている重要な特性を特定するのに、論理が特に適していることを示す。 さらに、この論理を量子ホア論理にアサーション論理として組み込んで、古典ホア論理の1階述語論理や分離論理のBI論理と同じような役割を果たすようにした。 特に、古典プログラムの検証を大幅に単純化するために適用されたいくつかの適応規則の量子一般化を定義し、導出する方法を示す。 本論文で定義されているアサーション論理(量子変数を含む一階量子論理)は、様々な量子プログラム論理と組み合わせることで、coqやisabelle/holなどの証明アシスタントを用いて検証ツールを構築するための確立された論理基盤となることが期待される。

A first-order logic with quantum variables is needed as an assertion language for specifying and reasoning about various properties (e.g. correctness) of quantum programs. Surprisingly, such a logic is missing in the literature, and the existing first-order Birkhoff-von Neumann quantum logic deals with only classical variables and quantifications over them. In this paper, we fill in this gap by introducing a first-order extension of Birkhoff-von Neumann quantum logic with universal and existential quantifiers over quantum variables. Examples are presented to show our logic is particularly suitable for specifying some important properties studied in quantum computation and quantum information. We further incorporate this logic into quantum Hoare logic as an assertion logic so that it can play a role similar to that of first-order logic for classical Hoare logic and BI-logic for separation logic. In particular, we show how it can be used to define and derive quantum generalisations of some adaptation rules that have been applied to significantly simplify verification of classical programs. It is expected that the assertion logic defined in this paper - first-order quantum logic with quantum variables - can be combined with various quantum program logics to serve as a solid logical foundation upon which verification tools can be built using proof assistants such as Coq and Isabelle/HOL.
翻訳日:2023-02-14 09:17:00 公開日:2022-05-04
# 並列CHAracteristic-Spectral-Mixed(CHASM)方式の性能評価

Performance evaluations on the parallel CHAracteristic-Spectral-Mixed (CHASM) scheme ( http://arxiv.org/abs/2205.01922v1 )

ライセンス: Link先を確認
Yunfeng Xiong and Yong Zhang and Sihong Shao(参考訳) 6次元問題に対する決定論的アルゴリズムの性能評価は、vlasovとboltzmannのコミュニティにおける最近の進歩(dimarco et al. (2018), kormann et al. (2019))を除いて、文献にはほとんど見られない。 したがって, 各種技術の詳細な比較は, 関連分野の研究者にとって有用である。 並列CHAracteristic-Spectral-Mixed (CHASM) 方式を用いて,その使用法を徹底的に評価する。 CHASM は空間空間における立方体 B-スプライン展開と運動量空間におけるスペクトル展開を利用し、6次元位相空間における古典的および量子論的方程式の解法における計算負担を克服する可能性がある。 私たちの目的は3つある。 まず、有効なエルミート境界条件を課すことで、局所立方体スプラインはできるだけ正確に大域的に近似できることを示したい。 第二に、広く使われている擬スペクトル法(Ringhofer (1990))は特異点に正しく対応できないため、特異シンボルを持つ擬微分作用素を計算する際に、切り詰められたカーネル法を採用する必要があることを示す。 最後に、分割しないLawsonスキームとStrang演算子分割の比較を行う。 数値計算の結果,多段法に対する一段階ローソン予測-補正スキームの利点と,精度と安定性の両面で分割スキームの利点が示された。

Performance evaluations on the deterministic algorithms for 6-D problems are rarely found in literatures except some recent advances in the Vlasov and Boltzmann community [Dimarco et al. (2018), Kormann et al. (2019)], due to the extremely high complexity. Thus a detailed comparison among various techniques shall be useful to the researchers in the related fields. We try to make a thorough evaluation on a parallel CHAracteristic-Spectral-Mixed (CHASM) scheme to support its usage. CHASM utilizes the cubic B-spline expansion in the spatial space and spectral expansion in the momentum space, which many potentially overcome the computational burden in solving classical and quantum kinetic equations in 6-D phase space. Our purpose is three-pronged. First, we would like show that by imposing some effective Hermite boundary conditions, the local cubic spline can approximate to the global one as accurately as possible. Second, we will illustrate the necessity of adopting the truncated kernel method in calculating the pseudodifferential operator with a singular symbol, since the widely used pseudo-spectral method [Ringhofer (1990)] might fail to properly tackle the singularity. Finally, we make a comparison among non-splitting Lawson schemes and Strang operator splitting. Our numerical results demonstrate the advantage of the one-stage Lawson predictor-corrector scheme over multi-stage ones as well as the splitting scheme in both accuracy and stability.
翻訳日:2023-02-14 09:16:13 公開日:2022-05-04
# 量子回路のデバッグツール

A Tool For Debugging Quantum Circuits ( http://arxiv.org/abs/2205.01899v1 )

ライセンス: Link先を確認
Sara Ayman Metwalli and Rodney Van Meter(参考訳) 量子プログラムの規模が古典的ソフトウェアに匹敵するほど大きくなるにつれ、量子ソフトウェア工学の生まれたばかりの分野は成熟し、デバッガのようなツールがますます重要になる。 しかし、量子コンピュータの性質から量子デバッガの開発は困難であり、量子状態の値を覗くと、重ね合わせが部分的に崩壊するか完全に崩壊し、必要な絡み合いが破壊される可能性がある。 完全量子回路デバッガの開発の第一歩として,我々は,量子回路デバッグツールの設計と実装を行った。 このツールを使うと、ユーザーは回路を垂直または水平にスライスと呼ばれる小さなチャンクに分割し、インタラクティブなデバッグや自動テストのためにシミュレーションや実行を管理することができる。 このツールを使うと、デベロッパーは回路全体のゲートを追跡でき、各チャンクはそれぞれの動作をよりよく理解できる。 初期のユーザからの有用性とユーザビリティに関するフィードバックは、ツールを使って回路をスライスしてテストすることで、デバッグプロセスがより時間効率良くなることを示している。

As the scale of quantum programs grows to match that of classical software, the nascent field of quantum software engineering must mature and tools such as debuggers will become increasingly important. However, developing a quantum debugger is challenging due to the nature of a quantum computer; sneaking a peek at the value of a quantum state will cause either partial or complete collapse of the superposition and may destroy the necessary entanglement. As a first step to developing a full quantum circuit debugger, we have designed and implemented a quantum circuit debugging tool. The tool allows the user to divide the circuit vertically or horizontally into smaller chunks known as slices, and manage their simulation or execution for either interactive debugging or automated testing. The tool also enables developers to track gates within the overall circuit and each chunk to understand their behavior better. Feedback on usefulness and usability from early users shows that using the tool to slice and test their circuits has helped make the debugging process more time-efficient for them.
翻訳日:2023-02-14 09:15:46 公開日:2022-05-04
# 量子暗号を用いた量子セキュア対話

Quantum secure dialogue with quantum encryption ( http://arxiv.org/abs/2205.01881v1 )

ライセンス: Link先を確認
Tian-Yu Ye(参考訳) 情報漏洩問題の解法は、量子対話の研究の焦点となっている。 本稿では,量子対話における情報漏洩問題を克服するために,量子暗号の考え方を用いて,通信者間における初期量子状態のプライベート共有,すなわち量子暗号共有という新しい手法を提案する。 提案プロトコルでは、EPRペアをプライベート量子鍵として使用して、回転後に繰り返し使用できる走行光子の暗号化と復号を行う。 量子暗号共有により、初期量子状態の状態に関する公開発表は省略され、情報漏洩問題は克服される。 提案プロトコルの情報理論効率は,従来の情報漏洩耐性量子対話プロトコルよりも100%近く高い。 さらに,提案プロトコルは単一光子測定のみを必要としており,実際に実装しやすいように単一光子を量子資源として利用している。

How to solve the information leakage problem has become the research focus of quantum dialogue. In this paper, in order to overcome the information leakage problem in quantum dialogue, a novel approach for sharing the initial quantum state privately between communicators, i.e., quantum encryption sharing, is proposed by utilizing the idea of quantum encryption. The proposed protocol uses EPR pairs as the private quantum key to encrypt and decrypt the traveling photons, which can be repeatedly used after rotation. Due to quantum encryption sharing, the public announcement on the state of the initial quantum state is omitted, thus the information leakage problem is overcome. The information-theoretical efficiency of the proposed protocol is nearly 100%, much higher than previous information leakage resistant quantum dialogue protocols. Moreover, the proposed protocol only needs single-photon measurements and nearly uses single photons as quantum resource so that it is convenient to implement in practice.
翻訳日:2023-02-14 09:15:29 公開日:2022-05-04
# 2つのベル状態と共有秘密ベル状態の絡み合い交換に基づく情報漏洩のない量子対話

Quantum dialogue without information leakage based on the entanglement swapping between any two Bell states and the shared secret Bell state ( http://arxiv.org/abs/2205.01877v1 )

ライセンス: Link先を確認
Tian-Yu Ye, Li-Zhen Jiang(参考訳) 2つの認証された参加者、すなわちアリスとボブの間での情報相互伝達中に情報が漏洩するリスクを避けるために、任意の2つのベル状態と共有秘密ベル状態との絡み合い交換に基づく量子対話プロトコルを提案する。 提案プロトコルは,情報キャリアとしてベル状態を用いて,ブロック伝送,2ステップ伝送,ユニタリ演算のアイデアを統合する。 2つのベル状態間の絡み合いスワップの他に、情報漏洩問題を克服するために共有秘密ベル状態が用いられ、ボブが準備された初期状態を認識するだけでなく、ボブのエンコーディングや絡み合いスワッピングにも使用される。 セキュリティ分析により、提案プロトコルは外部の盗聴者eveからの一般的なアクティブアタックに抵抗できることが示されている。 さらに、eveの最大情報量と検出確率との関係を導出する。

In order to avoid the risk of information leakage during the information mutual transmission between two authorized participants, i.e., Alice and Bob, a quantum dialogue protocol based on the entanglement swapping between any two Bell states and the shared secret Bell state is proposed. The proposed protocol integrates the ideas of block transmission, two-step transmission and unitary operation encoding together using the Bell states as the information carriers. Besides the entanglement swapping between any two Bell states, a shared secret Bell state is also used to overcome the information leakage problem, which not only makes Bob aware of the prepared initial state but also is used for Bob's encoding and entanglement swapping. Security analysis shows that the proposed protocol can resist the general active attacks from an outside eavesdropper Eve. Moreover, the relation between the maximal amount of information Eve can gain and the detection probability is derived.
翻訳日:2023-02-14 09:15:14 公開日:2022-05-04
# 水素結合によるバイラジカルスピンカップリングの観察

Observation of biradical spin coupling through hydrogen bonds ( http://arxiv.org/abs/2205.02173v1 )

ライセンス: Link先を確認
Yang He, Na Li, Ivano E. Castelli, Ruoning Li, Yajie Zhang, Xue Zhang, Chao Li, Bingwu Wang, Song Gao, Lianmao Peng, Shimin Hou, Ziyong Shen, Jing-Tao L\"u, Kai Wu, Per Hedeg{\aa}rd, Yongfeng Wang(参考訳) 分子間電子スピン相互作用の研究は科学と技術の両方において極めて重要であるが、ここではau(111)上の全トランスレチノイン酸分子のラジカル対が、超低温走査トンネル顕微鏡を用いて作成される。 2つのラジカル間の反強磁性カップリングは磁場依存分光法により同定され、測定された交換エネルギーは0.1から1.0 mevである。 バイラディカルスピン結合はO-H$\cdots$O水素結合を介して媒介され、密度汎関数理論計算と原子価結合理論の現代版を組み合わせた解析から解明される。

Investigation of intermolecular electron spin interaction is of fundamental importance in both science and technology.Here, radical pairs of all-trans retinoic acid molecules on Au(111) are created using an ultra-low temperature scanning tunneling microscope. Antiferromagnetic coupling between two radicals is identified by magnetic-field dependent spectroscopy.The measured exchange energies are from 0.1 to 1.0 meV. The biradical spin coupling is mediated through O-H$\cdots$O hydrogen bonds, as elucidated from analysis combining density functional theory calculation and a modern version of valence bond theory.
翻訳日:2023-02-14 09:09:08 公開日:2022-05-04
# 一次元バイアス駆動ハードコアボソンにおける準凝縮状態の運命

Fate of the Quasi-condensed State for Bias-driven Hard-Core Bosons in one Dimension ( http://arxiv.org/abs/2205.02166v1 )

ライセンス: Link先を確認
T. O. Puel, S. Chesi, S. Kirchner, P. Ribeiro(参考訳) 1次元のボゾンは準凝縮と呼ばれる現象を示し、相関はパワーローの方法で崩壊する。 異なる化学ポテンシャルを持つマクロ鉛に結合したハードコアボソン鎖の非平衡定常状態における準凝縮の運命について検討する。 その結果, 有限バイアスは準凝縮状態を破壊し, 準凝縮分数の臨界スケーリング関数はゼロバイアス遷移付近で決定されることがわかった。 関連する臨界指数は決定され、数値的に検証される。 平衡とは別として、この系は指数関数的に崩壊する相関を示し、バイアス依存の相関長が平衡の分岐を特徴とする。 さらに、連鎖-リード結合に依存し、ゼロバイアスで非解析的な指数によって特徴づけられるパワーロー補正も見出される。 この完全可解な非平衡強相互作用系は、無限小バイアスの近平衡状態が線形応答内では得られないという顕著な性質を持つ。 これらの結果は、平衡制約から解放された強い相互作用によって生じる複雑な性質を解き放つのに役立つ。

Bosons in one dimension display a phenomenon called quasi-condensation, where correlations decay in a powerlaw fashion. We study the fate of quasi-condensation in the non-equilibrium steady-state of a chain of hard-core bosons coupled to macroscopic leads which are held at different chemical potentials. It is found that a finite bias destroys the quasi-condensed state and the critical scaling function of the quasi-condensed fraction, near the zero bias transition, is determined. Associated critical exponents are determined and numerically verified. Away from equilibrium, the system exhibits exponentially decaying correlations that are characterized by a bias-dependent correlation length that diverges in equilibrium. In addition, power-law corrections are found, which are characterized by an exponent that depends on the chain-leads coupling and is non-analytic at zero bias. This exactly-solvable nonequilibrium strongly-interacting system has the remarkable property that, the near-equilibrium state at infinitesimal bias, cannot be obtained within linear response. These results aid in unraveling the intricate properties spawned by strong interactions once liberated from equilibrium constraints.
翻訳日:2023-02-14 09:08:56 公開日:2022-05-04
# qLEET:パラメータ化された量子回路のためのランドスケープ、表現性、エンタングルパワーおよびトレーニング軌道の可視化

qLEET: Visualizing Loss Landscapes, Expressibility, Entangling Power and Training Trajectories for Parameterized Quantum Circuits ( http://arxiv.org/abs/2205.02095v1 )

ライセンス: Link先を確認
Utkarsh Azad and Animesh Sinha(参考訳) 我々は、様々な変分量子アルゴリズム(VQA)や量子機械学習(QML)アルゴリズムで広く使われているパラメータ化量子回路(PQC)を研究するためのオープンソースのPythonパッケージであるqLEETを提案する。 qLEETは、その絡み合いスペクトルとそれによって生成されるパラメータ化された状態の分布を研究することにより、PQCの表現可能性や絡み合いパワーなどの特性の計算を可能にする。 さらに、PQCのトレーニング軌跡と、異なる目的関数のために生成された高次元の損失景観を可視化することができる。 Qiskit、Cirq、Pyquilといった一般的な量子コンピューティングライブラリを使って構築された量子回路とノイズモデルをサポートする。 本研究では,損失ランドスケープのアンザッツ能力と構造から直感的な洞察を生かして,qLEETがハイブリッド量子古典アルゴリズムの設計と改良の機会を提供することを示す。

We present qLEET, an open-source Python package for studying parameterized quantum circuits (PQCs), which are widely used in various variational quantum algorithms (VQAs) and quantum machine learning (QML) algorithms. qLEET enables computation of properties such as expressibility and entangling power of a PQC by studying its entanglement spectrum and the distribution of parameterized states produced by it. Furthermore, it allows users to visualize the training trajectories of PQCs along with high-dimensional loss landscapes generated by them for different objective functions. It supports quantum circuits and noise models built using popular quantum computing libraries such as Qiskit, Cirq, and Pyquil. In our work, we demonstrate how qLEET provides opportunities to design and improve hybrid quantum-classical algorithms by utilizing intuitive insights from the ansatz capability and structure of the loss landscape.
翻訳日:2023-02-14 09:08:00 公開日:2022-05-04
# 確率的解析とジルサノフ変換によるハバード模型のダイナミクス

The Dynamics of the Hubbard Model through Stochastic Calculus and Girsanov Transformation ( http://arxiv.org/abs/2205.02010v1 )

ライセンス: Link先を確認
Detlef Lehmann(参考訳) 典型的な量子多体問題として、Bose-Hubbardモデルにおける密度行列要素の時間発展を考える。 任意の初期状態に対して、これらの量は SDE あるいは確率微分方程式系から得られる。 このSDEシステムには、ジルサノフ変換を適用することができる。 これは、初期状態からの全ての情報が、変換されたシステムのドリフト部から平均フィールド部へ移動する効果がある。 g=UN が固定された大きな N 極限では、変換された系の拡散部分が消滅し、その結果、正確な量子力学は時間依存的なグロス・ピタエフスキー方程式であることが判明した ODE 系によって与えられる。 2つのサイトBose-Hubbardモデルでは、GP方程式は数学的な振り子に還元され、粒子の不均衡は振動する振り子の速度に等しいか、あるいは自己トラップまたは絶縁相に対応するロールオーバーを持つことができる。 副産物として、四次二重井戸ポテンシャルを持つ数学的振り子の等価性も発見する。 崩壊と回復はより微妙な現象であり、これらがSDE系の拡散部分や量子補正を考慮する必要がある。 これは近似と崩壊で行うことができ、再現は数値的に、また解析計算によって行うことができる。 Fresnel あるいは Wiener 拡散過程の期待値から、この方法で密度行列要素を正確に記述し、放物的二次 PDE から得られるので、様々な正確な PDE 表現も得られる。 この論文は、量子多体系のための効率的な計算スキームを考案することを目的として書かれており、そのため形式論は汎用的であり、任意の次元、任意のホッピング行列、適切な調整によりフェルミオンモデルに適用できる。

As a typical quantum many body problem, we consider the time evolution of density matrix elements in the Bose-Hubbard model. For an arbitrary initial state, these quantities can be obtained from an SDE or stochastic differential equation system. To this SDE system, a Girsanov transformation can be applied. This has the effect that all the information from the initial state moves into the drift part, into the mean field part, of the transformed system. In the large N limit with g=UN fixed, the diffusive part of the transformed system vanishes and as a result, the exact quantum dynamics is given by an ODE system which turns out to be the time dependent discrete Gross Pitaevskii equation. For the two site Bose-Hubbard model, the GP equation reduces to the mathematical pendulum and the particle imbalance is equal to the velocity of that pendulum which is either oscillatory or it can have rollovers which then corresponds to the self trapping or insulating phase. As a by-product, we also find an equivalence of the mathematical pendulum with a quartic double well potential. Collapse and revivals are a more subtle phenomenom, in order to see these the diffusive part of the SDE system or quantum corrections have to be taken into account. This can be done with an approximation and collapse and revivals can be reproduced, numerically and also through an analytic calculation. Since expectation values of Fresnel or Wiener diffusion processes, we write the density matrix elements exactly in this way, can be obtained from parabolic second order PDEs, we also obtain various exact PDE representations. The paper has been written with the goal to come up with an efficient calculation scheme for quantum many body systems and as such the formalism is generic and applies to arbitrary dimension, arbitrary hopping matrices and, with suitable adjustments, to fermionic models.
翻訳日:2023-02-14 09:07:19 公開日:2022-05-04
# アディバティックおよび非アディバティック限界におけるダイアバティックサーフェスホッピングアルゴリズムの漸近解析

Asymptotic analysis of diabatic surface hopping algorithm in the adiabatic and non-adiabatic limits ( http://arxiv.org/abs/2205.02312v1 )

ライセンス: Link先を確認
Zhenning Cai, Di Fang, Jianfeng Lu(参考訳) 非断熱力学のための量子力学シミュレーションアルゴリズムの重要なクラスである表面ホッピングアルゴリズムは、通常断熱的表現において行われ、不明確な断熱的ポテンシャルエネルギー表面(pess)と断熱的結合項の存在下で崩壊する。 表面ホッピングアルゴリズムのもう1つの問題は、マーカス政権(弱結合/非断熱)における遷移速度の正しいスケーリングを捉えることの難しさである。 最初の問題は、ダイアバティックな表現を活用することで回避できるが、ダイアバティックな表面ホッピングアルゴリズムは通常、理論レベルでの正当化を欠いている。 我々は, [fang, lu. multiscale model. simul. 16:4, 1603-1622, 2018] で提案されている断熱面ホッピングアルゴリズムを検討し,スピンボーソンモデルの正確なスケーリングを正当化するマーカス法における遷移速度の漸近解析を提供する。 一般ポテンシャルの正しさを保証する2つの条件を提案する。 反対の(強い結合/断熱的な)体制では、平均場記述のタイプに興味深い一致するアルゴリズムの漸近的振る舞いを導出する。 ここで使用される手法は、他のダイアバティックベースのアルゴリズムの分析に光を当てる可能性がある。

Surface hopping algorithms, as an important class of quantum dynamics simulation algorithms for non-adiabatic dynamics, are typically performed in the adiabatic representation, which can break down in the presence of ill-defined adiabatic potential energy surfaces (PESs) and adiabatic coupling term. Another issue of surface hopping algorithms is the difficulty in capturing the correct scaling of the transition rate in the Marcus (weak-coupling/non-adiabatic) regime. Though the first issue can be circumvented by exploiting the diabatic representation, diabatic surface hopping algorithms usually lack justification on the theoretical level. We consider the diabatic surface hopping algorithm proposed in [Fang, Lu. Multiscale Model. Simul. 16:4, 1603-1622, 2018] and provide the asymptotic analysis of the transition rate in the Marcus regime that justifies the correct scaling for the spin-boson model. We propose two conditions that guarantee the correctness for general potentials. In the opposite (strong-coupling/adiabatic) regime, we derive the asymptotic behavior of the algorithm that interestingly matches a type of mean-field description. The techniques used here may shed light on the analysis for other diabatic-based algorithms.
翻訳日:2023-02-14 08:59:35 公開日:2022-05-04
# twist: 量子プログラムにおける純度と絡み合う音の推論

Twist: Sound Reasoning for Purity and Entanglement in Quantum Programs ( http://arxiv.org/abs/2205.02287v1 )

ライセンス: Link先を確認
Charles Yuan and Christopher McNally and Michael Carbin(参考訳) 量子プログラミング言語により、開発者は古典的に難解なタスクで計算ブレークスルーを約束する量子コンピュータのアルゴリズムを実装できる。 量子コンピュータのプログラミングには、量子ビットの測定結果が相関するエンタングルメントの認識が必要である。 絡み合いはアルゴリズムの正しさとプログラミングパターンの適合性を決定することができる。 本研究では、量子プログラムにおける絡み合いの推論を自動化する中心的なツールとして純度を定式化する。 純粋表現は、それが所有していない量子ビットの測定結果の影響を受けず、計算において他の表現と絡み合う自由を暗示するものである。 本稿では,純度を推論するための型システムを備えた最初の言語であるtwistを提案する。 型システムは、開発者は型アノテーションを使って純粋な式を識別できる。 Twistはまた、量子ゲートの出力に絡み合いがないことを示す純粋性アサーション演算子も備えている。 これらのアサーションを適切にチェックするために、twistは静的解析とランタイム検証の組み合わせを使っている。 我々はTwistの型システムの評価とシミュレーションにおける量子プログラムのベンチマークスイートの解析を行い、Twistが量子アルゴリズムを表現し、プログラムエラーをキャッチし、いくつかの言語が許容できないプログラムをサポートしながら、実行時の検証オーバーヘッドを3.5%以下に抑えることを示した。

Quantum programming languages enable developers to implement algorithms for quantum computers that promise computational breakthroughs in classically intractable tasks. Programming quantum computers requires awareness of entanglement, the phenomenon in which measurement outcomes of qubits are correlated. Entanglement can determine the correctness of algorithms and suitability of programming patterns. In this work, we formalize purity as a central tool for automating reasoning about entanglement in quantum programs. A pure expression is one whose evaluation is unaffected by the measurement outcomes of qubits that it does not own, implying freedom from entanglement with any other expression in the computation. We present Twist, the first language that features a type system for sound reasoning about purity. The type system enables the developer to identify pure expressions using type annotations. Twist also features purity assertion operators that state the absence of entanglement in the output of quantum gates. To soundly check these assertions, Twist uses a combination of static analysis and runtime verification. We evaluate Twist's type system and analyses on a benchmark suite of quantum programs in simulation, demonstrating that Twist can express quantum algorithms, catch programming errors in them, and support programs that several languages disallow, while incurring runtime verification overhead of less than 3.5%.
翻訳日:2023-02-14 08:59:11 公開日:2022-05-04
# 長距離xyzスピンチェーンにおける連続時間結晶と多体傷のチューニング

Tuning between continuous time crystals and many-body scars in long-range XYZ spin chains ( http://arxiv.org/abs/2205.02246v1 )

ライセンス: Link先を確認
Kieran Bull, Andrew Hallam, Zlatko Papi\'c, Ivar Martin(参考訳) 非平衡多体系における持続振動ダイナミクスは、エルゴディディディティの分解を暗示し、多くの注目を集め続けている。 最近の研究は、離散時間結晶と量子多体散乱(QMBS)の2つのクラスに焦点を当てている。 離散時間結晶は外部周期駆動の$\mathbb{Z}_2$対称性を自発的に破る物質相であり、QMBSは非熱化固有状態の部分空間にまたがってSu(2)代数表現を形成する。 この2つの力学現象をチューニングできる物理系はあるのだろうか? 従来の研究とは対照的に, 前温化現象を呈する非駆動型エネルギー保存系における 'emph{continuous} time crystal (CTC) の可能性を検討する。 我々は、長距離XYZスピンモデルを導入し、CTC相とQMBSの両方を含むことを示す。 熱力学的極限における厳密な対角化と時間依存変分原理に基づく数値シミュレーションを用いて動的位相図をマッピングする。 我々はqmbsとctcの順序が共存する構造を特定し,その類似性と重要な違いを明らかにする実験プロトコルについて考察する。

Persistent oscillatory dynamics in non-equilibrium many-body systems is a tantalizing manifestation of ergodicity breakdown that continues to attract much attention. Recent works have focused on two classes of such systems: discrete time crystals and quantum many-body scars (QMBS). While both systems host oscillatory dynamics, its origin is expected to be fundamentally different: discrete time crystal is a phase of matter which spontaneously breaks the $\mathbb{Z}_2$ symmetry of the external periodic drive, while QMBS span a subspace of non-thermalizing eigenstates forming an su(2) algebra representation. Here we ask a basic question: is there a physical system that allows to tune between these two dynamical phenomena? In contrast to much previous work, we investigate the possibility of a \emph{continuous} time crystal (CTC) in undriven, energy-conserving systems exhibiting prethermalization. We introduce a long-range XYZ spin model and show that it encompasses both a CTC phase as well as QMBS. We map out the dynamical phase diagram using numerical simulations based on exact diagonalization and time-dependent variational principle in the thermodynamic limit. We identify a regime where QMBS and CTC order co-exist, and we discuss experimental protocols that reveal their similarities as well as key differences.
翻訳日:2023-02-14 08:58:17 公開日:2022-05-04
# 自由境界値問題の解法と電気接触現象モデリングへの応用のためのハイブリッド古典量子フレームワーク

A Hybrid Classical-Quantum framework for solving Free Boundary Value Problems and Applications in Modeling Electric Contact Phenomena ( http://arxiv.org/abs/2205.02230v1 )

ライセンス: Link先を確認
Merey M.Sarsengeldin(参考訳) 本稿では,電気接点で発生する熱・物質移動問題をモデル化し,解くことができるハイブリッド古典量子フレームワークについて述べる。 特殊関数とHHL(Harrow-Hassidim-Lloyd)量子アルゴリズムを用いて,ステファン型問題に対して温度およびアークフラックス関数を正確に,ほぼ正確に求める。 我々が検討しているステファン型問題は、自由境界を持つ一般化熱方程式に基づいている。 例えば、逆一相および二相ステファン問題の完全および近似解を考える。 逆一般化一相ステファン問題はモデル問題と見なされる。 計算実験はIBM Quantum Machine上で実施された。

In this paper we elaborate a hybrid classical-quantum framework which allows one to model and solve heat and mass transfer problems occurring in electric contacts. We utilize special functions and Harrow-Hassidim-Lloyd (HHL) quantum algorithm for finding temperature and arc flux functions exactly and approximately for the Stefan type problems. The Stefan type problems we are considering are based on the Generalized Heat Equation with free boundaries. As examples we consider exact and approximate solutions of inverse one-phase and two-phase Stefan problems. An Inverse Generalized One-Phase Stefan Problem is considered as a model problem. Computational experiments were conducted and demonstrated on IBM Quantum Machine.
翻訳日:2023-02-14 08:57:54 公開日:2022-05-04
# 非平衡対称性を保護した位相秩序:半局所ギブスアンサンブルの出現

Nonequilibrium symmetry-protected topological order: emergence of semilocal Gibbs ensembles ( http://arxiv.org/abs/2205.02221v1 )

ライセンス: Link先を確認
Maurizio Fagotti, Vanja Mari\'c, Lenart Zadnik(参考訳) 我々は、グローバルクエンチ後の量子スピン鎖における非平衡時間進化を考察する。 グローバル対称性は局所緩和の標準的な図面を(一般化された)ギブズアンサンブルに無効化し、問題の解を与えることができることを示す。 特に統計的アンサンブルのファミリーを紹介し、「半ローカル(一般化された)ギブスアンサンブル」と呼ぶ。 この問題は、ハミルトニアンが(擬)局所的ではないが、時間進化が起こる対称性に制限された空間で作用する保存法則を持つときに生じる。 このため、無限に現れる定常状態は例外的な特徴を示すことができる。 我々はスピンフリップ対称性を持つ特定の例に焦点を当て、スピン-1/2$連鎖で遭遇する最も一般的な大域対称性である。 特異な性質のうち、初期状態における局所摂動によって引き起こされるスピンブロックのエントロピーの超過は、サブシステムの長さとともに対数的に増加する。 ゼロ温度での平衡における対称性保護トポロジカル秩序との接続を確立し,初期状態の(対称性破壊)回転あるいは温度上昇によって誘導される秩序の融解について検討する。

We consider nonequilibrium time evolution in quantum spin chains after a global quench. We show that global symmetries can invalidate the standard picture of local relaxation to a (generalised) Gibbs ensemble and provide a solution to the problem. We introduce in particular a family of statistical ensembles, which we dub "semilocal (generalised) Gibbs ensembles". The issue arises when the Hamiltonian possesses conservation laws that are not (pseudo)local but act as such in the symmetry-restricted space where time evolution occurs. Because of them, the stationary state emerging at infinite time can exhibit exceptional features. We focus on a specific example with a spin-flip symmetry, which is the commonest global symmetry encountered in spin-$1/2$ chains. Among the exceptional properties, we find that, at late times, the excess of entropy of a spin block triggered by a local perturbation in the initial state grows logarithmically with the subsystem's length. We establish a connection with symmetry-protected topological order in equilibrium at zero temperature and study the melting of the order induced either by a (symmetry-breaking) rotation of the initial state or by an increase of the temperature.
翻訳日:2023-02-14 08:57:43 公開日:2022-05-04
# 移動行列例外点からのバンドエッジにおける普遍的劣微分挙動

Universal subdiffusive behavior at band edges from transfer matrix exceptional points ( http://arxiv.org/abs/2205.02214v1 )

ライセンス: Link先を確認
Madhumita Saha, Bijay Kumar Agarwalla, Manas Kulkarni, Archak Purkayastha(参考訳) 非エルミート行列における対称性と遷移の理解とその物理的影響は、オープン量子システムの文脈において非常に興味深い。 周期的オンサイトポテンシャルを持つ一次元強結合鎖のスペクトルは、この問題を2ドル2ドル移動行列でキャストすることで得られる。 これらの非エルミート行列はパリティ時対称性に似た対称性を持ち、従って例外的な点の遷移を示す。 単位セルの移動行列の例外的な点はスペクトルのバンドエッジに対応する。 2つのゼロ温度浴に2つの端で接続すると、バスの化学的ポテンシャルがバンドエッジと等しければ、2ドル(約2,500円)の指数で、システムサイズと導電率の半拡散スケーリングが生じる。 さらに、化学ポテンシャルが任意のバンドエッジにわたって調整されるときに、散逸性量子相転移の存在を実証する。 注目すべきことに、この機能は準周期系におけるモビリティエッジ間の遷移に似ている。 この挙動は、基礎となる格子の周期ポテンシャルとバンド数の詳細に関係なく普遍的である。 しかし、浴槽の無いところには類似性はない。

Understanding symmetries and transitions in non-Hermitian matrices and their physical consequences is of tremendous interest in the context of open quantum systems. The spectrum of one dimensional tight-binding chain with periodic on-site potential can be obtained by casting the problem in terms of $2 \times 2$ transfer matrices. We find that these non-Hermitian matrices have a symmetry akin to parity-time symmetry, and hence show transitions across exceptional points. The exceptional points of the transfer matrix of a unit cell correspond to the band edges of the spectrum. When connected to two zero temperature baths at two ends, this consequently leads to subdiffusive scaling of conductance with system size, with an exponent $2$, if the chemical potential of the baths are equal to the band edges. We further demonstrate the existence of a dissipative quantum phase transition as the chemical potential is tuned across any band edge. Remarkably, this feature is analogous to transition across a mobility edge in quasi-periodic systems. This behavior is universal, irrespective of the details of the periodic potential and the number of bands of the underlying lattice. It, however, has no analog in absence of the baths.
翻訳日:2023-02-14 08:57:18 公開日:2022-05-04
# ミッションカバー最適化のための量子コンピューティング手法

Quantum Computing Approaches for Mission Covering Optimization ( http://arxiv.org/abs/2205.02212v1 )

ライセンス: Link先を確認
Massimiliano Cutugno, Annarita Giani, Paul M. Alsing, Laura Wessing, and Austars Schnore(参考訳) 我々は、ミッションカバー最適化(mco)と呼ばれる制約付きリソース割り当て問題を解決するために量子コンピューティングアルゴリズムを研究した。 我々は,量子アニーリング法と量子交換演算子 Ansatz (Hadfield et al. arXiv:1709.03489v2, Quantum Approximate Optimization Algorithm, Farhi et al. arXiv:1411.4028v1) を用いたD-WaveおよびIBMマシン上の制約最適化問題の定式化を比較した。 2つの異なるMCOシナリオの結果を提供し、その結果を分析します。

We study quantum computing algorithms for solving certain constrained resource allocation problems we coin as Mission Covering Optimization (MCO). We compare formulations of constrained optimization problems using Quantum Annealing techniques and the Quantum Alternating Operator Ansatz (Hadfield et al. arXiv:1709.03489v2, a generalized algorithm of the Quantum Approximate Optimization Algorithm, Farhi et al. arXiv:1411.4028v1) on D-Wave and IBM machines respectively using the following metrics: cost, timing, constraints held, and qubits used. We provide results from two different MCO scenarios and analyze results.
翻訳日:2023-02-14 08:57:00 公開日:2022-05-04
# より良い職名表現学習のためのジョブ遷移タググラフを目指して

Towards Job-Transition-Tag Graph for a Better Job Title Representation Learning ( http://arxiv.org/abs/2206.02782v1 )

ライセンス: Link先を確認
Jun Zhu and C\'eline Hudelot(参考訳) 肩書き表現の学習は、主に才能の労働史から構築された『textit{Job-Transition Graph}』に基づいている。 しかし、これらのレコードは通常乱雑なので、このグラフは非常にばらばらであり、学習した表現の品質に影響し、さらなる分析を妨げる。 この問題に対処するために、我々は、ジョブのタイトル表現の質を向上させる追加ノードでグラフを強化することを提案する。 具体的には、\textit{job-transition-tag graph}という、ジョブ名とタグ(ジョブ責任や機能に関連する単語)の2種類のノードを含む異種グラフを構築します。 この線に沿って、職名表現学習を、‘textit{Job-Transition-Tag Graph}’に埋め込まれた学習ノードとして再構成する。 2つのデータセットの実験は、我々のアプローチの関心を示しています。

Works on learning job title representation are mainly based on \textit{Job-Transition Graph}, built from the working history of talents. However, since these records are usually messy, this graph is very sparse, which affects the quality of the learned representation and hinders further analysis. To address this specific issue, we propose to enrich the graph with additional nodes that improve the quality of job title representation. Specifically, we construct \textit{Job-Transition-Tag Graph}, a heterogeneous graph containing two types of nodes, i.e., job titles and tags (i.e., words related to job responsibilities or functionalities). Along this line, we reformulate job title representation learning as the task of learning node embedding on the \textit{Job-Transition-Tag Graph}. Experiments on two datasets show the interest of our approach.
翻訳日:2023-02-14 08:49:46 公開日:2022-05-04
# 量子力学における線形依存移動基底に対する変分的アプローチ:ガウス関数への応用

A variational approach for linearly dependent moving bases in quantum dynamics: application to Gaussian functions ( http://arxiv.org/abs/2205.02358v1 )

ライセンス: Link先を確認
Lo\"ic Joubert-Doriol(参考訳) 本稿では,schr\"odinger方程式の解法における非直交時間依存基底に対する線形依存の変分処理について述べる。 その方法は次のとおりである。 一 線型独立な作業空間の定義、及び 二 有限時間ステップ上のプロパゲータの変分構成 第2のポイントは、時間発展に伴う作業空間の次元の変化を適切に考慮することを可能にする。 特に、時間進化は半単位変換によって表される。 実験はガウス基底関数を持つ四次二重ウェルポテンシャルで行われ、その中心は古典的運動方程式に従って進化する。 結果のダイナミクスが正確に収束し、構成によってユニタリであることが示される。

In this paper, we present a variational treatment of the linear dependence for a non-orthogonal time-dependent basis set in solving the Schr\"odinger equation. The method is based on: i) the definition of a linearly independent working space, and ii) a variational construction of the propagator over finite time-steps. The second point allows the method to properly account for changes in the dimensionality of the working space along the time evolution. In particular, the time evolution is represented by a semi-unitary transformation. Tests are done on a quartic double-well potential with Gaussian basis function whose centers evolve according to classical equations of motion. We show that the resulting dynamics converges to the exact one and is unitary by construction.
翻訳日:2023-02-14 08:49:09 公開日:2022-05-04
# データとシンドロームエラーの結合補正のための量子LDPC符号のソフトシンドローム復号法

Soft Syndrome Decoding of Quantum LDPC Codes for Joint Correction of Data and Syndrome Errors ( http://arxiv.org/abs/2205.02341v1 )

ライセンス: Link先を確認
Nithin Raveendran, Narayanan Rengaswamy, Asit Kumar Pradhan, Bane Vasi\'c(参考訳) 実際の誤り訂正実装における信頼できないステップであるシンドローム情報の測定を用いて、主に量子エラーを検出し、修正する。 通常、そのような障害またはノイズ症候群の測定は、ある確率で反転した2値の測定結果としてモデル化される。 しかし、測定されたシンドロームは、実際には、シンドローム抽出の物理的実装で得られた連続電圧または電流値の離散値である。 本稿では,量子低密度パリティチェック(qldpc,quantum low-density parity-check)符号をデコードする反復デコーダの恩恵を受けるために,この「ソフト」またはアナログ情報を用いる。 シンドロームに基づく反復的信念伝播デコーダを修正し、このシンドロームソフト情報を用いて、繰り返し測定することなく、データとシンドロームの誤りを同時に修正する。 改良型デコーダにおける症候群からソフト情報を抽出する利点は、準循環型リフトドプロダクツQLDPCコードファミリーのしきい値と論理誤差率の比較だけでなく、反復型デコーダの高速収束にも有効であることを示す。 特に、ノイズ症候群を有する新しいBPデコーダは、理想症候群下の標準BPデコーダと同等に機能する。

Quantum errors are primarily detected and corrected using the measurement of syndrome information which itself is an unreliable step in practical error correction implementations. Typically, such faulty or noisy syndrome measurements are modeled as a binary measurement outcome flipped with some probability. However, the measured syndrome is in fact a discretized value of the continuous voltage or current values obtained in the physical implementation of the syndrome extraction. In this paper, we use this "soft" or analog information without the conventional discretization step to benefit the iterative decoders for decoding quantum low-density parity-check (QLDPC) codes. Syndrome-based iterative belief propagation decoders are modified to utilize the syndrome-soft information to successfully correct both data and syndrome errors simultaneously, without repeated measurements. We demonstrate the advantages of extracting the soft information from the syndrome in our improved decoders, not only in terms of comparison of thresholds and logical error rates for quasi-cyclic lifted-product QLDPC code families, but also for faster convergence of iterative decoders. In particular, the new BP decoder with noisy syndrome performs as good as the standard BP decoder under ideal syndrome.
翻訳日:2023-02-14 08:48:43 公開日:2022-05-04
# 高忠実度2ビットゲートの速度限界に向けて

Towards the speed limit of high fidelity 2-qubit gates ( http://arxiv.org/abs/2205.02324v1 )

ライセンス: Link先を確認
Swathi S Hegde, Jingfu Zhang, Dieter Suter(参考訳) 量子ゲート演算のほとんどの実装は、量子システムの進化を促進するために外部制御場に依存する。 これらの制御フィールドの生成には、適切な制御ハミルトニアンの設計に多大な努力が必要である。 さらに、制御フィールド内の任意の誤差は、理想目標演算に対する実装された制御操作の忠実度を低減する。 十分な高速ゲート操作を低いエラー率で達成することは、依然として大きな課題である。 本稿では,特定のゲート操作に対して時間依存制御フィールドを完全に排除することにより,この課題を克服する新しい手法を提案する。 このアプローチは、関連するエラーの原因を同時に排除しながら、ゲート操作の速度を最大化するのに役立つ。 本稿では, 室温におけるダイヤモンドの単一窒素空孔 (nv) 中心において, この概念を実験的に実証する。

Most implementations of quantum gate operations rely on external control fields to drive the evolution of the quantum system. Generating these control fields requires significant efforts to design the suitable control Hamiltonians. Furthermore, any error in the control fields reduces the fidelity of the implemented control operation with respect to the ideal target operation. Achieving sufficiently fast gate operations at low error rates remains therefore a huge challenge. In this work, we present a novel approach to overcome this challenge by eliminating, for specific gate operations, the time-dependent control fields entirely. This approach appears useful for maximising the speed of the gate operation while simultaneously eliminating relevant sources of errors. We present an experimental demonstration of the concept in a single nitrogen-vacancy (NV) center in diamond at room temperature.
翻訳日:2023-02-14 08:48:12 公開日:2022-05-04
# 量子ビットにおける最適エントロピー圧縮と浄化

Optimal Entropy Compression and Purification in Quantum Bits ( http://arxiv.org/abs/2001.00562v4 )

ライセンス: Link先を確認
Varad R. Pande(参考訳) 対角線密度行列で表される量子系における混合計算キュービットのバイアスを最適に増加させる大域的ユニタリ変換(OPTSWAPS)は、その純度を増大させる計算基底の特定の状態に向けられる。 上記の3B-Compの一般化であるデータ圧縮手法を実装してこれを実現した量子回路について述べる。 これらの回路は、そのフォン・ノイマンやシャノンエントロピーの一部を任意の周囲の量子ビットに極大に転送することで計算キュービットの純度の増加を可能にし、初期偏差の完全な範囲に有効である。 オプスワップを用いることで、熱バスに開放されたエンジニアリング量子レジスタにおいて、量子ビットの階層依存的な冷却をそれぞれの限界にアルゴリズム的に行うことができる。 マルチキュービットの浄化と、いくつかのアーキテクチャにおけるDivincenzoの量子計算の基準の2つを満たすことに加えて、量子データ圧縮と量子熱力学におけるこの研究の影響について論じる。

Global unitary transformations (OPTSWAPS) that optimally increase the bias of any mixed computation qubit in a quantum system -- represented by a diagonal density matrix -- towards a particular state of the computational basis which, in effect, increases its purity are presented. Quantum circuits that achieve this by implementing the above data compression technique -- a generalization of the 3B-Comp used before -- are described. These circuits enable purity increment in the computation qubit by maximally transferring part of its von Neumann or Shannon entropy to any number of surrounding qubits and are valid for the complete range of initial biases. Using the optswaps, a practicable new method that algorithmically achieves hierarchy-dependent cooling of qubits to their respective limits in an engineered quantum register opened to the heat-bath is delineated. In addition to multi-qubit purification and satisfying two of DiVincenzo's criteria for quantum computation in some architectures, the implications of this work for quantum data compression and quantum thermodynamics are discussed.
翻訳日:2023-01-16 04:54:25 公開日:2022-05-04
# dropoutが反撃:多様性サンプリングによる不確実性推定の改善

Dropout Strikes Back: Improved Uncertainty Estimation via Diversity Sampling ( http://arxiv.org/abs/2003.03274v3 )

ライセンス: Link先を確認
Kirill Fedyanin, Evgenii Tsymbalov, Maxim Panov(参考訳) 機械学習モデルの不確実性推定は、モデル予測の信頼区間の構築や、分散点の検出や逆生成点の検出など、多くのシナリオにおいて非常に重要である。 本研究では,ニューラルネットワークのドロップアウト層に対するサンプリング分布の修正により,不確実性評価の品質が向上することを示す。 主要なアイデアは、ニューロン間のデータ駆動相関を計算し、最大多様なニューロンを含むサンプルを生成する、という2つの主要なステップで構成されています。 シミュレーションおよび実世界のデータに関する一連の実験において、決定点プロセスに基づくサンプリングによる多様化が、回帰および分類タスクの不確実性評価の最先端の結果を得ることを示した。 このアプローチの重要な特徴は、モデルやトレーニング手順の変更を一切必要とせず、ドロップアウト層を持つ任意のディープラーニングモデルへの簡単な適用を可能にすることです。

Uncertainty estimation for machine learning models is of high importance in many scenarios such as constructing the confidence intervals for model predictions and detection of out-of-distribution or adversarially generated points. In this work, we show that modifying the sampling distributions for dropout layers in neural networks improves the quality of uncertainty estimation. Our main idea consists of two main steps: computing data-driven correlations between neurons and generating samples, which include maximally diverse neurons. In a series of experiments on simulated and real-world data, we demonstrate that the diversification via determinantal point processes-based sampling achieves state-of-the-art results in uncertainty estimation for regression and classification tasks. An important feature of our approach is that it does not require any modification to the models or training procedures, allowing straightforward application to any deep learning model with dropout layers.
翻訳日:2022-12-26 00:43:26 公開日:2022-05-04
# 対話型説明モデル分析の文法

The Grammar of Interactive Explanatory Model Analysis ( http://arxiv.org/abs/2005.00497v4 )

ライセンス: Link先を確認
Hubert Baniecki, Dariusz Parzych, Przemyslaw Biecek(参考訳) 予測モデルの深い分析の必要性が高まり、その局所的および大域的性質を説明する一連の新しい方法が導かれる。 どちらの方法がベストですか? これは誤った質問であることがわかった。 1つの視点しか持たない単一の方法を用いて、ブラックボックス機械学習モデルを十分に説明できない。 孤立した説明は誤解を招きやすいため、誤ったあるいは単純な推論につながる。 この問題は羅生門効果として知られ、同じ現象の多様で矛盾する解釈をも指している。 驚くべきことに、ほとんどの手法は説明可能で責任ある機械学習のために開発された。 対照的に,モデルの対話的かつ逐次的な解析として説明可能性の問題を示す。 本稿では,説明モデル解析(ema)の異なる手法が相互に補完しあう方法を提案し,それらをjuxtaposeが重要である理由について述べる。 Interactive EMA(IEMA)の導入プロセスは、説明可能な機械学習のアルゴリズム側から派生し、認知科学で開発されたアイデアを受け入れることを目的としている。 我々はIEMAの文法を形式化し、潜在的な人間モデル対話を記述する。 対話性、カスタマイズ性、自動化を主な特徴とする、広く使われている人中心のオープンソースソフトウェアフレームワークで実装されている。 我々は,IEMAの有用性を評価するためにユーザスタディを実施し,モデルの対話的逐次解析が人的意思決定の性能と信頼性を高めることを示す。

The growing need for in-depth analysis of predictive models leads to a series of new methods for explaining their local and global properties. Which of these methods is the best? It turns out that this is an ill-posed question. One cannot sufficiently explain a black-box machine learning model using a single method that gives only one perspective. Isolated explanations are prone to misunderstanding, leading to wrong or simplistic reasoning. This problem is known as the Rashomon effect and refers to diverse, even contradictory, interpretations of the same phenomenon. Surprisingly, most methods developed for explainable and responsible machine learning focus on a single-aspect of the model behavior. In contrast, we showcase the problem of explainability as an interactive and sequential analysis of a model. This paper proposes how different Explanatory Model Analysis (EMA) methods complement each other and discusses why it is essential to juxtapose them. The introduced process of Interactive EMA (IEMA) derives from the algorithmic side of explainable machine learning and aims to embrace ideas developed in cognitive sciences. We formalize the grammar of IEMA to describe potential human-model dialogues. It is implemented in a widely used human-centered open-source software framework that adopts interactivity, customizability and automation as its main traits. We conduct a user study to evaluate the usefulness of IEMA, which indicates that an interactive sequential analysis of a model increases the performance and confidence of human decision making.
翻訳日:2022-12-07 23:30:26 公開日:2022-05-04
# リカレントフローネットワーク:都市移動度の密度モデリングのためのリカレント潜時変動モデル

Recurrent Flow Networks: A Recurrent Latent Variable Model for Density Modelling of Urban Mobility ( http://arxiv.org/abs/2006.05256v2 )

ライセンス: Link先を確認
Daniele Gammelli and Filipe Rodrigues(参考訳) モビリティ・オン・デマンド(MoD)システムは、移動要求が協調した車両群によって動的に処理される、急速に発展する交通手段である。 重要な点として、MoDシステムの効率は、時空間における供給と需要の分配の整合性に大きく依存する(すなわち、需要を満たすためには、車は正しい場所と所望の時間で利用できる必要がある)。 そこで我々は,都市移動需要の進展において,時間的変化と空間的変動とを明確に区別することを目的とした予測モデルを提案する。 しかし、現在のアプローチでは、一般的にこの区別を無視し、両方の変動源を共同で扱うか、そもそもそれらの存在を完全に無視するかのどちらかである。 本稿では,リカレントフローネットワーク(RFN)を提案する。 (i)時間変動をモデル化するリカレントニューラルネットワークの隠れ状態における潜在確率変数 (ii)移動需要の空間分布をモデル化するための流れの正規化 本研究では,空間的変動と時間的変動を明示的に区別する予測モデルが,いくつかの望ましい特性を示すことを示す。

Mobility-on-demand (MoD) systems represent a rapidly developing mode of transportation wherein travel requests are dynamically handled by a coordinated fleet of vehicles. Crucially, the efficiency of an MoD system highly depends on how well supply and demand distributions are aligned in spatio-temporal space (i.e., to satisfy user demand, cars have to be available in the correct place and at the desired time). To do so, we argue that predictive models should aim to explicitly disentangle between temporal} and spatial variability in the evolution of urban mobility demand. However, current approaches typically ignore this distinction by either treating both sources of variability jointly, or completely ignoring their presence in the first place. In this paper, we propose recurrent flow networks (RFN), where we explore the inclusion of (i) latent random variables in the hidden state of recurrent neural networks to model temporal variability, and (ii) normalizing flows to model the spatial distribution of mobility demand. We demonstrate how predictive models explicitly disentangling between spatial and temporal variability exhibit several desirable properties, and empirically show how this enables the generation of distributions matching potentially complex urban topologies.
翻訳日:2022-11-23 13:50:45 公開日:2022-05-04
# EllSeg:ロバストなゲーミングトラッキングのための楕円セグメンテーションフレームワーク

EllSeg: An Ellipse Segmentation Framework for Robust Gaze Tracking ( http://arxiv.org/abs/2007.09600v2 )

ライセンス: Link先を確認
Rakshit S. Kothari, Aayush K. Chaudhary, Reynold J. Bailey, Jeff B. Pelz, Gabriel J. Diaz(参考訳) 種々のコンピュータビジョン技術を用いて、予め分割された眼の部分に対して、瞳孔または虹彩追跡に基づくビデオオクログラフィーにおいて必須成分である楕円嵌合を行う。 まぶたの形、カメラの位置、まぶたによる咬合などいくつかの要因は、よく定義された瞳孔や虹彩エッジセグメントに依存する楕円型フィッティングアルゴリズムをしばしば破る。 本研究では,複数の公用合成セグメンテーションデータセットに対して標準眼部セグメンテーションを用いた場合と比較して,楕円構造全体を直接分割する畳み込みニューラルネットワークのトレーニングを提案し,その枠組みが閉塞に対して堅牢であることを示し,瞳孔と虹彩追跡性能(少なくとも10$\%$と24$\%$の瞳孔と虹彩中心検出率を2ピクセル誤差マージン内でそれぞれ増加させる)を提供する。

Ellipse fitting, an essential component in pupil or iris tracking based video oculography, is performed on previously segmented eye parts generated using various computer vision techniques. Several factors, such as occlusions due to eyelid shape, camera position or eyelashes, frequently break ellipse fitting algorithms that rely on well-defined pupil or iris edge segments. In this work, we propose training a convolutional neural network to directly segment entire elliptical structures and demonstrate that such a framework is robust to occlusions and offers superior pupil and iris tracking performance (at least 10$\%$ and 24$\%$ increase in pupil and iris center detection rate respectively within a two-pixel error margin) compared to using standard eye parts segmentation for multiple publicly available synthetic segmentation datasets.
翻訳日:2022-11-08 23:57:40 公開日:2022-05-04
# リモートセンシング画像のセマンティックセグメンテーションのためのMACU-Net

MACU-Net for Semantic Segmentation of Fine-Resolution Remotely Sensed Images ( http://arxiv.org/abs/2007.13083v3 )

ライセンス: Link先を確認
Rui Li, Chenxi Duan, Shunyi Zheng, Ce Zhang and Peter M. Atkinson(参考訳) リモートセンシング画像の意味セグメンテーションは、土地資源管理、収量推定、経済評価において重要な役割を果たす。 ディープエンコーダ-デコーダアーキテクチャであるu-netは、精度の高い画像分割に頻繁に使われている。 本稿では,U-Netの異なる層が生成するマルチスケール機能と,微細解像度のリモートセンシング画像を用いたセグメンテーションのためのマルチスケールスキップ接続および非対称畳み込みベースU-Net(MACU-Net)を設計する。 1) マルチスケールのスキップ接続は低レベルと高レベルの両方の機能マップに含まれる意味的特徴を結合し、再定義すること, (2) 非対称畳み込みブロックは標準畳み込み層の特徴表現と特徴抽出能力を強化する。 異なる衛星センサーによってキャプチャされた2つのリモートセンシングデータセットで実施された実験は、提案されたMACU-NetがU-Net、U-NetPPL、U-Net 3+を超越していることを示す。 コードはhttps://github.com/lironui/MACU-Netで入手できる。

Semantic segmentation of remotely sensed images plays an important role in land resource management, yield estimation, and economic assessment. U-Net, a deep encoder-decoder architecture, has been used frequently for image segmentation with high accuracy. In this Letter, we incorporate multi-scale features generated by different layers of U-Net and design a multi-scale skip connected and asymmetric-convolution-based U-Net (MACU-Net), for segmentation using fine-resolution remotely sensed images. Our design has the following advantages: (1) The multi-scale skip connections combine and realign semantic features contained in both low-level and high-level feature maps; (2) the asymmetric convolution block strengthens the feature representation and feature extraction capability of a standard convolution layer. Experiments conducted on two remotely sensed datasets captured by different satellite sensors demonstrate that the proposed MACU-Net transcends the U-Net, U-NetPPL, U-Net 3+, amongst other benchmark approaches. Code is available at https://github.com/lironui/MACU-Net.
翻訳日:2022-11-06 20:12:11 公開日:2022-05-04
# 一般化多出力ガウス過程補償回帰

Generalized Multi-Output Gaussian Process Censored Regression ( http://arxiv.org/abs/2009.04822v2 )

ライセンス: Link先を確認
Daniele Gammelli, Kasper Pryds Rolsted, Dario Pacino, Filipe Rodrigues(参考訳) 検閲された観測をモデル化する場合、現在の回帰法における典型的なアプローチは、条件付き出力分布を記述するために検閲されたガウスモデルを使用することである。 本稿では、データ不足の場合と同様に、複数の出力間の相関を利用して、検閲されたデータから生じるバイアスにモデルがよりうまく対処できると論じる。 そこで本稿では,GPの非パラメトリックな柔軟性と,入力依存ノイズ条件下での相関出力からの情報を活用する能力を組み合わせたヘテロスセダスティック多出力ガウスプロセスモデルを提案する。 得られた推論の難易度に対処するために,確率的最適化に適した辺りの対数類似度に束縛された変分法を考案する。 我々は,合成および実世界のタスクにおける検閲データに対する他の生成モデルに対するモデルに対する経験的評価を行い,任意の確率関数を扱うためにどのように一般化できるかを示す。 結果として、柔軟性を追加することで、潜在的に複雑な検閲ダイナミクスの下で、モデルが基盤となる非検閲プロセス(すなわち、真)をより正確に見積もることができることを示す。

When modelling censored observations, a typical approach in current regression methods is to use a censored-Gaussian (i.e. Tobit) model to describe the conditional output distribution. In this paper, as in the case of missing data, we argue that exploiting correlations between multiple outputs can enable models to better address the bias introduced by censored data. To do so, we introduce a heteroscedastic multi-output Gaussian process model which combines the non-parametric flexibility of GPs with the ability to leverage information from correlated outputs under input-dependent noise conditions. To address the resulting inference intractability, we further devise a variational bound to the marginal log-likelihood suitable for stochastic optimization. We empirically evaluate our model against other generative models for censored data on both synthetic and real world tasks and further show how it can be generalized to deal with arbitrary likelihood functions. Results show how the added flexibility allows our model to better estimate the underlying non-censored (i.e. true) process under potentially complex censoring dynamics.
翻訳日:2022-10-20 02:51:27 公開日:2022-05-04
# 全周的な知識伝達を目指して--タスク関連ラベルから学ぶ

Towards All-around Knowledge Transferring: Learning From Task-irrelevant Labels ( http://arxiv.org/abs/2011.08470v2 )

ライセンス: Link先を確認
Yinghui Li, Ruiyang Liu, ZiHao Zhang, Ning Ding, Ying Shen, Linmi Tao, Hai-Tao Zheng(参考訳) ディープニューラルモデルは、多くの分類タスクでかなりの性能を発揮しているが、一方で十分な手作業による注釈データを必要とする。 分類タスクごとに適切なデータをアノテートするのは極めて時間がかかり、費用がかかるため、小さなデータセットに一般化した経験的有効モデルの学習が注目を集めている。 既存の取り組みは、問題に取り組むために、タスク関連の知識を他の類似データから移すことに重点を置いている。 これらのアプローチは目覚ましい改善をもたらしたが、タスク非関連の特徴が大きな負の伝達効果をもたらすことを無視した。 これまでのところ、この種の機能の利用はさておき、タスクの無関係な機能の影響を調べるための大規模な研究は行われていない。 本稿では,主にタスク関連ラベルから抽出されるタスク関連特徴を利用するタスク関連移動学習(TIRTL)を提案する。 特に,タスク非関連情報の表現を抑え,分類の学習プロセスを容易にする。 また,本手法の理論的説明も行う。 さらに、TIRTLは以前タスク関連知識を利用してきたものとは相反せず、タスク関連機能とタスク関連機能との同時利用を可能にするためにうまく組み合わせることができる。 本理論と手法の有効性を検証するため,表情認識と指認識タスクに関する広範囲な実験を行った。 当社のソースコードも将来的には再現可能になる予定です。

Deep neural models have hitherto achieved significant performances on numerous classification tasks, but meanwhile require sufficient manually annotated data. Since it is extremely time-consuming and expensive to annotate adequate data for each classification task, learning an empirically effective model with generalization on small dataset has received increased attention. Existing efforts mainly focus on transferring task-relevant knowledge from other similar data to tackle the issue. These approaches have yielded remarkable improvements, yet neglecting the fact that the task-irrelevant features could bring out massive negative transfer effects. To date, no large-scale studies have been performed to investigate the impact of task-irrelevant features, let alone the utilization of this kind of features. In this paper, we firstly propose Task-Irrelevant Transfer Learning (TIRTL) to exploit task-irrelevant features, which mainly are extracted from task-irrelevant labels. Particularly, we suppress the expression of task-irrelevant information and facilitate the learning process of classification. We also provide a theoretical explanation of our method. In addition, TIRTL does not conflict with those that have previously exploited task-relevant knowledge and can be well combined to enable the simultaneous utilization of task-relevant and task-irrelevant features for the first time. In order to verify the effectiveness of our theory and method, we conduct extensive experiments on facial expression recognition and digit recognition tasks. Our source code will be also available in the future for reproducibility.
翻訳日:2022-09-24 17:04:12 公開日:2022-05-04
# オンボードスケジューリング技術のイノベーション

Innovations in the field of on-board scheduling technologies ( http://arxiv.org/abs/2205.06792v1 )

ライセンス: Link先を確認
Temenuzhka Avramova, Riccardo Maderna, Alessandro Benetton, Christian Cardenio(参考訳) 宇宙ミッションは長距離、通信の困難さ、運用コストが特徴である。 さらに、近年は常に複雑さが増している。 このため、宇宙オペレーターの自律性の向上は、低コストでミッション報酬を増やすための魅力的な目標である。 本稿では,ミッション自律性のためのオンボードソフトウェアフレームワークに組み込むオンボードスケジューラを提案する。 一連のアクティビティが与えられると、各アクティビティの優先度、順序制約、リソース消費に応じて、各アクティビティの開始時間を決定する責任を負う。 提示されたスケジューラは線形整数プログラミングに基づいており、分岐・カットソルバの使用に依存している。 この技術は地球観測のシナリオでテストされ、最先端のスケジューリング技術と比較されている。

Space missions are characterized by long distances, difficult or unavailable communication and high operating costs. Moreover, complexity has been constantly increasing in recent years. For this reason, improving the autonomy of space operators is an attractive goal to increase the mission reward with lower costs. This paper proposes an onboard scheduler, that integrates inside an onboard software framework for mission autonomy. Given a set of activities, it is responsible for determining the starting time of each activity according to their priority, order constraints, and resource consumption. The presented scheduler is based on linear integer programming and relies on the use of a branch-and-cut solver. The technology has been tested on an Earth Observation scenario, comparing its performance against the state-of-the-art scheduling technology.
翻訳日:2022-05-22 11:38:24 公開日:2022-05-04
# NN-EUCLID : 応力データのないディープラーニング超弾性

NN-EUCLID: deep-learning hyperelasticity without stress data ( http://arxiv.org/abs/2205.06664v1 )

ライセンス: Link先を確認
Prakash Thakolkaran, Akshay Joshi, Yiwen Zheng, Moritz Flaschel, Laura De Lorenzis and Siddhant Kumar(参考訳) 本稿では,超弾性構成則の教師なし学習に物理一貫性のあるディープニューラルネットワークを提案する。 ストレス-ひずみペアの可用性を前提とした教師あり学習とは対照的に,このアプローチでは実測可能なフルフィールド変位と大域的反応力データのみを使用するため,近年の非教師なし構成法同定・発見(euclid)の枠組みの範囲内にあり,nn-euclidと表現している。 学習過程を導くために、線形運動量保存に基づく物理動機損失関数を活用することにより、ストレスラベルの欠如を補償する。 構成モデルは入力凸ニューラルネットワークに基づいており、入力に対して凸である関数を学習することができる。 特別に設計されたニューラルネットワークアーキテクチャを用いることにより、材料フレーム非依存性、(ポリ)凸性、応力のない参照構成などの超弾性構成則に対する複数の物理的および熱力学的制約が自動的に満たされる。 本研究では,mooney-rivlin,arruda-boyce,ogden,holzapfelなどの非等方性および異方性超弾性構成則を応力データを用いずに精度良く学習できることを示す。 異方性超弾性については、未知の異方性繊維方向が構成モデルと共同で自動的に検出される。 ニューラルネットワークに基づく構成モデルは、トレーニング中に観測されたひずみ状態を超えた優れた一般化能力を示し、複雑な機械的境界値問題を精度良くシミュレートするための一般的な有限要素フレームワークに容易に展開できる。

We propose a new approach for unsupervised learning of hyperelastic constitutive laws with physics-consistent deep neural networks. In contrast to supervised learning, which assumes the availability of stress-strain pairs, the approach only uses realistically measurable full-field displacement and global reaction force data, thus it lies within the scope of our recent framework for Efficient Unsupervised Constitutive Law Identification and Discovery (EUCLID) and we denote it as NN-EUCLID. The absence of stress labels is compensated for by leveraging a physics-motivated loss function based on the conservation of linear momentum to guide the learning process. The constitutive model is based on input-convex neural networks, which are capable of learning a function that is convex with respect to its inputs. By employing a specially designed neural network architecture, multiple physical and thermodynamic constraints for hyperelastic constitutive laws, such as material frame indifference, (poly-)convexity, and stress-free reference configuration are automatically satisfied. We demonstrate the ability of the approach to accurately learn several hidden isotropic and anisotropic hyperelastic constitutive laws - including e.g., Mooney-Rivlin, Arruda-Boyce, Ogden, and Holzapfel models - without using stress data. For anisotropic hyperelasticity, the unknown anisotropic fiber directions are automatically discovered jointly with the constitutive model. The neural network-based constitutive models show good generalization capability beyond the strain states observed during training and are readily deployable in a general finite element framework for simulating complex mechanical boundary value problems with good accuracy.
翻訳日:2022-05-22 11:38:12 公開日:2022-05-04
# GRU-TV:多変量臨床時系列データを用いた患者表現のための時間・速度対応GRU

GRU-TV: Time- and velocity-aware GRU for patient representation on multivariate clinical time-series data ( http://arxiv.org/abs/2205.04892v1 )

ライセンス: Link先を確認
Ningtao Liu, Ruoxi Gao, Jing Yuan, Calire Park, Shuwei Xing, and Shuiping Gou(参考訳) 電子健康記録(ehrs)は患者の健康状態を追跡するための豊富なリポジトリを提供する。 EHRは患者の生理状態を完全に文書化し、高次元、不均一、多モードのデータを含む。 臨床変数のサンプリング頻度の有意差は, EHRから抽出した多変量臨床時系列データにおいて, 隣接記録間の欠落率と不均一な時間間隔をもたらす可能性がある。 臨床時系列データを用いた臨床研究では、患者の生理状態はスポラジカルに収集された値によって記述された離散的なプロセスであり、患者の生理状態のダイナミクスは時間連続的である。 さらに、患者表現学習に広く使用されるリカレントニューラルネットワーク(recurrent neural network:rnn)モデルは、時間間隔と速度の知覚を欠き、患者の生理的状態を表現するモデルの能力を制限する。 本稿では,臨床用多変量時系列データの時間連続学習のためのgru(time- and velocity-aware gru)を提案する。 提案するgru-tvでは,神経常微分方程式(odes)と速度知覚機構を用いて,時系列データの記録と患者の生理状態の変化率との時間間隔をそれぞれ知覚する。 2つの実世界の臨床EHRデータセット(PhysioNet2012, MIMIC-III)の実験結果から、GRU-TVはコンピュータ支援診断(CAD)タスクにおいて最先端のパフォーマンスを達成し、サンプルデータの処理に有利であることが示された。

Electronic health records (EHRs) provide a rich repository to track a patient's health status. EHRs seek to fully document the patient's physiological status, and include data that is is high dimensional, heterogeneous, and multimodal. The significant differences in the sampling frequency of clinical variables can result in high missing rates and uneven time intervals between adjacent records in the multivariate clinical time-series data extracted from EHRs. Current studies using clinical time-series data for patient characterization view the patient's physiological status as a discrete process described by sporadically collected values, while the dynamics in patient's physiological status are time-continuous. In addition, recurrent neural networks (RNNs) models widely used for patient representation learning lack the perception of time intervals and velocity, which limits the ability of the model to represent the physiological status of the patient. In this paper, we propose an improved gated recurrent unit (GRU), namely time- and velocity-aware GRU (GRU-TV), for patient representation learning of clinical multivariate time-series data in a time-continuous manner. In proposed GRU-TV, the neural ordinary differential equations (ODEs) and velocity perception mechanism are used to perceive the time interval between records in the time-series data and changing rate of the patient's physiological status, respectively. Experimental results on two real-world clinical EHR datasets(PhysioNet2012, MIMIC-III) show that GRU-TV achieve state-of-the-art performance in computer aided diagnosis (CAD) tasks, and is more advantageous in processing sampled data.
翻訳日:2022-05-16 00:53:19 公開日:2022-05-04
# (参考訳) DADApy: PythonにおけるDAta-manifoldの解析

DADApy: Distance-based Analysis of DAta-manifolds in Python ( http://arxiv.org/abs/2205.03373v1 )

ライセンス: CC BY 4.0
Aldo Glielmo, Iuri Macocco, Diego Doimo, Matteo Carli, Claudio Zeni, Romina Wild, Maria d'Errico, Alex Rodriguez, Alessandro Laio(参考訳) DADApyは、高次元データ多様体の解析と特徴付けのためのピソンソフトウェアパッケージである。 固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。 パッケージの主な機能についてレビューし、おもちゃのケースや現実世界のアプリケーションでの使用例を示す。 パッケージはオープンソースApache 2.0ライセンスで無償公開されている。Githubのページ https://github.com/sissa-data-science/DADApyからダウンロードできる。

DADApy is a python software package for analysing and characterising high-dimensional data manifolds. It provides methods for estimating the intrinsic dimension and the probability density, for performing density-based clustering and for comparing different distance metrics. We review the main functionalities of the package and exemplify its usage in toy cases and in a real-world application. The package is freely available under the open-source Apache 2.0 license and can be downloaded from the Github page https://github.com/sissa-data-science/DADApy.
翻訳日:2022-05-10 02:42:17 公開日:2022-05-04
# データ拡張のためのGANインバージョンによる大腸病変分類の改善

GAN Inversion for Data Augmentation to Improve Colonoscopy Lesion Classification ( http://arxiv.org/abs/2205.02840v1 )

ライセンス: Link先を確認
Mayank Golhar, Taylor L. Bobrow, Saowanee Ngamruengphong, Nicholas J. Durr(参考訳) 医学画像にディープラーニングを適用する上での大きな課題は、注釈付きデータのpaucityである。 本研究では,gan(generative adversarial network)インバージョンによって生成された合成大腸内視鏡画像が,深層学習モデルの病変分類性能を向上させるための訓練データとして使用できることを示す。 このアプローチでは、同じラベルを持つ画像のペアを意味的にリッチで不連続な潜在空間に反転させ、潜在表現を操作して同じラベルで新しい合成画像を生成する。 ホワイトライトと狭帯域イメージング(nbi)間の画像モダリティ変換(スタイル転送)を行う。 また,トレーニングデータセットにおける病変形状の多様性を高めるために,元のトレーニング画像間の補間により,現実的な合成病変画像を生成する。 これらのアプローチは,複数の生成モデルを再訓練することなく,比較大腸内視鏡データ拡張技術よりも優れていることを示す。 このアプローチはまた、特定の大腸内視鏡下流タスク用に設計されていない可能性のあるデータセットの情報を活用する。 例えば、ポリープ分類タスクにboel prep gradingデータセットを使用する。 以上の結果から,本手法は複数の大腸内視鏡データ拡張が可能であり,ベースラインおよび比較法よりも下流ポリープ分類性能を最大6%向上させることができた。

A major challenge in applying deep learning to medical imaging is the paucity of annotated data. This study demonstrates that synthetic colonoscopy images generated by Generative Adversarial Network (GAN) inversion can be used as training data to improve the lesion classification performance of deep learning models. This approach inverts pairs of images with the same label to a semantically rich & disentangled latent space and manipulates latent representations to produce new synthetic images with the same label. We perform image modality translation (style transfer) between white light and narrowband imaging (NBI). We also generate realistic-looking synthetic lesion images by interpolating between original training images to increase the variety of lesion shapes in the training dataset. We show that these approaches outperform comparative colonoscopy data augmentation techniques without the need to re-train multiple generative models. This approach also leverages information from datasets that may not have been designed for the specific colonoscopy downstream task. E.g. using a bowel prep grading dataset for a polyp classification task. Our experiments show this approach can perform multiple colonoscopy data augmentations, which improve the downstream polyp classification performance over baseline and comparison methods by up to 6%.
翻訳日:2022-05-09 13:52:27 公開日:2022-05-04
# 画像分類のための最適トランスポートネットワークにおける非ミスシブルカラーフロー

Immiscible Color Flows in Optimal Transport Networks for Image Classification ( http://arxiv.org/abs/2205.02938v1 )

ライセンス: Link先を確認
Alessandro Lonardi, Diego Baptista, Caterina De Bacco(参考訳) 分類タスクでは,データに含まれる情報を有意義に活用することが重要である。 本稿では,画像の色分布を効果的に活用するために最適な移動原理を適用した物理系を提案する。 私たちのダイナミクスは、画像から構築されたネットワーク上を移動する不可視な色の束を制御します。 色をまとめるのではなく、エッジ上の共有容量と相互作用するさまざまな商品として扱う。 本手法は,カラー情報が重要なデータセットにおける画像分類タスクにおいて,競合アルゴリズムよりも優れる。

In classification tasks, it is crucial to meaningfully exploit information contained in data. Here, we propose a physics-inspired dynamical system that adapts Optimal Transport principles to effectively leverage color distributions of images. Our dynamics regulates immiscible fluxes of colors traveling on a network built from images. Instead of aggregating colors together, it treats them as different commodities that interact with a shared capacity on edges. Our method outperforms competitor algorithms on image classification tasks in datasets where color information matters.
翻訳日:2022-05-09 13:15:55 公開日:2022-05-04
# (参考訳) 復刻的アルゴリズムフェアネス:公正の追求における復刻的データ収集のリスクを特徴づける

Demographic-Reliant Algorithmic Fairness: Characterizing the Risks of Demographic Data Collection in the Pursuit of Fairness ( http://arxiv.org/abs/2205.01038v2 )

ライセンス: CC BY 4.0
McKane Andrus and Sarah Villeneuve(参考訳) 提案されているアルゴリズム的公平性技術の多くは、グループ間でのパフォーマンス比較と標準化を行うために「敏感な属性」または「保護されたカテゴリー」のデータにアクセスする必要があるが、このデータは実際にはほとんど利用できず、アルゴリズム的公平性が広く採用されることを妨げている。 本稿では,アルゴリズムの公平性を実現するために,人口動態に関するより多くのデータを集め,十分な技術手法と十分なデータだけで差別を克服できるという考えに挑戦する。 より公平なアルゴリズム処理のために個人を分類する場合、これらの手法はデータガバナンスや体系的な抑圧に関する幅広い疑問をほとんど無視する。 本研究では,人口統計データを収集し,個人やコミュニティに対する幅広い社会的リスクを特徴付けることにより,アルゴリズム的公平性を実現するために利用するべき条件について検討する。 個人に対するリスクについては、公平性分析のターゲットとなる可能性のある機密属性の共有に関連するユニークなプライバシリスク、データ収集プロセスにおける個人を誤分類し誤表現することによる害、データ被験者の期待を超えた機密データの利用、などが考えられる。 より広範に見て、グループやコミュニティ全体に対するリスクには、公正さという名目で監視インフラの拡大、人口集団の一員であることの意味や特定のアイデンティティを保持することの誤表現と誤認、偏見や不公平な扱いを構成するものを自分自身で定義する能力の付与が含まれる。 人口統計データ収集前後のこれらの疑問に直面することで、アルゴリズム的公平性法は、抑圧のシステムを強化することなく、実際に有害な治療格差を緩和する可能性が高まると論じている。

Most proposed algorithmic fairness techniques require access to data on a "sensitive attribute" or "protected category" (such as race, ethnicity, gender, or sexuality) in order to make performance comparisons and standardizations across groups, however this data is largely unavailable in practice, hindering the widespread adoption of algorithmic fairness. Through this paper, we consider calls to collect more data on demographics to enable algorithmic fairness and challenge the notion that discrimination can be overcome with smart enough technical methods and sufficient data alone. We show how these techniques largely ignore broader questions of data governance and systemic oppression when categorizing individuals for the purpose of fairer algorithmic processing. In this work, we explore under what conditions demographic data should be collected and used to enable algorithmic fairness methods by characterizing a range of social risks to individuals and communities. For the risks to individuals we consider the unique privacy risks associated with the sharing of sensitive attributes likely to be the target of fairness analysis, the possible harms stemming from miscategorizing and misrepresenting individuals in the data collection process, and the use of sensitive data beyond data subjects' expectations. Looking more broadly, the risks to entire groups and communities include the expansion of surveillance infrastructure in the name of fairness, misrepresenting and mischaracterizing what it means to be part of a demographic group or to hold a certain identity, and ceding the ability to define for themselves what constitutes biased or unfair treatment. We argue that, by confronting these questions before and during the collection of demographic data, algorithmic fairness methods are more likely to actually mitigate harmful treatment disparities without reinforcing systems of oppression.
翻訳日:2022-05-09 05:08:35 公開日:2022-05-04
# (参考訳) pyrdf2vec: pythonによるrdf2vecの実装と拡張

pyRDF2Vec: A Python Implementation and Extension of RDF2Vec ( http://arxiv.org/abs/2205.02283v1 )

ライセンス: CC BY 4.0
Gilles Vandewiele, Bram Steenwinckel, Terencio Agozzino, Femke Ongenae(参考訳) 本稿では,有名なRDF2Vecアルゴリズムを再実装するPythonソフトウェアパッケージpyRDF2Vecを紹介する。 アルゴリズムを最もポピュラーなデータサイエンス言語で利用可能にすることで、すべての拡張をひとつの場所にバンドルすることで、データサイエンティストにはRDF2Vecの使用が簡単になる。 このパッケージはMITライセンス下でリリースされ、RDF2Vecアルゴリズムの重要なコンポーネントであるサンプリング、ウォーキング、埋め込み戦略に関するさらなる研究を促進するために構成されている。 元のアルゴリズムよりも効率的な歩行抽出を可能にする、いくつかの最適化が \texttt{pyRDF2Vec} で実装されている。 さらに、コードスタイリング、テスト、ドキュメンテーションの観点からのベストプラクティスが適用され、パッケージは将来性があり、外部からのコントリビューションも容易になった。

This paper introduces pyRDF2Vec, a Python software package that reimplements the well-known RDF2Vec algorithm along with several of its extensions. By making the algorithm available in the most popular data science language, and by bundling all extensions into a single place, the use of RDF2Vec is simplified for data scientists. The package is released under a MIT license and structured in such a way to foster further research into sampling, walking, and embedding strategies, which are vital components of the RDF2Vec algorithm. Several optimisations have been implemented in \texttt{pyRDF2Vec} that allow for more efficient walk extraction than the original algorithm. Furthermore, best practices in terms of code styling, testing, and documentation were applied such that the package is future-proof as well as to facilitate external contributions.
翻訳日:2022-05-07 10:26:04 公開日:2022-05-04
# (参考訳) ほとんどのアクティベーション機能は、過剰な深さなしで宝くじに勝つことができる

Most Activation Functions Can Win the Lottery Without Excessive Depth ( http://arxiv.org/abs/2205.02321v1 )

ライセンス: CC BY-SA 4.0
Rebekka Burkholz(参考訳) 強力な抽選チケット仮説は、プルーニングによるディープニューラルネットワークのトレーニングの可能性を強調している。 ReLUアクティベーション関数を持つネットワークの場合、深さ$L$のターゲットネットワークは、ターゲットの深さが2L$で対数係数がより広いランダム初期化ニューラルネットワークのサブネットワークによって近似できることが証明されている。 深度$L+1$ネットワークで十分であることを示す。 この結果は,対数的過パラメータ化のみを必要としながら,現実的な,一般的に使用されている奥行きで宝くじを見つけることができることを示唆している。 我々の新しい構成手法は、活性化関数の大規模なクラスに適用され、ReLUに限らない。

The strong lottery ticket hypothesis has highlighted the potential for training deep neural networks by pruning, which has inspired interesting practical and theoretical insights into how neural networks can represent functions. For networks with ReLU activation functions, it has been proven that a target network with depth $L$ can be approximated by the subnetwork of a randomly initialized neural network that has double the target's depth $2L$ and is wider by a logarithmic factor. We show that a depth $L+1$ network is sufficient. This result indicates that we can expect to find lottery tickets at realistic, commonly used depths while only requiring logarithmic overparametrization. Our novel construction approach applies to a large class of activation functions and is not limited to ReLUs.
翻訳日:2022-05-07 10:17:55 公開日:2022-05-04
# (参考訳) マルチエージェント学習におけるチームのメリットを探る

Exploring the Benefits of Teams in Multiagent Learning ( http://arxiv.org/abs/2205.02328v1 )

ライセンス: CC0 1.0
David Radke, Kate Larson, Tim Brecht(参考訳) 協力を必要とする問題に対して、多くのマルチエージェントシステムは、個々のエージェント間のソリューションを実装している。 マルチエージェントチームは主に紛争時に研究されるが、組織心理学(OP)では、協調と協力の方法を学ぶために、人間の集団内のチームのメリットを強調している。 本稿では,OPにインスパイアされた強化学習(RL)エージェントのためのマルチエージェントチームの新しいモデルを提案する。 近年のマルチエージェントRLで普及している複雑な社会的ジレンマを用いて、我々のモデルを検証する。 さらに、エージェントはチームの創発的な役割をコーディネートし、学習し、すべてのエージェントの利害関係が整った時よりも高い報酬を得ることができる。

For problems requiring cooperation, many multiagent systems implement solutions among either individual agents or across an entire population towards a common goal. Multiagent teams are primarily studied when in conflict; however, organizational psychology (OP) highlights the benefits of teams among human populations for learning how to coordinate and cooperate. In this paper, we propose a new model of multiagent teams for reinforcement learning (RL) agents inspired by OP and early work on teams in artificial intelligence. We validate our model using complex social dilemmas that are popular in recent multiagent RL and find that agents divided into teams develop cooperative pro-social policies despite incentives to not cooperate. Furthermore, agents are better able to coordinate and learn emergent roles within their teams and achieve higher rewards compared to when the interests of all agents are aligned.
翻訳日:2022-05-07 09:44:27 公開日:2022-05-04
# (参考訳) バイレベル最適化のための2次感度解析

Second-Order Sensitivity Analysis for Bilevel Optimization ( http://arxiv.org/abs/2205.02329v1 )

ライセンス: CC BY 4.0
Robert Dyro, Edward Schmerling, Nikos Arechiga, Marco Pavone(参考訳) 本研究では、パラメータ化最適化問題("より低い"問題)に対する解が、パラメータの関数として("上"問題において)最適化される数学的プログラミングの一種である、二階最適化に対する二階最適化のアプローチを導出する。 従来の2段階最適化手法の多くは、暗黙の関数定理(IFT)に基づく1次感度解析を用いており、下位問題のパラメータに対する下位問題の解の勾配を導出する。 本稿では,この感度解析を拡張し,下層問題(ift hessian と呼ぶ)の2次微分情報を提供し,上位層での高速収束2次最適化手法の利用を可能にした。 私たちの分析は i) IFT勾配を生成するために既に使われている計算の多くは、IFTヘッセンのために再利用することができる。 (ii)IFT勾配から導出される誤差境界はIFTヘッセンにも容易に適用できる。 3) IFTヘシアン計算は, 各下層解からより多くの情報を抽出することにより, 全体計算を大幅に削減することができる。 我々は,最小2乗超パラメータオートチューニング,マルチクラスSVMオートチューニング,逆最適制御といった問題事例に適用し,本手法の幅広い応用を実証する。

In this work we derive a second-order approach to bilevel optimization, a type of mathematical programming in which the solution to a parameterized optimization problem (the "lower" problem) is itself to be optimized (in the "upper" problem) as a function of the parameters. Many existing approaches to bilevel optimization employ first-order sensitivity analysis, based on the implicit function theorem (IFT), for the lower problem to derive a gradient of the lower problem solution with respect to its parameters; this IFT gradient is then used in a first-order optimization method for the upper problem. This paper extends this sensitivity analysis to provide second-order derivative information of the lower problem (which we call the IFT Hessian), enabling the usage of faster-converging second-order optimization methods at the upper level. Our analysis shows that (i) much of the computation already used to produce the IFT gradient can be reused for the IFT Hessian, (ii) errors bounds derived for the IFT gradient readily apply to the IFT Hessian, (iii) computing IFT Hessians can significantly reduce overall computation by extracting more information from each lower level solve. We corroborate our findings and demonstrate the broad range of applications of our method by applying it to problem instances of least squares hyperparameter auto-tuning, multi-class SVM auto-tuning, and inverse optimal control.
翻訳日:2022-05-07 09:31:08 公開日:2022-05-04
# (参考訳) 離散事象シミュレーションモデルを用いた人口動態からの個人間相互作用の学習

Learning Individual Interactions from Population Dynamics with Discrete-Event Simulation Model ( http://arxiv.org/abs/2205.02332v1 )

ライセンス: CC BY 4.0
Yan Shen, Fan Yang, Mingchen Gao, Wen Dong(参考訳) データの豊富さは、ニューラルネットワークやエンジニアリングシステム、ソーシャルネットワークといった複雑なシステムのダイナミクスを学ぶための、より強力な計算ツールの追求を可能にする。 従来の機械学習アプローチは、動的ベイジアンネットワークと状態空間モデルのいずれかで複雑なシステムダイナミクスをキャプチャするが、これは、スパースグラフや微分方程式のシステムでダイナミクスを規定するのは自明ではないため、スケールが難しい。 本稿では,多変量正規分布を仮定した複雑系動力学の離散的事象シミュレーション表現を学習する可能性について検討し,複雑な系動力学を局所的な相互作用の列に分解できるという観測から考察する。 提案手法は,有意義なイベントを含む複数の分野において,複雑なネットワークダイナミクスをデータ効率良くキャプチャできることを示す。

The abundance of data affords researchers to pursue more powerful computational tools to learn the dynamics of complex system, such as neural networks, engineered systems and social networks. Traditional machine learning approaches capture complex system dynamics either with dynamic Bayesian networks and state space models, which is hard to scale because it is non-trivial to prescribe the dynamics with a sparse graph or a system of differential equations; or a deep neural networks, where the distributed representation of the learned dynamics is hard to interpret. In this paper, we will explore the possibility of learning a discrete-event simulation representation of complex system dynamics assuming multivariate normal distribution of the state variables, based on the observation that many complex system dynamics can be decomposed into a sequence of local interactions, which individually change the system state only minimally but in sequence generate complex and diverse dynamics. Our results show that the algorithm can data-efficiently capture complex network dynamics in several fields with meaningful events.
翻訳日:2022-05-07 08:26:29 公開日:2022-05-04
# (参考訳) 畳み込み・残差ネットワークは宝くじを保証できる

Convolutional and Residual Networks Provably Contain Lottery Tickets ( http://arxiv.org/abs/2205.02343v1 )

ライセンス: CC BY-SA 4.0
Rebekka Burkholz(参考訳) Lottery Ticket仮説は、競争力のあるパフォーマンスで現代のディープラーニングタスクを解決する、小規模のディープニューラルネットワークの探求に、依然として重大な実践的影響を与えている。 これらの宝くじは、大規模なランダムに初期化されたニューラルネットワークをアプリケーションと同じくらい多様なアーキテクチャで刈り取ることで識別される。 しかし、それらの存在を証明している理論的洞察は、主にReLUアクティベーション機能を備えた深い完全接続フィードフォワードネットワークに焦点を当てている。 ほぼ任意のアクティベーション関数を備えた畳み込み層と残差層からなる現代的なアーキテクチャは、高い確率で抽選チケットを含むことも証明する。

The Lottery Ticket Hypothesis continues to have a profound practical impact on the quest for small scale deep neural networks that solve modern deep learning tasks at competitive performance. These lottery tickets are identified by pruning large randomly initialized neural networks with architectures that are as diverse as their applications. Yet, theoretical insights that attest their existence have been mostly focused on deep fully-connected feed forward networks with ReLU activation functions. We prove that also modern architectures consisting of convolutional and residual layers that can be equipped with almost arbitrary activation functions can contain lottery tickets with high probability.
翻訳日:2022-05-07 08:03:38 公開日:2022-05-04
# (参考訳) KenSwQuAD - Swahili低リソース言語のための質問回答データセット

KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource Language ( http://arxiv.org/abs/2205.02364v1 )

ライセンス: CC BY 4.0
Barack Wanjawa (1), Lilian Wanzare (2), Florence Indede (2), Owen McOnyango (2), Lawrence Muchemi (1), Edward Ombui (3) ((1) University of Nairobi Kenya, (2) Maseno University Kenya (3) Africa Nazarene University Kenya)(参考訳) 本研究は,東アフリカを中心に話されている低資源言語であるスワヒリ語の生データから,kencorpus swahili question answering dataset kenswquadを開発した。 質問応答データセットは,インターネット検索や対話システムなどの自然言語処理タスクを機械で理解するために重要である。 しかし、このような機械学習システムがこれらのタスクを実行する前には、本研究で開発されたgold standard question answering(qa)セットなどのトレーニングデータが必要である。 この研究は、ケニアの3つの言語からデータを収集するケニア語コーパスであるKencorpusプロジェクトによって収集されたスワヒリ語のテキストから質問応答ペアを定式化した。 スワヒリのデータ収集には2,585のテキストがあり、そのうち1,445のストーリーテキストと少なくとも5つのQAペアを注釈付けし、最終的なデータセットは7,526のQAペアであった。 注釈付きテキストの12.5%の品質保証セットは、QAペアがすべて正しく注釈付けされていることを確認した異なるアノテータによって再評価された。 質問応答タスクの機械学習に適用する概念実証により、データセットがそのような実用的なタスクに使用できることが確認された。 そこで研究は、機械学習アプリケーションにトレーニングと金の標準セットを必要とする自然言語処理コミュニティにとって有用な、Swahiliの質問応答データセットであるKenSwQuADを開発した。 この研究は、世界中のコミュニケーションにとって重要なスワヒリ語のオープンソース化にも貢献した。 このセットを更新し、他の低リソース言語に同様のセットを提供することは、さらなる研究に値する重要な研究分野である。

This research developed a Kencorpus Swahili Question Answering Dataset KenSwQuAD from raw data of Swahili language, which is a low resource language predominantly spoken in Eastern African and also has speakers in other parts of the world. Question Answering datasets are important for machine comprehension of natural language processing tasks such as internet search and dialog systems. However, before such machine learning systems can perform these tasks, they need training data such as the gold standard Question Answering (QA) set that is developed in this research. The research engaged annotators to formulate question answer pairs from Swahili texts that had been collected by the Kencorpus project, a Kenyan languages corpus that collected data from three Kenyan languages. The total Swahili data collection had 2,585 texts, out of which we annotated 1,445 story texts with at least 5 QA pairs each, resulting into a final dataset of 7,526 QA pairs. A quality assurance set of 12.5% of the annotated texts was subjected to re-evaluation by different annotators who confirmed that the QA pairs were all correctly annotated. A proof of concept on applying the set to machine learning on the question answering task confirmed that the dataset can be used for such practical tasks. The research therefore developed KenSwQuAD, a question-answer dataset for Swahili that is useful to the natural language processing community who need training and gold standard sets for their machine learning applications. The research also contributed to the resourcing of the Swahili language which is important for communication around the globe. Updating this set and providing similar sets for other low resource languages is an important research area that is worthy of further research.
翻訳日:2022-05-07 07:27:42 公開日:2022-05-04
# FedSPLIT:非負の関節マトリックス因子化と知識蒸留に基づくワンショットフェデレーション勧告システム

FedSPLIT: One-Shot Federated Recommendation System Based on Non-negative Joint Matrix Factorization and Knowledge Distillation ( http://arxiv.org/abs/2205.02359v1 )

ライセンス: Link先を確認
Maksim E. Eren, Luke E. Richards, Manish Bhattarai, Roberto Yus, Charles Nicholas, Boian S. Alexandrov(参考訳) 非負行列分解(非負行列分解、NMF)は、パーソナライズされたユーザレコメンデーションを提供するために使われる、よく知られた効果的な協調フィルタリング(CF)手法である。 しかしながら、従来のcfは、ユーザの明示的かつ暗黙的なフィードバックのプライバシー侵害的な収集に頼って、中央のレコメンデーションモデルを構築している。 フェデレーション学習の従来のコミュニケーションボトルネックに対処する一方で,プライバシ問題を軽減する手段として,ワンショットフェデレーション学習が最近登場した。 本稿では,NMF結合因子化に基づくFedSPLITという,最初の教師なし単発フェデレーションCF実装を提案する。 私たちのソリューションでは、クライアントはまず、異なるクライアント固有のレコメンデータを構築するために、ローカルCFを並列で適用します。 そして、各クライアントからのプライバシー保護されたローカルアイテムパターンとバイアスをプロセッサと共有し、グローバルアイテムパターンを抽出するために共同ファクタリングを行う。 抽出されたパターンは各クライアントに集約され、知識蒸留を通じてローカルモデルを構築する。 実験では,標準レコメンデーションデータセットを用いたアプローチの実現可能性を示す。 FedSPLITは、コミュニケーションの数を大幅に減らすことで、技術の現状と類似した結果を得ることができる(特定の状況では、それよりも優れている)。

Non-negative matrix factorization (NMF) with missing-value completion is a well-known effective Collaborative Filtering (CF) method used to provide personalized user recommendations. However, traditional CF relies on the privacy-invasive collection of users' explicit and implicit feedback to build a central recommender model. One-shot federated learning has recently emerged as a method to mitigate the privacy problem while addressing the traditional communication bottleneck of federated learning. In this paper, we present the first unsupervised one-shot federated CF implementation, named FedSPLIT, based on NMF joint factorization. In our solution, the clients first apply local CF in-parallel to build distinct client-specific recommenders. Then, the privacy-preserving local item patterns and biases from each client are shared with the processor to perform joint factorization in order to extract the global item patterns. Extracted patterns are then aggregated to each client to build the local models via knowledge distillation. In our experiments, we demonstrate the feasibility of our approach with standard recommendation datasets. FedSPLIT can obtain similar results than the state of the art (and even outperform it in certain situations) with a substantial decrease in the number of communications.
翻訳日:2022-05-06 15:32:53 公開日:2022-05-04
# ベイズ知識追跡の質と公正性

Equity and Fairness of Bayesian Knowledge Tracing ( http://arxiv.org/abs/2205.02333v1 )

ライセンス: Link先を確認
Sebastian Tschiatschek and Maria Knobelsdorf and Adish Singla(参考訳) 知識追跡モデルから得られたカリキュラムの公平性と公平性を考察する。 まず,公平な指導システムの統一的な概念を,各学生が相互作用する時間を最小限に抑えるシステムとして定義することから始める。 パーフェクトエクイティの実現には、学生一人当たりの個別のカリキュラムを提供するための教育システムが必要である。 特に,そのカリキュラムを知識追跡モデルから導出する等式教育システムの設計について検討する。 まず,古典的ベイズ的知識追跡 (BKT) や深部知識追跡 (DKT) を含む多くの既存モデルと,そこから派生したカリキュラムが,等しく学習することができないことを示す。 この問題を克服するために,オンラインの個人化を自然に可能とし,それによってより公平な学習を可能にする新しいモデル,Bayesian-Bayesian Knowledge Tracing (BBKT)を提案する。 古典的bktモデルより,本モデルから導出するカリキュラムの方が効率的かつ等価であることを示す。 さらに,次段階予測の公平性を重視したモデル改善は,等質的学習システムを開発するには不十分である可能性があることを強調する。

We consider the equity and fairness of curricula derived from Knowledge Tracing models. We begin by defining a unifying notion of an equitable tutoring system as a system that achieves maximum possible knowledge in minimal time for each student interacting with it. Realizing perfect equity requires tutoring systems that can provide individualized curricula per student. In particular, we investigate the design of equitable tutoring systems that derive their curricula from Knowledge Tracing models. We first show that many existing models, including classical Bayesian Knowledge Tracing (BKT) and Deep Knowledge Tracing (DKT), and their derived curricula can fall short of achieving equitable tutoring. To overcome this issue, we then propose a novel model, Bayesian-Bayesian Knowledge Tracing (BBKT), that naturally enables online individualization and, thereby, more equitable tutoring. We demonstrate that curricula derived from our model are more effective and equitable than those derived from classical BKT models. Furthermore, we highlight that improving models with a focus on the fairness of next-step predictions might be insufficient to develop equitable tutoring systems.
翻訳日:2022-05-06 15:21:43 公開日:2022-05-04
# グラフとフローに基づくセキュリティテレメトリを用いたゼロデイ脅威検出

Zero Day Threat Detection Using Graph and Flow Based Security Telemetry ( http://arxiv.org/abs/2205.02298v1 )

ライセンス: Link先を確認
Christopher Redino, Dhruv Nandakumar, Robert Schiller, Kevin Choi, Abdul Rahman, Edward Bowen, Matthew Weeks, Aaron Shaha, Joe Nehila(参考訳) Zero Day Threats (ZDT) は、悪意あるアクターが情報技術(IT)ネットワークやインフラを攻撃・利用するための新しい手法である。 過去数年間、これらの脅威の数は脅威的なペースで増加しており、組織が対処するために何百万ドルも費やしている。 ネットワーク攻撃面の拡大とこれらのネットワーク上の資産の指数関数的な増加は、潜在的かつ新しい活動のためにペタバイト規模のデータを迅速に分析できる堅牢なaiベースのゼロデイ脅威検出モデルの必要性を必要としている。 本稿では,リアルタイムに脅威を一般化し,拡張し,効果的に特定できる,ゼロデイ脅威検出のためのディープラーニング手法を提案する。 ネットワークフローテレメトリをアセットレベルのグラフ機能で拡張し、それぞれ異常検出のためのデュアルオートエンコーダ構造とノベルティ検出を行う。 モデルは、実世界の組織ネットワークを代表する4つの大規模データセットでトレーニングされ、テストされ、高い精度とリコール値を持つ強い結果を生み出す。 モデルは、低い偽陽性率で複雑な脅威を検出する新しい方法を提供し、セキュリティオペレーターは警告疲労を回避し、ほぼリアルタイム検出による応答の平均時間を大幅に削減できる。 さらに、著者らは、他のモデルのバリデーションやトレーニングに使用できる敵活動から生成される、新しい、ラベル付きサイバー攻撃データセットも提供している。 本稿では,サイバー異常検出のための新しいアーキテクチャとトレーニング手法を提供することを目標とし,高い性能を維持しつつ,最小ないし無トレーニングで複数のITネットワークに一般化する。

Zero Day Threats (ZDT) are novel methods used by malicious actors to attack and exploit information technology (IT) networks or infrastructure. In the past few years, the number of these threats has been increasing at an alarming rate and have been costing organizations millions of dollars to remediate. The increasing expansion of network attack surfaces and the exponentially growing number of assets on these networks necessitate the need for a robust AI-based Zero Day Threat detection model that can quickly analyze petabyte-scale data for potentially malicious and novel activity. In this paper, the authors introduce a deep learning based approach to Zero Day Threat detection that can generalize, scale, and effectively identify threats in near real-time. The methodology utilizes network flow telemetry augmented with asset-level graph features, which are passed through a dual-autoencoder structure for anomaly and novelty detection respectively. The models have been trained and tested on four large scale datasets that are representative of real-world organizational networks and they produce strong results with high precision and recall values. The models provide a novel methodology to detect complex threats with low false-positive rates that allow security operators to avoid alert fatigue while drastically reducing their mean time to response with near-real-time detection. Furthermore, the authors also provide a novel, labelled, cyber attack dataset generated from adversarial activity that can be used for validation or training of other models. With this paper, the authors' overarching goal is to provide a novel architecture and training methodology for cyber anomaly detectors that can generalize to multiple IT networks with minimal to no retraining while still maintaining strong performance.
翻訳日:2022-05-06 15:17:37 公開日:2022-05-04
# BodySLAM: 共同カメラのローカライゼーション、マッピング、人間のモーショントラッキング

BodySLAM: Joint Camera Localisation, Mapping, and Human Motion Tracking ( http://arxiv.org/abs/2205.02301v1 )

ライセンス: Link先を確認
Dorian Henning, Tristan Laidlow, Stefan Leutenegger(参考訳) 映像から人間の動きを推定することは、その多くの応用可能性から活発な研究分野である。 ほとんどの最先端の手法は、個々の画像の人間の形状と姿勢の推定を予測し、ビデオで利用可能な時間情報を活用しない。 人間の動きの多くの「野生の」シーケンスは動くカメラによって捉えられ、その推定には、凝縮したカメラと人間の動きの複雑さが加えられる。 そこで本研究では,人体の位置,形状,姿勢,およびカメラ軌道を共同で推定する単分子SLAMシステムであるBodySLAMを提案する。 また、連続体姿勢を拘束し、シーンの規模を観察する新しい人間の動きモデルも導入する。 動いたモノクラーカメラが捉えた人間の動きの映像シーケンスに関する一連の実験を通じて、BodySLAMは、これらを別々に推定した場合と比較して、すべての人体パラメータとカメラのポーズの推定を改善することを実証した。

Estimating human motion from video is an active research area due to its many potential applications. Most state-of-the-art methods predict human shape and posture estimates for individual images and do not leverage the temporal information available in video. Many "in the wild" sequences of human motion are captured by a moving camera, which adds the complication of conflated camera and human motion to the estimation. We therefore present BodySLAM, a monocular SLAM system that jointly estimates the position, shape, and posture of human bodies, as well as the camera trajectory. We also introduce a novel human motion model to constrain sequential body postures and observe the scale of the scene. Through a series of experiments on video sequences of human motion captured by a moving monocular camera, we demonstrate that BodySLAM improves estimates of all human body parameters and camera poses when compared to estimating these separately.
翻訳日:2022-05-06 15:16:36 公開日:2022-05-04
# P3IV:弱視映像からの確率的手続き計画

P3IV: Probabilistic Procedure Planning from Instructional Videos with Weak Supervision ( http://arxiv.org/abs/2205.02300v1 )

ライセンス: Link先を確認
He Zhao and Isma Hadji and Nikita Dvornik and Konstantinos G. Derpanis and Richard P. Wildes and Allan D. Jepson(参考訳) 本稿では,指導ビデオにおける手順計画の問題について検討する。 ここでエージェントは、与えられた開始から所望の目標状態へ環境を変換できる実行可能なアクションのシーケンスを生成する必要がある。 指導ビデオからプロシージャプランニングを学ぶ際、最新の研究は中間的な視覚観察を監督として活用し、訓練ビデオのすべての指導手順を正確にローカライズするために高価なアノテーションを必要とする。 対照的に,高コストなテンポラリビデオアノテーションの必要性を取り除き,自然言語命令から学ぶことで,教師の少ないアプローチを提案する。 本モデルでは,メモリモジュールを備えたトランスフォーマーをベースとして,開始点と目標の観測結果を可視な動作のシーケンスにマッピングする。 さらに,従来の作業では見過ごされていた手続き計画に固有の不確かさを捉えるために,確率的生成モジュールを用いてモデルを拡張した。 3つのデータセットでモデルを評価し、複数のメトリクスで従来の完全教師付き最先端モデルよりも弱い教師付きアプローチを示しました。

In this paper, we study the problem of procedure planning in instructional videos. Here, an agent must produce a plausible sequence of actions that can transform the environment from a given start to a desired goal state. When learning procedure planning from instructional videos, most recent work leverages intermediate visual observations as supervision, which requires expensive annotation efforts to localize precisely all the instructional steps in training videos. In contrast, we remove the need for expensive temporal video annotations and propose a weakly supervised approach by learning from natural language instructions. Our model is based on a transformer equipped with a memory module, which maps the start and goal observations to a sequence of plausible actions. Furthermore, we augment our model with a probabilistic generative module to capture the uncertainty inherent to procedure planning, an aspect largely overlooked by previous work. We evaluate our model on three datasets and show our weaklysupervised approach outperforms previous fully supervised state-of-the-art models on multiple metrics.
翻訳日:2022-05-06 14:58:48 公開日:2022-05-04
# shoerinsics: 内因的分解を伴う鑑識の靴プリント予測

ShoeRinsics: Shoeprint Prediction for Forensics with Intrinsic Decomposition ( http://arxiv.org/abs/2205.02361v1 )

ライセンス: Link先を確認
Samia Shafique, Bailey Kong, Shu Kong, Charless C. Fowlkes(参考訳) シュートレッドの印象は、犯罪現場に残る最も一般的な証拠の1つである。 しかし、このような証拠の有効性は、靴の膨大な数の異なる靴モデルをカバーする履物印象パターンのデータベースの欠如によって制限されている。 我々は,オンライン小売業者が収集した靴ひも写真を利用して,このギャップに対処することを提案する。 底面印象やトレッドパターンの3d形状がないため,靴の写真から印象パターンを予測することが重要な課題である。 本研究では,1枚のトレッド写真から固有画像分解(深度,正規度,アルベド,照明)を行うモデルを構築した。 ShoeRinsicsと呼ばれる我々のアプローチは、完全に教師付き合成データと教師なしの小売画像データの組み合わせを活用するために、ドメイン適応と再レンダリング損失を組み合わせたものです。 モデル性能を検証するために,靴底画像と対応する印刷物の組み合わせを収集し,予測した印象の精度を定量化するためのベンチマークプロトコルを定義する。 このベンチマークでは、ShoeRinsicsは深度予測と合成-実領域適応の既存の手法よりも優れている。

Shoe tread impressions are one of the most common types of evidence left at crime scenes. However, the utility of such evidence is limited by the lack of databases of footwear impression patterns that cover the huge and growing number of distinct shoe models. We propose to address this gap by leveraging shoe tread photographs collected by online retailers. The core challenge is to predict the impression pattern from the shoe photograph since ground-truth impressions or 3D shapes of tread patterns are not available. We develop a model that performs intrinsic image decomposition (predicting depth, normal, albedo, and lighting) from a single tread photo. Our approach, which we term ShoeRinsics, combines domain adaptation and re-rendering losses in order to leverage a mix of fully supervised synthetic data and unsupervised retail image data. To validate model performance, we also collected a set of paired shoe-sole images and corresponding prints, and define a benchmarking protocol to quantify the accuracy of predicted impressions. On this benchmark, ShoeRinsics outperforms existing methods for depth prediction and synthetic-to-real domain adaptation.
翻訳日:2022-05-06 14:58:32 公開日:2022-05-04
# 薬物併用のN-ary関係抽出のためのデータセット

A Dataset for N-ary Relation Extraction of Drug Combinations ( http://arxiv.org/abs/2205.02289v1 )

ライセンス: Link先を確認
Aryeh Tiktinsky, Vijay Viswanathan, Danna Niezni, Dana Meron Azagury, Yosi Shamay, Hillel Taub-Tabib, Tom Hope, Yoav Goldberg(参考訳) 組み合わせ療法は、がん、結核、マラリア、HIVなどの疾患に対する治療の標準となっている。 しかし、利用可能な多剤併用療法は、状況下で有効な組み合わせ療法を特定する上での課題となっている。 医療専門家が有用な薬物結合の同定を支援するために,我々は,薬物組み合わせの有効性に関する情報を科学文献から抽出するエキスパート注釈データセットを構築した。 実用性以外にも、このデータセットは可変長関係からなる最初の関係抽出データセットとして、ユニークなNLP課題も提示している。 さらに、このデータセットの関連性は、主に文レベルを超えて言語理解を必要とし、このタスクの課題を補足する。 有望なベースラインモデルを提供し、さらなる改善のための明確な領域を特定します。 当社はデータセット、コード、ベースラインモデルを公開し、NLPコミュニティがこのタスクに参加することを奨励しています。

Combination therapies have become the standard of care for diseases such as cancer, tuberculosis, malaria and HIV. However, the combinatorial set of available multi-drug treatments creates a challenge in identifying effective combination therapies available in a situation. To assist medical professionals in identifying beneficial drug-combinations, we construct an expert-annotated dataset for extracting information about the efficacy of drug combinations from the scientific literature. Beyond its practical utility, the dataset also presents a unique NLP challenge, as the first relation extraction dataset consisting of variable-length relations. Furthermore, the relations in this dataset predominantly require language understanding beyond the sentence level, adding to the challenge of this task. We provide a promising baseline model and identify clear areas for further improvement. We release our dataset, code, and baseline models publicly to encourage the NLP community to participate in this task.
翻訳日:2022-05-06 14:52:00 公開日:2022-05-04
# 機械学習オペレーション(MLOps)の概要、定義、アーキテクチャ

Machine Learning Operations (MLOps): Overview, Definition, and Architecture ( http://arxiv.org/abs/2205.02302v1 )

ライセンス: Link先を確認
Dominik Kreuzberger, Niklas K\"uhl, Sebastian Hirschl(参考訳) すべての産業用機械学習(ML)プロジェクトの最終的な目標は、ML製品を開発し、迅速に製品化することだ。 しかし、MLプロダクトの自動化と運用は極めて難しいため、多くのML取り組みが期待に届かなかった。 機械学習オペレーション(MLOps)のパラダイムは、この問題に対処する。 MLOpsには、ベストプラクティスやコンセプトセット、開発文化など、いくつかの側面が含まれている。 しかし、MLOpsはまだ曖昧な用語であり、研究者や専門家にとっての結果は曖昧である。 このギャップに対処するために,文献レビュー,ツールレビュー,エキスパートインタビューなど,混合手法の研究を行っている。 これらの調査の結果、必要な原則、コンポーネント、役割、関連するアーキテクチャやワークフローの概要をまとめて紹介する。 さらに、MLOpsの定義も提供し、この分野におけるオープンな課題を強調します。 最後に、この研究は、指定された技術セットでML製品を自動化し、運用したい機械学習研究者や実践者に対してガイダンスを提供する。

The final goal of all industrial machine learning (ML) projects is to develop ML products and rapidly bring them into production. However, it is highly challenging to automate and operationalize ML products and thus many ML endeavors fail to deliver on their expectations. The paradigm of Machine Learning Operations (MLOps) addresses this issue. MLOps includes several aspects, such as best practices, sets of concepts, and development culture. However, MLOps is still a vague term and its consequences for researchers and professionals are ambiguous. To address this gap, we conduct mixed-method research, including a literature review, a tool review, and expert interviews. As a result of these investigations, we provide an aggregated overview of the necessary principles, components, and roles, as well as the associated architecture and workflows. Furthermore, we furnish a definition of MLOps and highlight open challenges in the field. Finally, this work provides guidance for ML researchers and practitioners who want to automate and operate their ML products with a designated set of technologies.
翻訳日:2022-05-06 14:51:01 公開日:2022-05-04
# ランダム森林の多変量予測区間

Multivariate Prediction Intervals for Random Forests ( http://arxiv.org/abs/2205.02260v1 )

ライセンス: Link先を確認
Brendan Folie and Maxwell Hutchinson(参考訳) 正確な不確実性推定は、逐次学習や強化学習のように、実験の反復設計のパフォーマンスを大幅に改善することができる。 工学や物理科学の多くの問題において、設計タスクは目的や制約として複数の相関モデル出力に依存する。 これらの問題をよりよく解くために,バッジモデルに対する多変量予測区間を生成する再校正ブートストラップ法を提案し,その妥当性を示す。 複数の目的を持った逐次学習問題に対して,再調整されたブートストラップを適用し,満足のいく候補を見つけるのに必要なイテレーション数が著しく減少することを示す。 これは、再調整されたブートストラップが、複数の競合するターゲットを持つシステムを最適化するために機械学習を使用する実践者にとって価値のあるツールであることを示している。

Accurate uncertainty estimates can significantly improve the performance of iterative design of experiments, as in Sequential and Reinforcement learning. For many such problems in engineering and the physical sciences, the design task depends on multiple correlated model outputs as objectives and/or constraints. To better solve these problems, we propose a recalibrated bootstrap method to generate multivariate prediction intervals for bagged models and show that it is well-calibrated. We apply the recalibrated bootstrap to a simulated sequential learning problem with multiple objectives and show that it leads to a marked decrease in the number of iterations required to find a satisfactory candidate. This indicates that the recalibrated bootstrap could be a valuable tool for practitioners using machine learning to optimize systems with multiple competing targets.
翻訳日:2022-05-06 14:28:30 公開日:2022-05-04
# 因果効果同定のための最小コスト介入設計

Minimum Cost Intervention Design for Causal Effect Identification ( http://arxiv.org/abs/2205.02232v1 )

ライセンス: Link先を確認
Sina Akbari, Jalal Etesami, Negar Kiyavash(参考訳) pearlのdo微積分は、観測データから識別可能な因果効果を学ぶための完全な公理的アプローチである。 このような効果が特定できない場合は、因果効果を学習するために、システム内でしばしばコストがかかる介入の収集を行う必要がある。 本研究では,最小限のコストで介入の収集を設計し,所望の効果を同定する問題を考察する。 まず,この問題がnp-hardであることを証明し,その最適解を求めるか,対数分解係数近似を求めるアルゴリズムを提案する。 これは、我々の問題と最小打撃セット問題との接続を確立することによって行われる。 さらに,この問題の計算複雑性に取り組むために,多項式時間ヒューリスティックアルゴリズムをいくつか提案する。 これらのアルゴリズムは準最適解に反する可能性があるが、我々のシミュレーションはランダムグラフに対する小さな後悔を達成していることを示している。

Pearl's do calculus is a complete axiomatic approach to learn the identifiable causal effects from observational data. When such an effect is not identifiable, it is necessary to perform a collection of often costly interventions in the system to learn the causal effect. In this work, we consider the problem of designing the collection of interventions with the minimum cost to identify the desired effect. First, we prove that this problem is NP-hard, and subsequently propose an algorithm that can either find the optimal solution or a logarithmic-factor approximation of it. This is done by establishing a connection between our problem and the minimum hitting set problem. Additionally, we propose several polynomial-time heuristic algorithms to tackle the computational complexity of the problem. Although these algorithms could potentially stumble on sub-optimal solutions, our simulations show that they achieve small regrets on random graphs.
翻訳日:2022-05-06 14:25:24 公開日:2022-05-04
# GitRank: GitHubリポジトリのランク付けフレームワーク

GitRank: A Framework to Rank GitHub Repositories ( http://arxiv.org/abs/2205.02360v1 )

ライセンス: Link先を確認
Niranjan Hasabnis(参考訳) オープンソースリポジトリは豊富な情報を提供し、ソフトウェア工学の問題を解決する人工知能(AI)ベースのシステムの構築にますます利用されている。 オープンソースリポジトリは品質レベルが異なり、品質の低いリポジトリはシステムのパフォーマンスを低下させる可能性がある。 GitHubのようなコードホスティングサイトで直接利用できないオープンソースリポジトリの品質を評価することが重要である。 このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankというフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。 本報告では,本報告の調査結果と予備評価について述べる。

Open-source repositories provide wealth of information and are increasingly being used to build artificial intelligence (AI) based systems to solve problems in software engineering. Open-source repositories could be of varying quality levels, and bad-quality repositories could degrade performance of these systems. Evaluating quality of open-source repositories, which is not available directly on code hosting sites such as GitHub, is thus important. In this hackathon, we utilize known code quality measures and GrimoireLab toolkit to implement a framework, named GitRank, to rank open-source repositories on three different criteria. We discuss our findings and preliminary evaluation in this hackathon report.
翻訳日:2022-05-06 14:25:10 公開日:2022-05-04
# Based-CEのホワイトボックス攻撃はスーパーフィッティングでは機能しない

Based-CE white-box adversarial attack will not work using super-fitting ( http://arxiv.org/abs/2205.02741v1 )

ライセンス: Link先を確認
Youhuan Yang, Lei Sun, Leyu Dai, Song Guo, Xiuqing Mao, Xiaoqin Wang and Bayi Xu(参考訳) ディープニューラルネットワーク(DNN)はその強力な性能のために様々な分野で広く利用されているが、最近の研究では、ディープラーニングモデルは敵の攻撃に弱いことが示されている。 セキュリティ要件の高いシステムでは特に危険であるため,本論文では,モデルスーパーフィッティング状態を用いた新たな防御手法を提案する。 この状況下では、モデルの逆境堅牢性(すなわち、敵攻撃時のアクリル)が大幅に改善されている。 本稿では,超適合性の有効性を数学的に証明し,非関連カテゴリスコア(MUCS)を素早く最小化する手法を提案する。 理論的には、スーパーフィッティングはceのホワイトボックス攻撃に基づく既存の(将来の)攻撃にも耐えうる。 さらに,近年の会議では,超フィッティングと50近い防御モデルが対向する頑健性を評価するために,様々な強力な攻撃アルゴリズムを用いている。 実験結果から, 本手法は, トレーニングされたモデルに対して, 高い対向性が得られることを示した。

Deep Neural Networks (DNN) are widely used in various fields due to their powerful performance, but recent studies have shown that deep learning models are vulnerable to adversarial attacks-by adding a slight perturbation to the input, the model will get wrong results. It is especially dangerous for some systems with high security requirements, so this paper proposes a new defense method by using the model super-fitting status. Model's adversarial robustness (i.e., the accuracry under adversarial attack) has been greatly improved in this status. This paper mathematically proves the effectiveness of super-fitting, and proposes a method to make the model reach this status quickly-minimaze unrelated categories scores (MUCS). Theoretically, super-fitting can resist any existing (even future) Based on CE white-box adversarial attack. In addition, this paper uses a variety of powerful attack algorithms to evaluate the adversarial robustness of super-fitting and other nearly 50 defense models from recent conferences. The experimental results show that super-fitting method in this paper can make the trained model obtain the highest adversarial performance robustness.
翻訳日:2022-05-06 14:24:36 公開日:2022-05-04
# 分類と敵攻撃の再考

Rethinking Classifier And Adversarial Attack ( http://arxiv.org/abs/2205.02743v1 )

ライセンス: Link先を確認
Youhuan Yang, Lei Sun, Leyu Dai, Song Guo, Xiuqing Mao, Xiaoqin Wang and Bayi Xu(参考訳) 敵攻撃アルゴリズムに抵抗する様々な防御モデルが提案されているが、既存の敵ロバスト性評価手法は常にこれらのモデルの敵ロバスト性(すなわち、下位ロバスト性に近づかない)を過大評価している。 この問題を解決するため,本論文ではまずデコプル空間法を用いて分類器を非線形と線形の2つの部分に分割する。 そこで本論文では,元の例(およびその空間,すなわち表現空間)の表現ベクトルを定義し,絶対的分類境界初期化(ACBI)を反復的に最適化することにより,より優れた攻撃開始点(すなわち,この点からの攻撃はより早くロバストネスの下位境界に近づくことができる)を得る。 特に,本論文は,広く使用されている50近い防衛モデル(8つのアーキテクチャを含む)にACBIを適用した。 実験の結果,ACBIは全ての症例において低ロバストな精度が得られた。

Various defense models have been proposed to resist adversarial attack algorithms, but existing adversarial robustness evaluation methods always overestimate the adversarial robustness of these models (i.e. not approaching the lower bound of robustness). To solve this problem, this paper first uses the Decouple Space method to divide the classifier into two parts: non-linear and linear. On this basis, this paper defines the representation vector of original example (and its space, i.e., the representation space) and uses Absolute Classification Boundaries Initialization (ACBI) iterative optimization to obtain a better attack starting point (i.e. attacking from this point can approach the lower bound of robustness faster). Particularly, this paper apply ACBI to nearly 50 widely-used defense models (including 8 architectures). Experimental results show that ACBI achieves lower robust accuracy in all cases.
翻訳日:2022-05-06 14:24:08 公開日:2022-05-04
# グループ不変量子機械学習

Group-Invariant Quantum Machine Learning ( http://arxiv.org/abs/2205.02261v1 )

ライセンス: Link先を確認
Martin Larocca, Frederic Sauvage, Faris M. Sbahi, Guillaume Verdon, Patrick J. Coles, M. Cerezo(参考訳) 量子機械学習(qml)モデルは、量子状態にエンコードされたデータから学習することを目的としている。 近年,帰納的バイアスがほとんどないし全くないモデル(すなわち,モデルに埋め込まれた問題を想定しないモデル)は,特に大きな問題サイズにおいて,訓練可能性や一般化の問題を持つ可能性が指摘されている。 そのため、現状の問題に関する情報をできるだけ多くエンコードする手法を開発することが不可欠である。 この作業では、データ内の基盤となる不変性をQMLモデルの構築に使用し、構築によってそれらの対称性を尊重する、シンプルで強力なフレームワークを提示します。 これらのいわゆる群不変モデルは、データセットに関連する対称性群 $\mathfrak{G}$ の任意の要素の作用の下で不変な出力を生成する。 我々は,$\mathfrak{g}$-invariant モデルの設計を基礎とする理論的結果を示し,$\mathfrak{g}$ が連続リー群である場合や離散対称性群である場合など,いくつかのパラダイム的 qml 分類タスクを通じてその応用例を示す。 特に、私たちのフレームワークは、文学でよく知られたいくつかのアルゴリズムをエレガントな方法で復元し、新しいものを見つけることができます。 まとめると、我々の結果はQMLモデル設計に対するより幾何学的でグループ理論的なアプローチへの道を開くのに役立つと期待する。

Quantum Machine Learning (QML) models are aimed at learning from data encoded in quantum states. Recently, it has been shown that models with little to no inductive biases (i.e., with no assumptions about the problem embedded in the model) are likely to have trainability and generalization issues, especially for large problem sizes. As such, it is fundamental to develop schemes that encode as much information as available about the problem at hand. In this work we present a simple, yet powerful, framework where the underlying invariances in the data are used to build QML models that, by construction, respect those symmetries. These so-called group-invariant models produce outputs that remain invariant under the action of any element of the symmetry group $\mathfrak{G}$ associated to the dataset. We present theoretical results underpinning the design of $\mathfrak{G}$-invariant models, and exemplify their application through several paradigmatic QML classification tasks including cases when $\mathfrak{G}$ is a continuous Lie group and also when it is a discrete symmetry group. Notably, our framework allows us to recover, in an elegant way, several well known algorithms for the literature, as well as to discover new ones. Taken together, we expect that our results will help pave the way towards a more geometric and group-theoretic approach to QML model design.
翻訳日:2022-05-06 14:23:50 公開日:2022-05-04
# DeepBayes -- 確率非線形力学モデルにおけるパラメータ推定のための推定器

DeepBayes -- an estimator for parameter estimation in stochastic nonlinear dynamical models ( http://arxiv.org/abs/2205.02264v1 )

ライセンス: Link先を確認
Anubhab Ghosh, Mohamed Abdalmoaty, Saikat Chatterjee, H{\aa}kan Hjalmarsson(参考訳) 確率非線形力学系は現代の実世界の応用においてユビキタスである。 しかし、確率的非線形力学モデルの未知パラメータを推定することは難しい問題である。 既存の手法の大半は最大確率またはベイズ推定を用いる。 しかし、これらの手法にはいくつかの制限があり、特に推論のかなりの計算時間とアプリケーションの柔軟性が制限されている。 本研究では,DeepBayes推定器を提案する。この推定器の学習において,ディープリカレントニューラルネットワークのパワーを利用する。 この方法は、関心のモデルセットから引き出されたモデルを用いて合成されたデータの集合に対して平均2乗推定誤差を最小限に抑えるために、まず繰り返しニューラルネットワークを訓練する。 事前訓練された推定器は、推定データを用いてネットワークを評価することにより、推論に直接使用できる。 ディープリカレントニューラルネットワークアーキテクチャはオフラインでトレーニングでき、推論中にかなりの時間を節約できる。 我々は,長期記憶ネットワーク(LSTM)とゲートリカレントユニット(GRU)の2つの一般的なリカレントニューラルネットワークを実験した。 提案手法の異なる実例モデルへの適用性を実証し,最先端手法との比較を行った。 また,実世界の非線形ベンチマーク問題についても考察する。 実験により,提案手法はベイズ推定器と同程度の漸近性を示した。

Stochastic nonlinear dynamical systems are ubiquitous in modern, real-world applications. Yet, estimating the unknown parameters of stochastic, nonlinear dynamical models remains a challenging problem. The majority of existing methods employ maximum likelihood or Bayesian estimation. However, these methods suffer from some limitations, most notably the substantial computational time for inference coupled with limited flexibility in application. In this work, we propose DeepBayes estimators that leverage the power of deep recurrent neural networks in learning an estimator. The method consists of first training a recurrent neural network to minimize the mean-squared estimation error over a set of synthetically generated data using models drawn from the model set of interest. The a priori trained estimator can then be used directly for inference by evaluating the network with the estimation data. The deep recurrent neural network architectures can be trained offline and ensure significant time savings during inference. We experiment with two popular recurrent neural networks -- long short term memory network (LSTM) and gated recurrent unit (GRU). We demonstrate the applicability of our proposed method on different example models and perform detailed comparisons with state-of-the-art approaches. We also provide a study on a real-world nonlinear benchmark problem. The experimental evaluations show that the proposed approach is asymptotically as good as the Bayes estimator.
翻訳日:2022-05-06 14:21:43 公開日:2022-05-04
# 教師なしテキストスタイル転送のためのロバストかつセマンティックな潜在表現に向けて

Towards Robust and Semantically Organised Latent Representations for Unsupervised Text Style Transfer ( http://arxiv.org/abs/2205.02309v1 )

ライセンス: Link先を確認
Sharan Narasimhan, Suvodip Dey, Maunendra Sankar Desarkar(参考訳) 近年の研究では、自動エンコーダに基づくアプローチが、ゼロショット方式で、未認識の属性に対する言語生成、スムーズな文補間、スタイル転送に成功していることが示されている。 このようなモデルの潜在空間幾何学は、そのスタイルが「粗い粒度」であるようなデータセット上では十分に機能し、すなわち文中の少数の単語だけで全体のスタイルラベルを決定するのに十分である。 最近の研究では、離散トークンベースの摂動法を用いて、「類似した」文(低レベンシュテイン距離と高単語重なりによって定義される)を潜在空間に近接させる。 この「類似性」の定義は、潜在空間近傍をマッピングしながら構成語の根底にあるニュアンスを考慮せず、それゆえ、潜在近傍をマッピングしながら異なるスタイルに基づく意味論を持つ文を認識できない。 連続埋め込み空間に微調整可能なノイズ成分を加えることで、この摂動モデルを完成させるEPAAE(Embedding Perturbed Adversarial AutoEncoders)を導入する。 これを実証的に示す (a)様式的に類似した文をまとめるより優れた組織化された潜伏空間を作り出す。 (b)類似の着想に基づくベースラインよりも多種多様なテキストスタイルの転送タスクで最善を尽くし、 (c)スタイル転写強度の細粒度制御が可能。 また、テキストスタイル転送タスクをNLIデータセットに拡張し、これらのより複雑なスタイル定義がEPAAEによって最もよく学習されていることを示す。 我々の知る限り、NLIタスクへのスタイル転送の拡張は、これまで検討されていない。

Recent studies show that auto-encoder based approaches successfully perform language generation, smooth sentence interpolation, and style transfer over unseen attributes using unlabelled datasets in a zero-shot manner. The latent space geometry of such models is organised well enough to perform on datasets where the style is "coarse-grained" i.e. a small fraction of words alone in a sentence are enough to determine the overall style label. A recent study uses a discrete token-based perturbation approach to map "similar" sentences ("similar" defined by low Levenshtein distance/ high word overlap) close by in latent space. This definition of "similarity" does not look into the underlying nuances of the constituent words while mapping latent space neighbourhoods and therefore fails to recognise sentences with different style-based semantics while mapping latent neighbourhoods. We introduce EPAAEs (Embedding Perturbed Adversarial AutoEncoders) which completes this perturbation model, by adding a finely adjustable noise component on the continuous embeddings space. We empirically show that this (a) produces a better organised latent space that clusters stylistically similar sentences together, (b) performs best on a diverse set of text style transfer tasks than similar denoising-inspired baselines, and (c) is capable of fine-grained control of Style Transfer strength. We also extend the text style transfer tasks to NLI datasets and show that these more complex definitions of style are learned best by EPAAE. To the best of our knowledge, extending style transfer to NLI tasks has not been explored before.
翻訳日:2022-05-06 14:21:26 公開日:2022-05-04
# オープンブック試験としての関係抽出:検索型プロンプトチューニング

Relation Extraction as Open-book Examination: Retrieval-enhanced Prompt Tuning ( http://arxiv.org/abs/2205.02355v1 )

ライセンス: Link先を確認
Xiang Chen, Lei Li, Ningyu Zhang, Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen(参考訳) 事前訓練された言語モデルは、驚くべき数発の学習能力を示すことによって関係抽出に大きく貢献している。 しかし、関係抽出のための迅速なチューニング手法は、これらの稀なパターンや難しいパターンに一般化できない可能性がある。 従来のパラメトリック学習パラダイムは、トレーニングデータを書籍として記憶し、推論をクローズブックテストとして捉えることができる。 ロングテールやハードパターンは、限られたインスタンスでしか記憶できない。 そこで本研究では,reをオープンブック検証として,関係抽出のための検索強調プロンプトチューニングの新しい半パラメトリックパラダイムを提案する。 記憶されたキー値ペアとして,プロンプトベースのインスタンス表現と対応する関係ラベルを検索するためのオープンブックデータストアを構築する。 データストア上の非パラメトリック近傍分布と PLM の基底出力を線形に補間することにより、推論時に関係を推測することができる。 このように、トレーニング中に重み付けに格納された知識を通じて関係を推測するだけでなく、オープンブックデータストアで例を解き、クエリすることで意思決定を支援する。 ベンチマークデータセットに関する広範囲な実験により,本手法は標準教師付き設定と少数ショット設定の両方において最先端の手法を実現できることが示された。 コードはhttps://github.com/zjunlp/promptkg/tree/main/research/retrievalreで入手できる。

Pre-trained language models have contributed significantly to relation extraction by demonstrating remarkable few-shot learning abilities. However, prompt tuning methods for relation extraction may still fail to generalize to those rare or hard patterns. Note that the previous parametric learning paradigm can be viewed as memorization regarding training data as a book and inference as the close-book test. Those long-tailed or hard patterns can hardly be memorized in parameters given few-shot instances. To this end, we regard RE as an open-book examination and propose a new semiparametric paradigm of retrieval-enhanced prompt tuning for relation extraction. We construct an open-book datastore for retrieval regarding prompt-based instance representations and corresponding relation labels as memorized key-value pairs. During inference, the model can infer relations by linearly interpolating the base output of PLM with the non-parametric nearest neighbor distribution over the datastore. In this way, our model not only infers relation through knowledge stored in the weights during training but also assists decision-making by unwinding and querying examples in the open-book datastore. Extensive experiments on benchmark datasets show that our method can achieve state-of-the-art in both standard supervised and few-shot settings. Code are available in https://github.com/zjunlp/PromptKG/tree/main/research/RetrievalRE.
翻訳日:2022-05-06 14:21:02 公開日:2022-05-04
# マルチモード知識グラフ補完のためのマルチレベル融合型ハイブリッドトランス

Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion ( http://arxiv.org/abs/2205.02357v1 )

ライセンス: Link先を確認
Xiang Chen, Ningyu Zhang, Lei Li, Shumin Deng, Chuanqi Tan, Changliang Xu, Fei Huang, Luo Si, Huajun Chen(参考訳) 視覚テキストの事実知識を整理するマルチモーダル知識グラフ(MKG)は近年,情報検索や質問応答,レコメンデーションシステムといったタスクにうまく適用されている。 ほとんどのmkgは完成にはほど遠いため、マルチモーダルエンティティ、関係抽出、リンク予測に焦点をあてた広範な知識グラフ補完研究が提案されている。 しかし、異なるタスクやモダリティはモデルアーキテクチャの変更を必要とし、全ての画像やオブジェクトがテキスト入力に関連しているわけではないため、様々な現実世界のシナリオに適用できない。 本稿では,これらの問題に対処する多層融合型ハイブリッドトランスを提案する。 具体的には,多様なマルチモーダルナレッジグラフ補完タスクに対して,統一入力出力を用いたハイブリッドトランスフォーマティブアーキテクチャを活用する。 さらに、粗い接頭辞誘導相互作用と微粒な相関認識融合モジュールによる視覚とテキストの表現を統合する多層融合を提案する。 我々は,マルチモーダルリンク予測,マルチモーダルre,マルチモーダルnerの4つのデータセット上で,mkgformerがsota性能を得ることができることを検証するために,広範な実験を行った。 コードはhttps://github.com/zjunlp/MKGformerで入手できる。

Multimodal Knowledge Graphs (MKGs), which organize visual-text factual knowledge, have recently been successfully applied to tasks such as information retrieval, question answering, and recommendation system. Since most MKGs are far from complete, extensive knowledge graph completion studies have been proposed focusing on the multimodal entity, relation extraction and link prediction. However, different tasks and modalities require changes to the model architecture, and not all images/objects are relevant to text input, which hinders the applicability to diverse real-world scenarios. In this paper, we propose a hybrid transformer with multi-level fusion to address those issues. Specifically, we leverage a hybrid transformer architecture with unified input-output for diverse multimodal knowledge graph completion tasks. Moreover, we propose multi-level fusion, which integrates visual and text representation via coarse-grained prefix-guided interaction and fine-grained correlation-aware fusion modules. We conduct extensive experiments to validate that our MKGformer can obtain SOTA performance on four datasets of multimodal link prediction, multimodal RE, and multimodal NER. Code is available in https://github.com/zjunlp/MKGformer.
翻訳日:2022-05-06 14:20:43 公開日:2022-05-04
# ループ内の言語モデル:弱スーパービジョンにプロンプトを組み込む

Language Models in the Loop: Incorporating Prompting into Weak Supervision ( http://arxiv.org/abs/2205.02318v1 )

ライセンス: Link先を確認
Ryan Smith and Jason A. Fries and Braden Hancock and Stephen H. Bach(参考訳) 本稿では,ラベル付き学習データに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。 モデルを一般的なゼロショットあるいは少数ショットの方法で適用するのではなく、弱い監視フレームワークで関数のラベル付けの基盤として扱う。 分類器を作成するために、まず、サンプルに関する複数の異なるクエリに答えるようモデルに促し、ラベルや棄権に対する投票にどのように対応すべきかを定義します。 次に、Snorkelシステムを用いてノイズの多いラベルソースを識別し、結果のトレーニングデータで終端分類器を訓練する。 実験結果から,弱い監視フレームワークにおける大規模言語モデルの促進は,精度の大幅な向上をもたらす可能性が示唆された。 WRENCHの弱い監督ベンチマークでは、このアプローチはゼロショットのパフォーマンスよりも大幅に改善され、平均19.5%のエラーが減少する。 また,本手法は,手作業によるルールから訓練した手法と同等あるいは優れた精度の分類器を生成する。

We propose a new strategy for applying large pre-trained language models to novel tasks when labeled training data is limited. Rather than apply the model in a typical zero-shot or few-shot fashion, we treat the model as the basis for labeling functions in a weak supervision framework. To create a classifier, we first prompt the model to answer multiple distinct queries about an example and define how the possible responses should be mapped to votes for labels and abstentions. We then denoise these noisy label sources using the Snorkel system and train an end classifier with the resulting training data. Our experimental evaluation shows that prompting large language models within a weak supervision framework can provide significant gains in accuracy. On the WRENCH weak supervision benchmark, this approach can significantly improve over zero-shot performance, an average 19.5% reduction in errors. We also find that this approach produces classifiers with comparable or superior accuracy to those trained from hand-engineered rules.
翻訳日:2022-05-06 13:56:17 公開日:2022-05-04
# 語彙の減少を考慮したロシア語モデルの知識蒸留

Knowledge Distillation of Russian Language Models with Reduction of Vocabulary ( http://arxiv.org/abs/2205.02340v1 )

ライセンス: Link先を確認
Alina Kolesnikova, Yuri Kuratov, Vasily Konovalov, Mikhail Burtsev(参考訳) 今日、トランスフォーマー言語モデルは、多くの自然言語処理タスクのコアコンポーネントとして機能している。 このようなモデルの産業的応用には、計算時間とメモリフットプリントの最小化が必要である。 知識蒸留はこの目的に対処するためのアプローチの1つである。 この分野での既存の手法は主に層数や埋め込み/隠れ表現の次元を減らすことに焦点を当てている。 別の選択肢は、語彙のトークンの数を減らすことであり、それゆえ学生モデルの埋め込み行列である。 語彙最小化の主な問題は、教師と生徒モデルの入力シーケンスと出力クラス分布のミスマッチである。 その結果、KLに基づく知識蒸留を直接適用することは不可能である。 語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。 ロシアのSuperGLUE, SberQuAD, RuSentiment, ParaPhaser, Collection-3 など,ロシアの一般的なベンチマークにおける蒸留モデルの評価では,我々の技術は,フルサイズの語彙を持つ1.7\times$圧縮学生の質を維持しながら,17\times$から49\times$まで圧縮を達成できることを示した。 コードと蒸留したモデルを利用可能にします。

Today, transformer language models serve as a core component for majority of natural language processing tasks. Industrial application of such models requires minimization of computation time and memory footprint. Knowledge distillation is one of approaches to address this goal. Existing methods in this field are mainly focused on reducing the number of layers or dimension of embeddings/hidden representations. Alternative option is to reduce the number of tokens in vocabulary and therefore the embeddings matrix of the student model. The main problem with vocabulary minimization is mismatch between input sequences and output class distributions of a teacher and a student models. As a result, it is impossible to directly apply KL-based knowledge distillation. We propose two simple yet effective alignment techniques to make knowledge distillation to the students with reduced vocabulary. Evaluation of distilled models on a number of common benchmarks for Russian such as Russian SuperGLUE, SberQuAD, RuSentiment, ParaPhaser, Collection-3 demonstrated that our techniques allow to achieve compression from $17\times$ to $49\times$, while maintaining quality of $1.7\times$ compressed student with the full-sized vocabulary, but reduced number of Transformer layers only. We make our code and distilled models available.
翻訳日:2022-05-06 13:56:00 公開日:2022-05-04
# オリジナルか翻訳か? 機械翻訳性能に及ぼす翻訳文の影響の因果解析

Original or Translated? A Causal Analysis of the Impact of Translationese on Machine Translation Performance ( http://arxiv.org/abs/2205.02293v1 )

ライセンス: Link先を確認
Jingwei Ni, Zhijing Jin, Markus Freitag, Mrinmaya Sachan, Bernhard Sch\"olkopf(参考訳) 人間翻訳されたテキストは、同じ言語で自然に書かれたテキストとは異なる特徴を示す。 この現象は翻訳(translationese)と呼ばれ、機械翻訳(MT)の評価を損なうと論じられている。 しかし、翻訳に関する既存の研究はいくつかの重要な要因を無視しており、結論は主に相関関係にあるが因果関係ではない。 本研究では,MTトレーニングデータに人間の翻訳方向をラベル付けしたデータセットであるCausalMTを収集する。 我々は、列車試験方向一致(訓練及び試験セットにおける人間の翻訳方向が一致している場合)とデータモデル方向一致(モデルがデータセットにおける人間の翻訳方向と同じ方向に学習する場合)の2つの重要な要因を検査する。 これらの2つの要因がmt性能に大きな因果的影響を示すとともに,既存の研究で強調された翻訳の影響に対するテストモデル方向のミスマッチも示している。 本研究の成果を踏まえて,MTトレーニングと評価について提案する。 コードとデータはhttps://github.com/EdisonNi-hku/CausalMTにある。

Human-translated text displays distinct features from naturally written text in the same language. This phenomena, known as translationese, has been argued to confound the machine translation (MT) evaluation. Yet, we find that existing work on translationese neglects some important factors and the conclusions are mostly correlational but not causal. In this work, we collect CausalMT, a dataset where the MT training data are also labeled with the human translation directions. We inspect two critical factors, the train-test direction match (whether the human translation directions in the training and test sets are aligned), and data-model direction match (whether the model learns in the same direction as the human translation direction in the dataset). We show that these two factors have a large causal effect on the MT performance, in addition to the test-model direction mismatch highlighted by existing work on the impact of translationese. In light of our findings, we provide a set of suggestions for MT training and evaluation. Our code and data are at https://github.com/EdisonNi-hku/CausalMT
翻訳日:2022-05-06 13:39:16 公開日:2022-05-04
# (参考訳) 漸進的変化のオンライン検出のための変化動的モデル

A Change Dynamic Model for the Online Detection of Gradual Change ( http://arxiv.org/abs/2205.01054v3 )

ライセンス: CC BY 4.0
Chris Browne(参考訳) 確率過程の統計的性質の変化は、一般的に変化点(change-points)によって起こると仮定される。 これらの移行が徐々に起こる場合、この仮定はプロセスの変更を適切に識別し、応答する能力を低下させる可能性がある。 この観測を念頭に置いて, 階層モデル内で変化点を用いて段階変化の開始や終了の瞬間を示す, ベイズ的枠組みにおいて, 段階変化のオンライン検出のための新しい変化力学モデルを導入する。 このモデルをてんかん発作時に引き起こされた脳波と合成データに適用することにより,従来の変化点モデルよりも高速かつ正確な変化の同定が可能となる。

Changes in the statistical properties of a stochastic process are typically assumed to occur via change-points, which demark instantaneous moments of complete and total change in process behavior. In cases where these transitions occur gradually, this assumption can result in a reduced ability to properly identify and respond to process change. With this observation in mind, we introduce a novel change-dynamic model for the online detection of gradual change in a Bayesian framework, in which change-points are used within a hierarchical model to indicate moments of gradual change onset or termination. We apply this model to synthetic data and EEG readings drawn during epileptic seizure, where we find our change-dynamic model can enable faster and more accurate identification of gradual change than traditional change-point models allow.
翻訳日:2022-05-06 13:35:50 公開日:2022-05-04
# 効率的・収束型フェデレーション学習

Efficient and Convergent Federated Learning ( http://arxiv.org/abs/2205.01438v2 )

ライセンス: Link先を確認
Shenglong Zhou and Geoffrey Ye Li(参考訳) フェデレーション学習はここ数年で進歩を見せているが、アルゴリズムがコミュニケーションリソースを節約する方法、計算コストの削減方法、収束するかどうかなど、多くの課題に直面している。 これらの問題に対処するため,乗算器の勾配降下と不正確な交互方向法を組み合わせた新しいフェデレーション学習アルゴリズム(FedGiA)を提案する。 FedGiAは温和な条件下で線形に計算・通信効率・収束性を示す。

Federated learning has shown its advances over the last few years but is facing many challenges, such as how algorithms save communication resources, how they reduce computational costs, and whether they converge. To address these issues, this paper proposes a new federated learning algorithm (FedGiA) that combines the gradient descent and the inexact alternating direction method of multipliers. It is shown that FedGiA is computation and communication-efficient and convergent linearly under mild conditions.
翻訳日:2022-05-06 12:26:49 公開日:2022-05-04
# (参考訳) 1クラス分類のための一般化参照カーネル

Generalized Reference Kernel for One-class Classification ( http://arxiv.org/abs/2205.00534v2 )

ライセンス: CC BY 4.0
Jenni Raitoharju and Alexandros Iosifidis(参考訳) 本稿では、参照ベクトルの集合を用いて、元のベースカーネルを改善することを期待する新しい一般化参照カーネルを定式化する。 選択された基準ベクトルによっては、近似核、ランダム写像、非線形射影トリックと類似性を示す。 小型の1クラス分類に着目した分析と実験結果から,新しい定式化は,カーネル自体に付加的な情報を加えて正規化,ランク調整を行うアプローチを提供し,一クラス分類精度の向上を図っている。

In this paper, we formulate a new generalized reference kernel hoping to improve the original base kernel using a set of reference vectors. Depending on the selected reference vectors, our formulation shows similarities to approximate kernels, random mappings, and Non-linear Projection Trick. Focusing on small-scale one-class classification, our analysis and experimental results show that the new formulation provides approaches to regularize, adjust the rank, and incorporate additional information into the kernel itself, leading to improved one-class classification accuracy.
翻訳日:2022-05-06 08:27:04 公開日:2022-05-04
# (参考訳) 複数の言語を対象としたマスキング言語モデルにおけるジェンダーバイアス

Gender Bias in Masked Language Models for Multiple Languages ( http://arxiv.org/abs/2205.00551v3 )

ライセンス: CC BY 4.0
Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, Naoaki Okazaki(参考訳) 大型コーパスのマスクトークンを予測して事前学習したマスク言語モデル(mlms)は、様々な言語での自然言語処理タスクでうまく使われている。 残念ながら、MLMは性別や人種などの属性に関する差別バイアスも学習していると報告されている。 ほとんどの研究は英語のMLMに焦点を当てているため、他の言語でのMLMのバイアスはめったに研究されていない。 英語以外の言語に対する評価データのマニュアルアノテーションは、アノテータの採用コストと難しさのために困難である。 さらに、既存のバイアス評価手法では、属性語と同じ文脈(例えばHe/Sheは看護婦)のステレオタイプ文対を必要とする。 手動で注釈付きデータを必要とすることなく、英語の属性単語リストと英語のパラレルコーパスのみを用いて、様々な言語のバイアスを評価するための多言語バイアス評価(MBE)スコアを提案する。 MBEを用いて8言語でのMLMの評価を行い、これらの言語に対して性別関連バイアスがMLMにエンコードされていることを確認した。 MBEの有効性を評価するために、日本語とロシア語の性別バイアスのためのデータセットを手作業で作成した。 その結果、MBEが報告したバイアススコアは、上記の手作業で作成したデータセットと、既存の英語のジェンダーバイアスのデータセットと大きく相関していることがわかった。

Masked Language Models (MLMs) pre-trained by predicting masked tokens on large corpora have been used successfully in natural language processing tasks for a variety of languages. Unfortunately, it was reported that MLMs also learn discriminative biases regarding attributes such as gender and race. Because most studies have focused on MLMs in English, the bias of MLMs in other languages has rarely been investigated. Manual annotation of evaluation data for languages other than English has been challenging due to the cost and difficulty in recruiting annotators. Moreover, the existing bias evaluation methods require the stereotypical sentence pairs consisting of the same context with attribute words (e.g. He/She is a nurse). We propose Multilingual Bias Evaluation (MBE) score, to evaluate bias in various languages using only English attribute word lists and parallel corpora between the target language and English without requiring manually annotated data. We evaluated MLMs in eight languages using the MBE and confirmed that gender-related biases are encoded in MLMs for all those languages. We manually created datasets for gender bias in Japanese and Russian to evaluate the validity of the MBE. The results show that the bias scores reported by the MBE significantly correlates with that computed from the above manually created datasets and the existing English datasets for gender bias.
翻訳日:2022-05-06 07:37:49 公開日:2022-05-04
# (参考訳) AmbiPun: あいまいな文脈でHummorous Punsを生成する

AmbiPun: Generating Humorous Puns with Ambiguous Context ( http://arxiv.org/abs/2205.01825v1 )

ライセンス: CC BY 4.0
Anirudh Mittal, Yufei Tian, Nanyun Peng(参考訳) 本稿では,既存の句の訓練を必要としない,単純かつ効果的な句文生成手法を提案する。 我々のアプローチは、あいまいさは句語そのものではなく文脈に由来するというユーモア理論にインスパイアされている。 句語の1対の定義を与えられたモデルでは、まず逆辞書を用いて関連する概念のリストを生成する。 次に、ワンショットGPT3を用いて文脈語を生成し、両方の概念から文脈語を組み込んだ句を生成する。 人的評価の結果,提案手法は52 %の時間を効率よく生成し,良質なベースラインと最先端のモデルよりも大きなマージンを達成できた。

In this paper, we propose a simple yet effective way to generate pun sentences that does not require any training on existing puns. Our approach is inspired by humor theories that ambiguity comes from the context rather than the pun word itself. Given a pair of definitions of a pun word, our model first produces a list of related concepts through a reverse dictionary. We then utilize one-shot GPT3 to generate context words and then generate puns incorporating context words from both concepts. Human evaluation shows that our method successfully generates pun 52\% of the time, outperforming well-crafted baselines and the state-of-the-art models by a large margin.
翻訳日:2022-05-06 03:43:29 公開日:2022-05-04
# (参考訳) 説明可能な知識グラフ埋め込み: ロボット行動を支援する知識推論のための推論和解

Explainable Knowledge Graph Embedding: Inference Reconciliation for Knowledge Inferences Supporting Robot Actions ( http://arxiv.org/abs/2205.01836v1 )

ライセンス: CC BY 4.0
Angel Daruna, Devleena Das, and Sonia Chernova(参考訳) ロボットを支援する知識グラフの学習には、ロボットの振る舞いを駆動する豊富な知識が含まれている。 しかし、知識グラフ表現がロボットの逐次的意思決定にどのように影響するかを表現する推論調整フレームワークは存在しない。 学習されたブラックボックスの知識グラフ表現、知識グラフ埋め込みの推論を説明するのに教育的アプローチを用いる。 我々の解釈可能なモデルは、ブラックボックスモデルの予測を局所的に近似するために決定木分類器を使用し、非専門家によって解釈可能な自然言語説明を提供する。 アルゴリズム評価の結果はモデル設計の選択を裏付けるものであり,非専門家によるユーザ調査の結果は,提案する推論調整フレームワークの必要性を裏付けるものである。 批判的に,シミュレーションロボットによる評価の結果,ブラックボックス内の非感覚的信念により,非専門家がロボットの動作を正すことができた。

Learned knowledge graph representations supporting robots contain a wealth of domain knowledge that drives robot behavior. However, there does not exist an inference reconciliation framework that expresses how a knowledge graph representation affects a robot's sequential decision making. We use a pedagogical approach to explain the inferences of a learned, black-box knowledge graph representation, a knowledge graph embedding. Our interpretable model, uses a decision tree classifier to locally approximate the predictions of the black-box model, and provides natural language explanations interpretable by non-experts. Results from our algorithmic evaluation affirm our model design choices, and the results of our user studies with non-experts support the need for the proposed inference reconciliation framework. Critically, results from our simulated robot evaluation indicate that our explanations enable non-experts to correct erratic robot behaviors due to nonsensical beliefs within the black-box.
翻訳日:2022-05-06 03:31:22 公開日:2022-05-04
# (参考訳) fedmix: 医用画像分割のための教師付きフェデレーション学習

FedMix: Mixed Supervised Federated Learning for Medical Image Segmentation ( http://arxiv.org/abs/2205.01840v1 )

ライセンス: CC BY 4.0
Jeffry Wicaksana, Zengqiang Yan, Dong Zhang, Xijie Huang, Huimin Wu, Xin Yang, and Kwang-Ting Cheng(参考訳) フェデレーション学習の目的は、データを共有せずに複数のクライアントが共同で機械学習モデルを訓練できるようにすることである。 しかし、既存の画像分割モデルのトレーニング方法は、各ローカルクライアントのトレーニングセットが同様の方法でアノテートされているという非現実的な仮定に基づいており、同じイメージ監督レベルに従っている。 この仮定を緩和するため,本研究では,混合画像ラベルに基づく医用画像セグメンテーションのための,ラベル非依存な連合学習フレームワークfeedmixを提案する。 fedmixでは、各クライアントが、強力なピクセルレベルのラベル、弱いバウンディングボックスラベル、最も弱い画像レベルのクラスラベルなど、利用可能なすべてのラベルデータを統合して有効活用することで、フェデレーションモデルを更新する。 これらのローカルモデルに基づいて,グローバルモデル更新中に各クライアントが集約重みを学習するローカルクライアント間の適応的な重み割り当て手順を提案する。 既存の手法と比較して、FedMixは単一のレベルのイメージ監視の制約を突破するだけでなく、各ローカルクライアントの集約重みを動的に調整し、リッチで差別的な特徴表現を実現する。 その有効性を評価するため,乳房腫瘍の分節と皮膚病変の分節という2つの困難な医用画像の分節課題について実験を行った。 その結果,提案するFedMixは最先端手法よりも高い性能を示した。

The purpose of federated learning is to enable multiple clients to jointly train a machine learning model without sharing data. However, the existing methods for training an image segmentation model have been based on an unrealistic assumption that the training set for each local client is annotated in a similar fashion and thus follows the same image supervision level. To relax this assumption, in this work, we propose a label-agnostic unified federated learning framework, named FedMix, for medical image segmentation based on mixed image labels. In FedMix, each client updates the federated model by integrating and effectively making use of all available labeled data ranging from strong pixel-level labels, weak bounding box labels, to weakest image-level class labels. Based on these local models, we further propose an adaptive weight assignment procedure across local clients, where each client learns an aggregation weight during the global model update. Compared to the existing methods, FedMix not only breaks through the constraint of a single level of image supervision, but also can dynamically adjust the aggregation weight of each local client, achieving rich yet discriminative feature representations. To evaluate its effectiveness, experiments have been carried out on two challenging medical image segmentation tasks, i.e., breast tumor segmentation and skin lesion segmentation. The results validate that our proposed FedMix outperforms the state-of-the-art method by a large margin.
翻訳日:2022-05-06 03:12:15 公開日:2022-05-04
# (参考訳) 動的再コンパイルによるエキスパートの混合の最適化

Optimizing Mixture of Experts using Dynamic Recompilations ( http://arxiv.org/abs/2205.01848v1 )

ライセンス: CC BY 4.0
Ferdinand Kossmann, Zhihao Jia, Alex Aiken(参考訳) Mixture of Expertsアーキテクチャは、計算要求(FLOP)とは独立してモデルパラメータサイズをスケーリングすることで、はるかに大きなニューラルネットワークを可能にする。 しかし、現在のdnnフレームワークは、専門家の混合で動的データフローを効果的にサポートできないため、これらのフレームワーク上の実装は、かなりのオーバーヘッドをもたらす回避策を使用する必要がある。 このようなフレームワークの限界に対処するため,DynaMoEというDNNライブラリを紹介した。DynaMoEは動的再コンパイルを用いて,計算資源の活用を最適化し,Mixture of Expertsモデルの動的要求に適応させる。 評価の結果、DynaMoEは1.8倍の高速化を実現し、既存のMoEシステムと比較して2.3倍のモデルサイズをサポートする。 次に、動的再コンパイルによりさらに1.7倍の高速化を実現し、同時にメモリ圧力を低減し、モデル品質を向上させる。

The Mixture of Experts architecture allows for outrageously large neural networks by scaling model parameter size independently from computational demand (FLOPs). However, current DNN frameworks cannot effectively support the dynamic data flow in Mixture of Experts, and implementations on top of these frameworks need to use workarounds that introduce significant overheads. To address the limitation of these frameworks, we present DynaMoE, a DNN library that uses dynamic recompilations to optimize and adapt the use of computational resources to the dynamic needs of Mixture of Experts models. Our evaluation shows that DynaMoE achieves a 1.8x speedup and supports 2.3x larger model sizes when compared to existing MoE systems, even when not using recompilations. We then present further optimizations enabled by dynamic recompilations that yield an additional 1.7x speedup while simultaneously reducing memory pressure and improving model quality.
翻訳日:2022-05-06 02:54:07 公開日:2022-05-04
# (参考訳) 事前学習されたユニモーダルおよびマルチモーダルモデルにおける視覚コモンセンス

Visual Commonsense in Pretrained Unimodal and Multimodal Models ( http://arxiv.org/abs/2205.01850v1 )

ライセンス: CC BY 4.0
Chenyu Zhang, Benjamin Van Durme, Zhuowan Li, Elias Stengel-Eskin(参考訳) バナナは一般的に黄色か緑で、紫ではないことがわかっています。 テキストと画像コーパスは、レポートバイアスの対象であり、この世界的知識を、様々な信条の度合いで表している。 本稿では,Unimodal(言語のみ)モデルとMultimodal(画像と言語)モデルが視覚的に有意な属性をどの程度捉えているかを検討する。 そのために、5000人以上の被験者に対して5つのプロパティタイプ(色、形状、材料、サイズ、視覚的共起)をカバーするVisual Commonsense Tests (ViComTe)データセットを作成しました。 このデータセットは,Paikらによるクラウドソースカラー判定(2021年)と,テキストのみのデータよりもはるかによく相関していることを示す。 次に、トレーニング済みの単調モデルとマルチモーダルモデルを評価するためにデータセットを使用します。 以上の結果から,マルチモーダルモデルは属性分布の再構成に優れるが,それでも報告バイアスが伴うことが示唆された。 さらに、モデルサイズの増加はパフォーマンスを向上しないため、視覚的常識の鍵はデータにあることを示唆している。

Our commonsense knowledge about objects includes their typical visual attributes; we know that bananas are typically yellow or green, and not purple. Text and image corpora, being subject to reporting bias, represent this world-knowledge to varying degrees of faithfulness. In this paper, we investigate to what degree unimodal (language-only) and multimodal (image and language) models capture a broad range of visually salient attributes. To that end, we create the Visual Commonsense Tests (ViComTe) dataset covering 5 property types (color, shape, material, size, and visual co-occurrence) for over 5000 subjects. We validate this dataset by showing that our grounded color data correlates much better than ungrounded text-only data with crowdsourced color judgments provided by Paik et al. (2021). We then use our dataset to evaluate pretrained unimodal models and multimodal models. Our results indicate that multimodal models better reconstruct attribute distributions, but are still subject to reporting bias. Moreover, increasing model size does not enhance performance, suggesting that the key to visual commonsense lies in the data.
翻訳日:2022-05-06 02:32:55 公開日:2022-05-04
# (参考訳) DeeptDCS: 経頭蓋直流刺激による電流の深層学習に基づく推定

DeeptDCS: Deep Learning-Based Estimation of Currents Induced During Transcranial Direct Current Stimulation ( http://arxiv.org/abs/2205.01858v1 )

ライセンス: CC BY 4.0
Xiaofan Jia, Sadeed Bin Sayed, Nahian Ibn Hasan, Luis J. Gomez, Guang-Bin Huang, and Abdulkadir C. Yucel(参考訳) 目的:経頭蓋直流刺激(transcranial direct current stimulation, tdcs)は、頭部の伝導電流を発生させ、脳機能を破壊するために用いられる非侵襲的脳刺激技術である。 本稿では,TDCSによる電流密度をリアルタイムに高速に評価するために,DeeptDCSという深層学習型エミュレータを提案する。 方法: このエミュレータは、ヘッド組織のボリューム導体モデル(vcms)を入力として、ヘッド全体の3次元電流密度分布を出力するために、注意力u-netを活用する。 電極構成は入力チャネルの数を増やすことなくVCMに組み込まれており、提案エミュレータのトレーニングおよび試験において電極の非パラメトリック特性(厚み、形状、サイズ、位置など)を直接組み込むことができる。 結果: 標準U-netと他の3種類のU-net(Residual U-net, Attention Residual U-net, Multi-scale Residual U-net)よりも精度が高い。 非トレーニング電極位置へのDeeptDCSの一般化能力は、モデルを微調整することで大幅に向上することができる。 DeeptDCSによる1つのエミュレーションに必要な計算時間は1秒分である。 結論: deeptdcsは、物理ベースのオープンソースシミュレータよりも少なくとも2桁速いが、精度は十分である。 意義:高い計算効率は、不確実性定量化やtDCSの最適化研究など、繰り返し実行を必要とするアプリケーションでDeeptDCSを使用することを可能にする。

Objective: Transcranial direct current stimulation (tDCS) is a non-invasive brain stimulation technique used to generate conduction currents in the head and disrupt brain functions. To rapidly evaluate the tDCS-induced current density in near real-time, this paper proposes a deep learning-based emulator, named DeeptDCS. Methods: The emulator leverages Attention U-net taking the volume conductor models (VCMs) of head tissues as inputs and outputting the three-dimensional current density distribution across the entire head. The electrode configurations are also incorporated into VCMs without increasing the number of input channels; this enables the straightforward incorporation of the non-parametric features of electrodes (e.g., thickness, shape, size, and position) in the training and testing of the proposed emulator. Results: Attention U-net outperforms standard U-net and its other three variants (Residual U-net, Attention Residual U-net, and Multi-scale Residual U-net) in terms of accuracy. The generalization ability of DeeptDCS to non-trained electrode positions can be greatly enhanced through fine-tuning the model. The computational time required by one emulation via DeeptDCS is a fraction of a second. Conclusion: DeeptDCS is at least two orders of magnitudes faster than a physics-based open-source simulator, while providing satisfactorily accurate results. Significance: The high computational efficiency permits the use of DeeptDCS in applications requiring its repetitive execution, such as uncertainty quantification and optimization studies of tDCS.
翻訳日:2022-05-06 02:14:40 公開日:2022-05-04
# (参考訳) おそらく信頼できる言語モデリング

Provably Confidential Language Modelling ( http://arxiv.org/abs/2205.01863v1 )

ライセンス: CC BY-SA 4.0
Xuandong Zhao, Lei Li, Yu-Xiang Wang(参考訳) 大規模言語モデルは、トレーニングデータにおける社会保障番号などのプライバシー情報を記憶する。 トレーニングコーパスの膨大な規模を考えると、これらのプライバシデータを手作業で、あるいは自動で表示し、フィルタリングするのは困難です。 本稿では,機密セグメントを保護しつつ,言語生成モデルを訓練するCRT(Confidentially Redacted Training)を提案する。 我々は、差分プライバシー(関連するが別の問題を解決する)からアイデアを借り、トレーニングプロセスの一部をランダムにすることで、意図しない記憶を確実に防止できることを示す。 さらに、ほぼ正しいスクリーニングポリシーによるリアクションは、機密性の保証を増幅することを示す。 LSTMとGPT言語モデルの両方に対して,本手法を実装した。 実験の結果,crtにより訓練されたモデルはほぼ同じパープレキシーを得たが,強い機密性は保たれた。

Large language models are shown to memorize privacy information such as social security numbers in training data. Given the sheer scale of the training corpus, it is challenging to screen and filter these privacy data, either manually or automatically. In this paper, we propose Confidentially Redacted Training (CRT), a method to train language generation models while protecting the confidential segments. We borrow ideas from differential privacy (which solves a related but distinct problem) and show that our method is able to provably prevent unintended memorization by randomizing parts of the training process. Moreover, we show that redaction with an approximately correct screening policy amplifies the confidentiality guarantee. We implement the method for both LSTM and GPT language models. Our experimental results show that the models trained by CRT obtain almost the same perplexity while preserving strong confidentiality.
翻訳日:2022-05-06 01:55:58 公開日:2022-05-04
# (参考訳) 数発関係学習のためのエンティティインタラクションの探索(学生抽象)

Exploring Entity Interactions for Few-Shot Relation Learning (Student Abstract) ( http://arxiv.org/abs/2205.01878v1 )

ライセンス: CC BY 4.0
YI Liang and Shuai Zhao and Bo Cheng and Yuwei Yin and Hao Yang(参考訳) 少数ショット関係学習とは、観測された三重項の数が限られている関係に関する事実を推測することを指す。 この問題の既存の計量学習法は、主に三重項内および三重項間の実体相互作用を無視する。 本稿では,このような微粒な意味を探索し,そのモデルであるTransAMを提案する。 具体的には,参照エンティティをシリアライズし,クエリエンティティをシーケンス化し,局所的に注目されるトランスフォーマー構造を適用し,トリプルエンティティ間インタラクションをキャプチャする。 NELL-OneとWiki-Oneの2つの公開ベンチマークデータセットの実験では、1ショット設定でTransAMの有効性が証明された。

Few-shot relation learning refers to infer facts for relations with a limited number of observed triples. Existing metric-learning methods for this problem mostly neglect entity interactions within and between triples. In this paper, we explore this kind of fine-grained semantic meanings and propose our model TransAM. Specifically, we serialize reference entities and query entities into sequence and apply transformer structure with local-global attention to capture both intra- and inter-triple entity interactions. Experiments on two public benchmark datasets NELL-One and Wiki-One with 1-shot setting prove the effectiveness of TransAM.
翻訳日:2022-05-06 01:32:27 公開日:2022-05-04
# (参考訳) VQAに必要なのは、画像キャプションだけ

All You May Need for VQA are Image Captions ( http://arxiv.org/abs/2205.01883v1 )

ライセンス: CC BY 4.0
Soravit Changpinyo, Doron Kukliansky, Idan Szpektor, Xi Chen, Nan Ding, Radu Soricut(参考訳) VQA(Visual Question Answering)は、ますます洗練されたモデルの恩恵を受けているが、データ生成に関しても同じレベルのエンゲージメントを享受していない。 本稿では,既存の画像キャプションアノテーションとニューラルモデルを組み合わせてテキスト質問生成を行うことにより,VQAサンプルをボリュームで自動生成する手法を提案する。 得られたデータは高品質であることを示す。 我々のデータに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善し、人間の注釈付きVQAデータでトレーニングされた同じモデルに欠けているレベルの堅牢性を達成する。

Visual Question Answering (VQA) has benefited from increasingly sophisticated models, but has not enjoyed the same level of engagement in terms of data creation. In this paper, we propose a method that automatically derives VQA examples at volume, by leveraging the abundance of existing image-caption annotations combined with neural models for textual question generation. We show that the resulting data is of high-quality. VQA models trained on our data improve state-of-the-art zero-shot accuracy by double digits and achieve a level of robustness that lacks in the same model trained on human-annotated VQA data.
翻訳日:2022-05-06 01:27:49 公開日:2022-05-04
# (参考訳) P$^3$ Ranker: Prompt-based LearningとPre-finetuningによる事前学習とランク付けのギャップの緩和

P$^3$ Ranker: Mitigating the Gaps between Pre-training and Ranking Fine-tuning with Prompt-based Learning and Pre-finetuning ( http://arxiv.org/abs/2205.01886v1 )

ライセンス: CC BY 4.0
Xiaomeng Hu (1), Shi Yu (2), Chenyan Xiong (3), Zhenghao Liu (1), Zhiyuan Liu (2), Ge Yu (1) ((1) Northeastern University, (2) Tsinghua University, (3) Microsoft Research)(参考訳) 他の言語タスクと比較して、検索ランキングに事前学習された言語モデル(plm)を適用すると、多くのニュアンスとトレーニング信号が必要になる。 本稿では,事前学習とランキングの微調整の2つのミスマッチ,すなわち,学習目標とモデルアーキテクチャの違いに関するトレーニングスキーマギャップと,ランキングに必要な知識と事前学習中に学習した知識の相違を考慮したタスク知識ギャップを同定・検討する。 これらのギャップを軽減するために, 事前学習型, Prompt学習型, Prefinetuned Neural Ranker (P$^3$ Ranker)を提案する。 P$^3$ Rankerは、プロンプトベースの学習を活用して、ランキングタスクを事前トレーニングのようなスキーマに変換する。 MS MARCO と Robust04 での実験では、P$^3$ Ranker の優位性を示した。 分析によると、P$^3$ Rankerは、素早い学習を通じてランキングタスクに慣れ、必要なランキング指向の知識を事前に習得し、データ効率のよいPLM適応をもたらす。 我々のコードは \url{https://github.com/NEUIR/P3Ranker} で入手できる。

Compared to other language tasks, applying pre-trained language models (PLMs) for search ranking often requires more nuances and training signals. In this paper, we identify and study the two mismatches between pre-training and ranking fine-tuning: the training schema gap regarding the differences in training objectives and model architectures, and the task knowledge gap considering the discrepancy between the knowledge needed in ranking and that learned during pre-training. To mitigate these gaps, we propose Pre-trained, Prompt-learned and Pre-finetuned Neural Ranker (P$^3$ Ranker). P$^3$ Ranker leverages prompt-based learning to convert the ranking task into a pre-training like schema and uses pre-finetuning to initialize the model on intermediate supervised tasks. Experiments on MS MARCO and Robust04 show the superior performances of P$^3$ Ranker in few-shot ranking. Analyses reveal that P$^3$ Ranker is able to better accustom to the ranking task through prompt-based learning and retrieve necessary ranking-oriented knowledge gleaned in pre-finetuning, resulting in data-efficient PLM adaptation. Our code is available at \url{https://github.com/NEUIR/P3Ranker}.
翻訳日:2022-05-06 01:02:13 公開日:2022-05-04
# (参考訳) 信用認識による参照フレキシブル抽出による複数文書要約の改善

Improving Multi-Document Summarization through Referenced Flexible Extraction with Credit-Awareness ( http://arxiv.org/abs/2205.01889v1 )

ライセンス: CC BY 4.0
Yun-Zhu Song and Yi-Syuan Chen and Hong-Han Shuai(参考訳) MDS(Multi-Document Summarization)における注目すべき課題は、入力の非常に長い長さである。 本稿では,この問題を克服するための抽出・吸収トランスフォーマフレームワークを提案する。 具体的には,事前学習された言語モデルを用いて,文書間を横断する文選択のための階層的抽出器と,選択した内容を要約として書き直すための要約器を構築する。 しかし,そのような枠組みの学習は,抽象化者の最適内容が一般に不明であるため,困難である。 従来の研究は典型的に擬似抽出オラクルを作成し、抽出器と抽象器の両方の教師付き学習を可能にする。 しかし,これらの手法の性能は,予測に不十分な情報や,トレーニングとテストの相容れない目的のために制限される可能性があると論じる。 そこで本研究では,疑似抽出神託にない文に対する不等さをモデルに認識させるロス重み付け機構を提案し,微調整された要約子を用いて,抽出子を学習するための補助信号として要約参照を生成する。 また,トレーニングとテストの最適化を調和させるため,抽出器に効率的に適用可能な強化学習手法を提案する。 実験の結果,本フレームワークはモデルサイズに匹敵するベースラインを著しく上回り,Multi-News,Multi-XScience,WikiCatSum corporaで最高の結果が得られることがわかった。

A notable challenge in Multi-Document Summarization (MDS) is the extremely-long length of the input. In this paper, we present an extract-then-abstract Transformer framework to overcome the problem. Specifically, we leverage pre-trained language models to construct a hierarchical extractor for salient sentence selection across documents and an abstractor for rewriting the selected contents as summaries. However, learning such a framework is challenging since the optimal contents for the abstractor are generally unknown. Previous works typically create pseudo extraction oracle to enable the supervised learning for both the extractor and the abstractor. Nevertheless, we argue that the performance of such methods could be restricted due to the insufficient information for prediction and inconsistent objectives between training and testing. To this end, we propose a loss weighting mechanism that makes the model aware of the unequal importance for the sentences not in the pseudo extraction oracle, and leverage the fine-tuned abstractor to generate summary references as auxiliary signals for learning the extractor. Moreover, we propose a reinforcement learning method that can efficiently apply to the extractor for harmonizing the optimization between training and testing. Experiment results show that our framework substantially outperforms strong baselines with comparable model sizes and achieves the best results on the Multi-News, Multi-XScience, and WikiCatSum corpora.
翻訳日:2022-05-06 00:50:08 公開日:2022-05-04
# (参考訳) Crystal Twins: 結晶材料特性予測のための自己教師型学習

Crystal Twins: Self-supervised Learning for Crystalline Material Property Prediction ( http://arxiv.org/abs/2205.01893v1 )

ライセンス: CC BY 4.0
Rishikesh Magar, Yuyang Wang, and Amir Barati Farimani(参考訳) 機械学習(ML)モデルは材料特性の予測において広く成功している。 しかし、正確なmlモデルのトレーニングに必要な大きなラベル付きデータセットは、生成が難しく、計算コストがかかる。 ラベルなしデータ上でMLモデルをトレーニングできる自己監視学習(SSL)フレームワークの最近の進歩は、この問題を緩和し、コンピュータビジョンや自然言語処理タスクにおいて優れたパフォーマンスを示した。 SSLの開発からインスピレーションを得て,結晶性物質の特性予測のためのSSL法であるCrystal Twins (CT)を紹介した。 大規模非ラベルデータセットを用いて,同一結晶系から得られた拡張インスタンスのグラフ潜在埋め込みに冗長性低減原理を適用し,グラフニューラルネットワーク(gnn)を事前学習する。 回帰タスクのGNNを微調整する際の事前学習重みの共有により、7つの挑戦的材料特性予測ベンチマークの性能を著しく改善する。

Machine learning (ML) models have been widely successful in the prediction of material properties. However, large labeled datasets required for training accurate ML models are elusive and computationally expensive to generate. Recent advances in Self-Supervised Learning (SSL) frameworks capable of training ML models on unlabeled data have mitigated this problem and demonstrated superior performance in computer vision and natural language processing tasks. Drawing inspiration from the developments in SSL, we introduce Crystal Twins (CT): an SSL method for crystalline materials property prediction. Using a large unlabeled dataset, we pre-train a Graph Neural Network (GNN) by applying the redundancy reduction principle to the graph latent embeddings of augmented instances obtained from the same crystalline system. By sharing the pre-trained weights when fine-tuning the GNN for regression tasks, we significantly improve the performance for 7 challenging material property prediction benchmarks
翻訳日:2022-05-06 00:27:45 公開日:2022-05-04
# (参考訳) 神経常微分方程式を用いた歪み回路の仮想アナログモデリング

Virtual Analog Modeling of Distortion Circuits Using Neural Ordinary Differential Equations ( http://arxiv.org/abs/2205.01897v1 )

ライセンス: CC BY 4.0
Jan Wilczek, Alec Wright, Vesa V\"alim\"aki, Emanu\"el Habets(参考訳) ディープラーニングに関する最近の研究は、ニューラルネットワークが動的システムを管理する微分方程式を学習できることを示した。 本稿では,この概念を仮想アナログ(va)モデルに適用し,第1次および第2次ダイオードクリッパーを規定する常微分方程式(odes)を学習する。 提案手法は,パラメータの少ないrnn(state-of-the-art recurrent neural networks)に匹敵する性能を実現する。 この手法は過剰サンプリングを必要とせず,トレーニング終了後のサンプリング率を増加させることにより,精度の向上が期待できる。 高度な数値解法を用いることで、処理が遅いコストで精度を向上させることができる。 このように学んだODEは閉形式を必要としないが、物理的に解釈可能である。

Recent research in deep learning has shown that neural networks can learn differential equations governing dynamical systems. In this paper, we adapt this concept to Virtual Analog (VA) modeling to learn the ordinary differential equations (ODEs) governing the first-order and the second-order diode clipper. The proposed models achieve performance comparable to state-of-the-art recurrent neural networks (RNNs) albeit using fewer parameters. We show that this approach does not require oversampling and allows to increase the sampling rate after the training has completed, which results in increased accuracy. Using a sophisticated numerical solver allows to increase the accuracy at the cost of slower processing. ODEs learned this way do not require closed forms but are still physically interpretable.
翻訳日:2022-05-06 00:19:44 公開日:2022-05-04
# (参考訳) 空間的メタパスガイドによる説明可能な犯罪予測

Spatial-Temporal Meta-path Guided Explainable Crime Prediction ( http://arxiv.org/abs/2205.01901v1 )

ライセンス: CC BY 4.0
Yuting Sun and Tong Chen and Hongzhi Yin(参考訳) 犯罪や暴力への曝露は個人の生活の質や地域社会の経済成長を損なう可能性がある。 機械学習の急速な発展を踏まえると、犯罪を防ぐための自動化ソリューションを探求する必要性が高まっている。 都市・公共サービスデータの粒度の増大に伴い, 犯罪予測を容易にするために, クロスドメイン情報の利用が近年急増している。 社会構造、環境、犯罪傾向に関する情報を収集することにより、既存の機械学習予測モデルは異なる視点から動的犯罪パターンを探索した。 しかし、これらのアプローチは、主にそのような多元的知識を暗黙的かつ潜伏的な表現(例えば、学区の埋め込みを学習するなど)に変換し、シーンの背後にある犯罪の発生に対する明示的な要因の影響を調べることは依然として困難である。 本稿では,犯罪行動の動的パターンを捉え,環境と社会的要因が相互に相互に相互作用し,予測を生成するための空間-時間的メタパス誘導型犯罪予測(stmec)フレームワークを提案する。 大規模な実験は、特にフェロニー(強盗や危険な武器による暴行など)の予測において、他の高度な時空間モデルと比較してSTMECの優位性を示している。

Exposure to crime and violence can harm individuals' quality of life and the economic growth of communities. In light of the rapid development in machine learning, there is a rise in the need to explore automated solutions to prevent crimes. With the increasing availability of both fine-grained urban and public service data, there is a recent surge in fusing such cross-domain information to facilitate crime prediction. By capturing the information about social structure, environment, and crime trends, existing machine learning predictive models have explored the dynamic crime patterns from different views. However, these approaches mostly convert such multi-source knowledge into implicit and latent representations (e.g., learned embeddings of districts), making it still a challenge to investigate the impacts of explicit factors for the occurrences of crimes behind the scenes. In this paper, we present a Spatial-Temporal Metapath guided Explainable Crime prediction (STMEC) framework to capture dynamic patterns of crime behaviours and explicitly characterize how the environmental and social factors mutually interact to produce the forecasts. Extensive experiments show the superiority of STMEC compared with other advanced spatiotemporal models, especially in predicting felonies (e.g., robberies and assaults with dangerous weapons).
翻訳日:2022-05-06 00:05:50 公開日:2022-05-04
# (参考訳) ラベルのない自己学習メトリック学習

Self-Taught Metric Learning without Labels ( http://arxiv.org/abs/2205.01903v1 )

ライセンス: CC BY 4.0
Sungyeon Kim, Dongwon Kim, Minsu Cho and Suha Kwak(参考訳) 本稿では,組込みモデルの移動平均によるデータ間のクラス等価関係の予測と,予測された関係を擬似ラベルとしてモデル学習を交互に行う,教師なしメトリック学習のための新しい自己学習フレームワークを提案する。 我々のフレームワークの中心には、埋め込み空間上のデータのコンテキストを調査し、それらのクラス同値関係を擬似ラベルとして予測するアルゴリズムがあります。 このアルゴリズムは、擬似ラベリングのためのオフザシェルフモジュールを必要としないため、効率的なエンドツーエンドトレーニングを可能にする。 また、クラス同値関係は埋め込み空間を学習するための豊富な監督信号を提供する。 メトリクス学習の標準的なベンチマークでは、既存の教師なし学習方法よりも明らかに優れており、時には同じバックボーンネットワークを使用して教師付き学習モデルを上回ることもある。 また、付加的なラベル付きデータを利用する方法として、半教師付きメトリックラーニングにも適用し、教師付き学習の性能を実質的に向上させることで、その技術状態を達成する。

We present a novel self-taught framework for unsupervised metric learning, which alternates between predicting class-equivalence relations between data through a moving average of an embedding model and learning the model with the predicted relations as pseudo labels. At the heart of our framework lies an algorithm that investigates contexts of data on the embedding space to predict their class-equivalence relations as pseudo labels. The algorithm enables efficient end-to-end training since it demands no off-the-shelf module for pseudo labeling. Also, the class-equivalence relations provide rich supervisory signals for learning an embedding space. On standard benchmarks for metric learning, it clearly outperforms existing unsupervised learning methods and sometimes even beats supervised learning models using the same backbone network. It is also applied to semi-supervised metric learning as a way of exploiting additional unlabeled data, and achieves the state of the art by boosting performance of supervised learning substantially.
翻訳日:2022-05-06 00:04:48 公開日:2022-05-04
# (参考訳) ASE: 物理的にシミュレートされたキャラクタのための大規模再利用可能な逆スキル埋め込み

ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically Simulated Characters ( http://arxiv.org/abs/2205.01906v1 )

ライセンス: CC BY 4.0
Xue Bin Peng, Yunrong Guo, Lina Halper, Sergey Levine, Sanja Fidler(参考訳) 人間によって実証された驚くべき運動の偉業は、長年の練習と経験を通じて獲得された汎用モータースキルの膨大なレパートリーによって可能になった。 これらのスキルは、人間が複雑なタスクを実行できるだけでなく、新しいタスクを学ぶときの行動を導くための強力な先行手段を提供する。 これは、物理ベースのキャラクターアニメーションにおいて一般的な慣習とは対照的であり、各タスクのスクラッチから制御ポリシーがほとんど訓練される。 本稿では,物理的にシミュレートされた文字に対する多用途かつ再利用可能なスキル埋め込みを学習するための大規模データ駆動フレームワークを提案する。 提案手法は, 逆模倣学習と教師なし強化学習を併用して, ライフライクな振る舞いを生み出すスキル埋め込みを開発するとともに, 新たな下流タスクで使用するための簡易な制御表現を提供する。 我々のモデルは、タスク固有のアノテーションや動作データのセグメンテーションを必要とせずに、非構造化モーションクリップの大規模なデータセットを使用して訓練することができる。 高度に並列なgpuベースのシミュレータを利用することで、10年以上のシミュレーション経験を使ってスキル埋め込みをトレーニングすることができ、当社のモデルがリッチで多用途なスキルのレパートリーを学べるようになります。 本研究では,1つの事前学習モデルを多種多様なタスクに効果的に適用できることを示す。 また,本システムでは,簡単な報酬関数によってタスクを指定でき,スキル埋め込みにより,タスク目標を達成するために,文字が自動的に複雑で自然主義的な戦略を合成することができる。

The incredible feats of athleticism demonstrated by humans are made possible in part by a vast repertoire of general-purpose motor skills, acquired through years of practice and experience. These skills not only enable humans to perform complex tasks, but also provide powerful priors for guiding their behaviors when learning new tasks. This is in stark contrast to what is common practice in physics-based character animation, where control policies are most typically trained from scratch for each task. In this work, we present a large-scale data-driven framework for learning versatile and reusable skill embeddings for physically simulated characters. Our approach combines techniques from adversarial imitation learning and unsupervised reinforcement learning to develop skill embeddings that produce life-like behaviors, while also providing an easy to control representation for use on new downstream tasks. Our models can be trained using large datasets of unstructured motion clips, without requiring any task-specific annotation or segmentation of the motion data. By leveraging a massively parallel GPU-based simulator, we are able to train skill embeddings using over a decade of simulated experiences, enabling our model to learn a rich and versatile repertoire of skills. We show that a single pre-trained model can be effectively applied to perform a diverse set of new tasks. Our system also allows users to specify tasks through simple reward functions, and the skill embedding then enables the character to automatically synthesize complex and naturalistic strategies in order to achieve the task objectives.
翻訳日:2022-05-06 00:03:52 公開日:2022-05-04
# (参考訳) 双曲空間における言語間単語埋め込み

Cross-lingual Word Embeddings in Hyperbolic Space ( http://arxiv.org/abs/2205.01907v1 )

ライセンス: CC BY 4.0
Chandni Saxena, Mudit Chaudhary, Helen Meng(参考訳) 複数の言語にまたがる自然言語処理アプリケーションに言語間埋め込みを適用することができる。 ユークリッド空間に基づく単語埋め込みを用いた先行研究とは異なり、この短い論文は、双曲空間のポアンカル・アン・ボールモデルに適応して、ドイツ語と英語の並列コーパスから教師なしの言語間表現を学習する、単純で効果的な言語横断型word2vecモデルを示す。 双曲的埋め込みは階層的関係をキャプチャし保存できることが示されている。 ハイパーネミーとアナログの両方のタスクでモデルを評価する。 提案モデルは,言語間類似タスクにおけるバニラWord2Vecモデルと同等の性能を達成し,ハイパーナミータスクは,言語間の自由テキストから潜在階層構造をキャプチャできることを示す。 その結果,潜在階層情報の保存により,双曲空間は言語間埋め込みの表現性が向上することが示された。

Cross-lingual word embeddings can be applied to several natural language processing applications across multiple languages. Unlike prior works that use word embeddings based on the Euclidean space, this short paper presents a simple and effective cross-lingual Word2Vec model that adapts to the Poincar\'e ball model of hyperbolic space to learn unsupervised cross-lingual word representations from a German-English parallel corpus. It has been shown that hyperbolic embeddings can capture and preserve hierarchical relationships. We evaluate the model on both hypernymy and analogy tasks. The proposed model achieves comparable performance with the vanilla Word2Vec model on the cross-lingual analogy task, the hypernymy task shows that the cross-lingual Poincar\'e Word2Vec model can capture latent hierarchical structure from free text across languages, which are absent from the Euclidean-based Word2Vec representations. Our results show that by preserving the latent hierarchical information, hyperbolic spaces can offer better representations for cross-lingual embeddings.
翻訳日:2022-05-05 23:26:21 公開日:2022-05-04
# (参考訳) Zero-Episode Few-Shot Contrastive Predictive Coding: 事前トレーニングなしのインテリジェンステストの解決

Zero-Episode Few-Shot Contrastive Predictive Coding: Solving intelligence tests without prior training ( http://arxiv.org/abs/2205.01924v1 )

ライセンス: CC BY 4.0
T. Barak, Y. Loewenstein(参考訳) ビデオ予測モデルは、ピクセル空間から小さな潜在空間へのエンコーダ、潜在空間予測モデル、そしてピクセル空間への生成モデルという3つの要素を結合することが多い。 しかし、大きく予測できないピクセル空間はそのようなモデルの訓練を難しくし、多くの訓練例を必要とする。 予測潜在変数を発見して将来の画像の整合性を評価することは、生成モデルトレーニングの必要性を抑えるため、データ効率の予測を可能にすると論じる。 そこで本研究では,画像のシーケンスにおける変化を予測可能な特徴を識別し,この予測を用いて後続の画像を選択するシーケンス補完知能テストを行った。 1次元のMarkov Contrastive Predictive Coding (M-CPC_1D) モデルがこれらのテストを効率的に解き、わずか5つの例を示した。 最後に,M-CPC_1Dが事前トレーニングを伴わない2つの課題,すなわち異常検出と確率的動画予測に有用であることを示す。

Video prediction models often combine three components: an encoder from pixel space to a small latent space, a latent space prediction model, and a generative model back to pixel space. However, the large and unpredictable pixel space makes training such models difficult, requiring many training examples. We argue that finding a predictive latent variable and using it to evaluate the consistency of a future image enables data-efficient predictions because it precludes the necessity of a generative model training. To demonstrate it, we created sequence completion intelligence tests in which the task is to identify a predictably changing feature in a sequence of images and use this prediction to select the subsequent image. We show that a one-dimensional Markov Contrastive Predictive Coding (M-CPC_1D) model solves these tests efficiently, with only five examples. Finally, we demonstrate the usefulness of M-CPC_1D in solving two tasks without prior training: anomaly detection and stochastic movement video prediction.
翻訳日:2022-05-05 23:17:37 公開日:2022-05-04
# (参考訳) 軌道予測改善のための確率的対称性

Probabilistic Symmetry for Improved Trajectory Forecasting ( http://arxiv.org/abs/2205.01927v1 )

ライセンス: CC BY 4.0
Sophia Sun, Robin Walters, Jinxi Li, Rose Yu(参考訳) 軌道予測は、ロボット工学と自律運転における幅広い応用において、コアAI問題である。 既存の研究の多くは決定論的予測に重点を置いているが、予測の不確実性を定量化する確率論的予測は、リスク評価、運動計画、安全保証といった下流の意思決定タスクに不可欠である。 我々は,確率的軌道予測の品質を評価するために,新しい平均地域スコア(MRS)を導入した。 我々は,新しい確率的軌道予測モデルである確率的等変連続畳み込み(pecco)を提案し,対称性(特に回転同分散)の活用が予測の精度とカバレッジを向上させることを示した。 車両と歩行者の両方のデータセットにおいて、PECCOは最先端の予測性能を示し、ベースラインと比較してキャリブレーションを改善した。

Trajectory prediction is a core AI problem with broad applications in robotics and autonomous driving. While most existing works focus on deterministic prediction, producing probabilistic forecasts to quantify prediction uncertainty is critical for downstream decision-making tasks such as risk assessment, motion planning, and safety guarantees. We introduce a new metric, mean regional score (MRS), to evaluate the quality of probabilistic trajectory forecasts. We propose a novel probabilistic trajectory prediction model, Probabilistic Equivariant Continuous COnvolution (PECCO) and show that leveraging symmetry, specifically rotation equivariance, can improve the predictions' accuracy as well as coverage. On both vehicle and pedestrian datasets, PECCO shows state-of-the-art prediction performance and improved calibration compared to baselines.
翻訳日:2022-05-05 23:04:43 公開日:2022-05-04
# (参考訳) 忘れられない理由:XAIによる破滅的な買収を擁護

Explain to Not Forget: Defending Against Catastrophic Forgetting with XAI ( http://arxiv.org/abs/2205.01929v1 )

ライセンス: CC BY-SA 4.0
Sami Ede, Serop Baghdadlian, Leander Weber, Wojciech Samek, Sebastian Lapuschkin(参考訳) 人間が自然に行うように、新しい情報を継続的に処理し、保持する能力は、ニューラルネットワークのトレーニングの後に非常に求められます。 残念なことに、従来の最適化アルゴリズムでは、トレーニング時間と更新時に利用可能な大量のデータを必要とすることが多い。 トレーニングプロセスが完了した後、新しいデータは困難です。 実際、新しいデータやタスクが発生すると、ニューラルネットワークが壊滅的な忘れやすいため、以前の進歩は失われる可能性がある。 破滅的な忘れは、ニューラルネットワークが新しい情報を与える前の知識を完全に忘れてしまう現象を記述している。 我々は、ニューラルネットワークが新しいデータをトレーニングする際に、以前のタスクで既に学んだ情報を保持するために、レイヤーワイズ関連伝播を利用するトレーニングと呼ばれる新しいトレーニングアルゴリズムを提案する。 この方法は、より複雑なデータと同様に、様々なベンチマークデータセットで評価される。 我々の手法は、ニューラルネットワーク内の古いタスクの知識を保持するだけでなく、他の最先端のソリューションよりもリソース効率が高い。

The ability to continuously process and retain new information like we do naturally as humans is a feat that is highly sought after when training neural networks. Unfortunately, the traditional optimization algorithms often require large amounts of data available during training time and updates wrt. new data are difficult after the training process has been completed. In fact, when new data or tasks arise, previous progress may be lost as neural networks are prone to catastrophic forgetting. Catastrophic forgetting describes the phenomenon when a neural network completely forgets previous knowledge when given new information. We propose a novel training algorithm called training by explaining in which we leverage Layer-wise Relevance Propagation in order to retain the information a neural network has already learned in previous tasks when training on new data. The method is evaluated on a range of benchmark datasets as well as more complex data. Our method not only successfully retains the knowledge of old tasks within the neural networks but does so more resource-efficiently than other state-of-the-art solutions.
翻訳日:2022-05-05 22:45:14 公開日:2022-05-04
# (参考訳) 自己教師型学習が肺がんのタイプと予後を支える形態的クラスターを公開

Self-supervised learning unveils morphological clusters behind lung cancer types and prognosis ( http://arxiv.org/abs/2205.01931v1 )

ライセンス: CC BY 4.0
Adalberto Claudio Quiros, Nicolas Coudray, Anna Yeaton, Xinyu Yang, Luis Chiriboga, Afreen Karimkhan, Navneet Narula, Harvey Pass, Andre L. Moreira, John Le Quesne, Aristotelis Tsirigos, Ke Yuan(参考訳) 腫瘍の病理像は、腫瘍がどのように成長し、どのように微小環境と相互作用するかについての豊富な情報を含んでいる。 表現型の特徴と理解の改善は、腫瘍の進行とその生物学的過程に関連する要因を明らかにし、最終的に診断と治療を改善する可能性がある。 近年、組織学の深層学習アプリケーションの分野では大きな進歩が見られるが、そのほとんどは組織と関連するサンプルアノテーションに関する教師ありアプローチに焦点が当てられている。 監視されたアプローチは、その影響を2つの要因に制限する。 第一に、高品質なラベルは時間と労力がかかるため、スケーラビリティが損なわれる。 第2に、これらの手法は組織像からのアノテーションの予測に焦点を当て、新しい組織表現型の発見を基本的に制限している。 これらの制限は、事前に定義されたアノテーションや監督なしに、画像に囲まれた特徴によって組織を特徴付けることができる新しい方法を使うことの重要性を強調している。 自己教師付き学習とコミュニティ検出を通じて組織形態学的表現型を抽出する手法である表現型表現学習(prl)を提案する。 prlは、共通の形態的および細胞的特徴を共有する組織パターンを識別することで表現型クラスタを作成し、クラスタ貢献の合成表現を通じてスライドイメージ全体を記述できる。 我々はこの枠組みを用いて,TCGAおよびNYUコホートからのLUADおよびLUSC肺がんサブタイプの病理組織学的スライドを解析した。 PRLは各肺サブタイプに対して統計的に関連性のある表現型を提供する頑健な肺サブタイプ予測を実現する。 さらに, 肺腺癌におけるこれらの表現型の重要性, 再発のない生存率, 患者予後, 細胞型, 成長パターン, および肥満による免疫症状との関連について検討した。

Histopathological images of tumors contain abundant information about how tumors grow and how they interact with their micro-environment. Characterizing and improving our understanding of phenotypes could reveal factors related to tumor progression and their underpinning biological processes, ultimately improving diagnosis and treatment. In recent years, the field of histological deep learning applications has seen great progress, yet most of these applications focus on a supervised approach, relating tissue and associated sample annotations. Supervised approaches have their impact limited by two factors. Firstly, high-quality labels are expensive in time and effort, which makes them not easily scalable. Secondly, these methods focus on predicting annotations from histological images, fundamentally restricting the discovery of new tissue phenotypes. These limitations emphasize the importance of using new methods that can characterize tissue by the features enclosed in the image, without pre-defined annotation or supervision. We present Phenotype Representation Learning (PRL), a methodology to extract histomorphological phenotypes through self-supervised learning and community detection. PRL creates phenotype clusters by identifying tissue patterns that share common morphological and cellular features, allowing to describe whole slide images through compositional representations of cluster contributions. We used this framework to analyze histopathology slides of LUAD and LUSC lung cancer subtypes from TCGA and NYU cohorts. We show that PRL achieves a robust lung subtype prediction providing statistically relevant phenotypes for each lung subtype. We further demonstrate the significance of these phenotypes in lung adenocarcinoma overall and recurrence free survival, relating clusters with patient outcomes, cell types, grown patterns, and omic-based immune signatures.
翻訳日:2022-05-05 22:30:07 公開日:2022-05-04
# (参考訳) deepfd: ディープラーニングプログラムのための自動障害診断とローカライズ

DeepFD: Automated Fault Diagnosis and Localization for Deep Learning Programs ( http://arxiv.org/abs/2205.01938v1 )

ライセンス: CC BY 4.0
Jialun Cao and Meiziniu Li and Xiao Chen and Ming Wen and Yongqiang Tian and Bo Wu and Shing-Chi Cheung(参考訳) 深層学習(DL)システムはミッションクリティカルなアプリケーションに広くデプロイされているため、そのようなシステムのデバッグは不可欠である。 既存の研究のほとんどは、訓練されたDeep Neural Network(DNN)上の疑わしいニューロンを特定し、修復している。 特に、いくつかの既存の研究は、多くの不十分な行動はdlプログラムに存在する障害に由来すると報告している。 さらに、欠陥のあるニューロンの配置は開発者にとっては有効ではなく、DLプログラム内の欠陥のあるステートメントの配置は、デバッグに有用な情報を提供する。 DLプログラムの欠陥文やトレーニング設定(例えば、大きすぎる学習率)を特定するために、最近の研究がいくつか提案されているが、それらは主に事前定義されたルールに基づいて設計されており、特に障害がそれらの能力を超えた場合に、多くの誤報や偽陰性を引き起こす。 本稿では,これらの制約を考慮し,障害局所化タスクを学習問題にマッピングする,学習ベースの障害診断および局所化フレームワークであるDeepFDを提案する。 特に、DNNモデルトレーニング中に抽出したランタイム機能を監視して、不審な障害タイプを推測し、DLプログラムで診断された障害を見つけ出す。 これは、ニューロンの代わりにDLプログラムの障害の根本原因を特定し、ハードコードされたルールではなく学習アプローチで障害を診断することで制限を克服する。 この評価はDeepFDの可能性を示す。 52%の欠陥DLプログラムを正しく診断し、最先端の成果によって達成された約半分(27%)と比較する。 さらに、障害のローカライゼーションでは、DeepFDは既存の作業よりも優れており、42%の障害プログラムが正しく位置付けられており、既存の作業によって達成された最高の結果(23%)がほぼ2倍になる。

As Deep Learning (DL) systems are widely deployed for mission-critical applications, debugging such systems becomes essential. Most existing works identify and repair suspicious neurons on the trained Deep Neural Network (DNN), which, unfortunately, might be a detour. Specifically, several existing studies have reported that many unsatisfactory behaviors are actually originated from the faults residing in DL programs. Besides, locating faulty neurons is not actionable for developers, while locating the faulty statements in DL programs can provide developers with more useful information for debugging. Though a few recent studies were proposed to pinpoint the faulty statements in DL programs or the training settings (e.g. too large learning rate), they were mainly designed based on predefined rules, leading to many false alarms or false negatives, especially when the faults are beyond their capabilities. In view of these limitations, in this paper, we proposed DeepFD, a learning-based fault diagnosis and localization framework which maps the fault localization task to a learning problem. In particular, it infers the suspicious fault types via monitoring the runtime features extracted during DNN model training and then locates the diagnosed faults in DL programs. It overcomes the limitations by identifying the root causes of faults in DL programs instead of neurons and diagnosing the faults by a learning approach instead of a set of hard-coded rules. The evaluation exhibits the potential of DeepFD. It correctly diagnoses 52% faulty DL programs, compared with around half (27%) achieved by the best state-of-the-art works. Besides, for fault localization, DeepFD also outperforms the existing works, correctly locating 42% faulty programs, which almost doubles the best result (23%) achieved by the existing works.
翻訳日:2022-05-05 22:19:09 公開日:2022-05-04
# (参考訳) ニューラルダイアログ生成のための語彙知識内在化

Lexical Knowledge Internalization for Neural Dialog Generation ( http://arxiv.org/abs/2205.01941v1 )

ライセンス: CC BY 4.0
Zhiyong Wu, Wei Bi, Xiang Li, Lingpeng Kong, Ben Kao(参考訳) 本稿では,語彙的知識をニューラルダイアログモデルに補完することを目的とした知識内在化(KI)を提案する。 外部から取得した知識に基づいて知識基底ダイアログ(KGD)モデルを更に条件付けする代わりに,各入力トークンに関する知識をモデルパラメータに組み込む。 辞書知識の大規模化による課題に取り組むため,コントラスト学習アプローチを採用し,wikipediaの弱い監督を必要とする効果的なトークンレベルの語彙知識検索システムを構築した。 様々なデータセットと多様なモデル構造に対するアプローチの有効性と汎用性を示す。

We propose knowledge internalization (KI), which aims to complement the lexical knowledge into neural dialog models. Instead of further conditioning the knowledge-grounded dialog (KGD) models on externally retrieved knowledge, we seek to integrate knowledge about each input token internally into the model's parameters. To tackle the challenge due to the large scale of lexical knowledge, we adopt the contrastive learning approach and create an effective token-level lexical knowledge retriever that requires only weak supervision mined from Wikipedia. We demonstrate the effectiveness and general applicability of our approach on various datasets and diversified model structures.
翻訳日:2022-05-05 21:52:11 公開日:2022-05-04
# (参考訳) 不確実性オートエンコーダに基づくデータ型意識変換のためのプライバシとユーティリティ

Uncertainty-Autoencoder-Based Privacy and Utility Preserving Data Type Conscious Transformation ( http://arxiv.org/abs/2205.01950v1 )

ライセンス: CC BY 4.0
Bishwas Mandal, George Amariucai, Shuangqing Wei(参考訳) 本稿では,データ型無知とデータ型無知の2つの条件下で,プライバシとユーティリティのトレードオフ問題を扱う逆学習フレームワークを提案する。 データ型認識条件の下では、プライバシメカニズムはカテゴリの特徴の1つのホットエンコーディングを提供し、1つのクラスを表すが、データ型無知条件下では、カテゴリ変数は各クラスごとに1つのスコアの集まりで表現される。 我々は、生成器と識別器からなるニューラルネットワークアーキテクチャを使用し、生成器はエンコーダとデコーダペアで構成され、識別器は敵とユーティリティプロバイダから構成される。 ランダム性を導入することなくオートエンコーダ(AE)を利用する従来のアーキテクチャや,ガウス的仮定に強制される潜伏表現に基づく変分オートエンコーダ(VAE)を利用する手法とは異なり,提案手法はランダム性を導入し,潜伏変数に対するガウス的仮定の制約を取り除き,入力から民生データへのエンドツーエンドの確率写像にのみ焦点をあてる。 MNIST、FashionMNIST、UCI adult、US Census Demographic Dataといったさまざまなデータセットでフレームワークをテストしています。 複数の敵を使って、プライバシーメカニズムを同時にテストします -- 根拠となる真実データからトレーニングされた者もいれば、プライバシメカニズムによって生成された混乱したデータからトレーニングされた者もいます。 比較分析により,データ型無知な類似の条件下では,プライバシとユーティリティの保証が従来よりも良好であることが判明した。

We propose an adversarial learning framework that deals with the privacy-utility tradeoff problem under two types of conditions: data-type ignorant, and data-type aware. Under data-type aware conditions, the privacy mechanism provides a one-hot encoding of categorical features, representing exactly one class, while under data-type ignorant conditions the categorical variables are represented by a collection of scores, one for each class. We use a neural network architecture consisting of a generator and a discriminator, where the generator consists of an encoder-decoder pair, and the discriminator consists of an adversary and a utility provider. Unlike previous research considering this kind of architecture, which leverages autoencoders (AEs) without introducing any randomness, or variational autoencoders (VAEs) based on learning latent representations which are then forced into a Gaussian assumption, our proposed technique introduces randomness and removes the Gaussian assumption restriction on the latent variables, only focusing on the end-to-end stochastic mapping of the input to privatized data. We test our framework on different datasets: MNIST, FashionMNIST, UCI Adult, and US Census Demographic Data, providing a wide range of possible private and utility attributes. We use multiple adversaries simultaneously to test our privacy mechanism -- some trained from the ground truth data and some trained from the perturbed data generated by our privacy mechanism. Through comparative analysis, our results demonstrate better privacy and utility guarantees than the existing works under similar, data-type ignorant conditions, even when the latter are considered under their original restrictive single-adversary model.
翻訳日:2022-05-05 21:33:27 公開日:2022-05-04
# (参考訳) 目標条件強化学習のための状態表現学習

State Representation Learning for Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2205.01965v1 )

ライセンス: CC BY 4.0
Lorenzo Steccanella, Anders Jonsson(参考訳) 本稿では報酬のないマルコフ決定過程に対する新しい状態表現を提案する。 この考え方は自己監督的な方法で、組込み状態のペア間の距離がそれらの間の遷移に必要な最小のアクション数に対応する埋め込み空間を学ぶことである。 従来の方法に比べ、オフラインデータやラベルなしデータから学ぶために、ドメイン知識は一切必要としません。 本稿では,この表現を,目標条件ポリシーの学習に活用し,状態と目標の類似性の概念と,計画と強化学習アルゴリズムの指導に有用なヒューリスティック距離を提供する。 最後に,従来の制御領域やマルチゴール環境において,提案手法を実証的に検証し,大規模かつ連続的な領域での表現を学習できることを実証した。

This paper presents a novel state representation for reward-free Markov decision processes. The idea is to learn, in a self-supervised manner, an embedding space where distances between pairs of embedded states correspond to the minimum number of actions needed to transition between them. Compared to previous methods, our approach does not require any domain knowledge, learning from offline and unlabeled data. We show how this representation can be leveraged to learn goal-conditioned policies, providing a notion of similarity between states and goals and a useful heuristic distance to guide planning and reinforcement learning algorithms. Finally, we empirically validate our method in classic control domains and multi-goal environments, demonstrating that our method can successfully learn representations in large and/or continuous domains.
翻訳日:2022-05-05 21:14:43 公開日:2022-05-04
# (参考訳) ASPベースの宣言的プロセスマイニング

ASP-Based Declarative Process Mining ( http://arxiv.org/abs/2205.01979v1 )

ライセンス: CC BY 4.0
Francesco Chiariello, Fabrizio Maria Maggi, Fabio Patrizi(参考訳) 宣言的プロセスマイニングにおける3つの古典的な問題 — ログ生成,クエリチェック,コンフォーマンスチェック – に対するソリューションアプローチとして,result set programming(asp)を実施しました。 これらの問題は、記録されたイベント、すなわちイベントログのシーケンスから始まる、実行中のビジネスプロセスを分析するさまざまな方法に対応する。 データアウェア型、すなわちペイロード(属性と値のペアのセット)を運ぶイベントを考慮し、実行されたアクティビティに加えて、有限トレース(ltlf)上の線形時間時相論理の拡張によって宣言的にプロセスを指定することで、それらに取り組む。 データアウェアの設定はコントロールフローよりもかなり難しい:クエリチェックはまだオープンだが、他の2つの問題に対する既存のアプローチはうまくスケールしない。 この作業のコントリビューションには、3つの問題に対するASPエンコーディングスキーマ、そのソリューション、アプローチの実現可能性を示す実験が含まれている。

We put forward Answer Set Programming (ASP) as a solution approach for three classical problems in Declarative Process Mining: Log Generation, Query Checking, and Conformance Checking. These problems correspond to different ways of analyzing business processes under execution, starting from sequences of recorded events, a.k.a. event logs. We tackle them in their data-aware variant, i.e., by considering events that carry a payload (set of attribute-value pairs), in addition to the performed activity, specifying processes declaratively with an extension of linear-time temporal logic over finite traces (LTLf). The data-aware setting is significantly more challenging than the control-flow one: Query Checking is still open, while the existing approaches for the other two problems do not scale well. The contributions of the work include an ASP encoding schema for the three problems, their solution, and experiments showing the feasibility of the approach.
翻訳日:2022-05-05 21:00:50 公開日:2022-05-04
# (参考訳) IWSLT 2022辞書と低リソース音声翻訳タスクのためのオントラックコンソーシアムシステム

ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource Speech Translation Tasks ( http://arxiv.org/abs/2205.01987v1 )

ライセンス: CC BY 4.0
Marcely Zanon Boito, John Ortega, Hugo Riguidel, Antoine Laurent, Lo\"ic Barrault, Fethi Bougares, Firas Chaabani, Ha Nguyen, Florentin Barbier, Souhir Gahbiche, Yannick Est\`eve(参考訳) 本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。 チュニジアのアラビア語と英語のデータセット(ローソースと方言のトラック)については、私たちの共同提案としてエンドツーエンドモデルを構築し、asr用の大きな微調整されたwav2vec 2.0モデルを活用したカスケードモデルと比較します。 その結果、当社の設定パイプラインアプローチは依然として非常に競争力があり、トランスファー学習を用いることで、音声翻訳(st)のエンドツーエンドモデルよりも優れています。 コンバータ音声認識,ST,機械翻訳の損失を共同で学習したコンバータ音声翻訳アーキテクチャにおいて,Tamasheq音声のフランス語音素書き起こしを入力として用いながら,Tamasheq音声の234時間でトレーニングしたwav2vec 2.0モデルの中間表現を利用する。 この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのST微調整に有効であることが示唆された。 結果は、近似音素転写でさえSTスコアを改善することも示している。

This paper describes the ON-TRAC Consortium translation systems developed for two challenge tracks featured in the Evaluation Campaign of IWSLT 2022: low-resource and dialect speech translation. For the Tunisian Arabic-English dataset (low-resource and dialect tracks), we build an end-to-end model as our joint primary submission, and compare it against cascaded models that leverage a large fine-tuned wav2vec 2.0 model for ASR. Our results show that in our settings pipeline approaches are still very competitive, and that with the use of transfer learning, they can outperform end-to-end models for speech translation (ST). For the Tamasheq-French dataset (low-resource track) our primary submission leverages intermediate representations from a wav2vec 2.0 model trained on 234 hours of Tamasheq audio, while our contrastive model uses a French phonetic transcription of the Tamasheq audio as input in a Conformer speech translation architecture jointly trained on automatic speech recognition, ST and machine translation losses. Our results highlight that self-supervised models trained on smaller sets of target data are more effective to low-resource end-to-end ST fine-tuning, compared to large off-the-shelf models. Results also illustrate that even approximate phonetic transcriptions can improve ST scores.
翻訳日:2022-05-05 20:45:03 公開日:2022-05-04
# (参考訳) 環境センサネットワークにおける校正の不確かさのモデル化

Modelling calibration uncertainty in networks of environmental sensors ( http://arxiv.org/abs/2205.01988v1 )

ライセンス: CC BY 4.0
Michael Thomas Smith, Magnus Ross, Joel Ssematimba, Pablo A. Alvarado, Mauricio Alverez, Engineer Bainomugisha, Richard Wilkinson(参考訳) 低コストセンサーのネットワークはユビキタスになりつつあるが、しばしば低い精度とドリフトに悩まされている。 基準センサーによる通常のコロケーションは再校正を可能にするが、しばしば複雑で高価である。 または、キャリブレーションは低コストで移動式センサーを使って、しばしば非常に低コストで転送することができる。 しかし,センサネットワークのキャリブレーション機能(不確かさを伴う)の適切な推定は,特に移動体による訪問のネットワークが大きくなるにつれて困難になる。 本稿では,センサのネットワーク上でのキャリブレーションのモデル化手法を提案する。 我々は, 人工的および実際の大気汚染データに対するアプローチを実証し, 技術(マルチホップキャリブレーション)よりも優れた性能を示す。 非専門家の市民科学者による昆虫の分類を組み合わせて分類データに拡張する。 不確実性を定量化するキャリブレーションは、低コストのセンサー展開と市民科学研究にとって大きな障壁の1つだ。 このようなプロジェクトが実現できればと思っています。

Networks of low-cost sensors are becoming ubiquitous, but often suffer from low accuracies and drift. Regular colocation with reference sensors allows recalibration but is often complicated and expensive. Alternatively the calibration can be transferred using low-cost, mobile sensors, often at very low cost. However inferring appropriate estimates of the calibration functions (with uncertainty) for the network of sensors becomes difficult, especially as the network of visits by the mobile, low-cost sensors becomes large. We propose a variational approach to model the calibration across the network of sensors. We demonstrate the approach on both synthetic and real air pollution data, and find it can perform better than the state of the art (multi-hop calibration). We extend it to categorical data, combining classifications of insects by non-expert citizen scientists. Achieving uncertainty-quantified calibration has been one of the major barriers to low-cost sensor deployment and citizen-science research. We hope that the methods described will enable such projects.
翻訳日:2022-05-05 20:27:03 公開日:2022-05-04
# (参考訳) MM-Claims:ソーシャルメディアにおけるマルチモーダルクレーム検出のためのデータセット

MM-Claims: A Dataset for Multimodal Claim Detection in Social Media ( http://arxiv.org/abs/2205.01989v1 )

ライセンス: CC BY 4.0
Gullal S. Cheema, Sherzod Hakimov, Abdul Sittar, Eric M\"uller-Budack, Christian Otto, Ralph Ewerth(参考訳) 近年,Web上の誤情報の問題は,言語や国,さまざまなソーシャルメディアプラットフォームに広まりつつある。 自動偽ニュース検出には多くの研究がなされているが、画像とそれらの多様性の役割はよく調べられていない。 本稿では,クレーム検出と呼ばれる偽ニュース検出パイプラインの初期段階における画像とテキストの役割について検討する。 そこで本稿では,COVID-19, 気候変動, 広範技術という3つのトピックについて, ツイートと対応する画像からなる新しいデータセットMM-Claimsを紹介する。 データセットにはおよそ86000のツイートが含まれており、そのうち3400はマルチモーダルモデルのトレーニングと評価のために複数のアノテーションによって手動でラベル付けされている。 本稿では,このデータセットを詳細に記述し,強い単調およびマルチモーダルのベースラインを評価し,現在のモデルの可能性と欠点を分析する。

In recent years, the problem of misinformation on the web has become widespread across languages, countries, and various social media platforms. Although there has been much work on automated fake news detection, the role of images and their variety are not well explored. In this paper, we investigate the roles of image and text at an earlier stage of the fake news detection pipeline, called claim detection. For this purpose, we introduce a novel dataset, MM-Claims, which consists of tweets and corresponding images over three topics: COVID-19, Climate Change and broadly Technology. The dataset contains roughly 86000 tweets, out of which 3400 are labeled manually by multiple annotators for the training and evaluation of multimodal models. We describe the dataset in detail, evaluate strong unimodal and multimodal baselines, and analyze the potential and drawbacks of current models.
翻訳日:2022-05-05 20:25:41 公開日:2022-05-04
# (参考訳) 効率的な発音補正のための韓国語学習アプリケーションの設計

Design of a novel Korean learning application for efficient pronunciation correction ( http://arxiv.org/abs/2205.02001v1 )

ライセンス: CC BY 4.0
Minjong Cheon, Minseon Kim, Hanseon Joo(参考訳) 韓国の文化経済の世界的な人気を示す韓国の波は、韓国語の需要の増加に寄与している。 しかし、外国人が韓国語を学ぶための申請は存在しないため、本論文は韓国語の新しい学習アプリケーションの設計を提案する。 提案システムでは,音声認識,音声テキスト,音声波形の3つが重要なシステムである。 Google APIとリブロサライブラリは、ユーザの声を文とMFCCに変換する。 ソフトウェアはユーザのフレーズと答えを表示し、誤発音の要素を赤でハイライトすることで、発音の誤りをより容易に認識できるようにする。 さらに、シャムズネットワークは、これらの変換されたスペクトログラムを使用して類似度スコアを提供し、その後ユーザにフィードバックを提供することができる。 この研究で十分な外国人データを収集できなかったにもかかわらず、外国人に新しい韓国語発音補正法を提示したことは注目に値する。

The Korean wave, which denotes the global popularity of South Korea's cultural economy, contributes to the increasing demand for the Korean language. However, as there does not exist any application for foreigners to learn Korean, this paper suggested a design of a novel Korean learning application. Speech recognition, speech-to-text, and speech-to-waveform are the three key systems in the proposed system. The Google API and the librosa library will transform the user's voice into a sentence and MFCC. The software will then display the user's phrase and answer, with mispronounced elements highlighted in red, allowing users to more easily recognize the incorrect parts of their pronunciation. Furthermore, the Siamese network might utilize those translated spectrograms to provide a similarity score, which could subsequently be used to offer feedback to the user. Despite the fact that we were unable to collect sufficient foreigner data for this research, it is notable that we presented a novel Korean pronunciation correction method for foreigners.
翻訳日:2022-05-05 19:58:51 公開日:2022-05-04
# (参考訳) 歴史情報と相互作用を有する群集におけるマルチサブゴアロボットナビゲーション

Multi-subgoal Robot Navigation in Crowds with History Information and Interactions ( http://arxiv.org/abs/2205.02003v1 )

ライセンス: CC BY 4.0
Xinyi Yu, Jianan Hu, Yuehai Fan, Wancai Zheng, Linlin Ou(参考訳) 人間と共有する動的環境におけるロボットナビゲーションは、重要だが困難な作業であり、群衆が大きくなるにつれてパフォーマンスが悪化する。 本稿では,深層強化学習に基づくマルチサブゴアロボットナビゲーション手法を提案し,すべてのエージェント(ロボットと人間)間のより包括的な関係性を明らかにする。 具体的には,作業中に履歴情報やインタラクションを導入することで,ロボットの次の位置を計画する。 まず、サブグラフネットワークに基づいて、すべてのエージェントの履歴情報をグラフニューラルネットワークを介して対話を符号化する前に集約し、ロボットが将来のシナリオを暗黙的に予測する能力を向上させる。 さらに、信頼できない次の位置点の確率を低減するために、強化学習フレームワークにおけるポリシーネットワークの後に選択モジュールを設計する。 さらに、選択モジュールから生成された次の位置ポイントは、ポリシーネットワークから直接得られるものよりもタスク要求を満足させた。 今回の実験は,特に混み合った環境において,成功率と衝突率の両方の観点から,最先端のアプローチを上回っていることを実証する。

Robot navigation in dynamic environments shared with humans is an important but challenging task, which suffers from performance deterioration as the crowd grows. In this paper, multi-subgoal robot navigation approach based on deep reinforcement learning is proposed, which can reason about more comprehensive relationships among all agents (robot and humans). Specifically, the next position point is planned for the robot by introducing history information and interactions in our work. Firstly, based on subgraph network, the history information of all agents is aggregated before encoding interactions through a graph neural network, so as to improve the ability of the robot to anticipate the future scenarios implicitly. Further consideration, in order to reduce the probability of unreliable next position points, the selection module is designed after policy network in the reinforcement learning framework. In addition, the next position point generated from the selection module satisfied the task requirements better than that obtained directly from the policy network. The experiments demonstrate that our approach outperforms state-of-the-art approaches in terms of both success rate and collision rate, especially in crowded human environments.
翻訳日:2022-05-05 19:53:53 公開日:2022-05-04
# (参考訳) 複数入力検出のための高品質なデータポイント生成フレームワーク

A Framework to Generate High-Quality Datapoints for Multiple Novel Intent Detection ( http://arxiv.org/abs/2205.02005v1 )

ライセンス: CC BY 4.0
Ankan Mullick, Sukannya Purkayastha, Pawan Goyal and Niloy Ganguly(参考訳) 音声コマンドベースの会話エージェントのようなシステムは、事前に定義されたスキルセットやユーザが指定したタスクを実行する意図によって特徴づけられる。 時間とともに、新たなインテントが再トレーニングを必要とする可能性がある。 しかし、新しい意図は明示的に発表されず、動的に推論する必要がある。 そのため 重要な課題が2つあります (a) 新たな意図を 特定することです (b) 下位の分類器を効率的に再訓練できるように、新しいインテントのデータをアノテートする。 タスクは、多数の新しい意図が同時に出現し、手動アノテーションの予算が限られている場合に特別に困難になる。 本稿では,人為的アノテーションのコストを抑えるために,クラスタベースのフレームワークであるMNID(Multiple Novel Intent Detection)を提案する。 さまざまなベンチマークデータセット(サイズが異なる)の実証的な結果から、MNIDは、アノテーションの予算をインテリジェントに使用することにより、精度とF1スコアの点でベースラインメソッドよりも優れています。

Systems like Voice-command based conversational agents are characterized by a pre-defined set of skills or intents to perform user specified tasks. In the course of time, newer intents may emerge requiring retraining. However, the newer intents may not be explicitly announced and need to be inferred dynamically. Thus, there are two important tasks at hand (a). identifying emerging new intents, (b). annotating data of the new intents so that the underlying classifier can be retrained efficiently. The tasks become specially challenging when a large number of new intents emerge simultaneously and there is a limited budget of manual annotation. In this paper, we propose MNID (Multiple Novel Intent Detection) which is a cluster based framework to detect multiple novel intents with budgeted human annotation cost. Empirical results on various benchmark datasets (of different sizes) demonstrate that MNID, by intelligently using the budget for annotation, outperforms the baseline methods in terms of accuracy and F1-score.
翻訳日:2022-05-05 19:38:20 公開日:2022-05-04
# (参考訳) 何千通もの翻訳が長い道のりを歩む! アフリカニュース翻訳のための事前学習モデルの利用

A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation ( http://arxiv.org/abs/2205.02022v1 )

ライセンス: CC BY 4.0
David Ifeoluwa Adelani, Jesujoba Oluwadara Alabi, Angela Fan, Julia Kreutzer, Xiaoyu Shen, Machel Reid, Dana Ruiter, Dietrich Klakow, Peter Nabende, Ernie Chang, Tajuddeen Gwadabe, Freshia Sackey, Bonaventure F. P. Dossou, Chris Chinenye Emezue, Colin Leong, Michael Beukman, Shamsuddeen Hassan Muhammad, Guyo Dub Jarso, Oreen Yousuf, Andre Niyongabo Rubungo, Gilles Hacheme, Eric Peter Wairagala, Muhammad Umair Nasir, Benjamin Ayoade Ajibade, Tunde Oluwaseyi Ajayi, Yvonne Wambui Gitau, Jade Abbott, Mohamed Ahmed, Millicent Ochieng, Anuoluwapo Aremu, Perez Ogayo, Jonathan Mukiibi, Fatoumata Ouoba Kabore, Godson Koffi Kalipe, Derguene Mbaye, Allahsera Auguste Tapo, Victoire Memdjokam Koagne, Edwin Munkoh-Buabeng, Valencia Wagner, Idris Abdulmumin, Ayodele Awokoya, Happy Buzaaba, Blessing Sibanda, Andiswa Bukula, Sam Manthalu(参考訳) 言語モデルの事前学習における最近の進歩は、大規模データセットを活用して多言語モデルを作成する。 しかし、低リソース言語はこれらのデータセットにほとんど含まれない。 これは主に、多くの広く話されている言語がwebでよく表現されていないため、データセットの作成に使用される大規模なクロールから除外されているためである。 さらに、これらのモデルの下流のユーザは、事前学習用に選択された言語の選択に制限される。 本研究では,既存の学習済みモデルを最適に活用して16のアフリカ語に対する低リソース翻訳システムを構築する方法について検討する。 2つの質問に焦点を合わせます 1) 事前トレーニングに含まれない言語に対して,事前トレーニングモデルをどのように利用すればよいか? そして 2)結果の翻訳モデルは,新しいドメインに効果的に移行できるのか? これらの質問に答えるために、我々は16言語をカバーする新しいアフリカのニュースコーパスを作成し、そのうち8言語は既存の評価データセットには含まれていない。 我々は,高品質な翻訳データに対して,事前学習された大規模モデルを微調整する手法を,追加言語と追加ドメインに両立させる上で最も効果的な戦略であることを示す。

Recent advances in the pre-training of language models leverage large-scale datasets to create multilingual models. However, low-resource languages are mostly left out in these datasets. This is primarily because many widely spoken languages are not well represented on the web and therefore excluded from the large-scale crawls used to create datasets. Furthermore, downstream users of these models are restricted to the selection of languages originally chosen for pre-training. This work investigates how to optimally leverage existing pre-trained models to create low-resource translation systems for 16 African languages. We focus on two questions: 1) How can pre-trained models be used for languages not included in the initial pre-training? and 2) How can the resulting translation models effectively transfer to new domains? To answer these questions, we create a new African news corpus covering 16 languages, of which eight languages are not part of any existing evaluation dataset. We demonstrate that the most effective strategy for transferring both to additional languages and to additional domains is to fine-tune large pre-trained models on small quantities of high-quality translation data.
翻訳日:2022-05-05 19:22:58 公開日:2022-05-04
# (参考訳) マルチ露光プッシュフレーム衛星の自己超解像

Self-Supervised Super-Resolution for Multi-Exposure Push-Frame Satellites ( http://arxiv.org/abs/2205.02031v1 )

ライセンス: CC BY 4.0
Ngoc Long Nguyen, J\'er\'emy Anger, Axel Davy, Pablo Arias, and Gabriele Facciolo(参考訳) 現代の地球観測衛星は、計算手段によって超解けるプッシュフレーム画像のマルチ露光バーストを捉えている。 本研究では,このような多重露光系列に対する超解像法を提案する。 提案手法は,入力中の信号依存ノイズ,任意の長さのプロセスシーケンスを処理し,露光時の不正確さに頑健である。 さらに、真理の高精細なフレームを必要とせずに、自己スーパービジョンでエンドツーエンドでトレーニングできるため、特に実際のデータを扱うのに適している。 私たちの方法の中心は3つの重要な貢献です。 一 露光時間における誤差に対処するためのベース・ディテール分解 二 信号対雑音比の異なるフレームの融合を改善する雑音レベル対応特徴符号化 三 時間的プーリング作用素による置換不変核融合戦略 提案手法を合成, 実データで評価し, マルチ露光事例に適用した有意なマージンを持つ単一露光手法により性能が向上することを示す。

Modern Earth observation satellites capture multi-exposure bursts of push-frame images that can be super-resolved via computational means. In this work, we propose a super-resolution method for such multi-exposure sequences, a problem that has received very little attention in the literature. The proposed method can handle the signal-dependent noise in the inputs, process sequences of any length, and be robust to inaccuracies in the exposure times. Furthermore, it can be trained end-to-end with self-supervision, without requiring ground truth high resolution frames, which makes it especially suited to handle real data. Central to our method are three key contributions: i) a base-detail decomposition for handling errors in the exposure times, ii) a noise-level-aware feature encoding for improved fusion of frames with varying signal-to-noise ratio and iii) a permutation invariant fusion strategy by temporal pooling operators. We evaluate the proposed method on synthetic and real data and show that it outperforms by a significant margin existing single-exposure approaches that we adapted to the multi-exposure case.
翻訳日:2022-05-05 18:38:54 公開日:2022-05-04
# (参考訳) K平均クラスタリングのためのRawlsian Fairnessの探索

Exploring Rawlsian Fairness for K-Means Clustering ( http://arxiv.org/abs/2205.02052v1 )

ライセンス: CC BY 4.0
Stanley Simoes, Deepak P, Muiris MacCarthaigh(参考訳) 我々は、John Rawls氏の公正性に関する考えを既存の教師なし機械学習アルゴリズムに取り入れる探索的研究を行う。 我々はクラスタリングの課題、特にk-meansクラスタリングアルゴリズムに焦点を当てている。 私たちの知る限りでは、クラスタリングでRawlsianのアイデアを使った最初の作品です。 そこで本研究では,標準的なk-meansクラスタリングアルゴリズムによって生成されたクラスタ割り当てで動作する,ポストプロセッシング手法の開発を試みる。 我々の手法は、Rawlsの差分原理に従ってより公平にするために、この割り当てを何度も繰り返す一方で、全体のユーティリティに最小限の影響を与える。 最初のステップとして、与えられたクラスタ割り当ての例を新しいクラスタに再割り当てする、$\mathbf{R_1}$と$\mathbf{R_2}$の2つの単純な摂動演算子、$\mathbf{R_1}$の1つの例を新しいクラスタに割り当てる$\mathbf{R_1}$、$\mathbf{R_2}$の2つの新しいクラスタにサンプルを割り当てる$\mathbf{R_2}$を考える。 成人データセットのサンプル実験では,Rawlsの差分原理を取り入れたクラスタ割り当てにおいて,両オペレータが有意義な摂動を行い,反復回数の点で$\mathbf{R_2}$よりも効率がよいことを示した。 しかし,摂動を著しく改善する演算子の設計は依然として必要である。 それでも、どちらのオペレータも将来のオペレータの設計と比較に優れたベースラインを提供しています。

We conduct an exploratory study that looks at incorporating John Rawls' ideas on fairness into existing unsupervised machine learning algorithms. Our focus is on the task of clustering, specifically the k-means clustering algorithm. To the best of our knowledge, this is the first work that uses Rawlsian ideas in clustering. Towards this, we attempt to develop a postprocessing technique i.e., one that operates on the cluster assignment generated by the standard k-means clustering algorithm. Our technique perturbs this assignment over a number of iterations to make it fairer according to Rawls' difference principle while minimally affecting the overall utility. As the first step, we consider two simple perturbation operators -- $\mathbf{R_1}$ and $\mathbf{R_2}$ -- that reassign examples in a given cluster assignment to new clusters; $\mathbf{R_1}$ assigning a single example to a new cluster, and $\mathbf{R_2}$ a pair of examples to new clusters. Our experiments on a sample of the Adult dataset demonstrate that both operators make meaningful perturbations in the cluster assignment towards incorporating Rawls' difference principle, with $\mathbf{R_2}$ being more efficient than $\mathbf{R_1}$ in terms of the number of iterations. However, we observe that there is still a need to design operators that make significantly better perturbations. Nevertheless, both operators provide good baselines for designing and comparing any future operator, and we hope our findings would aid future work in this direction.
翻訳日:2022-05-05 18:27:10 公開日:2022-05-04
# (参考訳) 抽象的質問応答としての構成的タスク指向構文解析

Compositional Task-Oriented Parsing as Abstractive Question Answering ( http://arxiv.org/abs/2205.02068v1 )

ライセンス: CC BY 4.0
Wenting Zhao, Konstantine Arkoudas, Weiqi Sun, and Claire Cardie(参考訳) タスク指向構文解析(TOP)は、自然言語をアラームの設定など特定のタスクの機械可読表現に変換することを目的としている。 topに対する一般的なアプローチは、線形解析木を生成するためにseq2seqモデルを適用することである。 より最近の研究は、事前学習されたseq2seqモデルは、それ自体が自然言語である出力を生成するのに優れており、リニア化構文解析木を標準自然言語パラフラスに置き換えることで、構文解析木に容易に変換でき、いわゆる自然構文解析器(naturalized parser)となると主張している。 本研究では,標準パラフレージングの制限を克服した,トップから抽象的質問応答への一般的な還元を提示することで,自然化意味構文解析を探求する。 実験結果から,本手法は全データ設定において最先端の手法より優れ,数ショット設定では劇的に改善されていることがわかった。

Task-oriented parsing (TOP) aims to convert natural language into machine-readable representations of specific tasks, such as setting an alarm. A popular approach to TOP is to apply seq2seq models to generate linearized parse trees. A more recent line of work argues that pretrained seq2seq models are better at generating outputs that are themselves natural language, so they replace linearized parse trees with canonical natural-language paraphrases that can then be easily translated into parse trees, resulting in so-called naturalized parsers. In this work we continue to explore naturalized semantic parsing by presenting a general reduction of TOP to abstractive question answering that overcomes some limitations of canonical paraphrasing. Experimental results show that our QA-based technique outperforms state-of-the-art methods in full-data settings while achieving dramatic improvements in few-shot settings.
翻訳日:2022-05-05 18:15:02 公開日:2022-05-04
# (参考訳) DeepPortrait Drrawing: フリーハンドスケッチから人体画像を生成する

DeepPortraitDrawing: Generating Human Body Images from Freehand Sketches ( http://arxiv.org/abs/2205.02070v1 )

ライセンス: CC BY 4.0
Xian Wu, Chen Wang, Hongbo Fu, Ariel Shamir, Song-Hai Zhang, Shi-Min Hu(参考訳) 研究者は、例えば物体や人間の顔のフリーハンドスケッチからリアルな画像を生成する様々な方法を模索してきた。 しかし、スケッチからリアルな人体画像を生成する方法はまだ難しい課題である。 第一に人間の形に対する感受性、第二に体型やポーズの変化による人間のイメージの複雑さ、第三に写実的な画像とフリーハンドのスケッチの領域差によるものである。 本研究では,大まかなスケッチをリアルな人体画像に変換するための深層生成フレームワークであるDeepPortraitDrawingを紹介する。 様々なポーズで複雑な体形を符号化するために、我々は局所からグローバルへのアプローチを取る。 局所的に, 意味的部分自動エンコーダを用いて部分レベルの形状空間を構築し, 入力された手描きスケッチの形状の解明に有用である。 グローバルに,空間的位置と相対比を調整し,身体部分の構造を洗練させるために,カスケード型空間トランスフォーマーネットワークを用いる。 最後に、スケッチから画像への翻訳タスクにグローバル合成ネットワークと顔の細部を強調する顔修正ネットワークを用いる。 おおまかにスケッチされたヒトの肖像画を総合的に実験した結果,本手法は最先端のスケッチ・ツー・イメージ合成技術よりもリアルな画像を生成することがわかった。

Researchers have explored various ways to generate realistic images from freehand sketches, e.g., for objects and human faces. However, how to generate realistic human body images from sketches is still a challenging problem. It is, first because of the sensitivity to human shapes, second because of the complexity of human images caused by body shape and pose changes, and third because of the domain gap between realistic images and freehand sketches. In this work, we present DeepPortraitDrawing, a deep generative framework for converting roughly drawn sketches to realistic human body images. To encode complicated body shapes under various poses, we take a local-to-global approach. Locally, we employ semantic part auto-encoders to construct part-level shape spaces, which are useful for refining the geometry of an input pre-segmented hand-drawn sketch. Globally, we employ a cascaded spatial transformer network to refine the structure of body parts by adjusting their spatial locations and relative proportions. Finally, we use a global synthesis network for the sketch-to-image translation task, and a face refinement network to enhance facial details. Extensive experiments have shown that given roughly sketched human portraits, our method produces more realistic images than the state-of-the-art sketch-to-image synthesis techniques.
翻訳日:2022-05-05 17:58:47 公開日:2022-05-04
# (参考訳) 超複素画像から画像への変換

Hypercomplex Image-to-Image Translation ( http://arxiv.org/abs/2205.02087v1 )

ライセンス: CC BY 4.0
Eleonora Grassucci, Luigi Sigillo, Aurelio Uncini, Danilo Comminiello(参考訳) Image-to-image Translation (I2I)は、入力ドメインから出力ドメインへのコンテンツ表現の転送を目的とし、異なるターゲットドメインに沿ってバウンドする。 この課題で顕著な結果を得た最近のI2I生成モデルは、それぞれ数千万のパラメータを持つ多様な深層ネットワークで構成されている。 さらに、画像は通常、rgbチャネルからなる3次元であり、共通の神経モデルは次元相関を考慮せず、有益な情報を失う。 本稿では,超複素代数特性を利用して,画像次元間の既存関係を保ち,付加的な入力情報を利用する軽量I2I生成モデルを提案する。 提案する四元数StarGANv2とパラメータ化ハイパーコンプレックスStarGANv2(PHStarGANv2)は,高領域翻訳性能とFIDおよびLPIPSスコアによる画像品質を確保しつつ,パラメータと記憶メモリ量を削減する方法を示す。 完全なコードは、https://github.com/ispamm/HI2Iで入手できる。

Image-to-image translation (I2I) aims at transferring the content representation from an input domain to an output one, bouncing along different target domains. Recent I2I generative models, which gain outstanding results in this task, comprise a set of diverse deep networks each with tens of million parameters. Moreover, images are usually three-dimensional being composed of RGB channels and common neural models do not take dimensions correlation into account, losing beneficial information. In this paper, we propose to leverage hypercomplex algebra properties to define lightweight I2I generative models capable of preserving pre-existing relations among image dimensions, thus exploiting additional input information. On manifold I2I benchmarks, we show how the proposed Quaternion StarGANv2 and parameterized hypercomplex StarGANv2 (PHStarGANv2) reduce parameters and storage memory amount while ensuring high domain translation performance and good image quality as measured by FID and LPIPS scores. Full code is available at: https://github.com/ispamm/HI2I.
翻訳日:2022-05-05 17:40:42 公開日:2022-05-04
# (参考訳) 屋内位置決め型Wi-Fiフィンガープリントデータセットのためのデータクリーニング

Data Cleansing for Indoor Positioning Wi-Fi Fingerprinting Datasets ( http://arxiv.org/abs/2205.02096v1 )

ライセンス: CC BY 4.0
Darwin Quezada-Gaibor, Lucie Klus, Joaqu\'in Torres-Sospedra, Elena Simona Lohan, Jari Nurmi, Carlos Granell and Joaqu\'in Huerta(参考訳) 位置決めとローカライゼーションサービスを必要とするウェアラブルデバイスとIoTデバイスは、毎年指数関数的に増加しています。 この急速な成長は、データ品質を保証し、エンドユーザに高品質なサービス(QoS)を提供するために、あらゆる屋内位置決めシステムで使用される前に前処理する必要がある何百万ものデータエントリを生成する。 本稿では,無線地図のWLANフィンガープリントのための,斬新で簡単なデータクリーニングアルゴリズムを提案する。 このアルゴリズムは、受信信号強度(rss)値とアクセスポイント(aps)識別子を用いた指紋間の相関に基づいている。 これらを用いてデータセット内のすべてのサンプル間の相関を計算し、データセットから低レベルの相関関係を持つ指紋を除去する。 提案手法を14の独立データセット上で評価した。 その結果、データセットから平均14%の指紋が削除された。 2次元位置決め誤差は2.7%減少し、3次元位置決め誤差は5.3%減少し、フロアヒット率は平均1.2%上昇した。 その結果, 位置予測の平均速度も14%向上した。

Wearable and IoT devices requiring positioning and localisation services grow in number exponentially every year. This rapid growth also produces millions of data entries that need to be pre-processed prior to being used in any indoor positioning system to ensure the data quality and provide a high Quality of Service (QoS) to the end-user. In this paper, we offer a novel and straightforward data cleansing algorithm for WLAN fingerprinting radio maps. This algorithm is based on the correlation among fingerprints using the Received Signal Strength (RSS) values and the Access Points (APs)'s identifier. We use those to compute the correlation among all samples in the dataset and remove fingerprints with low level of correlation from the dataset. We evaluated the proposed method on 14 independent publicly-available datasets. As a result, an average of 14% of fingerprints were removed from the datasets. The 2D positioning error was reduced by 2.7% and 3D positioning error by 5.3% with a slight increase in the floor hit rate by 1.2% on average. Consequently, the average speed of position prediction was also increased by 14%.
翻訳日:2022-05-05 17:22:28 公開日:2022-05-04
# (参考訳) ベンチマークのデータセットはすべて必要か? テキスト分類のためのデータセット評価の試み

Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification ( http://arxiv.org/abs/2205.02129v1 )

ライセンス: CC BY 4.0
Yang Xiao, Jinlan Fu, See-Kiong Ng, Pengfei Liu(参考訳) 本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 まず、異なるシステムを比較する際に、データセットの識別性を特徴付ける。 9つのデータセットと36のシステムに関する実験では、既存のベンチマークデータセットがトップスコーリングシステムの識別にほとんど貢献していないことが示されている。 さらに,テキスト分類タスクをケーススタディとして,その特性(平均文長など)に基づいてデータセット識別を予測する可能性について検討する。 我々の予備実験は、十分な数のトレーニング実験記録が与えられた場合、有意義な予測器が未知のデータセットに対するデータセットの識別を推定できることを示す。 この作業で調査した機能を備えたデータセットはすべて、DataLabでリリースしました。

In this paper, we ask the research question of whether all the datasets in the benchmark are necessary. We approach this by first characterizing the distinguishability of datasets when comparing different systems. Experiments on 9 datasets and 36 systems show that several existing benchmark datasets contribute little to discriminating top-scoring systems, while those less used datasets exhibit impressive discriminative power. We further, taking the text classification task as a case study, investigate the possibility of predicting dataset discrimination based on its properties (e.g., average sentence length). Our preliminary experiments promisingly show that given a sufficient number of training experimental records, a meaningful predictor can be learned to estimate dataset discrimination over unseen datasets. We released all datasets with features explored in this work on DataLab: \url{https://datalab.nlpedia.ai}.
翻訳日:2022-05-05 17:09:58 公開日:2022-05-04
# (参考訳) RecipeSnap - 軽量イメージ・ツー・レシピモデル

RecipeSnap -- a lightweight image-to-recipe model ( http://arxiv.org/abs/2205.02141v1 )

ライセンス: CC BY 4.0
Jianfa Chen, Yue Yin, Yifan Xu(参考訳) 本稿では,撮影された料理の認識と対応する料理レシピ生成のための自動化の問題に対処したい。 現在の画像合成モデルは計算コストが高く、モデルトレーニングと実装に強力なGPUを必要とする。 高い計算コストは、これらの既存のモデルを携帯電話のような携帯機器にデプロイすることを妨げる。 この問題を解決するために、我々は、メモリコストと計算コストを90%以上削減する軽量な画像合成予測モデルRecipeSnapを導入し、最新技術モデルである2.0 MedRを実現した。 レシピエンコーダは、レシピエンベッドの計算に使用されていた。 recipe1mデータセットと対応するレシピ埋め込みからのレシピをレシピライブラリとして収集し、イメージエンコーダのトレーニングと画像クエリに後で使用する。 私たちはMobileNet-V2をイメージエンコーダのバックボーンとして使用しています。 このモデルは、ほんの少しの労力で、スマートフォンのアプリケーションとして開発することができる。 本稿では,この軽量モデルと他の重モデルとの比較を行った。 コード、データ、モデルはgithubで公開されている。

In this paper we want to address the problem of automation for recognition of photographed cooking dishes and generating the corresponding food recipes. Current image-to-recipe models are computation expensive and require powerful GPUs for model training and implementation. High computational cost prevents those existing models from being deployed on portable devices, like smart phones. To solve this issue we introduce a lightweight image-to-recipe prediction model, RecipeSnap, that reduces memory cost and computational cost by more than 90% while still achieving 2.0 MedR, which is in line with the state-of-the-art model. A pre-trained recipe encoder was used to compute recipe embeddings. Recipes from Recipe1M dataset and corresponding recipe embeddings are collected as a recipe library, which are used for image encoder training and image query later. We use MobileNet-V2 as image encoder backbone, which makes our model suitable to portable devices. This model can be further developed into an application for smart phones with a few effort. A comparison of the performance between this lightweight model to other heavy models are presented in this paper. Code, data and models are publicly accessible on github.
翻訳日:2022-05-05 16:39:04 公開日:2022-05-04
# (参考訳) FEDNEST:Federated Bilevel, Minimax, and compositional Optimization

FEDNEST: Federated Bilevel, Minimax, and Compositional Optimization ( http://arxiv.org/abs/2205.02215v1 )

ライセンス: CC BY 4.0
Davoud Ataee Tarzanagh, Mingchen Li, Christos Thrampoulidis, Samet Oymak(参考訳) 標準フェデレーション最適化法は、 \textit{single-level} 構造を持つ確率問題に適用できる。 しかし、敵対的ロバスト性、ハイパーパラメータチューニング、アクター批判など、現代のMLの多くの問題は、ミニマックスと合成最適化を仮定するネストされた双レベルプログラミングに該当する。 本稿では,一般的なネスト問題に対処するフェデネスト型交互確率勾配法を提案する。 我々は不均一なデータの存在下でFedNestの証明可能な収束率を確立し、バイレベル、ミニマックス、合成最適化のバリエーションを導入する。 fednestは、内部レベルの不均一性に対処するために、フェデレーションハイパーグラディエント計算や分散低減など、複数のイノベーションを導入している。 提案手法の利点を実証するハイパーパラメータ \&ハイパー表現学習とミニマックス最適化の実験により,本理論を補完する。 コードはhttps://github.com/mc-nya/fednestで入手できる。

Standard federated optimization methods successfully apply to stochastic problems with \textit{single-level} structure. However, many contemporary ML problems -- including adversarial robustness, hyperparameter tuning, and actor-critic -- fall under nested bilevel programming that subsumes minimax and compositional optimization. In this work, we propose FedNest: A federated alternating stochastic gradient method to address general nested problems. We establish provable convergence rates for FedNest in the presence of heterogeneous data and introduce variations for bilevel, minimax, and compositional optimization. FedNest introduces multiple innovations including federated hypergradient computation and variance reduction to address inner-level heterogeneity. We complement our theory with experiments on hyperparameter \& hyper-representation learning and minimax optimization that demonstrate the benefits of our method in practice. Code is available at https://github.com/mc-nya/FedNest.
翻訳日:2022-05-05 16:30:57 公開日:2022-05-04
# SMLT: スケーラブルで適応的な機械学習設計とトレーニングのためのサーバレスフレームワーク

SMLT: A Serverless Framework for Scalable and Adaptive Machine Learning Design and Training ( http://arxiv.org/abs/2205.01853v1 )

ライセンス: Link先を確認
Ahsan Ali, Syed Zawad, Paarijaat Aditya, Istemi Ekin Akkus, Ruichuan Chen, Feng Yan(参考訳) 今日のプロダクション機械学習(ML)システムでは、モデルは継続的にトレーニングされ、改善され、デプロイされます。 ml設計とトレーニングは、動的リソース要求を持つさまざまなタスクの継続的なワークフローになりつつある。 サーバレスコンピューティングは、ユーザの透過的なリソース管理とスケーリングを提供する、新興クラウドパラダイムであり、ML設計とトレーニングのルーチンに革命をもたらす可能性がある。 しかしながら、既存のサーバレスプラットフォームでモダンなMLワークフローをホストすることは、ステートレスな性質、関数インスタンス間の通信サポートの制限、関数の実行期間の制限など、本質的に設計上の制限があるため、簡単な問題ではない。 これらの制限は、動的をトレーニングするための包括的なビューと適応メカニズムの欠如と、MLワークフローにおける既存の問題の増幅をもたらす。 上記の課題に対処するため、私たちは、効率的でユーザ中心のML設計とトレーニングを可能にする、自動化されたスケーラブルで適応的なサーバレスフレームワークであるSMLTを提案する。 SMLTでは、トレーニング中のMLタスクのデプロイメントとリソーススケーリングを動的に最適化するために、自動で適応的なスケジューリング機構を採用している。 SMLTはさらに、ユーザ指定のトレーニング期限と予算制限をサポートすることで、ユーザ中心のMLワークフローの実行を可能にする。 さらに、エンドツーエンドの設計を提供することで、SMLTは通信オーバーヘッド、機能実行期間の制限、繰り返し初期化の必要性、MLトレーニングに対する明確なフォールトトレランスといった、サーバレスプラットフォーム固有の問題を解決する。 SMLTはオープンソースで、すべての主要なMLフレームワークと互換性がある。 大規模で洗練された最新のMLモデルによる実験的な評価は、SMLTが最先端のVMベースシステムと既存のサーバレスMLトレーニングフレームワークを、トレーニング速度(最大8倍)と金銭コスト(最大3倍)で上回っていることを示している。

In today's production machine learning (ML) systems, models are continuously trained, improved, and deployed. ML design and training are becoming a continuous workflow of various tasks that have dynamic resource demands. Serverless computing is an emerging cloud paradigm that provides transparent resource management and scaling for users and has the potential to revolutionize the routine of ML design and training. However, hosting modern ML workflows on existing serverless platforms has non-trivial challenges due to their intrinsic design limitations such as stateless nature, limited communication support across function instances, and limited function execution duration. These limitations result in a lack of an overarching view and adaptation mechanism for training dynamics and an amplification of existing problems in ML workflows. To address the above challenges, we propose SMLT, an automated, scalable, and adaptive serverless framework to enable efficient and user-centric ML design and training. SMLT employs an automated and adaptive scheduling mechanism to dynamically optimize the deployment and resource scaling for ML tasks during training. SMLT further enables user-centric ML workflow execution by supporting user-specified training deadlines and budget limits. In addition, by providing an end-to-end design, SMLT solves the intrinsic problems in serverless platforms such as the communication overhead, limited function execution duration, need for repeated initialization, and also provides explicit fault tolerance for ML training. SMLT is open-sourced and compatible with all major ML frameworks. Our experimental evaluation with large, sophisticated modern ML models demonstrate that SMLT outperforms the state-of-the-art VM based systems and existing serverless ML training frameworks in both training speed (up to 8X) and monetary cost (up to 3X)
翻訳日:2022-05-05 16:28:05 公開日:2022-05-04
# Few-Shotオブジェクト認識のための複数表現に基づく生涯アンサンブル学習

Lifelong Ensemble Learning based on Multiple Representations for Few-Shot Object Recognition ( http://arxiv.org/abs/2205.01982v1 )

ライセンス: Link先を確認
Hamidreza Kasaei, Songsong Xiong(参考訳) サービスロボットは、さまざまなタスクを助けるために、日々の生活にますます統合されています。 このような環境では、ロボットは環境の中で作業しながらしばしば新しい物体に直面し、オープンエンドで学習する必要がある。 さらに、このようなロボットは幅広い対象のカテゴリーを認識できなければならない。 本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。 特に,深部表現と手作りの3次元形状記述子に基づくアンサンブル手法を提案する。 生涯学習を容易にするため、各アプローチは、オブジェクト情報を即時に記憶し検索するメモリユニットを備える。 提案モデルは,3次元オブジェクトカテゴリの数が固定されておらず,時間とともに成長可能なオープンエンド学習シナリオに適している。 提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。 評価目的として,実際のオブジェクトデータセットに加えて,90オブジェクトの27000ビューからなる大規模合成家庭用オブジェクトデータセットを生成する。 実験により,提案手法が3次元物体認識タスクに有効であること,および最先端手法よりも優れた性能を示す。 さらに、ロボットが限られた例から新しいカテゴリーを素早く学習するシミュレーションと実ロボット設定の両方において、我々のアプローチの有効性を実証した。

Service robots are integrating more and more into our daily lives to help us with various tasks. In such environments, robots frequently face new objects while working in the environment and need to learn them in an open-ended fashion. Furthermore, such robots must be able to recognize a wide range of object categories. In this paper, we present a lifelong ensemble learning approach based on multiple representations to address the few-shot object recognition problem. In particular, we form ensemble methods based on deep representations and handcrafted 3D shape descriptors. To facilitate lifelong learning, each approach is equipped with a memory unit for storing and retrieving object information instantly. The proposed model is suitable for open-ended learning scenarios where the number of 3D object categories is not fixed and can grow over time. We have performed extensive sets of experiments to assess the performance of the proposed approach in offline, and open-ended scenarios. For the evaluation purpose, in addition to real object datasets, we generate a large synthetic household objects dataset consisting of 27000 views of 90 objects. Experimental results demonstrate the effectiveness of the proposed method on 3D object recognition tasks, as well as its superior performance over the state-of-the-art approaches. Additionally, we demonstrated the effectiveness of our approach in both simulated and real-robot settings, where the robot rapidly learned new categories from limited examples.
翻訳日:2022-05-05 16:27:36 公開日:2022-05-04
# wavelet neural operator:パラメトリック偏微分方程式のためのニューラルネットワーク

Wavelet neural operator: a neural operator for parametric partial differential equations ( http://arxiv.org/abs/2205.02191v1 )

ライセンス: Link先を確認
Tapas Tripura and Souvik Chakraborty(参考訳) センサ技術やiot(internet-of-things)の大幅な進歩によって,テラバイト単位の履歴データへのアクセスが可能になったのです。 この文脈で可能な選択肢の1つは、2つの関数空間間の非線形マッピングを直接学習する演算子学習アルゴリズムを使用することである。 本研究では、積分カーネルとウェーブレット変換を融合したウェーブレットニューラル演算子(WNO)と呼ばれる演算子学習アルゴリズムを提案する。 WNOは、関数の時間周波数局所化におけるウェーブレットの優位性を活用し、空間領域におけるパターンの正確な追跡と関数マッピングの効果的な学習を可能にする。 ウェーブレットは時間/空間と周波数の両方で局所化されているため、WNOは空間および周波数の分解能が高い。 これにより、複雑な問題に対するソリューションにおけるパラメトリック依存関係のより詳細な詳細を学ぶことができる。 提案するwnoの有効性と頑健性は,バーガー方程式,ダーシー流,ナビエ・ストークス方程式,アレン・カーン方程式,ウェーブ・アドベクション方程式など幅広い問題に適用できる。 既存の演算子学習フレームワークとの比較研究を行った。 最後に,提案手法は,利用可能な歴史データに基づいて地球の気温を予測できるデジタル双生児の構築に用いられている。

With massive advancements in sensor technologies and Internet-of-things, we now have access to terabytes of historical data; however, there is a lack of clarity in how to best exploit the data to predict future events. One possible alternative in this context is to utilize operator learning algorithm that directly learn nonlinear mapping between two functional spaces; this facilitates real-time prediction of naturally arising complex evolutionary dynamics. In this work, we introduce a novel operator learning algorithm referred to as the Wavelet Neural Operator (WNO) that blends integral kernel with wavelet transformation. WNO harnesses the superiority of the wavelets in time-frequency localization of the functions and enables accurate tracking of patterns in spatial domain and effective learning of the functional mappings. Since the wavelets are localized in both time/space and frequency, WNO can provide high spatial and frequency resolution. This offers learning of the finer details of the parametric dependencies in the solution for complex problems. The efficacy and robustness of the proposed WNO are illustrated on a wide array of problems involving Burger's equation, Darcy flow, Navier-Stokes equation, Allen-Cahn equation, and Wave advection equation. Comparative study with respect to existing operator learning frameworks are presented. Finally, the proposed approach is used to build a digital twin capable of predicting Earth's air temperature based on available historical data.
翻訳日:2022-05-05 16:24:37 公開日:2022-05-04
# 標準オークションモデルの推定

Estimation of Standard Auction Models ( http://arxiv.org/abs/2205.02060v1 )

ライセンス: Link先を確認
Yeshwanth Cherapanamjeri, Constantinos Daskalakis, Andrew Ilyas, Manolis Zampetakis(参考訳) 独立な(非対称な)プライベート値と部分観測可能性の下で,第1および第2価格オークションの効率的な評価方法を提案する。 同一のオークションで支払った金額と勝者の同一性を含む有限の観察が与えられると、各入札者の入札分布を非パラメトリックに推定するアルゴリズムと、均衡仮定の下での値分布を提供する。 我々は、その誤差率が推定される入札/値分布に依存しないような有限サンプル推定境界を提供する。 我々の推定は、設定が対称でパラメトリックでなければ、あるいは全ての入札が観測可能でない限り、識別結果のみが得られる計量学における作業の進行を保証する。 我々の保証はまた、信頼性理論から古典的手法の計算的かつ統計的に有効な代替手段を提供する。 最後に,この結果はオランダ語と英語のオークションに適用できる。

We provide efficient estimation methods for first- and second-price auctions under independent (asymmetric) private values and partial observability. Given a finite set of observations, each comprising the identity of the winner and the price they paid in a sequence of identical auctions, we provide algorithms for non-parametrically estimating the bid distribution of each bidder, as well as their value distributions under equilibrium assumptions. We provide finite-sample estimation bounds which are uniform in that their error rates do not depend on the bid/value distributions being estimated. Our estimation guarantees advance a body of work in Econometrics wherein only identification results have been obtained, unless the setting is symmetric, parametric, or all bids are observable. Our guarantees also provide computationally and statistically effective alternatives to classical techniques from reliability theory. Finally, our results are immediately applicable to Dutch and English auctions.
翻訳日:2022-05-05 16:24:15 公開日:2022-05-04
# エルセグゲン : ヘッドマウントアイトラッキングの領域一般化に向けて

EllSeg-Gen, towards Domain Generalization for head-mounted eyetracking ( http://arxiv.org/abs/2205.01947v1 )

ライセンス: Link先を確認
Rakshit S. Kothari, Reynold J. Bailey, Christopher Kanan, Jeff B. Pelz, Gabriel J. Diaz(参考訳) 自然文脈における人間の視線行動の研究は、幅広い撮像条件にロバストな視線推定のためのアルゴリズムを必要とする。 しかし、アルゴリズムは反射的アーティファクトやオクルージョンの存在下で虹彩や瞳孔のような特徴を識別できないことが多い。 これまでの研究では、このような人工物が存在するにもかかわらず、畳み込みネットワークは視線の特徴を抽出することに優れていた。 しかし、これらのネットワークは訓練中は見当たらないデータではよく機能しない。 この研究は、複数のデータセットで畳み込みネットワークを共同で訓練する直感に従って、目の部分の一般化表現を学ぶ。 複数のデータセットでトレーニングされた単一モデルのパフォーマンスを、個々のデータセットでトレーニングされたモデルのプールと比較する。 その結果, 眼球画像を用いたモデルでは, マルチセットトレーニングによる視認性の向上が期待できることがわかった。 対照的に、データセット固有のモデルは、外観の多様性が低い眼画像に対してより一般化される。

The study of human gaze behavior in natural contexts requires algorithms for gaze estimation that are robust to a wide range of imaging conditions. However, algorithms often fail to identify features such as the iris and pupil centroid in the presence of reflective artifacts and occlusions. Previous work has shown that convolutional networks excel at extracting gaze features despite the presence of such artifacts. However, these networks often perform poorly on data unseen during training. This work follows the intuition that jointly training a convolutional network with multiple datasets learns a generalized representation of eye parts. We compare the performance of a single model trained with multiple datasets against a pool of models trained on individual datasets. Results indicate that models tested on datasets in which eye images exhibit higher appearance variability benefit from multiset training. In contrast, dataset-specific models generalize better onto eye images with lower appearance variability.
翻訳日:2022-05-05 16:23:57 公開日:2022-05-04
# 機械学習による位相場シミュレーションの高速化

Accelerating phase-field-based simulation via machine learning ( http://arxiv.org/abs/2205.02121v1 )

ライセンス: Link先を確認
Iman Peivaste, Nima H. Siboni, Ghasem Alahyarizadeh, Reza Ghaderi, Bob Svendsen, Dierk Raabe, Jaber R. Mianroodi(参考訳) 位相場に基づくモデルは、材料科学、力学、物理学、生物学、化学、および微構造進化のシミュレーションのための工学において一般的である。 しかし、大規模で複雑なシステムに適用した場合、計算コストが非常に高いという欠点に苦しんでいる。 このような計算コストを削減するため、現在の作業における代理モデルとして、Unetベースの人工ニューラルネットワークを開発した。 このネットワークのトレーニング入力は、Fan-Chenモデルに基づく初期有界値問題(IBVP)の数値解から得られる。 特に、初期順序パラメータの異なる約250の異なるシミュレーションを行い、各シミュレーションのために位相場の時間発展の200フレームを格納する。 ネットワークは、このデータの90%でトレーニングされ、シミュレーションの$i$-thフレーム、すなわち、パラメータフィールドを入力とし、$(i+1)$-thフレームを出力として生成する。 ネットワークの評価は、トレーニングに使用するものと異なる構成に基づいて、2200のミクロ組織からなるテストデータセットで実行される。 トレーニングされたネットワークは初期順序パラメータに再帰的に適用され、位相場の時間発展を計算する。 その結果, 順序パラメータの誤差や系の自由エネルギーの観点から, 従来の数値解から得られた値と比較した。 全ての点の平均的な順序パラメータ誤差は0.005であり、全てのシミュレーションボックスにおける総自由エネルギーの相対誤差は1%を超えない。

Phase-field-based models have become common in material science, mechanics, physics, biology, chemistry, and engineering for the simulation of microstructure evolution. Yet, they suffer from the drawback of being computationally very costly when applied to large, complex systems. To reduce such computational costs, a Unet-based artificial neural network is developed as a surrogate model in the current work. Training input for this network is obtained from the results of the numerical solution of initial-boundary-value problems (IBVPs) based on the Fan-Chen model for grain microstructure evolution. In particular, about 250 different simulations with varying initial order parameters are carried out and 200 frames of the time evolution of the phase fields are stored for each simulation. The network is trained with 90% of this data, taking the $i$-th frame of a simulation, i.e. order parameter field, as input, and producing the $(i+1)$-th frame as the output. Evaluation of the network is carried out with a test dataset consisting of 2200 microstructures based on different configurations than originally used for training. The trained network is applied recursively on initial order parameters to calculate the time evolution of the phase fields. The results are compared to the ones obtained from the conventional numerical solution in terms of the errors in order parameters and the system's free energy. The resulting order parameter error averaged over all points and all simulation cases is 0.005 and the relative error in the total free energy in all simulation boxes does not exceed 1%.
翻訳日:2022-05-05 16:20:49 公開日:2022-05-04
# (参考訳) オントロジーを介する有界クランク幅データベースの問合せ

Ontology-Mediated Querying on Databases of Bounded Cliquewidth ( http://arxiv.org/abs/2205.02190v1 )

ライセンス: CC BY-SA 4.0
Carsten Lutz, Leif Sabellek, Lukas Schulze(参考訳) 本稿では,パラメータ化複雑性理論の観点から,有界クリフ幅のデータベース上でのオントロジーによるクエリ(OMQ)の評価について検討する。 オントロジー言語として、一階述語論理のガード付き二変数フラグメント gf$_2$ と同様に、$\mathcal{alc}$ と $\mathcal{alci}$ の記述論理を考える。 クエリは、AQ(Atomic query)、CQ(Conjunctive query)、CQ(Unions of CQ)である。 検討されたOMQ問題は、パラメータがOMQ+cliquewidthのとき、固定パラメータ線形(FPL)である。 我々の主な貢献は、パラメータのランニング時間依存性の詳細な分析であり、いくつかの興味深い効果を示している。

We study the evaluation of ontology-mediated queries (OMQs) on databases of bounded cliquewidth from the viewpoint of parameterized complexity theory. As the ontology language, we consider the description logics $\mathcal{ALC}$ and $\mathcal{ALCI}$ as well as the guarded two-variable fragment GF$_2$ of first-order logic. Queries are atomic queries (AQs), conjunctive queries (CQs), and unions of CQs. All studied OMQ problems are fixed-parameter linear (FPL) when the parameter is the size of the OMQ plus the cliquewidth. Our main contribution is a detailed analysis of the dependence of the running time on the parameter, exhibiting several interesting effects.
翻訳日:2022-05-05 16:19:28 公開日:2022-05-04
# 存在規則でストリームを追いかける

Chasing Streams with Existential Rules ( http://arxiv.org/abs/2205.02220v1 )

ライセンス: Link先を確認
Jacopo Urbani, Markus Kr\"otzsch, Thomas Eiter(参考訳) データストリーム上でクエリ応答を行うために,既存のルールによる推論について検討する。 静的データベースでは、この問題は広く研究されているが、急速に変化するデータへの拡張はまだ検討されていない。 このギャップを埋めるために、ルールベースのストリーム推論のためのよく知られたフレームワークであるLARSを拡張し、既存のルールをサポートする。 そのために,larsを存在規則に翻訳する方法を,存在規則のセマンティクス保存セットに変換する。 このような規則で応答するクエリは一般に決定不可能であるので、ストリームの時間的性質をどのように活用するか、決定可能性を保証するための非循環の概念を示す。

We study reasoning with existential rules to perform query answering over streams of data. On static databases, this problem has been widely studied, but its extension to rapidly changing data has not yet been considered. To bridge this gap, we extend LARS, a well-known framework for rule-based stream reasoning, to support existential rules. For that, we show how to translate LARS with existentials into a semantics-preserving set of existential rules. As query answering with such rules is undecidable in general, we describe how to leverage the temporal nature of streams and present suitable notions of acyclicity that ensure decidability.
翻訳日:2022-05-05 15:16:45 公開日:2022-05-04
# 科学的発見のための計算的帰結

A Computational Inflection for Scientific Discovery ( http://arxiv.org/abs/2205.02007v1 )

ライセンス: Link先を確認
Tom Hope, Doug Downey, Oren Etzioni, Daniel S. Weld, Eric Horvitz(参考訳) 我々は科学的発見の軌跡において重要な変曲の足元に立っている。 社会がデジタルトランスフォーメーションのペースを早めるにつれて、人類の集団的な科学的知識と談話も続く。 私たちは現在、論文をデジタル形式で読み書きし、科学の形式的および非公式なプロセスの多くをデジタル的に捉えています - 論文、事前印刷、書籍、コードとデータセット、カンファレンスプレゼンテーション、ソーシャルネットワークと通信プラットフォームにおけるインタラクションなどです。 この変化は膨大な量の情報の成長につながり、それを分析し活用する計算モデルやシステムにとってエキサイティングな機会となった。 並行して、データ処理能力の指数関数的な成長は、人的監督を伴わずに大規模な非構造化テキストから強力な表現を学習できる自己教師型ニューラルネットワークを含む、AIの顕著な進歩を後押ししている。 社会と計算の傾向の合流は、コンピュータ科学が科学プロセス自体の革命を火付けようとしていることを示唆している。 しかし、科学データ、結果、出版物の爆発は、人間の認知能力の構成要素とは対照的である。 科学的知識は急速に拡大しているが、私たちの心は静的のままであり、情報の発見、同化、操作の能力に厳しい制限がある。 本研究では, 科学的知識のコーパスを取り込み, インスピレーション, 説明, 解決, 証拠を抽出することにより, 人間の有界能力に対処するタスク誘導型知識検索の研究課題を提案する。 我々は,手法とプロトタイプの初期の進歩を報告し,科学に革命をもたらす可能性を持つ計算的アプローチに向けて重要な機会と課題を提示する。

We stand at the foot of a significant inflection in the trajectory of scientific discovery. As society continues on its fast-paced digital transformation, so does humankind's collective scientific knowledge and discourse. We now read and write papers in digitized form, and a great deal of the formal and informal processes of science are captured digitally -- including papers, preprints and books, code and datasets, conference presentations, and interactions in social networks and communication platforms. The transition has led to the growth of a tremendous amount of information, opening exciting opportunities for computational models and systems that analyze and harness it. In parallel, exponential growth in data processing power has fueled remarkable advances in AI, including self-supervised neural models capable of learning powerful representations from large-scale unstructured text without costly human supervision. The confluence of societal and computational trends suggests that computer science is poised to ignite a revolution in the scientific process itself. However, the explosion of scientific data, results and publications stands in stark contrast to the constancy of human cognitive capacity. While scientific knowledge is expanding with rapidity, our minds have remained static, with severe limitations on the capacity for finding, assimilating and manipulating information. We propose a research agenda of task-guided knowledge retrieval, in which systems counter humans' bounded capacity by ingesting corpora of scientific knowledge and retrieving inspirations, explanations, solutions and evidence synthesized to directly augment human performance on salient tasks in scientific endeavors. We present initial progress on methods and prototypes, and lay out important opportunities and challenges ahead with computational approaches that have the potential to revolutionize science.
翻訳日:2022-05-05 15:16:17 公開日:2022-05-04
# 潜在空間拡張性による関節画像圧縮と雑音除去

Joint Image Compression and Denoising via Latent-Space Scalability ( http://arxiv.org/abs/2205.01874v1 )

ライセンス: Link先を確認
Saeed Ranjbar Alvar, Mateen Ulhaq, Hyomin Choi, and Ivan V. Baji\'c(参考訳) デジタルカメラの画像圧縮に関しては、伝統的にデノイジングは圧縮の前に行われる。 しかし、裁判所の証拠や画像鑑定など、画像の信頼性を示すために画像ノイズが必要なアプリケーションもある。 これはノイズ自体をクリーンなイメージに加えてコード化する必要があることを意味します。 本稿では,画像のデノイジングと圧縮を共同で行う学習型画像圧縮フレームワークを提案する。 画像コーデックの潜像空間は、クリーン画像が潜像空間のサブセットから低レートで復号化できるようにスケーラブルな方法で構成され、ノイズ画像は全潜像空間から高レートで復号化される。 提案コーデックは既存の圧縮およびデノナイジングベンチマークと比較され, 実験によりカスケード圧縮およびデノナイジングと比較して最大80%のビットレートの削減が認められた。

When it comes to image compression in digital cameras, denoising is traditionally performed prior to compression. However, there are applications where image noise may be necessary to demonstrate the trustworthiness of the image, such as court evidence and image forensics. This means that noise itself needs to be coded, in addition to the clean image itself. In this paper, we present a learnt image compression framework where image denoising and compression are performed jointly. The latent space of the image codec is organized in a scalable manner such that the clean image can be decoded from a subset of the latent space at a lower rate, while the noisy image is decoded from the full latent space at a higher rate. The proposed codec is compared against established compression and denoising benchmarks, and the experiments reveal considerable bitrate savings of up to 80% compared to cascade compression and denoising.
翻訳日:2022-05-05 15:10:42 公開日:2022-05-04
# カメラポーズ回帰のためのホモグラフィに基づく損失関数

Homography-Based Loss Function for Camera Pose Regression ( http://arxiv.org/abs/2205.01937v1 )

ライセンス: Link先を確認
Cl\'ementin Boittiaux (IFREMER), Ricard Marxer (LIS), Claire Dune (COSMER), Aur\'elien Arnaubec (IFREMER), Vincent Hugel (COSMER)(参考訳) 最近のビジュアルベース再ローカライズアルゴリズムは、画像データからカメラポーズの回帰を行うためのディープラーニング手法に依存している。 本稿では,2つのポーズ間の誤差を埋め込んで,深層学習に基づくカメラポーズ回帰を行う損失関数に着目した。 既存の損失関数は、訓練が難しい多目的関数か、地上の真理3Dシーンポイントに依存する不安定な再射誤差であり、2段階の訓練を必要とする。 これらの問題に対処するために,多面的ホモグラフィ統合に基づく新しい損失関数を導入する。 この新しい関数は事前初期化を必要とせず、物理的に解釈可能なハイパーパラメータのみに依存する。 さらに,十分に確立された再局在化データセット上で行った実験により,既存の損失関数と比較してトレーニング中の平均正方形再投影誤差が最小となることを示した。

Some recent visual-based relocalization algorithms rely on deep learning methods to perform camera pose regression from image data. This paper focuses on the loss functions that embed the error between two poses to perform deep learning based camera pose regression. Existing loss functions are either difficult-to-tune multi-objective functions or present unstable reprojection errors that rely on ground truth 3D scene points and require a two-step training. To deal with these issues, we introduce a novel loss function which is based on a multiplane homography integration. This new function does not require prior initialization and only depends on physically interpretable hyperparameters. Furthermore, the experiments carried out on well established relocalization datasets show that it minimizes best the mean square reprojection error during training when compared with existing loss functions.
翻訳日:2022-05-05 15:10:28 公開日:2022-05-04
# ニューラルシーン表現におけるSDFに基づくRGB-Dカメラ追跡

SDF-based RGB-D Camera Tracking in Neural Scene Representations ( http://arxiv.org/abs/2205.02079v1 )

ライセンス: Link先を確認
Leonard Bruns, Fereidoon Zangeneh, Patric Jensfelt(参考訳) 動作中のRGB-Dカメラの6Dポーズをニューラルシーン表現で追跡する問題を考察する。 このような表現が最近出現し,カメラトラッキングの課題に対するそれらの適合性を検討した。 特に, 符号付き距離場ベース表現を用いたRGB-Dカメラの追跡を提案し, 密度ベース表現と比較して, トラッキングが高速化され, 計算時間制限時のより堅牢で正確なポーズ推定が可能となることを示す。

We consider the problem of tracking the 6D pose of a moving RGB-D camera in a neural scene representation. Different such representations have recently emerged, and we investigate the suitability of them for the task of camera tracking. In particular, we propose to track an RGB-D camera using a signed distance field-based representation and show that compared to density-based representations, tracking can be sped up, which enables more robust and accurate pose estimates when computation time is limited.
翻訳日:2022-05-05 15:10:15 公開日:2022-05-04
# 自律走行車における軌道予測のための神経進化多目的アプローチ

Neuroevolutionary Multi-objective approaches to Trajectory Prediction in Autonomous Vehicles ( http://arxiv.org/abs/2205.02105v1 )

ライセンス: Link先を確認
Fergal Stapleton, Edgar Galv\'an, Ganesh Sistu and Senthil Yogamani(参考訳) 神経進化と呼ばれるプロセスであるディープニューラルネットワーク(dnn)の自動最適化とトレーニングに進化アルゴリズム(eas)を使用するインセンティブは、近年勢いを増している。 これらのネットワークの構成とトレーニングは最適化問題として考えられる。 実際、神経進化に関する最近の研究の多くは、単目的最適化に重点を置いている。 さらに、神経進化と進化的多目的最適化(EMO)の交差点で実施された小さな研究から、これまで実施されてきたすべての研究は、MNISTのような確立された標準ベンチマーク問題を使用して、1種類のDNN(畳み込みニューラルネットワーク)の使用に主に焦点を合わせてきた。 本研究では,CNNとLong-Short Term MemoryネットワークからなるリッチDNNを用いて,これら2つの領域(神経進化とEMO)の理解を飛躍的に進める。 さらに,ロバストで挑戦的な車両軌道予測問題を用いる。 既知の非支配的ソート遺伝アルゴリズムiiを用いて,3つのカテゴリでテストされた5つの異なる目的の効果について検討し,これらの目的が自律走行車における軌道予測に対する神経進化における肯定的あるいは有害な効果を示す。

The incentive for using Evolutionary Algorithms (EAs) for the automated optimization and training of deep neural networks (DNNs), a process referred to as neuroevolution, has gained momentum in recent years. The configuration and training of these networks can be posed as optimization problems. Indeed, most of the recent works on neuroevolution have focused their attention on single-objective optimization. Moreover, from the little research that has been done at the intersection of neuroevolution and evolutionary multi-objective optimization (EMO), all the research that has been carried out has focused predominantly on the use of one type of DNN: convolutional neural networks (CNNs), using well-established standard benchmark problems such as MNIST. In this work, we make a leap in the understanding of these two areas (neuroevolution and EMO), regarded in this work as neuroevolutionary multi-objective, by using and studying a rich DNN composed of a CNN and Long-short Term Memory network. Moreover, we use a robust and challenging vehicle trajectory prediction problem. By using the well-known Non-dominated Sorting Genetic Algorithm-II, we study the effects of five different objectives, tested in categories of three, allowing us to show how these objectives have either a positive or detrimental effect in neuroevolution for trajectory prediction in autonomous vehicles.
翻訳日:2022-05-05 15:10:05 公開日:2022-05-04
# COOPERNAUT:ネットワーク車両の協調認識によるエンドツーエンド運転

COOPERNAUT: End-to-End Driving with Cooperative Perception for Networked Vehicles ( http://arxiv.org/abs/2205.02222v1 )

ライセンス: Link先を確認
Jiaxun Cui, Hang Qiu, Dian Chen, Peter Stone, Yuke Zhu(参考訳) 自動運転車の光学センサーと学習アルゴリズムは、ここ数年で劇的に進歩している。 それでも、今日の自動運転車の信頼性は、視線感知能力の制限と、極端な状況に対処するデータ駆動方式の脆さによって妨げられている。 近年の通信技術の発展に伴い、車両間通信との協調認識は、危険な状況や緊急時の自律運転を強化するための有望なパラダイムとなっている。 本稿では,車間認識を用いたエンドツーエンド学習モデルであるCOOPERNAUTを紹介する。 このモデルはlidar情報をコンパクトなポイントベース表現にエンコードし,現実の無線チャネルを介して車両間のメッセージとして送信する。 このモデルを評価するために,ネットワーク型運転シミュレーションフレームワークであるautocastsimを開発した。 提案するautocastsim実験では,協調型知覚駆動モデルが,従来のv2vnetに比べて,エゴセントリック駆動モデルと比較して平均成功率40%向上し,帯域幅が5倍小さくなることが示唆された。 COOPERNAUTとAUTOCASTSIMはhttps://ut-austin-rpl.github.io/Coopernaut/.comで入手できる。

Optical sensors and learning algorithms for autonomous vehicles have dramatically advanced in the past few years. Nonetheless, the reliability of today's autonomous vehicles is hindered by the limited line-of-sight sensing capability and the brittleness of data-driven methods in handling extreme situations. With recent developments of telecommunication technologies, cooperative perception with vehicle-to-vehicle communications has become a promising paradigm to enhance autonomous driving in dangerous or emergency situations. We introduce COOPERNAUT, an end-to-end learning model that uses cross-vehicle perception for vision-based cooperative driving. Our model encodes LiDAR information into compact point-based representations that can be transmitted as messages between vehicles via realistic wireless channels. To evaluate our model, we develop AutoCastSim, a network-augmented driving simulation framework with example accident-prone scenarios. Our experiments on AutoCastSim suggest that our cooperative perception driving models lead to a 40% improvement in average success rate over egocentric driving models in these challenging driving situations and a 5 times smaller bandwidth requirement than prior work V2VNet. COOPERNAUT and AUTOCASTSIM are available at https://ut-austin-rpl.github.io/Coopernaut/.
翻訳日:2022-05-05 15:09:42 公開日:2022-05-04
# (参考訳) 地方自治体選挙における南アフリカの政治感情予測のための半教師付き学習アプローチ

Semi-supervised learning approaches for predicting South African political sentiment for local government elections ( http://arxiv.org/abs/2205.02223v1 )

ライセンス: CC BY 4.0
Mashadi Ledwaba and Vukosi Marivate(参考訳) 本研究は,地方選挙でTwitter上で共有された感情を分析し,南アフリカの政治状況を理解することを目的とする。 この分析は、ANC、DA、EFF、ActionSAの4大政党を中心にした議論の理解に重点が置かれた。 グラフベースの手法により、ツイートの分類に膨大なアクセス可能なtwitterデータを、ネガティブでポジティブな感情に分類する半教師付きアプローチが用いられた。 ネガティブな感情を表すツイートは、潜在トピック抽出を通じてさらに分析され、各政党に関連する関心事の隠れたトピックを明らかにする。 今回の調査結果は、南アフリカのtwitterユーザーの一般的な感情が、現在の与党であるancに投じられた最も悪いネガティブな感情を持つ4つの有力政党すべてに対して否定的であることを示している。

This study aims to understand the South African political context by analysing the sentiments shared on Twitter during the local government elections. An emphasis on the analysis was placed on understanding the discussions led around four predominant political parties ANC, DA, EFF and ActionSA. A semi-supervised approach by means of a graph-based technique to label the vast accessible Twitter data for the classification of tweets into negative and positive sentiment was used. The tweets expressing negative sentiment were further analysed through latent topic extraction to uncover hidden topics of concern associated with each of the political parties. Our findings demonstrated that the general sentiment across South African Twitter users is negative towards all four predominant parties with the worst negative sentiment among users projected towards the current ruling party, ANC, relating to concerns cantered around corruption, incompetence and loadshedding.
翻訳日:2022-05-05 15:08:24 公開日:2022-05-04
# 多スペクトル・SAR画像からの不変表現に対する自己教師付き学習

Self-Supervised Learning for Invariant Representations from Multi-Spectral and SAR Images ( http://arxiv.org/abs/2205.02049v1 )

ライセンス: Link先を確認
Pallavi Jain, Bianca Schoen-Phelan, Robert Ross(参考訳) 自己監視学習(SSL)は、いくつかのドメイン分類とセグメンテーションタスクにおいて新しい最先端技術となっている。 このうち、SSLの一般的なカテゴリはBYOLのような蒸留ネットワークである。 本研究では,自然のRGB画像と非自明に異なるリモートセンシング(RS)領域において,蒸留ネットワーク(BYOL)を適用したRSDnetを提案する。 マルチスペクトル (MS) と合成開口レーダ (SAR) センサは様々なスペクトルおよび空間分解能情報を提供するため, 不変な特徴埋め込みを学習するための暗黙拡張として利用した。 sslでrsベースの不変機能を学ぶために、rsdnetを2つの方法、すなわち単一チャネル特徴学習と3つのチャネル特徴学習で訓練した。 本研究は、ランダムMSおよびSARバンドからの単一チャネル特徴学習の有用性について、3つ以上のバンドを使用するという一般的な概念と比較した。 線形評価では,これらの単一チャネルはEuroSAT分類タスクで0.92F1、DFC分割タスクで59.6mIoUに達した。 また、この結果とImageNet重みを比較し、RSベースのSSLモデルは教師付きImageNetベースモデルよりも優れていることを示した。 さらに,マルチモーダルデータの有用性を単一モーダルデータと比較し,MSデータとSARデータを併用することで,MSデータとSARデータを併用するよりも優れた不変表現を学習できることを示した。

Self-Supervised learning (SSL) has become the new state-of-art in several domain classification and segmentation tasks. Of these, one popular category in SSL is distillation networks such as BYOL. This work proposes RSDnet, which applies the distillation network (BYOL) in the remote sensing (RS) domain where data is non-trivially different from natural RGB images. Since Multi-spectral (MS) and synthetic aperture radar (SAR) sensors provide varied spectral and spatial resolution information, we utilised them as an implicit augmentation to learn invariant feature embeddings. In order to learn RS based invariant features with SSL, we trained RSDnet in two ways, i.e., single channel feature learning and three channel feature learning. This work explores the usefulness of single channel feature learning from random MS and SAR bands compared to the common notion of using three or more bands. In our linear evaluation, these single channel features reached a 0.92 F1 score on the EuroSAT classification task and 59.6 mIoU on the DFC segmentation task for certain single bands. We also compared our results with ImageNet weights and showed that the RS based SSL model outperforms the supervised ImageNet based model. We further explored the usefulness of multi-modal data compared to single modality data, and it is shown that utilising MS and SAR data learn better invariant representations than utilising only MS data.
翻訳日:2022-05-05 14:53:23 公開日:2022-05-04
# Mobile-URSONet: 搭載型宇宙空間推定のための埋め込み型ニューラルネットワーク

Mobile-URSONet: an Embeddable Neural Network for Onboard Spacecraft Pose Estimation ( http://arxiv.org/abs/2205.02065v1 )

ライセンス: Link先を確認
Julien Posso, Guy Bois, Yvon Savaria(参考訳) 宇宙機ポーズ推定は、軌道上の操作の自律性を改善するための重要なコンピュータビジョンアプリケーションである。 ESA/スタンフォードの競争は、宇宙船に搭載されたコンピュータに課される制約とほとんど互換性のないソリューションを生み出した。 URSONetは、その一般化能力の競争で最も優れたものの1つだが、膨大な数のパラメータと高い計算複雑性を犠牲にしている。 本稿では,URSONetよりも4倍の精度で精度を低下させながら,パラメータの178倍のパラメータを持つ推定畳み込みニューラルネットワークを提案する。

Spacecraft pose estimation is an essential computer vision application that can improve the autonomy of in-orbit operations. An ESA/Stanford competition brought out solutions that seem hardly compatible with the constraints imposed on spacecraft onboard computers. URSONet is among the best in the competition for its generalization capabilities but at the cost of a tremendous number of parameters and high computational complexity. In this paper, we propose Mobile-URSONet: a spacecraft pose estimation convolutional neural network with 178 times fewer parameters while degrading accuracy by no more than four times compared to URSONet.
翻訳日:2022-05-05 14:52:59 公開日:2022-05-04
# 静止海洋カラーイメージ装置における海霧検出のためのデュアルブランチニューラルネットワーク

Dual Branch Neural Network for Sea Fog Detection in Geostationary Ocean Color Imager ( http://arxiv.org/abs/2205.02069v1 )

ライセンス: Link先を確認
Yuan Zhou and Keran Chen and Xiaofeng Li(参考訳) 海霧は海洋活動の安全性を著しく脅かしている。 本稿では,海霧データセット(SFDD)と二重分岐海霧検出ネットワーク(DB-SFNet)を開発する。 我々は,2010年から2020年にかけて,黄海とボーハイ海で観測されたすべての海霧 (118.1{\deg}E-128.1{\deg}E,29.5{\deg}N-43.8{\deg}N) を調査し,各イベントの海霧画像はGOCI(Geostationary Ocean Color Imager)から収集し,データセットSFDDを構成する。 SFDDの各画像中の海霧の位置を正確にマークする。 提案したデータセットは, 長期にわたるスパン, 多数のサンプル, 正確なラベル付けによって特徴付けられ, 様々な海霧検出モデルの堅牢性を大幅に向上させることができる。 さらに,両枝の海霧検出ネットワークを提案し,その精度と総合的な海霧検出を実現する。 ポロセドDB-SFNetは、知識抽出モジュールと、任意のデコードモジュールのデュアルブランチで構成される。 2つのモジュールは、視覚領域と統計領域の両方から識別的特徴を共同抽出する。 実験の結果, f1-score 0.77, 臨界成功率 0.63 の有望な海霧検出結果が得られた。 既存の高度なディープラーニングネットワークと比較して、DB-SFNetは特に雲と霧の混合領域において、検出性能と安定性に優れている。

Sea fog significantly threatens the safety of maritime activities. This paper develops a sea fog dataset (SFDD) and a dual branch sea fog detection network (DB-SFNet). We investigate all the observed sea fog events in the Yellow Sea and the Bohai Sea (118.1{\deg}E-128.1{\deg}E, 29.5{\deg}N-43.8{\deg}N) from 2010 to 2020, and collect the sea fog images for each event from the Geostationary Ocean Color Imager (GOCI) to comprise the dataset SFDD. The location of the sea fog in each image in SFDD is accurately marked. The proposed dataset is characterized by a long-time span, large number of samples, and accurate labeling, that can substantially improve the robustness of various sea fog detection models. Furthermore, this paper proposes a dual branch sea fog detection network to achieve accurate and holistic sea fog detection. The poporsed DB-SFNet is composed of a knowledge extraction module and a dual branch optional encoding decoding module. The two modules jointly extracts discriminative features from both visual and statistical domain. Experiments show promising sea fog detection results with an F1-score of 0.77 and a critical success index of 0.63. Compared with existing advanced deep learning networks, DB-SFNet is superior in detection performance and stability, particularly in the mixed cloud and fog areas.
翻訳日:2022-05-05 14:52:48 公開日:2022-05-04
# ANUBIS:新しいデータセットを用いた骨格に基づく行動認識手法のレビューとベンチマーク

ANUBIS: Review and Benchmark Skeleton-Based Action Recognition Methods with a New Dataset ( http://arxiv.org/abs/2205.02071v1 )

ライセンス: Link先を確認
Zhenyue Qin, Yang Liu, Madhawa Perera, Saeed Anwar, Tom Gedeon, Pan Ji, Dongwoo Kim(参考訳) 骨格に基づく行動認識は、行動認識のサブ領域として、注意と人気を素早く蓄積している。 タスクは、人間の調音点によって実行される動作を認識することである。 他のデータモダリティと比較すると、3D人間の骨格表現は簡潔さ、堅牢性、人種的偏見、その他多くの特徴を持つ。 我々は、新しい研究者や既存の研究者に対して、骨格に基づく行動認識の展望に関するロードマップを提供することを目指している。 そこで本研究では,骨格型行動認識の既存の研究について,分類学の形で概説する。 1)データセット,(2)空間的特徴の抽出,(3)時間的パターンのキャプチャ,(4)信号品質の向上の4つのカテゴリに分けた。 それぞれの方法について,簡潔で情報に乏しい記述を提供する。 骨格に基づく行動認識の既存のアプローチについて、より公平かつ包括的な評価を促進するために、大規模な人間の骨格データセットであるANUBISを収集する。 これまでに収集したデータと比較した場合,ANUBISは,(1)最近リリースしたセンサの活用,(2)新しいバックビューの活用,(3)高熱意の育成,(4)新型コロナウイルスのパンデミック時代の行動を含む4つの面で有利である。 ANUBISを用いて、現在の骨格に基づく行動認識器の性能を比較検討する。 本稿の最後には,新しい技術的問題をいくつか挙げて,骨格に基づく行動認識の今後の発展を展望する。 近い将来、骨格に基づく行動認識を商業化するためには、解決する価値があると考えています。 ANUBISのデータセットは以下の通りである。

Skeleton-based action recognition, as a subarea of action recognition, is swiftly accumulating attention and popularity. The task is to recognize actions performed by human articulation points. Compared with other data modalities, 3D human skeleton representations have extensive unique desirable characteristics, including succinctness, robustness, racial-impartiality, and many more. We aim to provide a roadmap for new and existing researchers a on the landscapes of skeleton-based action recognition for new and existing researchers. To this end, we present a review in the form of a taxonomy on existing works of skeleton-based action recognition. We partition them into four major categories: (1) datasets; (2) extracting spatial features; (3) capturing temporal patterns; (4) improving signal quality. For each method, we provide concise yet informatively-sufficient descriptions. To promote more fair and comprehensive evaluation on existing approaches of skeleton-based action recognition, we collect ANUBIS, a large-scale human skeleton dataset. Compared with previously collected dataset, ANUBIS are advantageous in the following four aspects: (1) employing more recently released sensors; (2) containing novel back view; (3) encouraging high enthusiasm of subjects; (4) including actions of the COVID pandemic era. Using ANUBIS, we comparably benchmark performance of current skeleton-based action recognizers. At the end of this paper, we outlook future development of skeleton-based action recognition by listing several new technical problems. We believe they are valuable to solve in order to commercialize skeleton-based action recognition in the near future. The dataset of ANUBIS is available at: http://hcc-workshop.anu.edu.au/webs/anu101/home.
翻訳日:2022-05-05 14:52:22 公開日:2022-05-04
# 多重画像インパインティングのための生成法の解析

An Analysis of Generative Methods for Multiple Image Inpainting ( http://arxiv.org/abs/2205.02146v1 )

ライセンス: Link先を確認
Coloma Ballester, Aurelie Bugeau, Samuel Hurault, Simone Parisotto, Patricia Vitoria(参考訳) イメージ・インペインティング(image inpainting)とは、オブザーバが検出できない方法で、欠落領域を持つイメージを復元することを指す。 塗装領域はどんな大きさでも形状でもよい。 これは、ユニークな解を持たない不測の逆問題である。 本研究では,損傷した画像に対して,複数の多彩な塗装を行うための学習に基づく画像補完手法に焦点をあてる。 これらの手法は、特定の生成モデルの確率的性質を利用して、欠落したコンテンツをコヒーレントに復元する様々な解をサンプリングする。 本章では、基礎となる理論を分析し、最近の複数のインパインティングの提案を分析する。 そこで,各手法の長所と短所を検討するために,共通データセットについて,塗装解の集合の品質と多様性について定量的・定性的に比較する。 我々の分析は、品質と多様性の両面において、最も成功した生成戦略を特定することができる。 この課題は、画像の正確な確率分布の学習と密接に関連している。 使用するデータセットによっては、これらのモデルのトレーニングを伴う課題は分析を通じて議論される。

Image inpainting refers to the restoration of an image with missing regions in a way that is not detectable by the observer. The inpainting regions can be of any size and shape. This is an ill-posed inverse problem that does not have a unique solution. In this work, we focus on learning-based image completion methods for multiple and diverse inpainting which goal is to provide a set of distinct solutions for a given damaged image. These methods capitalize on the probabilistic nature of certain generative models to sample various solutions that coherently restore the missing content. Along the chapter, we will analyze the underlying theory and analyze the recent proposals for multiple inpainting. To investigate the pros and cons of each method, we present quantitative and qualitative comparisons, on common datasets, regarding both the quality and the diversity of the set of inpainted solutions. Our analysis allows us to identify the most successful generative strategies in both inpainting quality and inpainting diversity. This task is closely related to the learning of an accurate probability distribution of images. Depending on the dataset in use, the challenges that entail the training of such a model will be discussed through the analysis.
翻訳日:2022-05-05 14:51:59 公開日:2022-05-04
# UnrealNAS: ニューラルネットワークを非現実データで検索できるか?

UnrealNAS: Can We Search Neural Architectures with Unreal Data? ( http://arxiv.org/abs/2205.02162v1 )

ライセンス: Link先を確認
Zhen Dong, Kaicheng Zhou, Guohao Li, Qiang Zhou, Mingfei Guo, Bernard Ghanem, Kurt Keutzer, and Shanghang Zhang(参考訳) ニューラルアーキテクチャサーチ(NAS)はディープニューラルネットワーク(DNN)の自動設計において大きな成功を収めている。 しかし、ネットワークアーキテクチャの検索にデータを使う最善の方法は、まだ不明であり、探索中である。 これまでの作業 [19, 46] は,NASに地道ラベルを持つことの必要性を分析し,幅広い関心を喚起した。 本研究では,NASが有効であるためには,実際のデータが必要であるかどうか,さらに議論する。 この質問に対する回答は、アクセス可能なデータ量が限られているアプリケーションにとって重要であり、データ生成の余分な柔軟性を活用することでNASを改善するのに役立つ。 nasが実際のデータを必要とするかどうかを調べるために、以下の3種類のunrealデータセットを構築します。 1) ランダムにラベルづけされた実画像 2) 生成された画像及びラベル 3)ランダムラベルを用いたガウス雑音の発生 これらのデータセットは、探索されたアーキテクチャの一般化と表現性を分析するのに役立つ。 本研究では,これらの構築したデータセットから検索したアーキテクチャの性能を,一般的な微分可能なNAS手法を用いて検討する。 CIFAR, ImageNet, CheXpert [12] の大規模な実験により, 検索したアーキテクチャは, 実際のラベル付きデータを用いた従来のNASパイプラインから得られたものと比較して, 有望な結果が得られることを示した。

Neural architecture search (NAS) has shown great success in the automatic design of deep neural networks (DNNs). However, the best way to use data to search network architectures is still unclear and under exploration. Previous work [19, 46] has analyzed the necessity of having ground-truth labels in NAS and inspired broad interest. In this work, we take a further step to question whether real data is necessary for NAS to be effective. The answer to this question is important for applications with limited amount of accessible data, and can help people improve NAS by leveraging the extra flexibility of data generation. To explore if NAS needs real data, we construct three types of unreal datasets using: 1) randomly labeled real images; 2) generated images and labels; and 3) generated Gaussian noise with random labels. These datasets facilitate to analyze the generalization and expressivity of the searched architectures. We study the performance of architectures searched on these constructed datasets using popular differentiable NAS methods. Extensive experiments on CIFAR, ImageNet and CheXpert [12] show that the searched architectures can achieve promising results compared with those derived from the conventional NAS pipeline with real labeled data, suggesting the feasibility of performing NAS with unreal data.
翻訳日:2022-05-05 14:51:43 公開日:2022-05-04
# 神経keyphrase抽出のための双曲的関連マッチング

Hyperbolic Relevance Matching for Neural Keyphrase Extraction ( http://arxiv.org/abs/2205.02047v1 )

ライセンス: Link先を確認
Mingyang Song, Yi Feng and Liping Jing(参考訳) キーフレーズ抽出は自然言語処理と情報検索の基本的な課題であり、ソース文書から重要な情報を持つフレーズの集合を抽出することを目的としている。 重要なキーフレーズを識別することは、キーフレーズ抽出タスクの中心的な構成要素であり、その主な課題は、情報を包括的に表現し、重要度を正確に判別する方法である。 本稿では,これらの問題に対処するために,同一の双曲空間におけるフレーズや文書を表現するための新しい双曲マッチングモデル(HyperMatch)を設計し,各フレーズの重要スコアとしてポアンカー距離を経由したフレーズ文書関連性を明示的に推定する。 具体的には、階層的な構文と意味構造情報をキャプチャするために、HyperMatchはRoBERTaの複数の層に隠された表現を活用し、適応混合層を介して単語埋め込みとして統合する。 一方、ドキュメントに隠された階層構造を考慮して、hypermatchは双曲句エンコーダと双曲文書エンコーダを介して、同じ双曲空間にフレーズとドキュメントの両方を埋め込む。 この戦略は双曲空間の良し悪しによる句文書の関連性の推定をさらに高めることができる。 この設定では、キーフレーズ抽出をマッチング問題とし、双曲マージンに基づく三重項損失を最小化することにより効果的に実現することができる。 6つのベンチマークで広範な実験が行われ、hypermatchが最先端のベースラインを上回ることを実証する。

Keyphrase extraction is a fundamental task in natural language processing and information retrieval that aims to extract a set of phrases with important information from a source document. Identifying important keyphrase is the central component of the keyphrase extraction task, and its main challenge is how to represent information comprehensively and discriminate importance accurately. In this paper, to address these issues, we design a new hyperbolic matching model (HyperMatch) to represent phrases and documents in the same hyperbolic space and explicitly estimate the phrase-document relevance via the Poincar\'e distance as the important score of each phrase. Specifically, to capture the hierarchical syntactic and semantic structure information, HyperMatch takes advantage of the hidden representations in multiple layers of RoBERTa and integrates them as the word embeddings via an adaptive mixing layer. Meanwhile, considering the hierarchical structure hidden in the document, HyperMatch embeds both phrases and documents in the same hyperbolic space via a hyperbolic phrase encoder and a hyperbolic document encoder. This strategy can further enhance the estimation of phrase-document relevance due to the good properties of hyperbolic space. In this setting, the keyphrase extraction can be taken as a matching problem and effectively implemented by minimizing a hyperbolic margin-based triplet loss. Extensive experiments are conducted on six benchmarks and demonstrate that HyperMatch outperforms the state-of-the-art baselines.
翻訳日:2022-05-05 14:49:53 公開日:2022-05-04
# 仮想エッジを用いて複雑なネットワークとしてモデル化されたテキストからキーワードを抽出する

Using virtual edges to extract keywords from texts modeled as complex networks ( http://arxiv.org/abs/2205.02172v1 )

ライセンス: Link先を確認
Jorge A. V. Tohalino and Thiago C. Silva and Diego R. Amancio(参考訳) テキスト中のキーワードを検出することは、多くのテキストマイニングアプリケーションにとって重要である。 グラフベースの手法はテキスト中の重要な概念を自動的に見つけるために一般的に用いられてきたが、埋め込みによって提供される関連情報はグラフ構造を強化するために広く使われていない。 ここでは,ノードが単語であり,エッジが文脈的あるいは意味的類似性によって確立されるテキスト共起ネットワークをモデル化する。 単語埋め込みによって生成されたエッジがキーワード抽出法の品質を向上させるかどうかを確認するために,Word2vecとBERTの2つの埋め込み手法を比較した。 実際、仮想エッジを使用することで、共起ネットワークの識別性が向上することがわかった。 仮想(埋め込み)エッジの追加率の低さを考慮すると,最高の性能が得られる。 構造的および動的ネットワークメトリクスの比較分析により、仮想エッジに富んだモデルにおける最高のパフォーマンスを示す指標として、PageRank、アクセシビリティが明らかになった。

Detecting keywords in texts is important for many text mining applications. Graph-based methods have been commonly used to automatically find the key concepts in texts, however, relevant information provided by embeddings has not been widely used to enrich the graph structure. Here we modeled texts co-occurrence networks, where nodes are words and edges are established either by contextual or semantical similarity. We compared two embedding approaches -- Word2vec and BERT -- to check whether edges created via word embeddings can improve the quality of the keyword extraction method. We found that, in fact, the use of virtual edges can improve the discriminability of co-occurrence networks. The best performance was obtained when we considered low percentages of addition of virtual (embedding) edges. A comparative analysis of structural and dynamical network metrics revealed the degree, PageRank, and accessibility are the metrics displaying the best performance in the model enriched with virtual edges.
翻訳日:2022-05-05 14:49:24 公開日:2022-05-04
# ベイズ近似を用いた歩行者将来の軌跡の不確実性推定

Uncertainty estimation of pedestrian future trajectory using Bayesian approximation ( http://arxiv.org/abs/2205.01887v1 )

ライセンス: Link先を確認
Anshul Nayak, Azim Eskandarian and Zachary Doerzaph(参考訳) 歩行者の軌跡予測に関する過去の研究は、主に将来の状態のポイント推定のみを提供する決定論的予測に焦点をあてた。 これらの将来の見積もりは、自動運転車が軌道を計画し衝突を避けるのに役立つ。 しかし、動的な交通シナリオでは、決定論的予測に基づく計画は信用できない。 むしろ、予測状態に関連する不確実性を一定の信頼度で推定することは、堅牢な経路計画につながる。 そこで本稿では,確率近似を用いて予測中の不確かさを定量化する手法を提案する。 現在の手法は単純で、ベイズ近似を標準的なニューラルネットワークアーキテクチャに応用して不確実性を推定する。 著者らは、確率的ニューラルネットワーク(nn)モデルと標準決定論的モデルとの予測を比較した。 その結果,確率モデルの平均予測経路は決定論的予測と比較すると基礎的真理に近いことがわかった。 さらに,重量の確率的減少と長期予測が将来の状態の不確実性に及ぼす影響について検討した。 その結果,確率モデルにより平均変位誤差 (ADE) や最終変位誤差 (FDE) などの性能指標が得られた。 最後に、研究は複数のデータセットに拡張され、各モデルに対する包括的な比較を提供する。

Past research on pedestrian trajectory forecasting mainly focused on deterministic predictions which provide only point estimates of future states. These future estimates can help an autonomous vehicle plan its trajectory and avoid collision. However, under dynamic traffic scenarios, planning based on deterministic predictions is not trustworthy. Rather, estimating the uncertainty associated with the predicted states with a certain level of confidence can lead to robust path planning. Hence, the authors propose to quantify this uncertainty during forecasting using stochastic approximation which deterministic approaches fail to capture. The current method is simple and applies Bayesian approximation during inference to standard neural network architectures for estimating uncertainty. The authors compared the predictions between the probabilistic neural network (NN) models with the standard deterministic models. The results indicate that the mean predicted path of probabilistic models was closer to the ground truth when compared with the deterministic prediction. Further, the effect of stochastic dropout of weights and long-term prediction on future state uncertainty has been studied. It was found that the probabilistic models produced better performance metrics like average displacement error (ADE) and final displacement error (FDE). Finally, the study has been extended to multiple datasets providing a comprehensive comparison for each model.
翻訳日:2022-05-05 14:49:08 公開日:2022-05-04
# (参考訳) 感情対抽出における位置バイアス低減のための多粒度意味認識グラフモデル

Multi-Granularity Semantic Aware Graph Model for Reducing Position Bias in Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2205.02132v1 )

ライセンス: CC BY 4.0
Yinan Bao, Qianwen Ma, Lingwei Wei, Wei Zhou, Songlin Hu(参考訳) Emotion-Cause Pair extract (ECPE)タスクは、文書から感情や原因をペアとして抽出することを目的としている。 感情と原因の相対的な距離分布は、典型的なECPEデータセットでは極めて不均衡である。 既存のメソッドでは、隣接する節間の関係をキャプチャする固定サイズウィンドウが設定されている。 しかし、遠隔節間の効果的な意味関係を無視し、位置非感受性データに対する一般化能力が低下する。 この問題を緩和するために、距離制限を伴わずに細粒度および粗粒度の意味的特徴を結合する新規な \textbf{M}ulti-\textbf{G}ranularity \textbf{S}emantic \textbf{A}ware \textbf{G}raph model (MGSAG) を提案する。 特に,文中の節とキーワードのセマンティック依存関係について,より詳細な意味的特徴を伝達する文書から抽出し,拡張された句表現を得る。 さらに、節間の粗粒度意味関係をモデル化するための節グラフも確立されている。 実験の結果,MGSAGは既存のECPEモデルを上回ることがわかった。 特にMGSAGは、位置非感性データの状態において、他のモデルよりも著しく優れている。

The Emotion-Cause Pair Extraction (ECPE) task aims to extract emotions and causes as pairs from documents. We observe that the relative distance distribution of emotions and causes is extremely imbalanced in the typical ECPE dataset. Existing methods have set a fixed size window to capture relations between neighboring clauses. However, they neglect the effective semantic connections between distant clauses, leading to poor generalization ability towards position-insensitive data. To alleviate the problem, we propose a novel \textbf{M}ulti-\textbf{G}ranularity \textbf{S}emantic \textbf{A}ware \textbf{G}raph model (MGSAG) to incorporate fine-grained and coarse-grained semantic features jointly, without regard to distance limitation. In particular, we first explore semantic dependencies between clauses and keywords extracted from the document that convey fine-grained semantic features, obtaining keywords enhanced clause representations. Besides, a clause graph is also established to model coarse-grained semantic relations between clauses. Experimental results indicate that MGSAG surpasses the existing state-of-the-art ECPE models. Especially, MGSAG outperforms other models significantly in the condition of position-insensitive data.
翻訳日:2022-05-05 14:46:35 公開日:2022-05-04
# 勾配向上決定木とエンリッチメントに基づく累積ゲインによる複合仮想スクリーニング

Compound virtual screening by learning-to-rank with gradient boosting decision tree and enrichment-based cumulative gain ( http://arxiv.org/abs/2205.02169v1 )

ライセンス: Link先を確認
Kairi Furui, Masahito Ohue(参考訳) 近年,情報検索に広く用いられている機械学習技術であるLearning-to-rankが,リガンドベースの仮想スクリーニング問題に適用され,新薬開発の初期段階を加速している。 ランキング予測モデルは順序関係に基づいて学習し、様々な環境からのアッセイデータを統合するのに適している。 複合スクリーニングにおけるランク予測の既存の研究は、一般に RankSVM と呼ばれる学習とランクの手法を用いている。 しかし、最近普及したグラデーションブースティング決定木(gbdt)ベースの学習からランクへの手法と比較や検証はされていない。 さらに,情報検索において正規化カウント累積ゲイン(NDCG)と呼ばれるランキング指標が広く用いられているが,予測が他のモデルよりも優れているかどうかを判断するのみである。 言い換えれば、ndcgは予測モデルがランダムな結果よりも悪い結果を生み出すことを認識できない。 それでも、NDCGはラーニング・ツー・ランクを用いた複合スクリーニングの性能評価に使われている。 本研究では,リガンドベースの仮想スクリーニングにおいて,ランキング損失関数付きGBDTモデル(lambdarank and lambdaloss)を用い,既存の RankSVM 法とGBDT モデルとの比較を行った。 また、ランキング予測の良否を適切に評価することを目的とした、新しいランキング指標である正規化富化割引累積利得(nedcg)を提案した。 その結果,学習からランクまでのGBDTモデルは,多様なデータセット上でのGBDTとRandSVMを用いた既存の回帰手法よりも優れていた。 さらに、NEDCGは、回帰による予測はマルチアッセイ、マルチデータセットデータセットにおけるランダムな予測と同等であり、複合スクリーニング性能のより直接的な評価に有用であることを示した。

Learning-to-rank, a machine learning technique widely used in information retrieval, has recently been applied to the problem of ligand-based virtual screening, to accelerate the early stages of new drug development. Ranking prediction models learn based on ordinal relationships, making them suitable for integrating assay data from various environments. Existing studies of rank prediction in compound screening have generally used a learning-to-rank method called RankSVM. However, they have not been compared with or validated against the gradient boosting decision tree (GBDT)-based learning-to-rank methods that have gained popularity recently. Furthermore, although the ranking metric called Normalized Discounted Cumulative Gain (NDCG) is widely used in information retrieval, it only determines whether the predictions are better than those of other models. In other words, NDCG is incapable of recognizing when a prediction model produces worse than random results. Nevertheless, NDCG is still used in the performance evaluation of compound screening using learning-to-rank. This study used the GBDT model with ranking loss functions, called lambdarank and lambdaloss, for ligand-based virtual screening; results were compared with existing RankSVM methods and GBDT models using regression. We also proposed a new ranking metric, Normalized Enrichment Discounted Cumulative Gain (NEDCG), which aims to properly evaluate the goodness of ranking predictions. Results showed that the GBDT model with learning-to-rank outperformed existing regression methods using GBDT and RankSVM on diverse datasets. Moreover, NEDCG showed that predictions by regression were comparable to random predictions in multi-assay, multi-family datasets, demonstrating its usefulness for a more direct assessment of compound screening performance.
翻訳日:2022-05-05 14:31:30 公開日:2022-05-04
# ラベル推論を用いた統一意味型入力

Unified Semantic Typing with Meaningful Label Inference ( http://arxiv.org/abs/2205.01826v1 )

ライセンス: Link先を確認
James Y. Huang, Bangzheng Li, Jiashu Xu, Muhao Chen(参考訳) セマンティックタイピングは、トークンやテキストコンテキストにおける関心の幅を関係、エンティティタイプ、イベントタイプといったセマンティックなカテゴリに分類することを目的としている。 セマンティックカテゴリの推論ラベルは、機械がテキストの構成要素を理解する方法を意味的に解釈する。 本論文では,入力とラベルの両方を結合意味埋め込み空間に投影することで,ラベル意味をキャプチャする意味型付け統合フレームワークUniSTを提案する。 語彙的および関係的意味型付けタスクを統一されたタスクとして定式化するために、タスク記述を入力と共同で符号化し、タスク固有のモデルコンポーネントを導入することなく、UniSTを異なるタスクに適応させることができる。 UniSTは、入力とラベルの意味的関連性がそれらの埋め込み類似性から反映されるように、マージンランキングの損失を最適化する。 実験では,エンティティ型付け,関係分類,イベント型付けの3つの意味型付けタスクにおいて,unistが強いパフォーマンスを実現することを実証した。 一方、UniSTはラベルのセマンティックな知識を効果的に伝達し、ほとんど見えない型や見えない型を推測する際の一般化性を大幅に向上させる。 さらに、複数のセマンティックタイピングタスクを統一フレームワーク内で共同でトレーニングすることで、単一のコンパクトなマルチタスクモデルが、専用のシングルタスクモデルと相性が良くなり、転送性も向上する。

Semantic typing aims at classifying tokens or spans of interest in a textual context into semantic categories such as relations, entity types, and event types. The inferred labels of semantic categories meaningfully interpret how machines understand components of text. In this paper, we present UniST, a unified framework for semantic typing that captures label semantics by projecting both inputs and labels into a joint semantic embedding space. To formulate different lexical and relational semantic typing tasks as a unified task, we incorporate task descriptions to be jointly encoded with the input, allowing UniST to be adapted to different tasks without introducing task-specific model components. UniST optimizes a margin ranking loss such that the semantic relatedness of the input and labels is reflected from their embedding similarity. Our experiments demonstrate that UniST achieves strong performance across three semantic typing tasks: entity typing, relation classification and event typing. Meanwhile, UniST effectively transfers semantic knowledge of labels and substantially improves generalizability on inferring rarely seen and unseen types. In addition, multiple semantic typing tasks can be jointly trained within the unified framework, leading to a single compact multi-tasking model that performs comparably to dedicated single-task models, while offering even better transferability.
翻訳日:2022-05-05 14:30:45 公開日:2022-05-04
# 外来種子を用いた種子誘導トピックの発見

Seed-Guided Topic Discovery with Out-of-Vocabulary Seeds ( http://arxiv.org/abs/2205.01845v1 )

ライセンス: Link先を確認
Yu Zhang, Yu Meng, Xuan Wang, Sheng Wang, Jiawei Han(参考訳) テキストコーパスから潜在トピックを発見することは何十年も前から研究されてきた。 既存のトピックモデルの多くは、完全に教師なしの設定を採用しており、その発見されたトピックは、ユーザのガイダンスを活用できないため、ユーザの特定の関心を満たさない可能性がある。 ユーザが提供した種を主題表現用語として利用する種誘導話題発見アプローチは存在するが,(1)外来種の存在と,(2)事前学習言語モデル(plm)の力という2つの要因にはあまり関心が持たない。 本稿では,種子誘導話題発見の課題を一般化し,語彙外種子を許容する。 我々は,plmの一般的な知識と入力コーパスから学習した局所意味論が相互に利益をもたらす新たな枠組みであるseetopicを提案する。 異なるドメインからの3つの実際のデータセットの実験は、トピックコヒーレンス、精度、多様性の観点から、SeeeTopicの有効性を示す。

Discovering latent topics from text corpora has been studied for decades. Many existing topic models adopt a fully unsupervised setting, and their discovered topics may not cater to users' particular interests due to their inability of leveraging user guidance. Although there exist seed-guided topic discovery approaches that leverage user-provided seeds to discover topic-representative terms, they are less concerned with two factors: (1) the existence of out-of-vocabulary seeds and (2) the power of pre-trained language models (PLMs). In this paper, we generalize the task of seed-guided topic discovery to allow out-of-vocabulary seeds. We propose a novel framework, named SeeTopic, wherein the general knowledge of PLMs and the local semantics learned from the input corpus can mutually benefit each other. Experiments on three real datasets from different domains demonstrate the effectiveness of SeeTopic in terms of topic coherence, accuracy, and diversity.
翻訳日:2022-05-05 14:30:22 公開日:2022-05-04
# 非自己回帰型機械翻訳:見た目ほど高速ではない

Non-Autoregressive Machine Translation: It's Not as Fast as it Seems ( http://arxiv.org/abs/2205.01966v1 )

ライセンス: Link先を確認
Jind\v{r}ich Helcl, Barry Haddow, Alexandra Birch(参考訳) 効率的な機械翻訳モデルは、推論速度を増加させ、コストと二酸化炭素排出量を削減できるため、商業的に重要である。 近年、より高速な翻訳を約束する非自己回帰型(nar)モデルに多くの関心が寄せられている。 NARモデルの研究と並行して、効率的な翻訳に関するWMT共有タスクの一部として最適化された自己回帰モデルを作成する試みが成功した。 本稿では,NARモデルに関する文献における評価手法の欠陥を指摘するとともに,現状のNARモデルと共有タスクに対する自己回帰的提案とを公平に比較する。 我々は,NARモデルの一貫した評価を行うとともに,NARモデルと他の広く使われている手法との比較を重要視する。 我々はC++で実装されたコネクショニスト時間分類ベース(CTC)NARモデルを用いて実験を行い、壁時計時間を用いたARモデルと比較した。 以上の結果から,NARモデルはGPU上では高速であり,バッチサイズは小さいが,より現実的な使用条件下ではほとんど遅いことがわかった。 我々は,今後の作業において,より現実的で広範なNARモデルの評価を求める。

Efficient machine translation models are commercially important as they can increase inference speeds, and reduce costs and carbon emissions. Recently, there has been much interest in non-autoregressive (NAR) models, which promise faster translation. In parallel to the research on NAR models, there have been successful attempts to create optimized autoregressive models as part of the WMT shared task on efficient translation. In this paper, we point out flaws in the evaluation methodology present in the literature on NAR models and we provide a fair comparison between a state-of-the-art NAR model and the autoregressive submissions to the shared task. We make the case for consistent evaluation of NAR models, and also for the importance of comparing NAR models with other widely used methods for improving efficiency. We run experiments with a connectionist-temporal-classification-based (CTC) NAR model implemented in C++ and compare it with AR models using wall clock times. Our results show that, although NAR models are faster on GPUs, with small batch sizes, they are almost always slower under more realistic usage conditions. We call for more realistic and extensive evaluation of NAR models in future work.
翻訳日:2022-05-05 14:30:07 公開日:2022-05-04
# 同一ニューロン, 異なる言語:多言語事前訓練モデルにおけるモルフォシンタクスの探索

Same Neurons, Different Languages: Probing Morphosyntax in Multilingual Pre-trained Models ( http://arxiv.org/abs/2205.02023v1 )

ライセンス: Link先を確認
Karolina Sta\'nczak, Edoardo Ponti, Lucas Torroba Hennigen, Ryan Cotterell, Isabelle Augenstein(参考訳) 多言語事前訓練モデルの成功は、明示的な監督がなくても複数の言語で共有される表現を学習できる能力によって支えられている。 しかし、これらのモデルがどのように言語を一般化するかはまだ不明である。 本研究では,多言語事前学習モデルが文法に関する言語・普遍的抽象化を導出できると推測する。 特に,異なる言語におけるニューロンの同一サブセットに形態合成情報が符号化されているかを検討する。 43の言語と14の形態素合成カテゴリについて,最先端のニューロンレベルプローブを用いて,最初の大規模実験を行った。 以上の結果から, ニューロン間の言語間重複は重要であるが, その範囲はカテゴリーによって異なり, 言語近接や事前学習データサイズによって異なる可能性が示唆された。

The success of multilingual pre-trained models is underpinned by their ability to learn representations shared by multiple languages even in absence of any explicit supervision. However, it remains unclear how these models learn to generalise across languages. In this work, we conjecture that multilingual pre-trained models can derive language-universal abstractions about grammar. In particular, we investigate whether morphosyntactic information is encoded in the same subset of neurons in different languages. We conduct the first large-scale empirical study over 43 languages and 14 morphosyntactic categories with a state-of-the-art neuron-level probe. Our findings show that the cross-lingual overlap between neurons is significant, but its extent may vary across categories and depends on language proximity and pre-training data size.
翻訳日:2022-05-05 14:28:43 公開日:2022-05-04
# ファクチュアル整合性検査の改善を目的としたマスケード要約法

Masked Summarization to Generate Factually Inconsistent Summaries for Improved Factual Consistency Checking ( http://arxiv.org/abs/2205.02035v1 )

ライセンス: Link先を確認
Hwanhee Lee, Kang Min Yoo, Joonsuk Park, Hwaran Lee, Kyomin Jung(参考訳) 近年の抽象要約システムの進歩にもかかわらず、生成した要約が原文と事実的一致するかどうかを判断することは依然として困難である。 この目的のために、最新のアプローチでは、事実整合性分類器を、事実一貫性と一貫性のない要約に基づいてトレーニングする。 幸運なことに、前者は既存の要約データセットの参照要約として簡単に利用できる。 しかし、ソーステキストが効果的であるためには、実際に一貫性がなく、かつ密接に関連している必要があるため、後者の生成は依然として課題である。 本稿では,ソーステキストと参照要約を用いて,キー情報をマスクした事実的一貫性のない要約を生成することを提案する。 7つのベンチマークデータセットを用いた実験により,本手法を用いて生成した要約に基づいて訓練した事実整合性分類器が既存モデルより優れ,人間の判断と競合する相関性を示すことがわかった。 また,本手法を用いて生成した要約の特徴も分析した。 トレーニング済みのモデルとコードをhttps://github.com/hwanheelee 1993/mfmaでリリースします。

Despite the recent advances in abstractive summarization systems, it is still difficult to determine whether a generated summary is factual consistent with the source text. To this end, the latest approach is to train a factual consistency classifier on factually consistent and inconsistent summaries. Luckily, the former is readily available as reference summaries in existing summarization datasets. However, generating the latter remains a challenge, as they need to be factually inconsistent, yet closely relevant to the source text to be effective. In this paper, we propose to generate factually inconsistent summaries using source texts and reference summaries with key information masked. Experiments on seven benchmark datasets demonstrate that factual consistency classifiers trained on summaries generated using our method generally outperform existing models and show a competitive correlation with human judgments. We also analyze the characteristics of the summaries generated using our method. We will release the pre-trained model and the code at https://github.com/hwanheelee1993/MFMA.
翻訳日:2022-05-05 14:28:28 公開日:2022-05-04
# コンポーネントアライメントによるテキストからSQLへの合成一般化の測定と改善

Measuring and Improving Compositional Generalization in Text-to-SQL via Component Alignment ( http://arxiv.org/abs/2205.02054v1 )

ライセンス: Link先を確認
Yujian Gan, Xinyun Chen, Qiuping Huang, Matthew Purver(参考訳) NLPの大部分がそうであるように、テキストからSQLへのタスクでは、構成的一般化は大きな課題である。 しかし、これを改善するための最近の試みは、単語レベルの合成データまたは特定のデータセット分割に基づいて構成バイアスを生成する。 本稿では,節レベルの構成例生成手法を提案する。 私たちはまず、SpiderのテキストからSQLへのデータセットの文をサブ文に分割し、それぞれのサブ文に対応するSQL節を注釈付けし、新しいデータセットのSpider-SSを作成しました。 次に、異なる組み合わせでSpider-SSサブ文を構成することで、さらに多くのデータセット、Spider-CGを構築し、構成を一般化するモデルの能力をテストする。 実験の結果、既存のモデルでは訓練中に全てのサブ文が見られたとしても、スパイダーCGで評価すると性能が著しく低下することがわかった。 この問題に対処するため,Spider-SSのセグメント化データをトレーニングするために,多数の最先端モデルを修正し,本手法により一般化性能が向上することを示す。

In text-to-SQL tasks -- as in much of NLP -- compositional generalization is a major challenge: neural networks struggle with compositional generalization where training and test distributions differ. However, most recent attempts to improve this are based on word-level synthetic data or specific dataset splits to generate compositional biases. In this work, we propose a clause-level compositional example generation method. We first split the sentences in the Spider text-to-SQL dataset into sub-sentences, annotating each sub-sentence with its corresponding SQL clause, resulting in a new dataset Spider-SS. We then construct a further dataset, Spider-CG, by composing Spider-SS sub-sentences in different combinations, to test the ability of models to generalize compositionally. Experiments show that existing models suffer significant performance degradation when evaluated on Spider-CG, even though every sub-sentence is seen during training. To deal with this problem, we modify a number of state-of-the-art models to train on the segmented data of Spider-SS, and we show that this method improves the generalization performance.
翻訳日:2022-05-05 14:28:11 公開日:2022-05-04
# 研究コミュニティを超えた再現性:NLPベギンナの経験

Reproducibility Beyond the Research Community: Experience from NLP Beginners ( http://arxiv.org/abs/2205.02182v1 )

ライセンス: Link先を確認
Shane Storks, Keunwoo Peter Yu, Joyce Chai(参考訳) NLP研究が大衆の注目と興奮を惹きつけるにつれ、幅広い聴衆にアクセスできることがますます重要になっている。 研究コミュニティがNLPの民主化に取り組んでいるため、この分野の初心者が最新の開発を容易に適用できるかどうかは不明だ。 本研究は,最近のNLP論文の成果を再現した入門NLPコースにおいて,93名の学生を対象に調査を行った。 意外なことに、我々の結果は、彼らの技術スキル(つまりプログラミングの経験)が、演習の完了に費やした労力に限られた影響を与えていることを示唆している。 その代わり、詳細なドキュメンテーションや必要なモデルやデータセットへの容易なアクセスなど、研究者によるアクセシビリティの取り組みが成功への鍵であることが分かっています。

As NLP research attracts public attention and excitement, it becomes increasingly important for it to be accessible to a broad audience. As the research community works to democratize NLP, it remains unclear whether beginners to the field can easily apply the latest developments. To understand their needs, we conducted a study with 93 students in an introductory NLP course, where students reproduced results of recent NLP papers. Surprisingly, our results suggest that their technical skill (i.e., programming experience) has limited impact on their effort spent completing the exercise. Instead, we find accessibility efforts by research authors to be key to a successful experience, including thorough documentation and easy access to required models and datasets.
翻訳日:2022-05-05 14:27:51 公開日:2022-05-04
# ユーザ中心のジェンダー書き換え

User-Centric Gender Rewriting ( http://arxiv.org/abs/2205.02211v1 )

ライセンス: Link先を確認
Bashar Alhafni, Nizar Habash, Houda Bouamor(参考訳) 本稿では,2人のユーザ(Iと/またはYou)が関係する文脈において,ジェンダーの書き直しを行うタスクを定義する。 アラビア語は形態学的に豊かな言語である。 ルールベースとニューラルリライトモデルの両方の肯定的な側面を組み合わせたマルチステップシステムを開発した。 本研究は,アラビア語のジェンダー書き直し用コーパスを用いて,ブラインドテストセットで88.42 M2 F0.5を達成した。 提案手法は,M2 F0.5の絶対的な増加率を3.05倍に向上させる。 本システムでは,市販mtシステムの出力を後編集し,ユーザの文法的性別嗜好に基づくパーソナライズアウトプットを提供することで,性別書き換えシステムのユースケースを実証する。 コード、データ、モデルを公開しています。

In this paper, we define the task of gender rewriting in contexts involving two users (I and/or You) - first and second grammatical persons with independent grammatical gender preferences. We focus on Arabic, a gender-marking morphologically rich language. We develop a multi-step system that combines the positive aspects of both rule-based and neural rewriting models. Our results successfully demonstrate the viability of this approach on a recently created corpus for Arabic gender rewriting, achieving 88.42 M2 F0.5 on a blind test set. Our proposed system improves over previous work on the first-person-only version of this task, by 3.05 absolute increase in M2 F0.5. We demonstrate a use case of our gender rewriting system by using it to post-edit the output of a commercial MT system to provide personalized outputs based on the users' grammatical gender preferences. We make our code, data, and models publicly available.
翻訳日:2022-05-05 14:27:38 公開日:2022-05-04
# UCL-Dehaze: 教師なしコントラスト学習による実世界のイメージデハジングを目指して

UCL-Dehaze: Towards Real-world Image Dehazing via Unsupervised Contrastive Learning ( http://arxiv.org/abs/2205.01871v1 )

ライセンス: Link先を確認
Yongzhen Wang, Xuefeng Yan, Fu Lee Wang, Haoran Xie, Wenhan Yang, Mingqiang Wei, Jing Qin(参考訳) 合成ヘイジーデータ上で画像デヘイジングモデルをトレーニングする知恵は、実世界のヘイジング/クリーン画像ペアの収集の難しさを緩和する一方で、よく知られたドメインシフト問題をもたらす。 異なる視点から,本論文では,非対向的学習を用いて,非対向的な現実のハズとクリーンなイメージを活用することで,合成と現実のハズとのギャップを埋めることを避けた。 UCL-Dehazeと呼ばれる画像復調のための効果的な教師なしコントラスト学習パラダイムを提案する。 unpaired real-world cleanとhazyのイメージは簡単にキャプチャでき、 ucl-dehazeネットワークをトレーニングする際には、それぞれ重要なポジティブなサンプルとネガティブなサンプルとして機能します。 ネットワークをより効果的に訓練するために,新たな自己コントラスト型知覚損失関数を定式化し,復元された画像が正のサンプルに近づき,埋め込み空間の負のサンプルに近づかないようにする。 UCL-Dehazeの全体的なネットワークアーキテクチャに加えて、正のサンプルとデハズされた画像の分布を整列するために、逆トレーニングが使用される。 最近の画像デハジング作業と比較すると、ucl-デハジングはトレーニング中にペアデータを必要としないため、非ペア正負のデータを使用してデハジング性能を向上させる。 ネットワークのトレーニングには1,800枚の無対訳実世界画像しか使われていないが,本研究はucl-dehazeの評価と最先端技術に対するその優位性を示すため,総合的な実験を実施している。 ソースコードはhttps://github.com/yz-wang/ucl-dehazeで入手できる。

While the wisdom of training an image dehazing model on synthetic hazy data can alleviate the difficulty of collecting real-world hazy/clean image pairs, it brings the well-known domain shift problem. From a different yet new perspective, this paper explores contrastive learning with an adversarial training effort to leverage unpaired real-world hazy and clean images, thus bridging the gap between synthetic and real-world haze is avoided. We propose an effective unsupervised contrastive learning paradigm for image dehazing, dubbed UCL-Dehaze. Unpaired real-world clean and hazy images are easily captured, and will serve as the important positive and negative samples respectively when training our UCL-Dehaze network. To train the network more effectively, we formulate a new self-contrastive perceptual loss function, which encourages the restored images to approach the positive samples and keep away from the negative samples in the embedding space. Besides the overall network architecture of UCL-Dehaze, adversarial training is utilized to align the distributions between the positive samples and the dehazed images. Compared with recent image dehazing works, UCL-Dehaze does not require paired data during training and utilizes unpaired positive/negative data to better enhance the dehazing performance. We conduct comprehensive experiments to evaluate our UCL-Dehaze and demonstrate its superiority over the state-of-the-arts, even only 1,800 unpaired real-world images are used to train our network. Source code has been available at https://github.com/yz-wang/UCL-Dehaze.
翻訳日:2022-05-05 14:25:24 公開日:2022-05-04
# 合成データを用いた階層型幼児ポーズ認識のための教師なしドメイン適応学習

Unsupervised Domain Adaptation Learning for Hierarchical Infant Pose Recognition with Synthetic Data ( http://arxiv.org/abs/2205.01892v1 )

ライセンス: Link先を確認
Cheng-Yen Yang, Zhongyu Jiang, Shih-Yu Gu, Jenq-Neng Hwang, Jang-Hee Yoo(参考訳) アルバータ・インファント・モーター・スケール(Alberta Infant Motor Scale, AIMS)は、乳児の運動発達を、特定のポーズの数を記録することで評価する、よく知られた評価手法である。 画像に基づくポーズ認識モデルの支援により、目的評価手順を短縮し、自動化し、早期診断や潜在的な発達障害の指標を提供する。 パブリックな幼児関連データセットが限られているため、多くの研究はSMILベースの方法で幼児の合成画像を生成する。 しかし、実際のトレーニングサンプルと合成トレーニングサンプルのこのドメインミスマッチは、しばしば推論時に性能劣化を引き起こす。 本稿では,乳幼児のイメージを入力とし,粗いポーズラベルと細粒度のポーズラベルを予測できるcnnモデルを提案する。 このモデルは画像分岐とポーズ分岐から成り、教師なし領域適応によって促進される粗いレベルのロジットと、SMPLify最適化を備えたHRNetを用いた3Dキーポイントを生成する。 その後、これらのブランチの出力は階層的なポーズ認識モジュールに送られ、詳細なポーズラベルを推定する。 750のリアルと4000の合成幼児画像とAIMSポーズラベルを含む新しいAIMSデータセットの収集とラベル付けも行います。 実験の結果,提案手法は合成データと実世界のデータセットの分布を著しく調整でき,細粒度乳幼児のポーズ認識における精度が向上した。

The Alberta Infant Motor Scale (AIMS) is a well-known assessment scheme that evaluates the gross motor development of infants by recording the number of specific poses achieved. With the aid of the image-based pose recognition model, the AIMS evaluation procedure can be shortened and automated, providing early diagnosis or indicator of potential developmental disorder. Due to limited public infant-related datasets, many works use the SMIL-based method to generate synthetic infant images for training. However, this domain mismatch between real and synthetic training samples often leads to performance degradation during inference. In this paper, we present a CNN-based model which takes any infant image as input and predicts the coarse and fine-level pose labels. The model consists of an image branch and a pose branch, which respectively generates the coarse-level logits facilitated by the unsupervised domain adaptation and the 3D keypoints using the HRNet with SMPLify optimization. Then the outputs of these branches will be sent into the hierarchical pose recognition module to estimate the fine-level pose labels. We also collect and label a new AIMS dataset, which contains 750 real and 4000 synthetic infants images with AIMS pose labels. Our experimental results show that the proposed method can significantly align the distribution of synthetic and real-world datasets, thus achieving accurate performance on fine-grained infant pose recognition.
翻訳日:2022-05-05 14:24:54 公開日:2022-05-04
# シーンクラスタリングに基づくマルチモーダル航空ビューオブジェクト分類のための擬似ラベル戦略

Scene Clustering Based Pseudo-labeling Strategy for Multi-modal Aerial View Object Classification ( http://arxiv.org/abs/2205.01920v1 )

ライセンス: Link先を確認
Jun Yu, Hao Chang, Keda Lu, Liwen Zhang, Shenshen Du(参考訳) 自動目標認識(ATR)におけるMAVOC(Multi-modal air view object classification)は,重要かつ困難な問題であるが,研究が進められている。 本稿では,まず,細粒度データ,クラス不均衡,種々の撮影条件が一般画像分類の表現能力を妨げることを見出した。 さらに,MAVOCデータセットはシーン集約特性を有する。 そこで本研究では,これらの特徴を生かして,シーンクラスタリングに基づく擬似ラベル戦略(scp-label)を提案する。 SCP-Labelは、同じラベルを同じシーン内のオブジェクトに割り当てると同時に、バイアスを軽減し、モデルのアンサンブルと混同する。 その性能は、トラック1(SAR)で+20.57%の精度、トラック2(SAR+EO)で+31.86%の精度で公式ベースラインを超え、後処理としてのSCP-Labelの可能性を示している。 最後に,CVPR 2022 Perception Beyond the Visible Spectrum (PBVS) Workshop MAVOC Challengeでトラック1とトラック2で優勝した。 私たちのコードはhttps://github.com/HowieChangchn/SCP-Label.comで利用可能です。

Multi-modal aerial view object classification (MAVOC) in Automatic target recognition (ATR), although an important and challenging problem, has been under studied. This paper firstly finds that fine-grained data, class imbalance and various shooting conditions preclude the representational ability of general image classification. Moreover, the MAVOC dataset has scene aggregation characteristics. By exploiting these properties, we propose Scene Clustering Based Pseudo-labeling Strategy (SCP-Label), a simple yet effective method to employ in post-processing. The SCP-Label brings greater accuracy by assigning the same label to objects within the same scene while also mitigating bias and confusion with model ensembles. Its performance surpasses the official baseline by a large margin of +20.57% Accuracy on Track 1 (SAR), and +31.86% Accuracy on Track 2 (SAR+EO), demonstrating the potential of SCP-Label as post-processing. Finally, we win the championship both on Track1 and Track2 in the CVPR 2022 Perception Beyond the Visible Spectrum (PBVS) Workshop MAVOC Challenge. Our code is available at https://github.com/HowieChangchn/SCP-Label.
翻訳日:2022-05-05 14:24:31 公開日:2022-05-04
# 場面認識のための意識に基づく知識蒸留におけるDCT駆動損失の影響

Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation for Scene Recognition ( http://arxiv.org/abs/2205.01997v1 )

ライセンス: Link先を確認
Alejandro L\'opez-Cifuentes, Marcos Escudero-Vi\~nolo, Jes\'us Besc\'os and Juan C. SanMiguel(参考訳) KD(Knowledge Distillation)は、畳み込みニューラルネットワークの効率を改善するために、伝達可能性ギャングの集合を定義するための戦略である。 機能ベースの知識蒸留(英: feature-based knowledge distillation)はkdのサブフィールドであり、ソース・ナレッジ(source knowledge)として最大活性化マップ(英語版)を介して不変または深さに縮小された中間ネットワーク表現に依存する。 本稿では,アクティベーションマップの2次元周波数変換を転送する前に利用することを提案し,解析する。 画素推定ではなくグローバルイメージキューを用いて,この戦略は,複数の概念と異なる概念の強い空間的・文脈的関係によって定義されたシーン認識などのタスクにおける知識伝達可能性を高める。 提案手法を検証するために,シーン認識における最先端の広範な評価を行う。 実験の結果,提案手法により,教師ネットワークが学習する関連画像領域に,学生ネットワークがより焦点を合わせることが可能となり,記述的特徴が向上し,他の最先端の代替品よりも高い転送性能が得られるという強い証拠が得られた。 本稿で使用するトレーニングおよび評価フレームワークをhttp://www-vpu.eps.uam.es/publications/dctbasedkdforscenerecognitionで公開します。

Knowledge Distillation (KD) is a strategy for the definition of a set of transferability gangways to improve the efficiency of Convolutional Neural Networks. Feature-based Knowledge Distillation is a subfield of KD that relies on intermediate network representations, either unaltered or depth-reduced via maximum activation maps, as the source knowledge. In this paper, we propose and analyse the use of a 2D frequency transform of the activation maps before transferring them. We pose that\textemdash by using global image cues rather than pixel estimates, this strategy enhances knowledge transferability in tasks such as scene recognition, defined by strong spatial and contextual relationships between multiple and varied concepts. To validate the proposed method, an extensive evaluation of the state-of-the-art in scene recognition is presented. Experimental results provide strong evidences that the proposed strategy enables the student network to better focus on the relevant image areas learnt by the teacher network, hence leading to better descriptive features and higher transferred performance than every other state-of-the-art alternative. We publicly release the training and evaluation framework used along this paper at http://www-vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognition.
翻訳日:2022-05-05 14:24:08 公開日:2022-05-04
# TransRank: ランク付けに基づく変換認識による自己教師型ビデオ表現学習

TransRank: Self-supervised Video Representation Learning via Ranking-based Transformation Recognition ( http://arxiv.org/abs/2205.02028v1 )

ライセンス: Link先を確認
Haodong Duan, Nanxuan Zhao, Kai Chen, Dahua Lin(参考訳) ビデオクリップ(RecogTrans)に適用される変換のタイプを認識することは,近年のインスタンス識別手法(InstDisc)と比較して非常に劣る,自己教師付きビデオ表現学習の長年のパラダイムである。 しかし,RecogTrans と InstDisc の手法を徹底的に比較した結果,RecogTrans が意味的および時間的の両方の下流タスクにおいて持つ大きな可能性について考察した。 ハードラベル分類に基づいて、既存のrecogtransアプローチはトレーニング前のノイズの多い監視信号に苦しむ。 この問題を軽減するために,ランキング定式化における変換認識のための統一フレームワークであるtransrankを開発した。 TransRankは変換を相対的に認識することで正確な監視信号を提供する。 一方、統一されたフレームワークは任意の時間的または空間的変換の集合でインスタンス化でき、良い一般性を示している。 ランキングに基づく定式化といくつかの経験的実践により,ビデオ検索と行動認識の競争性能が向上する。 同じ条件下で、TransRankは従来の最先端手法を6.4%、HMDB51では8.3%、UCF101では20.4%(R@1)に上回っている。 有望な結果は、RecogTransがビデオの自己教師型学習のパラダイムであることを示すものだ。 コードはhttps://github.com/kennymckormick/transrankでリリースされる。

Recognizing transformation types applied to a video clip (RecogTrans) is a long-established paradigm for self-supervised video representation learning, which achieves much inferior performance compared to instance discrimination approaches (InstDisc) in recent works. However, based on a thorough comparison of representative RecogTrans and InstDisc methods, we observe the great potential of RecogTrans on both semantic-related and temporal-related downstream tasks. Based on hard-label classification, existing RecogTrans approaches suffer from noisy supervision signals in pre-training. To mitigate this problem, we developed TransRank, a unified framework for recognizing Transformations in a Ranking formulation. TransRank provides accurate supervision signals by recognizing transformations relatively, consistently outperforming the classification-based formulation. Meanwhile, the unified framework can be instantiated with an arbitrary set of temporal or spatial transformations, demonstrating good generality. With a ranking-based formulation and several empirical practices, we achieve competitive performance on video retrieval and action recognition. Under the same setting, TransRank surpasses the previous state-of-the-art method by 6.4% on UCF101 and 8.3% on HMDB51 for action recognition (Top1 Acc); improves video retrieval on UCF101 by 20.4% (R@1). The promising results validate that RecogTrans is still a worth exploring paradigm for video self-supervised learning. Codes will be released at https://github.com/kennymckormick/TransRank.
翻訳日:2022-05-05 14:23:46 公開日:2022-05-04
# (参考訳) CTSARS-CoV-2セグメンテーションモデルを用いた3次元符号化の伝達性評価

Evaluating Transferability for Covid 3D Localization Using CT SARS-CoV-2 segmentation models ( http://arxiv.org/abs/2205.02152v1 )

ライセンス: CC BY 4.0
Constantine Maganaris, Eftychios Protopapadakis, Nikolaos Bakalos, Nikolaos Doulamis, Dimitris Kalogeras and Aikaterini Angeli(参考訳) 近年の研究では、CTスキャンにおける放射線画像パターンの検出は、新型コロナウイルスの局所化に高い感度と特異性をもたらすことが示されている。 本稿では,ct画像における肺炎感染領域の意味セグメンテーションのための,深層学習モデルの転送可能性について検討する。 トランスファー学習は、大量のトレーニングが利用できないため、検出モデルの迅速な初期化と再利用を可能にする。 本研究は,特定のCTデータセットを用いて,トレーニング済みのU-Netアーキテクチャを用いて,異なるデータセットの画像に対するCovid-19副作用を特定することの有効性を検討する。 実験結果から、新型コロナウイルス感染地域を特定するためのセグメンテーション精度の改善が示唆された。

Recent studies indicate that detecting radiographic patterns on CT scans can yield high sensitivity and specificity for COVID-19 localization. In this paper, we investigate the appropriateness of deep learning models transferability, for semantic segmentation of pneumonia-infected areas in CT images. Transfer learning allows for the fast initialization/ reutilization of detection models, given that large volumes of training are not available. Our work explores the efficacy of using pre-trained U-Net architectures, on a specific CT data set, for identifying Covid-19 side-effects over images from different datasets. Experimental results indicate improvement in the segmentation accuracy of identifying COVID-19 infected regions.
翻訳日:2022-05-05 14:22:22 公開日:2022-05-04
# 関係マッチングによる一般知識蒸留

Generalized Knowledge Distillation via Relationship Matching ( http://arxiv.org/abs/2205.01915v1 )

ライセンス: Link先を確認
Han-Jia Ye, Su Lu, De-Chuan Zhan(参考訳) よく訓練されたディープニューラルネットワーク(すなわち「教師」)の知識は、同様のタスクを学ぶのに有用である。 知識蒸留は教師から知識を抽出し、対象モデル(すなわち「学生」)と統合し、生徒の知識を拡大し、学習効果を向上させる。 この「一般知識蒸留(Generalized Knowledge Distillation, GKD)」では、教師と生徒のクラスは同じ、全く異なる、あるいは部分的に重複しているかもしれない。 我々は,各タスク間のスレッディングの知識として,インスタンス間の比較能力が重要であると主張し,組込みとトップ層分類器のGKDフローを分離するRelationship FacIlitated Local cLassifiEr Distillation (REFILLED)アプローチを提案する。 特に、モデル間のインスタンス-ラベルの信頼性の調整とは違い、REFILLEDでは、教師は生徒が推進するハードタプルを再重み付けし、インスタンス間の類似性比較レベルと一致させる必要がある。 教師モデルに基づく埋め込み型分類器は、生徒の分類信頼度を監督し、教師の最も関連する監督を適応的に強調する。 REFILLEDは、教師のクラスが同じから完全にオーバーラップされていないセットに変化するとき、生徒の強い差別能力を示す。 また、標準的な知識蒸留、ワンステップインクリメンタルラーニング、わずかな学習タスクで最先端のパフォーマンスを実現している。

The knowledge of a well-trained deep neural network (a.k.a. the "teacher") is valuable for learning similar tasks. Knowledge distillation extracts knowledge from the teacher and integrates it with the target model (a.k.a. the "student"), which expands the student's knowledge and improves its learning efficacy. Instead of enforcing the teacher to work on the same task as the student, we borrow the knowledge from a teacher trained from a general label space -- in this "Generalized Knowledge Distillation (GKD)", the classes of the teacher and the student may be the same, completely different, or partially overlapped. We claim that the comparison ability between instances acts as an essential factor threading knowledge across tasks, and propose the RElationship FacIlitated Local cLassifiEr Distillation (REFILLED) approach, which decouples the GKD flow of the embedding and the top-layer classifier. In particular, different from reconciling the instance-label confidence between models, REFILLED requires the teacher to reweight the hard tuples pushed forward by the student and then matches the similarity comparison levels between instances. An embedding-induced classifier based on the teacher model supervises the student's classification confidence and adaptively emphasizes the most related supervision from the teacher. REFILLED demonstrates strong discriminative ability when the classes of the teacher vary from the same to a fully non-overlapped set w.r.t. the student. It also achieves state-of-the-art performance on standard knowledge distillation, one-step incremental learning, and few-shot learning tasks.
翻訳日:2022-05-05 14:09:25 公開日:2022-05-04
# 漁業データと海底温度予測の併用による魚類位置の予測

Prediction of fish location by combining fisheries data and sea bottom temperature forecasting ( http://arxiv.org/abs/2205.02107v1 )

ライセンス: Link先を確認
Matthieu Ospici, Klaas Sys, Sophie Guegan-Marat(参考訳) 本論文は,北海のベルギー漁業で一般的に漁獲される2種 (plaiceとsole) の時空間的存在を予測するために,水産依存データと環境データを組み合わせて機械学習パイプラインで使用する。 漁業関連特徴と環境データとを組み合わせることで、リモートセンシングによる海底温度を高い精度で得ることができる。 予測設定では、過去の温度測定に頼るのではなく、繰り返しの深層ニューラルネットワークを用いて海底温度を最大4日前まで予測することにより予測精度をさらに向上する。

This paper combines fisheries dependent data and environmental data to be used in a machine learning pipeline to predict the spatio-temporal abundance of two species (plaice and sole) commonly caught by the Belgian fishery in the North Sea. By combining fisheries related features with environmental data, sea bottom temperature derived from remote sensing, a higher accuracy can be achieved. In a forecast setting, the predictive accuracy is further improved by predicting, using a recurrent deep neural network, the sea bottom temperature up to four days in advance instead of relying on the last previous temperature measurement.
翻訳日:2022-05-05 14:08:56 公開日:2022-05-04
# Domino Saliency Metrics: 構造情報による既存のチャンネルのSaliency Metricsの改善

Domino Saliency Metrics: Improving Existing Channel Saliency Metrics with Structural Information ( http://arxiv.org/abs/2205.02131v1 )

ライセンス: Link先を確認
Kaveena Persand, Andrew Anderson, David Gregg(参考訳) チャネルプルーニングは、畳み込みニューラルネットワーク(CNN)の重量を減らすために用いられる。 チャネルプルーニングは、重みテンソルのスライスを除去し、畳み込み層が密度を保ち続ける。 これらの重みを1つの層から取り除くと、ネットワークの層間でのフィーチャマップのミスマッチ数が生じる。 単純な解決策は、後続のレイヤからウェイトスライスを取り除くことで、レイヤ間のフィーチャーマップの数を一致させることである。 この追加の制約は、ネットワークを高密度に保つために複数のチャネルをプルーピングする必要がある分岐を持つdnnでより顕著になる。 一般的なプルーニングサリエンシメトリクスは、ブランチを持つDNNで発生する構造的依存関係に影響を及ぼさない。 このような構造的制約を反映したDominoメトリック(既存のチャネルサリエンシメトリクスに基づく)を提案する。 ブランチを持つ複数のネットワーク上で、ベースラインチャネルサリエンシメトリクスに対して、ドミノサリエンシメトリクスをテストします。 Domino saliencyのメトリクスは、ほとんどのテストネットワークでプルーニング率を改善し、CIFAR-10でAlexNetで25%まで改善した。

Channel pruning is used to reduce the number of weights in a Convolutional Neural Network (CNN). Channel pruning removes slices of the weight tensor so that the convolution layer remains dense. The removal of these weight slices from a single layer causes mismatching number of feature maps between layers of the network. A simple solution is to force the number of feature map between layers to match through the removal of weight slices from subsequent layers. This additional constraint becomes more apparent in DNNs with branches where multiple channels need to be pruned together to keep the network dense. Popular pruning saliency metrics do not factor in the structural dependencies that arise in DNNs with branches. We propose Domino metrics (built on existing channel saliency metrics) to reflect these structural constraints. We test Domino saliency metrics against the baseline channel saliency metrics on multiple networks with branches. Domino saliency metrics improved pruning rates in most tested networks and up to 25% in AlexNet on CIFAR-10.
翻訳日:2022-05-05 14:08:47 公開日:2022-05-04
# fairlib: 分類公平性の評価と改善のための統一フレームワーク

fairlib: A Unified Framework for Assessing and Improving Classification Fairness ( http://arxiv.org/abs/2205.01876v1 )

ライセンス: Link先を確認
Xudong Han, Aili Shen, Yitong Li, Lea Frermann, Timothy Baldwin, Trevor Cohn(参考訳) 本稿では,分類公正性を評価・改善するためのオープンソースフレームワークである Fairlib を提案する。 既存のベースラインモデルを迅速に再現し、新しいメソッドを開発し、異なるメトリクスでモデルを評価し、結果を視覚化するための体系的なフレームワークを提供する。 そのモジュラリティと拡張性により、自然言語、画像、音声など、さまざまな入力タイプにフレームワークを使用することができる。 具体的には,プリプロセッシング,アトトレーニング時間,ポストプロセッシング手法を含む14のデバイアス手法を実装した。 組み込まれたメトリクスは最も一般的に使用されるフェアネス基準をカバーし、フェアネス評価をより一般化しカスタマイズすることができる。

This paper presents fairlib, an open-source framework for assessing and improving classification fairness. It provides a systematic framework for quickly reproducing existing baseline models, developing new methods, evaluating models with different metrics, and visualizing their results. Its modularity and extensibility enable the framework to be used for diverse types of inputs, including natural language, images, and audio. In detail, we implement 14 debiasing methods, including pre-processing, at-training-time, and post-processing approaches. The built-in metrics cover the most commonly used fairness criterion and can be further generalized and customized for fairness evaluation.
翻訳日:2022-05-05 14:05:59 公開日:2022-05-04
# イザベル・エニグマは

The Isabelle ENIGMA ( http://arxiv.org/abs/2205.01981v1 )

ライセンス: Link先を確認
Zarathustra A. Goertzel, Jan Jakub\r{u}v, Cezary Kaliszyk, Miroslav Ol\v{s}\'ak, Jelle Piepenbrock, Josef Urban(参考訳) 我々は、Isabelle Sledgehammer問題におけるE自動定理証明器の性能を、学習と定理証明を組み合わせることで改善する。 特に、イザベル問題に対するenigmaガイダンスのターゲットバージョン、ニューラルネットワークの前提選択のターゲットバージョン、e.isabelleから抽出された数十万の非型および型付き1次問題に対して、いくつかのイテレーションでトレーニングされた方法のターゲット戦略を開発しました。 我々の最後の最高のシングルストラテジーENIGMAと前提選択システムは、15秒でEのベストバージョンを25.3%改善し、他のATPやSMTシステムよりも優れています。

We significantly improve the performance of the E automated theorem prover on the Isabelle Sledgehammer problems by combining learning and theorem proving in several ways. In particular, we develop targeted versions of the ENIGMA guidance for the Isabelle problems, targeted versions of neural premise selection, and targeted strategies for E. The methods are trained in several iterations over hundreds of thousands untyped and typed first-order problems extracted from Isabelle. Our final best single-strategy ENIGMA and premise selection system improves the best previous version of E by 25.3% in 15 seconds, outperforming also all other previous ATP and SMT systems.
翻訳日:2022-05-05 14:05:51 公開日:2022-05-04
# ワイルドパターンの再ロード - トレーニングデータ中毒に対する機械学習セキュリティに関する調査

Wild Patterns Reloaded: A Survey of Machine Learning Security against Training Data Poisoning ( http://arxiv.org/abs/2205.01992v1 )

ライセンス: Link先を確認
Antonio Emanuele Cin\`a, Kathrin Grosse, Ambra Demontis, Sebastiano Vascon, Werner Zellinger, Bernhard A. Moser, Alina Oprea, Battista Biggio, Marcello Pelillo, Fabio Roli(参考訳) 機械学習の成功は、コンピューティングパワーと大規模なトレーニングデータセットの可用性の向上に支えられている。 トレーニングデータは、テスト時に遭遇するデータを十分に代表していると仮定して、新しいモデルの学習や既存のモデルの更新に使用される。 この仮定は、モデルのテスト時のパフォーマンスを損なうためにトレーニングデータを操作する攻撃である中毒の脅威によって挑戦される。 毒殺は産業分野での脅威として認められており、これまで様々な攻撃や防衛策が提案されてきたが、完全に体系化され、この分野の批判的レビューはいまだに欠落している。 本調査では,過去15年間の現場で200以上の論文をレビューし,機械学習における毒殺攻撃と防御の包括的体系化について紹介する。 まず、現在の脅威モデルと攻撃を分類し、それに従って既存の防衛を組織化します。 主にコンピュータビジョンのアプリケーションに焦点を当てていますが、当社のシステム化には最先端の攻撃や、他のデータモダリティに対する防御も含まれています。 最後に, 中毒研究の既存の資源について考察し, 現状の限界と今後の研究課題を明らかにした。

The success of machine learning is fueled by the increasing availability of computing power and large training datasets. The training data is used to learn new models or update existing ones, assuming that it is sufficiently representative of the data that will be encountered at test time. This assumption is challenged by the threat of poisoning, an attack that manipulates the training data to compromise the model's performance at test time. Although poisoning has been acknowledged as a relevant threat in industry applications, and a variety of different attacks and defenses have been proposed so far, a complete systematization and critical review of the field is still missing. In this survey, we provide a comprehensive systematization of poisoning attacks and defenses in machine learning, reviewing more than 200 papers published in the field in the last 15 years. We start by categorizing the current threat models and attacks, and then organize existing defenses accordingly. While we focus mostly on computer-vision applications, we argue that our systematization also encompasses state-of-the-art attacks and defenses for other data modalities. Finally, we discuss existing resources for research in poisoning, and shed light on the current limitations and open research questions in this research field.
翻訳日:2022-05-05 14:05:38 公開日:2022-05-04
# MAD:多変量時系列に対する自己監督型マスケアノマリー検出タスク

MAD: Self-Supervised Masked Anomaly Detection Task for Multivariate Time Series ( http://arxiv.org/abs/2205.02100v1 )

ライセンス: Link先を確認
Yiwei Fu, Feng Xue(参考訳) 本稿では,多変量時系列異常検出のための汎用自己教師型学習タスクであるMasked Anomaly Detection (MAD)を紹介する。 産業システムからのセンサデータの可用性が高まる中、多変量時系列データのストリームから異常を検出することが重要となる。 現実の応用における異常の不足を考えると、文献の大半は正規性をモデル化することに集中している。 学習された正規表現は、モデルが特定の鍵となるデータレギュラーをキャプチャすることを学び、異常検出を促進することができる。 典型的な定式化は予測モデル、すなわち時系列データのウィンドウを使って将来のデータ値を予測することである。 本稿では,代替の自己教師付き学習タスクを提案する。 入力の一部をランダムにマスキングし、残りの部分を使ってモデルを推定するように訓練することにより、MADは従来の左から右への次のステップ予測(NSP)タスクよりも改善される。 実験により,MADはニューラルネットワーク(NN)ベースモデルと全く同じ場合,従来のNSPアプローチよりも優れた異常検出率を達成でき,同じハードウェア上でテスト時間中にNSPモデルと同じくらい高速に動作できるように修正可能であることを示し,既存のNSPベースのNN異常検出モデルに最適なアップグレードとなる。

In this paper, we introduce Masked Anomaly Detection (MAD), a general self-supervised learning task for multivariate time series anomaly detection. With the increasing availability of sensor data from industrial systems, being able to detecting anomalies from streams of multivariate time series data is of significant importance. Given the scarcity of anomalies in real-world applications, the majority of literature has been focusing on modeling normality. The learned normal representations can empower anomaly detection as the model has learned to capture certain key underlying data regularities. A typical formulation is to learn a predictive model, i.e., use a window of time series data to predict future data values. In this paper, we propose an alternative self-supervised learning task. By randomly masking a portion of the inputs and training a model to estimate them using the remaining ones, MAD is an improvement over the traditional left-to-right next step prediction (NSP) task. Our experimental results demonstrate that MAD can achieve better anomaly detection rates over traditional NSP approaches when using exactly the same neural network (NN) base models, and can be modified to run as fast as NSP models during test time on the same hardware, thus making it an ideal upgrade for many existing NSP-based NN anomaly detection models.
翻訳日:2022-05-05 14:05:19 公開日:2022-05-04
# 機械学習に基づくロバスト価格感性推定フレームワークと航空会社価格への適用

Machine Learning based Framework for Robust Price-Sensitivity Estimation with Application to Airline Pricing ( http://arxiv.org/abs/2205.01875v1 )

ライセンス: Link先を確認
Ravi Kumar, Shahin Boluki, Karl Isler, Jonas Rauch and Darius Walczak(参考訳) 我々は,機能依存価格感度が存在する場合,製品の動的価格設定の問題を考える。 ポアソン半パラメトリック手法に基づいて、価格関連部がパラメトリックであり、残りの(ノイズ)部が非パラメトリックであり、洗練されたML技術を用いてモデル化できる柔軟な解釈可能な需要モデルを構築する。 このモデルの価格-感受性パラメータの直接1段階回帰手法による推定は、偏りのある推定に繋がる可能性がある。 本研究では,モデルのニュアサンスパラメータのバイアスに対してロバストな価格・感受性パラメータを推定する2段階推定手法を提案する。 第1段階では、ディープニューラルネットワークのような洗練されたML推定器を用いて、特徴ベクトルから得られる観測された購入と価格の推定器を構築する。 推定器を第1段階から利用し、第2段階においてベイズ力学一般化線形モデルを用いて価格感度パラメータを推定する。 本研究では,Airline 産業のシミュレーションおよび実販売取引データに基づいて,提案手法の性能を検証した。 この2段階の手法は, 直接的な1段階の手法に比べて, 価格感受性パラメータの精度が高いことを示す。

We consider the problem of dynamic pricing of a product in the presence of feature-dependent price sensitivity. Based on the Poisson semi-parametric approach, we construct a flexible yet interpretable demand model where the price related part is parametric while the remaining (nuisance) part of the model is non-parametric and can be modeled via sophisticated ML techniques. The estimation of price-sensitivity parameters of this model via direct one-stage regression techniques may lead to biased estimates. We propose a two-stage estimation methodology which makes the estimation of the price-sensitivity parameters robust to biases in the nuisance parameters of the model. In the first-stage we construct the estimators of observed purchases and price given the feature vector using sophisticated ML estimators like deep neural networks. Utilizing the estimators from the first-stage, in the second-stage we leverage a Bayesian dynamic generalized linear model to estimate the price-sensitivity parameters. We test the performance of the proposed estimation schemes on simulated and real sales transaction data from Airline industry. Our numerical studies demonstrate that the two-stage approach provides more accurate estimates of price-sensitivity parameters as compared to direct one-stage approach.
翻訳日:2022-05-05 14:04:56 公開日:2022-05-04
# 非定常オンライン学習における2次経路変動

Second Order Path Variationals in Non-Stationary Online Learning ( http://arxiv.org/abs/2205.01921v1 )

ライセンス: Link先を確認
Dheeraj Baby and Yu-Xiang Wang(参考訳) 我々は,exp-concave と smooth loss の下での普遍的動的後悔の最小化の問題を考える。 そこで,n$は時間軸であり,c_n$はコンパレータ列の2次差に基づく経路変動である,$\tilde o(d^2 n^{1/5} c_n^{2/5} \vee d^2)$の動的後悔を適切に設計した強適応アルゴリズムが達成することを示す。 このような経路変分法は、区分線形であるコンパレータ列を自然にエンコードする -- 様々な非定常パターンを追跡する強力なファミリー -- (kim et al, 2009)。 上記の動的後悔率は、最適モジュラー次元依存およびn$の多対数因子であることが示されている。 我々の証明手法はオフラインオラクルのkkt条件の解析に依存しており、2021年のbaby and wangにおけるアイデアのいくつかの非自明な一般化を必要としており、後者の仕事は現在の問題に対して$\tilde o(d^{2.5}n^{1/3}c_n^{2/3} \vee d^{2.5})$の動的後悔率をもたらすだけである。

We consider the problem of universal dynamic regret minimization under exp-concave and smooth losses. We show that appropriately designed Strongly Adaptive algorithms achieve a dynamic regret of $\tilde O(d^2 n^{1/5} C_n^{2/5} \vee d^2)$, where $n$ is the time horizon and $C_n$ a path variational based on second order differences of the comparator sequence. Such a path variational naturally encodes comparator sequences that are piecewise linear -- a powerful family that tracks a variety of non-stationarity patterns in practice (Kim et al, 2009). The aforementioned dynamic regret rate is shown to be optimal modulo dimension dependencies and poly-logarithmic factors of $n$. Our proof techniques rely on analysing the KKT conditions of the offline oracle and requires several non-trivial generalizations of the ideas in Baby and Wang, 2021, where the latter work only leads to a slower dynamic regret rate of $\tilde O(d^{2.5}n^{1/3}C_n^{2/3} \vee d^{2.5})$ for the current problem.
翻訳日:2022-05-05 14:03:36 公開日:2022-05-04
# マニフォールド2サンプル実験:ニューラルネットワークを用いた積分確率測定

A Manifold Two-Sample Test Study: Integral Probability Metric with Neural Networks ( http://arxiv.org/abs/2205.02043v1 )

ライセンス: Link先を確認
Jie Wang, Minshuo Chen, Tuo Zhao, Wenjing Liao, Yao Xie(参考訳) 2サンプルテストは、2つの観測コレクションが同じ分布に従うかどうかを判断する重要な領域である。 低次元多様体上に支持された高次元試料に対する積分確率距離(IPM)に基づく2サンプル試験を提案する。 我々は,本質次元 $d$ を持つ多様体の構造およびサンプル $n$ の個数に関して,提案するテストの性質を特徴付ける。 アトラスが与えられると、一般分布の違いを特定するための2段階のテストを提案し、これは$n^{-1/\max\{d,2\}}$の順序でタイプIIリスクを達成する。 atlasが与えられない場合、$(s,\beta)$-H\'older densitiesを持つデータ分布に適用可能なH\older IPMテストを提案し、$n^{-(s+\beta)/d}$の順でタイプIIリスクを達成する。 ニューラルネットワークを用いてH\"older IPMの評価を行う際の計算負荷を軽減するために,H\"older関数クラスを近似した。 ニューラルネットワークの近似理論に基づき、ニューラルネットワークipmテストは、h\"older ipmテストと同じ2型リスクである$n^{-(s+\beta)/d}$の順でタイプiiのリスクを持つことを示した。 提案手法は,データ次元ではなく本質的な次元に大きく依存するため,低次元の幾何学的構造に適応する。

Two-sample tests are important areas aiming to determine whether two collections of observations follow the same distribution or not. We propose two-sample tests based on integral probability metric (IPM) for high-dimensional samples supported on a low-dimensional manifold. We characterize the properties of proposed tests with respect to the number of samples $n$ and the structure of the manifold with intrinsic dimension $d$. When an atlas is given, we propose two-step test to identify the difference between general distributions, which achieves the type-II risk in the order of $n^{-1/\max\{d,2\}}$. When an atlas is not given, we propose H\"older IPM test that applies for data distributions with $(s,\beta)$-H\"older densities, which achieves the type-II risk in the order of $n^{-(s+\beta)/d}$. To mitigate the heavy computation burden of evaluating the H\"older IPM, we approximate the H\"older function class using neural networks. Based on the approximation theory of neural networks, we show that the neural network IPM test has the type-II risk in the order of $n^{-(s+\beta)/d}$, which is in the same order of the type-II risk as the H\"older IPM test. Our proposed tests are adaptive to low-dimensional geometric structure because their performance crucially depends on the intrinsic dimension instead of the data dimension.
翻訳日:2022-05-05 14:03:07 公開日:2022-05-04
# SGDパラメータフリー化

Making SGD Parameter-Free ( http://arxiv.org/abs/2205.02160v1 )

ライセンス: Link先を確認
Yair Carmon and Oliver Hinder(参考訳) パラメータフリー確率凸最適化 (SCO) のアルゴリズムを開発し, 収束率は対応するパラメータ設定の最適値よりも大きい2対数係数である。 対照的に、パラメータフリーSCOの最もよく知られたレートは、オンラインパラメータフリーの後悔境界に基づいており、これは既知のパラメーターと比べ、避けられない過剰な対数項を含む。 このアルゴリズムは概念的に単純であり、高い確率保証を持ち、未知の勾配ノルム、滑らかさ、強い凸性にも部分的に適応している。 結果の核心は,SGDステップサイズ選択のための新しいパラメータフリー証明書と,SGDのa-プリオリ境界が反復しないと仮定する時間一様濃度の結果である。

We develop an algorithm for parameter-free stochastic convex optimization (SCO) whose rate of convergence is only a double-logarithmic factor larger than the optimal rate for the corresponding known-parameter setting. In contrast, the best previously known rates for parameter-free SCO are based on online parameter-free regret bounds, which contain unavoidable excess logarithmic terms compared to their known-parameter counterparts. Our algorithm is conceptually simple, has high-probability guarantees, and is also partially adaptive to unknown gradient norms, smoothness, and strong convexity. At the heart of our results is a novel parameter-free certificate for SGD step size choice, and a time-uniform concentration result that assumes no a-priori bounds on SGD iterates.
翻訳日:2022-05-05 14:02:38 公開日:2022-05-04
# coca:コントラストキャプションは画像テキストの基礎モデル

CoCa: Contrastive Captioners are Image-Text Foundation Models ( http://arxiv.org/abs/2205.01917v1 )

ライセンス: Link先を確認
Jiahui Yu, Zirui Wang, Vijay Vasudevan, Legg Yeung, Mojtaba Seyedhosseini, Yonghui Wu(参考訳) 大規模に事前訓練された基礎モデルを探索することは、コンピュータビジョンにおいて重要な関心事である。 本稿では,Contrastive Captioner(CoCa)について,コントラスト的損失とキャプション的損失とを併用した画像テキストエンコーダ・デコーダ基礎モデルの事前学習を行い,CLIPのようなコントラスト的アプローチとSimVLMのような生成的手法によるモデル能力の仮定を行う。 すべてのデコーダ層がエンコーダ出力に付随する標準的なエンコーダ・デコーダ変換器とは対照的に、CoCaはデコーダ層前半のクロスアテンションを省略してアンモダルテキスト表現をエンコードし、マルチモーダル画像テキスト表現のためにイメージエンコーダと交差する残りのデコーダ層をカスケードする。 我々は,テキストトークンを自動回帰的に予測するマルチモーダルデコーダ出力のキャプション損失に加えて,非モーダル画像とテキスト埋め込みのコントラストロスを適用した。 同じ計算グラフを共有することにより、2つの訓練対象を最小のオーバーヘッドで効率的に計算する。 CoCaは、すべてのラベルを単にテキストとして扱い、表現学習のための自然言語監督をシームレスに統一することで、Webスケールのalt-textデータとアノテーション付きイメージの両方を、終末から終末まで事前訓練する。 実証的には、CoCaは、画像認識(ImageNet, Kinetics-400/600/700, Moments-in-Time)、クロスモーダル検索(MSCOCO, Flickr30K, MSR-VTT)、マルチモーダル理解(VQA, SNLI-VE, NLVR2)、画像キャプション(MSCOCOCO, NoCaps)など、幅広いダウンストリームタスクに対して、ゼロショット転送または最小のタスク固有適応による最先端のパフォーマンスを達成する。 特にImageNetの分類では、CoCaは86.3%のゼロショットトップ1精度、90.6%の冷凍エンコーダと学習した分類ヘッド、そして精巧なエンコーダでImageNetの91.0%の新しい最先端トップ1精度を得る。

Exploring large-scale pretrained foundation models is of significant interest in computer vision because these models can be quickly transferred to many downstream tasks. This paper presents Contrastive Captioner (CoCa), a minimalist design to pretrain an image-text encoder-decoder foundation model jointly with contrastive loss and captioning loss, thereby subsuming model capabilities from contrastive approaches like CLIP and generative methods like SimVLM. In contrast to standard encoder-decoder transformers where all decoder layers attend to encoder outputs, CoCa omits cross-attention in the first half of decoder layers to encode unimodal text representations, and cascades the remaining decoder layers which cross-attend to the image encoder for multimodal image-text representations. We apply a contrastive loss between unimodal image and text embeddings, in addition to a captioning loss on the multimodal decoder outputs which predicts text tokens autoregressively. By sharing the same computational graph, the two training objectives are computed efficiently with minimal overhead. CoCa is pretrained end-to-end and from scratch on both web-scale alt-text data and annotated images by treating all labels simply as text, seamlessly unifying natural language supervision for representation learning. Empirically, CoCa achieves state-of-the-art performance with zero-shot transfer or minimal task-specific adaptation on a broad range of downstream tasks, spanning visual recognition (ImageNet, Kinetics-400/600/700, Moments-in-Time), crossmodal retrieval (MSCOCO, Flickr30K, MSR-VTT), multimodal understanding (VQA, SNLI-VE, NLVR2), and image captioning (MSCOCO, NoCaps). Notably on ImageNet classification, CoCa obtains 86.3% zero-shot top-1 accuracy, 90.6% with a frozen encoder and learned classification head, and new state-of-the-art 91.0% top-1 accuracy on ImageNet with a finetuned encoder.
翻訳日:2022-05-05 14:01:38 公開日:2022-05-04
# SVTS:スケーラブルなビデオ音声合成

SVTS: Scalable Video-to-Speech Synthesis ( http://arxiv.org/abs/2205.02058v1 )

ライセンス: Link先を確認
Rodrigo Mira, Alexandros Haliassos, Stavros Petridis, Bj\"orn W. Schuller and Maja Pantic(参考訳) ビデオ音声合成(英語: Video-to-speech synthesis)は、サイレント唇の動きを対応する音声に変換することを指す。 このタスクは、自己監督的な性質(手動ラベリングなしでトレーニングできる)と、オンラインで利用可能な音声視覚データの収集によって、注目を集めている。 こうした強いモチベーションにもかかわらず、現代のビデオ音声作品は主に語彙と設定の両方にかなりの制約がある中小コーパスに焦点を当てている。 本研究では,メル周波数のスペクトログラムを波形音声に変換する,ビデオ対スペクトログラム予測器と事前学習されたニューラルネットワークボコーダという,2つのコンポーネントからなるスケーラブルなビデオ対音声フレームワークを提案する。 GRIDの最先端技術とLRWに対する従来のアプローチをかなり上回る結果を得た。 さらに重要なことは、単純なフィードフォワードモデルを使ってスペクトログラムの予測に焦点をあてることで、この手法を非常に大きくて訓練されていないデータセットに効率的かつ効果的に拡張することが可能である。

Video-to-speech synthesis (also known as lip-to-speech) refers to the translation of silent lip movements into the corresponding audio. This task has received an increasing amount of attention due to its self-supervised nature (i.e., can be trained without manual labelling) combined with the ever-growing collection of audio-visual data available online. Despite these strong motivations, contemporary video-to-speech works focus mainly on small- to medium-sized corpora with substantial constraints in both vocabulary and setting. In this work, we introduce a scalable video-to-speech framework consisting of two components: a video-to-spectrogram predictor and a pre-trained neural vocoder, which converts the mel-frequency spectrograms into waveform audio. We achieve state-of-the art results for GRID and considerably outperform previous approaches on LRW. More importantly, by focusing on spectrogram prediction using a simple feedforward model, we can efficiently and effectively scale our method to very large and unconstrained datasets: To the best of our knowledge, we are the first to show intelligible results on the challenging LRS3 dataset.
翻訳日:2022-05-05 14:00:48 公開日:2022-05-04
# (参考訳) 分散データストリームにおける連続モデルの改良について

On Continual Model Refinement in Out-of-Distribution Data Streams ( http://arxiv.org/abs/2205.02014v1 )

ライセンス: CC BY 4.0
Bill Yuchen Lin, Sida Wang, Xi Victoria Lin, Robin Jia, Lin Xiao, Xiang Ren, Wen-tau Yih(参考訳) 現実世界の自然言語処理(nlp)モデルは、破滅的な忘れを克服しながら、out-of-distribution(ood)データストリームの予測エラーを修正するために継続的に更新される必要がある。 しかし、既存の継続学習(CL)問題設定はそのような現実的で複雑なシナリオをカバーできない。 そこで本研究では,連続モデルリファインメント(cmr)と呼ばれる新しいcl問題定式化を提案する。 以前のcl設定と比較すると、cmrはより実用的であり、ユニークな課題(バウンダリ非依存の分散シフト、複数のoodデータクラスタの多様な混合、エラー中心ストリームなど)を導入する。 既存のCLアプローチをCMR設定に拡張し、それらを広範囲に評価する。 ベンチマークと解析のために,制御可能な非定常性を持つ動的OODデータストリームを得るための一般的なサンプリングアルゴリズムと,オンラインパフォーマンスのさまざまな側面を測定するメトリクスセットを提案する。 実験と詳細な分析により,CMR問題の可能性と課題を明らかにし,動的OODストリームにおけるCMRの研究が実運用におけるNLPモデルの長寿命化に有効であることを示す。

Real-world natural language processing (NLP) models need to be continually updated to fix the prediction errors in out-of-distribution (OOD) data streams while overcoming catastrophic forgetting. However, existing continual learning (CL) problem setups cannot cover such a realistic and complex scenario. In response to this, we propose a new CL problem formulation dubbed continual model refinement (CMR). Compared to prior CL settings, CMR is more practical and introduces unique challenges (boundary-agnostic and non-stationary distribution shift, diverse mixtures of multiple OOD data clusters, error-centric streams, etc.). We extend several existing CL approaches to the CMR setting and evaluate them extensively. For benchmarking and analysis, we propose a general sampling algorithm to obtain dynamic OOD data streams with controllable non-stationarity, as well as a suite of metrics measuring various aspects of online performance. Our experiments and detailed analysis reveal the promise and challenges of the CMR problem, supporting that studying CMR in dynamic OOD streams can benefit the longevity of deployed NLP models in production.
翻訳日:2022-05-05 13:59:24 公開日:2022-05-04
# 画像分類のための深部LSTM

Sequencer: Deep LSTM for Image Classification ( http://arxiv.org/abs/2205.01972v1 )

ライセンス: Link先を確認
Yuki Tatsunami, Masato Taki(参考訳) 近年のコンピュータビジョン研究において、視覚変換器(ViT)の出現は、様々なアーキテクチャ設計の取り組みに急速に革命をもたらした: ViTは自然言語処理で見られる自己認識を用いて最先端の画像分類性能を達成し、MLP-Mixerは単純な多層パーセプトロンを用いて競争性能を達成した。 対照的に、いくつかの研究は慎重に再設計された畳み込みニューラルネットワーク(cnns)がこれらの新しいアイデアを使わずにvitに匹敵する高度な性能を達成することができることを示唆している。 この背景に対して、インダクティブバイアスがコンピュータビジョンに適しているかへの関心が高まっている。 ここでは、これらの問題に対する新たな視点を提供するViTに代わる、斬新で競争力のあるアーキテクチャであるSequencerを提案する。 ViTとは異なり、Sequencerは自己アテンション層ではなくLSTMを使用して長距離依存関係をモデル化する。 また,Squencerモジュールの2次元バージョンを提案し,LSTMを垂直および水平のLSTMに分解して性能を向上させる。 Sequencer2D-Lは54Mパラメータを持つが、ImageNet-1Kでのみ84.6\%のトップ-1精度を実現する。 それだけでなく、転送性も良好で、ダブルレゾリューションバンドでのロバストな解像度適応性も示しています。

In recent computer vision research, the advent of the Vision Transformer (ViT) has rapidly revolutionized various architectural design efforts: ViT achieved state-of-the-art image classification performance using self-attention found in natural language processing, and MLP-Mixer achieved competitive performance using simple multi-layer perceptrons. In contrast, several studies have also suggested that carefully redesigned convolutional neural networks (CNNs) can achieve advanced performance comparable to ViT without resorting to these new ideas. Against this background, there is growing interest in what inductive bias is suitable for computer vision. Here we propose Sequencer, a novel and competitive architecture alternative to ViT that provides a new perspective on these issues. Unlike ViTs, Sequencer models long-range dependencies using LSTMs rather than self-attention layers. We also propose a two-dimensional version of Sequencer module, where an LSTM is decomposed into vertical and horizontal LSTMs to enhance performance. Despite its simplicity, several experiments demonstrate that Sequencer performs impressively well: Sequencer2D-L, with 54M parameters, realizes 84.6\% top-1 accuracy on only ImageNet-1K. Not only that, we show that it has good transferability and the robust resolution adaptability on double resolution-band.
翻訳日:2022-05-05 13:39:36 公開日:2022-05-04
# ダイナミックスパースR-CNN

Dynamic Sparse R-CNN ( http://arxiv.org/abs/2205.02101v1 )

ライセンス: Link先を確認
Qinghang Hong, Fengming Liu, Dong Li, Ji Liu, Lu Tian, Yi Shan(参考訳) Sparse R-CNNは、スパースで学習可能な提案ボックスと提案機能のセット予測による、最近の強力なオブジェクト検出ベースラインである。 本研究では2つの動的設計によるスパースR-CNNの改良を提案する。 まず、スパース r-cnn は1対1のラベル割り当てスキームを採用し、ハンガリーのアルゴリズムは各基底真理に対して1つの正のサンプルだけをマッチングするために適用される。 このような一対一の割り当ては、学習されたプロポーザルボックスと基底真理のマッチングに最適ではないかもしれない。 この問題に対処するため,Sparse R-CNNの反復学習段階において,増加傾向を示すサンプルを割り当てる最適な輸送アルゴリズムに基づく動的ラベル割り当て(DLA)を提案する。 我々は、後段が精度を向上した改良された提案を生成するため、逐次段階においてマッチングが徐々に緩くなるように制約する。 第2に、Sparse R-CNNの推論プロセスにおいて、学習した提案ボックスと機能は、異なる画像に対して固定されている。 動的畳み込みによって動機付けられた動的提案生成(DPG)を提案し、複数の提案エキスパートを動的に組み立て、より優れた初期提案ボックスと連続訓練段階の機能を提供する。 従って、DPGはサンプル依存の提案ボックスと推論の機能を引き出すことができる。 実験により,動的スパースR-CNNと呼ばれる手法は,オブジェクト検出のための異なるバックボーンを持つ強力なスパースR-CNNベースラインを向上できることが示された。 特に、Dynamic Sparse R-CNNは、CoCO 2017の検証セットで最先端の47.2% APに達し、同じResNet-50バックボーンを持つSparse R-CNNの2.2% APを上回っている。

Sparse R-CNN is a recent strong object detection baseline by set prediction on sparse, learnable proposal boxes and proposal features. In this work, we propose to improve Sparse R-CNN with two dynamic designs. First, Sparse R-CNN adopts a one-to-one label assignment scheme, where the Hungarian algorithm is applied to match only one positive sample for each ground truth. Such one-to-one assignment may not be optimal for the matching between the learned proposal boxes and ground truths. To address this problem, we propose dynamic label assignment (DLA) based on the optimal transport algorithm to assign increasing positive samples in the iterative training stages of Sparse R-CNN. We constrain the matching to be gradually looser in the sequential stages as the later stage produces the refined proposals with improved precision. Second, the learned proposal boxes and features remain fixed for different images in the inference process of Sparse R-CNN. Motivated by dynamic convolution, we propose dynamic proposal generation (DPG) to assemble multiple proposal experts dynamically for providing better initial proposal boxes and features for the consecutive training stages. DPG thereby can derive sample-dependent proposal boxes and features for inference. Experiments demonstrate that our method, named Dynamic Sparse R-CNN, can boost the strong Sparse R-CNN baseline with different backbones for object detection. Particularly, Dynamic Sparse R-CNN reaches the state-of-the-art 47.2% AP on the COCO 2017 validation set, surpassing Sparse R-CNN by 2.2% AP with the same ResNet-50 backbone.
翻訳日:2022-05-05 13:39:14 公開日:2022-05-04
# 細粒度視覚分類と物体再同定のための2段階横断学習

Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-Identification ( http://arxiv.org/abs/2205.02151v1 )

ライセンス: Link先を確認
Haowei Zhu, Wenjing Ke, Dong Li, Ji Liu, Lu Tian, Yi Shan(参考訳) 近年,多種多様なNLPおよびCVタスクにおいて自己認識機構が顕著な性能を示しており,逐次的特性を捉え,グローバルな情報を導き出すのに役立つ。 本研究では,鳥種や個体の識別など,細粒度物体を認識するための微妙な特徴埋め込みを学習するために,自己照応モジュールを拡張する方法について検討する。 そこで本研究では,自己注意学習と協調する2つの相互注意学習(DCAL)アルゴリズムを提案する。 まずグローバル・ローカル・クロスアテンション(GLCA)を提案し,グローバル・イメージとローカル・高応答領域の相互作用を強化することにより,認識のための空間的識別的手がかりを強化する。 次に、画像ペア間の相互作用を確立するために、ペアワイズ・クロスアテンション(PWCA)を提案する。 PWCAは、別の画像をイントラクタとして扱い、推論中に取り除くことにより、画像の注意学習を規則化することができる。 我々は,DCALが誤認を低減し,注意応答を拡散させ,より相補的な認識部位を発見することを観察した。 我々は,細粒度視覚分類と物体再識別に関する広範囲な評価を行う。 実験の結果、DCALは最先端の手法と同等に動作し、例えばDeiT-TinyとViT-Baseをそれぞれ2.8%、MSMT17では2.4%の自己注意ベースラインを継続的に改善している。

Recently, self-attention mechanisms have shown impressive performance in various NLP and CV tasks, which can help capture sequential characteristics and derive global information. In this work, we explore how to extend self-attention modules to better learn subtle feature embeddings for recognizing fine-grained objects, e.g., different bird species or person identities. To this end, we propose a dual cross-attention learning (DCAL) algorithm to coordinate with self-attention learning. First, we propose global-local cross-attention (GLCA) to enhance the interactions between global images and local high-response regions, which can help reinforce the spatial-wise discriminative clues for recognition. Second, we propose pair-wise cross-attention (PWCA) to establish the interactions between image pairs. PWCA can regularize the attention learning of an image by treating another image as distractor and will be removed during inference. We observe that DCAL can reduce misleading attentions and diffuse the attention response to discover more complementary parts for recognition. We conduct extensive evaluations on fine-grained visual categorization and object re-identification. Experiments demonstrate that DCAL performs on par with state-of-the-art methods and consistently improves multiple self-attention baselines, e.g., surpassing DeiT-Tiny and ViT-Base by 2.8% and 2.4% mAP on MSMT17, respectively.
翻訳日:2022-05-05 13:38:31 公開日:2022-05-04
# 偉大な真実は常に単純である: 事前学習されたモデルの常識推論能力を高めるための、かなり単純な知識エンコーダ

Great Truths are Always Simple: A Rather Simple Knowledge Encoder for Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models ( http://arxiv.org/abs/2205.01841v1 )

ライセンス: Link先を確認
Jinhao Jiang, Kun Zhou, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 自然言語における常識推論は、人工知能システムの望ましい能力である。 複雑なコモンセンス推論タスクを解決するために、典型的な解決策は、知識を意識したグラフニューラルネットワーク~(GNN)エンコーダで事前訓練された言語モデル~(PTM)を強化することである。 有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。 この問題を考慮し、我々は深い経験分析を行い、主にPTMの性能改善に寄与するCSKGs(ノード特徴ではない)と関係性があることを発見した。 この発見に基づいて,統計的関係経路を特徴として用いたシンプルなMLPベースの知識エンコーダを設計する。 5つのベンチマークで広範な実験を行った結果,本手法の有効性が示され,cskgの符号化パラメータも大幅に削減された。 私たちのコードとデータはhttps://github.com/rucaibox/safeで公開されています。

Commonsense reasoning in natural language is a desired ability of artificial intelligent systems. For solving complex commonsense reasoning tasks, a typical solution is to enhance pre-trained language models~(PTMs) with a knowledge-aware graph neural network~(GNN) encoder that models a commonsense knowledge graph~(CSKG). Despite the effectiveness, these approaches are built on heavy architectures, and can't clearly explain how external knowledge resources improve the reasoning capacity of PTMs. Considering this issue, we conduct a deep empirical analysis, and find that it is indeed relation features from CSKGs (but not node features) that mainly contribute to the performance improvement of PTMs. Based on this finding, we design a simple MLP-based knowledge encoder that utilizes statistical relation paths as features. Extensive experiments conducted on five benchmarks demonstrate the effectiveness of our approach, which also largely reduces the parameters for encoding CSKGs. Our codes and data are publicly available at https://github.com/RUCAIBox/SAFE.
翻訳日:2022-05-05 13:37:22 公開日:2022-05-04
# Go Back in Time: イベント一時的なプロンプトによるストーリー中のフラッシュバックの生成

Go Back in Time: Generating Flashbacks in Stories with Event Temporal Prompts ( http://arxiv.org/abs/2205.01898v1 )

ライセンス: Link先を確認
Rujun Han, Hong Chen, Yufei Tian, Nanyun Peng(参考訳) 物語や物語は一連の出来事から成り立っている。 興味深いストーリーを構成するために、プロのライターはしばしばflashbackと呼ばれる創造的なライティング技術を利用して、過去の出来事を現在のストーリーラインに挿入します。 しかし、事象の時間順序(例えば「eat」以前の「空腹」など)をしっかり理解し、初期の出来事が常に物語順に現れるわけではないようにストーリーラインを配置する創造性が必要であるため、機械がフラッシュバックを生成するのは困難である。 課題を悪化させる既存システムの2つの大きな問題。 1) 事象の時間的秩序につながる関連性及び物語データセットの時間的バイアス 2) フラッシュバックの挿入先を決定するための明示的なガイダンスがない。 本稿では,物語の時間的展開を導く時間的プロンプトとして,構造化されたストーリーラインを用いてイベントとそのペアの時間的関係を符号化することを提案する。 我々は強化学習によって強化されたPlan-and-Writeフレームワークを利用してストーリーラインとストーリーをエンドツーエンドに生成する。 評価の結果,提案手法はテキストの多様性,フラレンシー,時間的一貫性を維持しつつ,フラッシュバックを伴うより興味深いストーリーを生成できることがわかった。

Stories or narratives are comprised of a sequence of events. To compose interesting stories, professional writers often leverage a creative writing technique called flashback that inserts past events into current storylines as we commonly observe in novels and plays. However, it is challenging for machines to generate flashback as it requires a solid understanding of event temporal order (e.g. "feeling hungry" before "eat," not vice versa), and the creativity to arrange storylines so that earlier events do not always appear first in narrative order. Two major issues in existing systems that exacerbate the challenges: 1) temporal bias in pertaining and story datasets that leads to monotonic event temporal orders; 2) lack of explicit guidance that helps machines decide where to insert flashbacks. We propose to address these issues using structured storylines to encode events and their pair-wise temporal relations (before, after and vague) as temporal prompts that guide how stories should unfold temporally. We leverage a Plan-and-Write framework enhanced by reinforcement learning to generate storylines and stories end-to-end. Evaluation results show that the proposed method can generate more interesting stories with flashbacks while maintaining textual diversity, fluency, and temporal coherence.
翻訳日:2022-05-05 13:37:05 公開日:2022-05-04
# 対話的物語における社会的規範と価値観の整合

Aligning to Social Norms and Values in Interactive Narratives ( http://arxiv.org/abs/2205.01975v1 )

ライセンス: Link先を確認
Prithviraj Ammanabrolu, Liwei Jiang, Maarten Sap, Hannaneh Hajishirzi, Yejin Choi(参考訳) 我々は、対話型物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に従って行動するエージェントを作成することに注力する。エージェントが自然言語を介して世界を理解し、対話する環境。このような対話型エージェントは、しばしば強化学習を通じて訓練され、タスクパフォーマンスを最適化する。そのような報酬が社会的規範に反するエージェントの行動につながり、エージェント自身または環境内の他のエンティティに害を与える。 社会的価値のアライメントとは、ある状況や人々の集団に対して期待される道徳的・社会的規範に従って行動するエージェントを作成することを指す。 私たちはjiminy cricket benchmark(hendrycks et al. 2021)という、25の注釈付き対話的な物語のセットを構築しています。 GALAD(Game-value ALignment through Action Distillation)エージェントを導入し、特別な訓練を受けた言語モデルに存在するソーシャルコモンセンス知識を用いて、そのアクション空間を社会的に有益な値に整合したアクションに限定する。 実験により,galadエージェントは,現代的価値アライメントアプローチと比較して,社会的に有害な行動の頻度を25%低減しつつ,最先端のタスクパフォーマンスを4%向上できるほど効率的に意思決定を行うことが示された。

We focus on creating agents that act in alignment with socially beneficial norms and values in interactive narratives or text-based games -- environments wherein an agent perceives and interacts with a world through natural language. Such interactive agents are often trained via reinforcement learning to optimize task performance, even when such rewards may lead to agent behaviors that violate societal norms -- causing harm either to the agent itself or other entities in the environment. Social value alignment refers to creating agents whose behaviors conform to expected moral and social norms for a given context and group of people -- in our case, it means agents that behave in a manner that is less harmful and more beneficial for themselves and others. We build on the Jiminy Cricket benchmark (Hendrycks et al. 2021), a set of 25 annotated interactive narratives containing thousands of morally salient scenarios covering everything from theft and bodily harm to altruism. We introduce the GALAD (Game-value ALignment through Action Distillation) agent that uses the social commonsense knowledge present in specially trained language models to contextually restrict its action space to only those actions that are aligned with socially beneficial values. An experimental study shows that the GALAD agent makes decisions efficiently enough to improve state-of-the-art task performance by 4% while reducing the frequency of socially harmful behaviors by 25% compared to strong contemporary value alignment approaches.
翻訳日:2022-05-05 13:36:43 公開日:2022-05-04
# 文脈表現による談話依存構文解析の改善

Improve Discourse Dependency Parsing with Contextualized Representations ( http://arxiv.org/abs/2205.02090v1 )

ライセンス: Link先を確認
Yifei Zhou, Yansong Feng(参考訳) 最近の研究によれば、談話分析は、異なる粒度のテキスト単位に対する適切な表現が、テキスト単位の意味と文脈との関係の両方を捉えるために望まれる、内的および間的レベルを別々にモデル化することの恩恵を受けている。 本稿では,異なるレベルの単位の文脈的表現を符号化するトランスフォーマーの利点を生かして,対話依存分析に必要な情報を文内および文間レベルで動的に取得する手法を提案する。 論文間で共通に共有される記述パターンの観察により,抽出された談話木の文脈から構造情報を活用し,従来の直分類法よりも大幅に優れる,談話関係識別をシーケンスラベリングタスクとして扱う新しい手法を提案する。 実験の結果,我々のモデルは英語と中国語の両方のデータセットで最先端の結果が得られることがわかった。

Recent works show that discourse analysis benefits from modeling intra- and inter-sentential levels separately, where proper representations for text units of different granularities are desired to capture both the meaning of text units and their relations to the context. In this paper, we propose to take advantage of transformers to encode contextualized representations of units of different levels to dynamically capture the information required for discourse dependency analysis on intra- and inter-sentential levels. Motivated by the observation of writing patterns commonly shared across articles, we propose a novel method that treats discourse relation identification as a sequence labelling task, which takes advantage of structural information from the context of extracted discourse trees, and substantially outperforms traditional direct-classification methods. Experiments show that our model achieves state-of-the-art results on both English and Chinese datasets.
翻訳日:2022-05-05 13:35:51 公開日:2022-05-04
# hiure: 教師なし関係抽出のための階層型例示コントラスト学習

HiURE: Hierarchical Exemplar Contrastive Learning for Unsupervised Relation Extraction ( http://arxiv.org/abs/2205.02225v1 )

ライセンス: Link先を確認
Shuliang Liu, Xuming Hu, Chenwei Zhang, Shu`ang Li, Lijie Wen, Philip S. Yu(参考訳) 教師なし関係抽出は、関係範囲や分布に関する事前情報なしに自然言語文からエンティティ間の関係を抽出することを目的としている。 既存の作業では、段階的なドリフト問題を引き起こす適応的クラスタリングと分類を反復的に活用することで、自己指導型特徴信号の洗練に活用するか、あるいは意味論的に類似した文対を不当に分離するインスタンスワイドコントラスト学習を採用するかのいずれかである。 これらの欠陥を克服するために,クロスヒエラルキーに着目して階層的特徴空間から階層的信号を導出し,例示的コントラスト学習下での文の関係表現を効果的に最適化するhureという新しいコントラスト学習フレームワークを提案する。 2つの公開データセットの実験結果は、最先端モデルと比較した場合の教師なし関係抽出におけるHiUREの有効性とロバスト性を示す。

Unsupervised relation extraction aims to extract the relationship between entities from natural language sentences without prior information on relational scope or distribution. Existing works either utilize self-supervised schemes to refine relational feature signals by iteratively leveraging adaptive clustering and classification that provoke gradual drift problems, or adopt instance-wise contrastive learning which unreasonably pushes apart those sentence pairs that are semantically similar. To overcome these defects, we propose a novel contrastive learning framework named HiURE, which has the capability to derive hierarchical signals from relational feature space using cross hierarchy attention and effectively optimize relation representation of sentences under exemplar-wise contrastive learning. Experimental results on two public datasets demonstrate the advanced effectiveness and robustness of HiURE on unsupervised relation extraction when compared with state-of-the-art models.
翻訳日:2022-05-05 13:35:35 公開日:2022-05-04
# Pik-Fix:古い写真の復元とカラー化

Pik-Fix: Restoring and Colorizing Old Photo ( http://arxiv.org/abs/2205.01902v1 )

ライセンス: Link先を確認
Runsheng Xu, Zhengzhong Tu, Yuanqi Du, Xiaoyu Dong, Jinlong Li, Zibo Meng, Jiaqi Ma, Alan Bovik, Hongkai Yu(参考訳) 古い写真では、存在するがしばしば障害のある視覚記憶を復元し、塗り替えることは、興味深いが未解決の研究トピックである。 何十年も前の写真では、ひび割れやデフォーカス、カラーフェディングなどの重篤で日常的な劣化に苦しむことが多い。 しかし、古い写真の大規模なデータセットが欠如しているため、この修復作業に対処するのが非常に難しい。 本稿では,古い画像と劣化画像の修復と彩色を両立可能な,新しい参照ベースのエンドツーエンド学習フレームワークを提案する。 提案するフレームワークは, 劣化からの復元を行う復元サブネットワーク, 色ヒストグラムマッチングと色移動を行う類似サブネットワーク, 色調基準信号で条件付けされた画像の彩色要素の予測を学習する着色サブネットの3つのモジュールから構成される。 システム全体では、参照画像から事前に色ヒストグラムを使用するため、大規模なトレーニングデータの必要性が大幅に低減される。 私たちはまた、photoshopの専門家によって手作業で復元された「プリスティン」写真と組み合わせて、本物の古い写真の最初の公開データセットも作成しました。 このデータセットと合成データセットについて広範な実験を行い、定性的比較と定量的測定の両方を用いて従来の最先端モデルよりも優れた性能を示した。

Restoring and inpainting the visual memories that are present, but often impaired, in old photos remains an intriguing but unsolved research topic. Decades-old photos often suffer from severe and commingled degradation such as cracks, defocus, and color-fading, which are difficult to treat individually and harder to repair when they interact. Deep learning presents a plausible avenue, but the lack of large-scale datasets of old photos makes addressing this restoration task very challenging. Here we present a novel reference-based end-to-end learning framework that is able to both repair and colorize old and degraded pictures. Our proposed framework consists of three modules: a restoration sub-network that conducts restoration from degradations, a similarity sub-network that performs color histogram matching and color transfer, and a colorization subnet that learns to predict the chroma elements of images that have been conditioned on chromatic reference signals. The overall system makes uses of color histogram priors from reference images, which greatly reduces the need for large-scale training data. We have also created a first-of-a-kind public dataset of real old photos that are paired with ground truth "pristine" photos that have been that have been manually restored by PhotoShop experts. We conducted extensive experiments on this dataset and synthetic datasets, and found that our method significantly outperforms previous state-of-the-art models using both qualitative comparisons and quantitative measurements.
翻訳日:2022-05-05 13:34:37 公開日:2022-05-04
# ビデオ外挿の空間と時間

Video Extrapolationin Space and Time ( http://arxiv.org/abs/2205.02084v1 )

ライセンス: Link先を確認
Yunzhi Zhang and Jiajun wu(参考訳) 新しいビュー合成 (NVS) とビデオ予測 (VP) は一般にコンピュータビジョンにおいて不整合タスクとみなされる。 NVSは新たな視点からシーンを合成することを目的としており、VPは新しい視点からシーンを見ることを目的としている。 これらの2つのタスクは、空間観測から視点の変化が深度を知らせ、時間観測がカメラや個々の物体の動きを知らせる。 これらの観測から着想を得て,VEST(Video Extrapolation in Space and Time)の問題について検討する。 既存の手法ではその1つしか解けないが,両タスクからの自己超越と補完的手がかりを利用するモデルを提案する。 実験により,本手法は屋内および屋外の実世界のデータセット上で,いくつかの最先端NVSおよびVP手法に匹敵する性能を発揮することが示された。

Novel view synthesis (NVS) and video prediction (VP) are typically considered disjoint tasks in computer vision. However, they can both be seen as ways to observe the spatial-temporal world: NVS aims to synthesize a scene from a new point of view, while VP aims to see a scene from a new point of time. These two tasks provide complementary signals to obtain a scene representation, as viewpoint changes from spatial observations inform depth, and temporal observations inform the motion of cameras and individual objects. Inspired by these observations, we propose to study the problem of Video Extrapolation in Space and Time (VEST). We propose a model that leverages the self-supervision and the complementary cues from both tasks, while existing methods can only solve one of them. Experiments show that our method achieves performance better than or comparable to several state-of-the-art NVS and VP methods on indoor and outdoor real-world datasets.
翻訳日:2022-05-05 13:34:11 公開日:2022-05-04
# 文書レベル共同エンティティにおけるタスクインタラクションのモデル化と関係抽出

Modeling Task Interactions in Document-Level Joint Entity and Relation Extraction ( http://arxiv.org/abs/2205.01909v1 )

ライセンス: Link先を確認
Liyan Xu, Jinho D. Choi(参考訳) モデルが同時に参照抽出、コリファレンス解決(coref)、関係抽出(re)を行なわなければならないエンド・ツー・エンドの設定で文書レベルの関係抽出を目標とし、エンティティ中心の方法で評価する。 特に,従来の作業では注目されていなかったCOREFとREの双方向インタラクションに対処し,タスク特性を活用するために特別に設計されたグラフ適合性(GC)という明示的なインタラクションを導入することを提案する。 実験はDocREDとDWIEで行われ、GCに加えて、パイプライン、共有エンコーダ、グラフ伝搬など、従来の作業で広く採用されていた様々なマルチタスク設定を実装し、比較し、異なるインタラクションの有効性を検討する。 その結果、gcはベースラインよりも最大2.3/5.1 f1で最高のパフォーマンスを達成している。

We target on the document-level relation extraction in an end-to-end setting, where the model needs to jointly perform mention extraction, coreference resolution (COREF) and relation extraction (RE) at once, and gets evaluated in an entity-centric way. Especially, we address the two-way interaction between COREF and RE that has not been the focus by previous work, and propose to introduce explicit interaction namely Graph Compatibility (GC) that is specifically designed to leverage task characteristics, bridging decisions of two tasks for direct task interference. Our experiments are conducted on DocRED and DWIE; in addition to GC, we implement and compare different multi-task settings commonly adopted in previous work, including pipeline, shared encoders, graph propagation, to examine the effectiveness of different interactions. The result shows that GC achieves the best performance by up to 2.3/5.1 F1 improvement over the baseline.
翻訳日:2022-05-05 13:32:51 公開日:2022-05-04
# CODE-MVP: 対照的な事前学習による複数のビューからソースコードの表現を学ぶ

CODE-MVP: Learning to Represent Source Code from Multiple Views with Contrastive Pre-Training ( http://arxiv.org/abs/2205.02029v1 )

ライセンス: Link先を確認
Xin Wang, Yasheng Wang, Yao Wan, Jiawei Wang, Pingyi Zhou, Li Li, Hao Wu and Jin Liu(参考訳) 近年,ソースコードの意味を分散ベクトルに表現することを目的としたコード表現学習への関心が高まっている。 現在、プレーンテキスト、抽象構文木(AST)、いくつかの種類のコードグラフ(コントロール/データフローグラフなど)など、さまざまなビューからソースコードの複雑なセマンティクスを表現するための様々な研究が提案されている。 しかし、その多くはソースコードの単一のビューのみを独立に考慮し、異なるビュー間の対応を無視している。 本稿では,ソースコードの自然言語記述を多視点コントラスト事前学習と統合したフレームワークに統合し,私たちのモデルをCODE-MVPと名付けることを提案する。 具体的には、まずコンパイラツールを用いて複数のコードビューを抽出し、その相補的な情報を対照的な学習フレームワークで学習する。 コンパイル中の型チェックにインスパイアされた我々は、事前トレーニングにおいて、きめ細かい型推論の目的も設計する。 5つのデータセット上の3つの下流タスクの実験は、いくつかの最先端ベースラインと比較して、CODE-MVPの優位性を示している。 例えば、MRR/MAP/Accuracyの自然言語検索、コード類似性、およびコード欠陥検出タスクでそれぞれ2.4/2.3/1.1のゲインを達成する。

Recent years have witnessed increasing interest in code representation learning, which aims to represent the semantics of source code into distributed vectors. Currently, various works have been proposed to represent the complex semantics of source code from different views, including plain text, Abstract Syntax Tree (AST), and several kinds of code graphs (e.g., Control/Data Flow Graph). However, most of them only consider a single view of source code independently, ignoring the correspondences among different views. In this paper, we propose to integrate different views with the natural-language description of source code into a unified framework with Multi-View contrastive Pre-training, and name our model as CODE-MVP. Specifically, we first extract multiple code views using compiler tools, and learn the complementary information among them under a contrastive learning framework. Inspired by the type checking in compilation, we also design a fine-grained type inference objective in the pre-training. Experiments on three downstream tasks over five datasets demonstrate the superiority of CODE-MVP when compared with several state-of-the-art baselines. For example, we achieve 2.4/2.3/1.1 gain in terms of MRR/MAP/Accuracy metrics on natural language code retrieval, code similarity, and code defect detection tasks, respectively.
翻訳日:2022-05-05 13:32:34 公開日:2022-05-04
# ReLU DNNの変換複雑性の理論解析に向けて

Towards Theoretical Analysis of Transformation Complexity of ReLU DNNs ( http://arxiv.org/abs/2205.01940v1 )

ライセンス: Link先を確認
Jie Ren, Mingjie Li, Meng Zhou, Shih-Han Chan, Quanshi Zhang(参考訳) 本稿では,ReLU層を持つDNNで符号化された特徴変換の複雑さを理論的に解析することを目的とする。 情報理論に基づく変換の3種類の複雑度を測定するためのメトリクスを提案する。 さらに, 複雑性と変換の絡み合いとの間に強い相関関係を見いだし, 証明する。 提案手法に基づいて,学習過程における変換複雑性の変化の典型的な2つの現象を分析し,DNNの複雑さの天井を探索する。 提案手法は,DNNの過度な適合レベルを制御し,対向的堅牢性,対向的伝達性,知識の整合性に影響を与えるため,最小限の複雑さでDNNを学習する損失としても使用できる。 総合的な比較研究は、DNNを理解するための新しい視点を提供した。

This paper aims to theoretically analyze the complexity of feature transformations encoded in DNNs with ReLU layers. We propose metrics to measure three types of complexities of transformations based on the information theory. We further discover and prove the strong correlation between the complexity and the disentanglement of transformations. Based on the proposed metrics, we analyze two typical phenomena of the change of the transformation complexity during the training process, and explore the ceiling of a DNN's complexity. The proposed metrics can also be used as a loss to learn a DNN with the minimum complexity, which also controls the over-fitting level of the DNN and influences adversarial robustness, adversarial transferability, and knowledge consistency. Comprehensive comparative studies have provided new perspectives to understand the DNN.
翻訳日:2022-05-05 13:32:10 公開日:2022-05-04
# 計画のための抽象表現と伝達表現の学習

Learning Abstract and Transferable Representations for Planning ( http://arxiv.org/abs/2205.02092v1 )

ライセンス: Link先を確認
Steven James, Benjamin Rosman, George Konidaris(参考訳) 我々は、エージェントが感覚データから独自の表現を取得できるかどうかを懸念する。 我々は、最先端の学習方法では解決できない問題のクラスである長期計画のための学習表現に焦点を絞っている。 本稿では,エージェントの環境の抽象化を自律的に学習するための枠組みを提案する。 これらの抽象化はタスクに依存しないので、新しいタスクを解決するために再利用することができる。 エージェントが既存のオプションセットを使用して、egoおよびオブジェクト中心の観察から表現を取得する方法を示す。 これらの抽象化は、新しい環境で同じエージェントによってすぐに再利用できる。 本稿では,これらのポータブル表現を問題特定表現と組み合わせ,抽象計画に使用できる特定のタスクの健全な記述を生成する方法を示す。 最後に,より抽象的な表現からなる多層階層を自律的に構築する方法を示す。 これらの階層は転送可能であるため、新しいタスクで高次概念を再利用することができ、エージェントの再学習を軽減し、サンプル効率を向上させることができる。 その結果,エージェントが従来の知識を新たなタスクに移すことができ,タスク数の増加に伴ってサンプル効率が向上することが示された。

We are concerned with the question of how an agent can acquire its own representations from sensory data. We restrict our focus to learning representations for long-term planning, a class of problems that state-of-the-art learning methods are unable to solve. We propose a framework for autonomously learning state abstractions of an agent's environment, given a set of skills. Importantly, these abstractions are task-independent, and so can be reused to solve new tasks. We demonstrate how an agent can use an existing set of options to acquire representations from ego- and object-centric observations. These abstractions can immediately be reused by the same agent in new environments. We show how to combine these portable representations with problem-specific ones to generate a sound description of a specific task that can be used for abstract planning. Finally, we show how to autonomously construct a multi-level hierarchy consisting of increasingly abstract representations. Since these hierarchies are transferable, higher-order concepts can be reused in new tasks, relieving the agent from relearning them and improving sample efficiency. Our results demonstrate that our approach allows an agent to transfer previous knowledge to new tasks, improving sample efficiency as the number of tasks increases.
翻訳日:2022-05-05 13:31:59 公開日:2022-05-04
# 深部強化学習を用いた発電機故障による最適潮流問題の解法

Using Deep Reinforcement Learning to solve Optimal Power Flow problem with generator failures ( http://arxiv.org/abs/2205.02108v1 )

ライセンス: Link先を確認
Muhammad Usman Awais(参考訳) 深層強化学習(DRL)は多くの領域で使われている。 DRLの最大の利点の1つは、学習エージェントの継続的な改善を可能にすることである。 第二に、DRLフレームワークは堅牢で柔軟性があり、様々な性質とドメインの問題に適用できる。 現在の研究は、最適潮流(OPF)問題を解決するためにDRL技術を使用した証拠である。 OPF問題を解決するために、2つの古典的アルゴリズムが提案されている。 バニラDRLアプリケーションの欠点を論じ,性能向上のためのアルゴリズムを提案する。 第二に、DRLにおける固有の問題の解法を可能にするOPF問題に対する報酬関数が提示される。 DRLの多様性と変性の理由について論じ,OPFに関してそれらを扱うための正しい戦略について述べる。

Deep Reinforcement Learning (DRL) is being used in many domains. One of the biggest advantages of DRL is that it enables the continuous improvement of a learning agent. Secondly, the DRL framework is robust and flexible enough to be applicable to problems of varying nature and domain. Presented work is evidence of using the DRL technique to solve an Optimal Power Flow (OPF) problem. Two classical algorithms have been presented to solve the OPF problem. The drawbacks of the vanilla DRL application are discussed, and an algorithm is suggested to improve the performance. Secondly, a reward function for the OPF problem is presented that enables the solution of inherent issues in DRL. Reasons for divergence and degeneration in DRL are discussed, and the correct strategy to deal with them with respect to OPF is presented.
翻訳日:2022-05-05 13:31:42 公開日:2022-05-04
# 半教師付きカスケードクラスタリングによる雑音ラベルデータの分類

Semi-Supervised Cascaded Clustering for Classification of Noisy Label Data ( http://arxiv.org/abs/2205.02209v1 )

ライセンス: Link先を確認
Ashit Gupta, Anirudh Deodhar, Tathagata Mukherjee and Venkataramana Runkana(参考訳) 教師付き分類手法の性能は、データがノイズラベルを持つ場合、しばしば低下する。 半教師付き分類アプローチでさえも、不足ラベルを扱う問題にのみ焦点を絞っている。 ノイズの多いラベルデータに対処するアプローチのほとんどは、分類タスクに巨大なデータセットを必要とするディープニューラルネットワーク(DNN)に依存している。 これは特に、データに制限があり、ラベルが騒がしいプロセスや製造業において深刻な課題となる。 パターンを抽出し、そのようなデータセットにクラスをカスケードした木を生成するための半教師付きカスケードクラスタリング(SSCC)アルゴリズムを提案する。 構成可能なハイパーパラメータを持つ新しいクラスタ評価行列(CEM)を導入し、ノイズラベルのローカライズと除去を行い、カスケードクラスタリングにおけるプルーニング基準を実行する。 このアルゴリズムは、ラベルの精度を評価するための高価な人間の専門知識への依存を減らす。 SSCCに基づいて生成された分類器は、ノイズラベルデータセットでトレーニングされた場合でも正確で一貫性がある。 産業データセットを含む複数のノイズの多いラベルデータセットでテストした場合、サポートベクタマシン(SVM)と比較して、パフォーマンスが向上した。 提案手法は、人間の専門知識を最小限に抑えた産業環境における実用的な洞察を導出するために効果的に利用できる。

The performance of supervised classification techniques often deteriorates when the data has noisy labels. Even the semi-supervised classification approaches have largely focused only on the problem of handling missing labels. Most of the approaches addressing the noisy label data rely on deep neural networks (DNN) that require huge datasets for classification tasks. This poses a serious challenge especially in process and manufacturing industries, where the data is limited and labels are noisy. We propose a semi-supervised cascaded clustering (SSCC) algorithm to extract patterns and generate a cascaded tree of classes in such datasets. A novel cluster evaluation matrix (CEM) with configurable hyperparameters is introduced to localize and eliminate the noisy labels and invoke a pruning criterion on cascaded clustering. The algorithm reduces the dependency on expensive human expertise for assessing the accuracy of labels. A classifier generated based on SSCC is found to be accurate and consistent even when trained on noisy label datasets. It performed better in comparison with the support vector machines (SVM) when tested on multiple noisy-label datasets, including an industrial dataset. The proposed approach can be effectively used for deriving actionable insights in industrial settings with minimal human expertise.
翻訳日:2022-05-05 13:31:31 公開日:2022-05-04
# 予測サンプリングによる非定常帯域学習

Nonstationary Bandit Learning via Predictive Sampling ( http://arxiv.org/abs/2205.01970v1 )

ライセンス: Link先を確認
Yueyang Liu, Benjamin Van Roy, Kuang Xu(参考訳) 本研究では,非定常帯状環境における探索と搾取のバランスをとる行動の選択手法として,予測サンプリングを提案する。 静止環境に特化する場合、予測サンプリングはトンプソンサンプリングと等価である。 しかし、トンプソンサンプリングが苦しむ様々な非定常環境において予測サンプリングが有効である。 予測サンプリングに対するベイズ的後悔に対する一般情報理論的境界を確立する。 次に、この境界を、変調されたベルヌーイ帯域環境の研究に特化させる。 我々の分析はトンプソンサンプリングに対する予測サンプリングの重要な利点を浮き彫りにしている: 予測サンプリングは、取得した情報がすぐに関連しなくなる探索への投資を優先順位付けする。

We propose predictive sampling as an approach to selecting actions that balance between exploration and exploitation in nonstationary bandit environments. When specialized to stationary environments, predictive sampling is equivalent to Thompson sampling. However, predictive sampling is effective across a range of nonstationary environments in which Thompson sampling suffers. We establish a general information-theoretic bound on the Bayesian regret of predictive sampling. We then specialize this bound to study a modulated Bernoulli bandit environment. Our analysis highlights a key advantage of predictive sampling over Thompson sampling: predictive sampling deprioritizes investments in exploration where acquired information will quickly become less relevant.
翻訳日:2022-05-05 13:30:37 公開日:2022-05-04
# (参考訳) オピニオン要約のためのフルショットファインチューニング

Efficient Few-Shot Fine-Tuning for Opinion Summarization ( http://arxiv.org/abs/2205.02170v1 )

ライセンス: CC BY 4.0
Arthur Bra\v{z}inskas, Ramesh Nallapati, Mohit Bansal, Markus Dreyer(参考訳) 抽象的な要約モデルは典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。 しかし、意見要約では、参照要約と組み合わせた大量の注釈付きレビューデータセットは利用できず、作成に費用がかかる。 これにより、小さなデータセットのオーバーフィットにロバストな微調整メソッドが要求される。 さらに、一般的な事前学習されたモデルは、しばしば顧客レビューの仕様に慣れておらず、微調整された後に、不一致と意味的な間違いを伴うサマリーを産出する。 これらの問題に対処するために、我々は、ドメイン内の知識を簡単に保存できるアダプタに基づく効率的な数発ショット法を利用する。 モデル全体を微調整する代わりに、保留レビューを擬似要約として使用し、注釈のない顧客レビューの大規模なコーパス上で、アダプタを追加し、タスク固有の方法で事前トレーニングします。 次に、小さなアノテーション付きデータセットでアダプタを微調整する。 この自己教師型アダプタの事前トレーニングにより,Amazon とYelp のデータセット上の標準微調整よりも,それぞれ 1.3 ROUGE-L ポイントの要約品質が向上することを示す。 最後に、要約パーソナライズのために、ジェネリックデータセットから自動生成されるアスペクトキーワードクエリを条件とする。 同じように、顧客のレビューに基づいてクエリベースの方法でアダプタを事前トレーニングし、アノテーション付きデータセットで微調整します。 これにより、コヒーレンスの改善と冗長性の低減に反映されたより組織化された要約内容が得られる。

Abstractive summarization models are typically pre-trained on large amounts of generic texts, then fine-tuned on tens or hundreds of thousands of annotated samples. However, in opinion summarization, large annotated datasets of reviews paired with reference summaries are not available and would be expensive to create. This calls for fine-tuning methods robust to overfitting on small datasets. In addition, generically pre-trained models are often not accustomed to the specifics of customer reviews and, after fine-tuning, yield summaries with disfluencies and semantic mistakes. To address these problems, we utilize an efficient few-shot method based on adapters which, as we show, can easily store in-domain knowledge. Instead of fine-tuning the entire model, we add adapters and pre-train them in a task-specific way on a large corpus of unannotated customer reviews, using held-out reviews as pseudo summaries. Then, fine-tune the adapters on the small available human-annotated dataset. We show that this self-supervised adapter pre-training improves summary quality over standard fine-tuning by 2.0 and 1.3 ROUGE-L points on the Amazon and Yelp datasets, respectively. Finally, for summary personalization, we condition on aspect keyword queries, automatically created from generic datasets. In the same vein, we pre-train the adapters in a query-based manner on customer reviews and then fine-tune them on annotated datasets. This results in better-organized summary content reflected in improved coherence and fewer redundancies.
翻訳日:2022-05-05 13:29:32 公開日:2022-05-04
# word tour: トラベルセールスマン問題による1次元単語埋め込み

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem ( http://arxiv.org/abs/2205.01954v1 )

ライセンス: Link先を確認
Ryoma Sato(参考訳) 単語埋め込みは自然言語処理で使われる最も基本的な技術の一つである。 既存の単語埋め込みは高次元であり、かなりの計算資源を消費する。 本研究では,教師なし1次元単語埋め込みのWordTourを提案する。 そこで本研究では, 難解な目標を達成するために, 単語埋め込みのデシデラタを, 完全性と健全性という2つの部分に分解し, 音質に着目した。 単一次元のため、wordtourは非常に効率的であり、単語埋め込みを扱うための最小の手段を提供する。 提案手法の有効性をユーザスタディと文書分類を用いて実験的に検証した。

Word embeddings are one of the most fundamental technologies used in natural language processing. Existing word embeddings are high-dimensional and consume considerable computational resources. In this study, we propose WordTour, unsupervised one-dimensional word embeddings. To achieve the challenging goal, we propose a decomposition of the desiderata of word embeddings into two parts, completeness and soundness, and focus on soundness in this paper. Owing to the single dimensionality, WordTour is extremely efficient and provides a minimal means to handle word embeddings. We experimentally confirmed the effectiveness of the proposed method via user study and document classification.
翻訳日:2022-05-05 13:08:23 公開日:2022-05-04
# 短いショットドキュメンテーション-レベル関係抽出

Few-Shot Document-Level Relation Extraction ( http://arxiv.org/abs/2205.02048v1 )

ライセンス: Link先を確認
Nicholas Popovic, Michael F\"arber(参考訳) 本稿では,FSDLREベンチマークとしてFREDoを提案する。 文レベルの関係抽出コーパスに基づく既存のベンチマークとは対照的に、文書レベルのコーパスは特にNOTA(No-of-of-the-above)分布に関して、よりリアリズムをもたらすと論じる。 そこで我々は,FSDLREタスクのセットを提案し,既存の2つの教師付き学習データセットであるDocREDとsciERCに基づくベンチマークを構築する。 我々は、最先端の文レベル手法であるMNAVを文書レベルに適用し、ドメイン適応を改善するためにさらに開発する。 FSDLREは、サポートセットからNOTAインスタンスをサンプリングする機能など、興味深い新機能を備えた、難しい設定であると考えています。 データ、コード、トレーニングされたモデルはオンラインで入手できる(https://github.com/nicpopovic/FREDo)。

We present FREDo, a few-shot document-level relation extraction (FSDLRE) benchmark. As opposed to existing benchmarks which are built on sentence-level relation extraction corpora, we argue that document-level corpora provide more realism, particularly regarding none-of-the-above (NOTA) distributions. Therefore, we propose a set of FSDLRE tasks and construct a benchmark based on two existing supervised learning data sets, DocRED and sciERC. We adapt the state-of-the-art sentence-level method MNAV to the document-level and develop it further for improved domain adaptation. We find FSDLRE to be a challenging setting with interesting new characteristics such as the ability to sample NOTA instances from the support set. The data, code, and trained models are available online (https://github.com/nicpopovic/FREDo).
翻訳日:2022-05-05 13:08:14 公開日:2022-05-04
# EmoBank: アノテーションの視点と表現形式が次元感情分析に及ぼす影響について

EmoBank: Studying the Impact of Annotation Perspective and Representation Format on Dimensional Emotion Analysis ( http://arxiv.org/abs/2205.01996v1 )

ライセンス: Link先を確認
Sven Buechel and Udo Hahn(参考訳) EmoBankは、複数のジャンルのバランスをとる10kの英語文からなるコーパスで、Valence-Arousal-Dominance(VAD)表現形式で、次元的感情メタデータに注釈を付けた。 emobankはbi-perspectivalとbi-representationalデザインで優れている。 一方,著者の感情と読者の感情を区別する一方で,コーパスのサブセットは,基本的な感情に基づくカテゴリのアノテーションで,次元vadアノテーションを補完する。 我々は,iaaと格付け強度の観点で読者の視点の優越性を示す証拠を見いだし,次元形式とカテゴリー形式をマッピングする場合の人間に近い性能を実現する。

We describe EmoBank, a corpus of 10k English sentences balancing multiple genres, which we annotated with dimensional emotion metadata in the Valence-Arousal-Dominance (VAD) representation format. EmoBank excels with a bi-perspectival and bi-representational design. On the one hand, we distinguish between writer's and reader's emotions, on the other hand, a subset of the corpus complements dimensional VAD annotations with categorical ones based on Basic Emotions. We find evidence for the supremacy of the reader's perspective in terms of IAA and rating intensity, and achieve close-to-human performance when mapping between dimensional and categorical formats.
翻訳日:2022-05-05 13:08:00 公開日:2022-05-04
# (参考訳) VICE:概念埋め込みのための変分推論

VICE: Variational Inference for Concept Embeddings ( http://arxiv.org/abs/2205.00756v3 )

ライセンス: CC BY-SA 4.0
Lukas Muttenthaler and Charles Y. Zheng and Patrick McClure and Robert A. Vandermeulen and Martin N. Hebart and Francisco Pereira(参考訳) 本稿では, ランダムな3重項タスクにおいて, 人間の行動から物体概念を埋め込み学習するためのベイズ的手法である, 概念埋め込みのための変分推論(VICE)を提案する。 変動推論を用いて,各埋め込み値に対する不確かさを推定した,ばらばらで非負の解を求める。 これらの推定値を利用して、再現可能な埋め込みを生成しながら、データを説明する次元を自動的に選択する。 本稿では,VICEのためのPAC学習バウンダリを導入し,一般化性能を推定したり,異なる実験設計のための十分なサンプルサイズを決定する。 3倍のタスクで人間の行動を予測することで、その前任者のスポスをライバルあるいは上回っている。 VICEオブジェクト表現は、より再現性が高く、異なるランダム初期化に対して一貫性がある。

In this paper, we introduce Variational Inference for Concept Embeddings (VICE), an approximate Bayesian method for learning object concept embeddings from human behavior in an odd-one-out triplet task. We use variational inference to obtain a sparse, non-negative solution with uncertainty estimates about each embedding value. We exploit these estimates to automatically select the dimensions that explain the data while yielding reproducible embeddings. We introduce a PAC learning bound for VICE that can be used to estimate generalization performance or determine a sufficient sample size for different experimental designs. VICE rivals or outperforms its predecessor, SPoSE, at predicting human behavior in a triplet task. VICE object representations are substantially more reproducible and consistent across different random initializations.
翻訳日:2022-05-05 12:45:15 公開日:2022-05-04
# (参考訳) 人工知能を用いた視覚知識発見:課題と今後の展望

Visual Knowledge Discovery with Artificial Intelligence: Challenges and Future Directions ( http://arxiv.org/abs/2205.01296v2 )

ライセンス: CC BY 4.0
Boris Kovalerchuk, R\u{a}zvan Andonie, Nuno Datia, Kawa Nazemi, Ebad Banissi(参考訳) このボリュームは、人工知能/マシンラーニング(AI/ML)と可視化/ビジュアルアナリティクスの進歩を組み合わせた、統合ビジュアル知識発見の新興分野に特化している。 章に含まれるのは、選ばれたAIおよびビジュアルアナリティクス論文の拡張版と、最近の国際情報可視化会議(IV2019、IV2020)の関連シンポジウムである。 AI/MLは、人間にモデルを説明するという長年にわたる課題に直面している。 モデルの説明は基本的に人間の活動であり、アルゴリズムによるものではない。 この章では、ビジュアル分析、ビジュアル知識発見、AI/MLの分野における課題と今後の方向性を示し、ビジュアルAI/MLにおける可視化の役割について議論する。 さらに,視覚支援による多次元データにおける新たな2次元ml,自然言語処理,ai/mlの進歩について述べる。

This volume is devoted to the emerging field of Integrated Visual Knowledge Discovery that combines advances in Artificial Intelligence/Machine Learning (AI/ML) and Visualization/Visual Analytics. Chapters included are extended versions of the selected AI and Visual Analytics papers and related symposia at the recent International Information Visualization Conferences (IV2019 and IV2020). AI/ML face a long-standing challenge of explaining models to humans. Models explanation is fundamentally human activity, not only an algorithmic one. In this chapter we aim to present challenges and future directions within the field of Visual Analytics, Visual Knowledge Discovery and AI/ML, and to discuss the role of visualization in visual AI/ML. In addition, we describe progress in emerging Full 2D ML, natural language processing, and AI/ML in multidimensional data aided by visual means.
翻訳日:2022-05-05 12:18:04 公開日:2022-05-04
# (参考訳) HL-Net:シーングラフ生成のためのヘテロフォリー学習ネットワーク

HL-Net: Heterophily Learning Network for Scene Graph Generation ( http://arxiv.org/abs/2205.01316v2 )

ライセンス: CC BY-SA 4.0
Xin Lin, Changxing Ding, Yibing Zhan, Zijian Li, Dacheng Tao(参考訳) シーングラフ生成(SGG)は、オブジェクトを検出し、画像内のペア関係を予測することを目的としている。 現在のSGG法は通常、グラフニューラルネットワーク(GNN)を使用して、オブジェクト/リレーショナル間のコンテキスト情報を取得する。 しかし、その効果にもかかわらず、現在のSGG法は、ヘテロフィリーを無視しながらシーングラフをホモフィリーに仮定するのみである。 そこで本稿では,シーングラフにおけるオブジェクト/リレーショナル間のホモフィリとヘテロフィリを包括的に探索する,新しいヘテロフィリズ学習ネットワーク(HL-Net)を提案する。 具体的には、HL-Netは以下の通りである。 1) 異なる層からの情報を適応的に統合して、対象物のヘテロフィリー及びホモフィリーの両方を利用する適応的再加重変圧器モジュール 2) 関係表現を洗練するために,ヘテロフィリーを考慮し,関係間の関係を効率的に探索する関係特徴伝達モジュール 3) オブジェクト/リレーショナル間のヘテロフィリとホモフィリをさらに区別するヘテロフィリ対応メッセージパッシング方式により,グラフにおけるメッセージパッシングの改善が容易になる。 visual genome (vg) とopen images (oi) の2つの公開データセットについて広範な実験を行った。 実験結果から,提案するhl-netは,従来手法よりも優れていることが示された。 より詳しくは、HL-Netは、シーングラフ分類用のVGデータセットで2.1$\%、最終スコア用のIOデータセットで1.2$\%という2番目に高い競合より優れている。 コードはhttps://github.com/siml3/HL-Netで入手できる。

Scene graph generation (SGG) aims to detect objects and predict their pairwise relationships within an image. Current SGG methods typically utilize graph neural networks (GNNs) to acquire context information between objects/relationships. Despite their effectiveness, however, current SGG methods only assume scene graph homophily while ignoring heterophily. Accordingly, in this paper, we propose a novel Heterophily Learning Network (HL-Net) to comprehensively explore the homophily and heterophily between objects/relationships in scene graphs. More specifically, HL-Net comprises the following 1) an adaptive reweighting transformer module, which adaptively integrates the information from different layers to exploit both the heterophily and homophily in objects; 2) a relationship feature propagation module that efficiently explores the connections between relationships by considering heterophily in order to refine the relationship representation; 3) a heterophily-aware message-passing scheme to further distinguish the heterophily and homophily between objects/relationships, thereby facilitating improved message passing in graphs. We conducted extensive experiments on two public datasets: Visual Genome (VG) and Open Images (OI). The experimental results demonstrate the superiority of our proposed HL-Net over existing state-of-the-art approaches. In more detail, HL-Net outperforms the second-best competitors by 2.1$\%$ on the VG dataset for scene graph classification and 1.2$\%$ on the IO dataset for the final score. Code is available at https://github.com/siml3/HL-Net.
翻訳日:2022-05-05 11:54:14 公開日:2022-05-04
# (参考訳) 構造的テスト統計のための完全対置換テスト

Exact Paired-Permutation Testing for Structured Test Statistics ( http://arxiv.org/abs/2205.01416v2 )

ライセンス: CC BY 4.0
Ran Zmigrod, Tim Vieira, Ryan Cotterell(参考訳) 重要なテスト(特にペア置換テスト)は、NLPシステムの開発において重要な役割を担い、2つのシステムのパフォーマンスの違い(すなわち、テスト統計)が運のせいではないことを確信する。 しかし、実践者は適切な厳密なアルゴリズムが欠如しているため、このテストを実行するためにモンテカルロ近似に頼る。 本稿では,構造化テスト統計の族に対して,ペア置換テストのための効率的な厳密アルゴリズムを提案する。 我々のアルゴリズムは$\mathcal{O}(GN)(\log GN )(\log N ))$timeで実行され、$N$はデータセットのサイズ、$G$はテスト統計の範囲である。 われわれの正確なアルゴリズムはモンテカルロ近似より10ドル高速で、共通のデータセット上に20000ドルのサンプルがあることがわかった。

Significance testing -- especially the paired-permutation test -- has played a vital role in developing NLP systems to provide confidence that the difference in performance between two systems (i.e., the test statistic) is not due to luck. However, practitioners rely on Monte Carlo approximation to perform this test due to a lack of a suitable exact algorithm. In this paper, we provide an efficient exact algorithm for the paired-permutation test for a family of structured test statistics. Our algorithm runs in $\mathcal{O}(GN (\log GN )(\log N ))$ time where $N$ is the dataset size and $G$ is the range of the test statistic. We found that our exact algorithm was $10$x faster than the Monte Carlo approximation with $20000$ samples on a common dataset.
翻訳日:2022-05-05 11:53:06 公開日:2022-05-04
# (参考訳) 高信頼のための対人訓練

Adversarial Training for High-Stakes Reliability ( http://arxiv.org/abs/2205.01663v2 )

ライセンス: CC BY 4.0
Daniel M. Ziegler, Seraphina Nix, Lawrence Chan, Tim Bauman, Peter Schmidt-Nielsen, Tao Lin, Adam Scherlis, Noa Nabeshima, Ben Weinstein-Raun, Daniel de Haas, Buck Shlegeris, Nate Thomas(参考訳) 将来的には、単一の障害が大惨事になるような、強力なAIシステムが、ハイテイクな設定で展開される可能性がある。 ハイステイク設定でai安全性を改善するテクニックのひとつが、逆トレーニングである。これは、逆者を使って、最悪の場合のパフォーマンスを改善するためにトレーニングするサンプルを生成する。 本研究では,言語生成タスクをテストベッドとして使用し,対人訓練による高い信頼性を実現する。 私たちは、ジェネレータが提案するテキスト補完をフィルタリングする分類器の障害を見つけて排除するために、人間の敵を支援するツールを含む、一連の敵のトレーニングテクニックを作成しました。 簡単な「アビドケイン」タスクでは,フィルタ出力の品質に大きな影響を及ぼすことなく,極めて保守的な分類器閾値を設定することができると判断した。 私たちの選択したしきい値では、ベースライン分類器によるフィルタリングは、分散データにおける安全でない完了率を約2.4%から0.003%まで低下させます。 その結果, 対人訓練は, 対人攻撃に対するロバスト性を有意に高め, 分配性能に影響を与えないことがわかった。 強力なモデルの壊滅的なデプロイメントタイムの失敗の可能性を排除することができるまで、人間の敵性を高めるためのより強力なツールや高いレベルの信頼性を測定するより良い方法など、高い信頼性設定でさらなる作業が期待できる。

In the future, powerful AI systems may be deployed in high-stakes settings, where a single failure could be catastrophic. One technique for improving AI safety in high-stakes settings is adversarial training, which uses an adversary to generate examples to train on in order to achieve better worst-case performance. In this work, we used a language generation task as a testbed for achieving high reliability through adversarial training. We created a series of adversarial training techniques -- including a tool that assists human adversaries -- to find and eliminate failures in a classifier that filters text completions suggested by a generator. In our simple "avoid injuries" task, we determined that we can set very conservative classifier thresholds without significantly impacting the quality of the filtered outputs. With our chosen thresholds, filtering with our baseline classifier decreases the rate of unsafe completions from about 2.4% to 0.003% on in-distribution data, which is near the limit of our ability to measure. We found that adversarial training significantly increased robustness to the adversarial attacks that we trained on, without affecting in-distribution performance. We hope to see further work in the high-stakes reliability setting, including more powerful tools for enhancing human adversaries and better ways to measure high levels of reliability, until we can confidently rule out the possibility of catastrophic deployment-time failures of powerful models.
翻訳日:2022-05-05 11:37:45 公開日:2022-05-04
# 変圧器の知識属性におけるパターンの探索

Finding patterns in Knowledge Attribution for Transformers ( http://arxiv.org/abs/2205.01366v2 )

ライセンス: Link先を確認
Jeevesh Juneja and Ritu Agarwal(参考訳) トランスフォーマーネットワーク内の特定のニューロンに対する事実的および関係的知識の帰属のための知識ニューロンフレームワークの解析を行う。 実験には12層多言語BERTモデルを用いる。 我々の研究は様々な興味深い現象を明らかにした。 事実的知識の大部分は、ネットワークの中層と上位層($\ge 6$)に起因する。 さらなる分析により、中間層($6-9$)が関係情報に責任を負うことが判明し、これが事実知識や最後の数層($10-12$)の「正しい答え」にさらに洗練される。 実験の結果,モデルが異なる言語でのプロンプトを処理することも確認できたが,同じ事実を表わすことで,多言語事前学習の有効性がさらに証明された。 文法知識に対する帰属スキームを適用すると、文法知識は事実知識よりもニューロン間ではるかに分散していることがわかる。

We analyze the Knowledge Neurons framework for the attribution of factual and relational knowledge to particular neurons in the transformer network. We use a 12-layer multi-lingual BERT model for our experiments. Our study reveals various interesting phenomena. We observe that mostly factual knowledge can be attributed to middle and higher layers of the network($\ge 6$). Further analysis reveals that the middle layers($6-9$) are mostly responsible for relational information, which is further refined into actual factual knowledge or the "correct answer" in the last few layers($10-12$). Our experiments also show that the model handles prompts in different languages, but representing the same fact, similarly, providing further evidence for effectiveness of multi-lingual pre-training. Applying the attribution scheme for grammatical knowledge, we find that grammatical knowledge is far more dispersed among the neurons than factual knowledge.
翻訳日:2022-05-05 11:36:10 公開日:2022-05-04
# 励起からCNNを理解する

Understanding CNNs from excitations ( http://arxiv.org/abs/2205.00932v2 )

ライセンス: Link先を確認
Zijian Ying, Qianmu Li, Zhichao Lian(参考訳) 本稿では,高レベルのセマンティクスと詳細な空間情報との関係を明らかにするために,PANEと呼ばれるニューラルネットワークに対する新しい認知的アプローチを提案する。 PANE の指導のもと,CNN のようなモデルに対して IOM という新しい唾液マップ表現法を提案する。 我々は,8つの最先端のサリエンシーマップ表現法との比較を行った。 実験の結果,IOMはベースラインよりもはるかに優れていた。 この論文は、ディープニューラルネットワークを理解するための新しい視点をもたらすかもしれない。

For instance-level explanation, in order to reveal the relations between high-level semantics and detailed spatial information, this paper proposes a novel cognitive approach to neural networks, which named PANE. Under the guidance of PANE, a novel saliency map representation method, named IOM, is proposed for CNN-like models. We make the comparison with eight state-of-the-art saliency map representation methods. The experimental results show that IOM far outperforms baselines. The work of this paper may bring a new perspective to understand deep neural networks.
翻訳日:2022-05-05 11:35:56 公開日:2022-05-04
# cosplay: パーソナライズされた対話生成のためのコンセプトセット

COSPLAY: Concept Set Guided Personalized Dialogue Generation Across Both Party Personas ( http://arxiv.org/abs/2205.00872v2 )

ライセンス: Link先を確認
Chen Xu, Piji Li, Wei Wang, Haoran Yang, Siyun Wang, and Chuangbai Xiao(参考訳) 一貫したペルソナの維持は、人間のような会話モデルを構築する上で不可欠である。 しかし、パートナーへの注意の欠如により、モデルはよりエゴセントリックなものとなり、トピックを強引にツイストしたり、会話を自分の興味に引き寄せたり、パートナーに好奇心をほとんど持たずにペルソナをぶつけたりするなど、あらゆる手段でペルソナを示す傾向にある。 本研究では,両者を「チーム」とみなすCOSPLAY(Concept Set Guided PersonaLized dialogue generation)を提案する。 具体的には,まず,自己対人,パートナーペルソナ,相互対話を概念セットで表現する。 次に,集合代数,集合展開,集合距離などの処理を行うための知識エンハンス操作の組を持つ概念集合フレームワークを提案する。 これらの操作を媒介として モデルを訓練し 1)両党のペルソナの概念 2 両者の概念的関係、及び 3)今後の対話との関連性。 大規模な公開データセットであるPersona-Chatの大規模な実験により、我々のモデルは、自己中心的でない、より人間らしく、より高品質な応答を自動評価と人的評価の両方で生成する、最先端のベースラインよりも優れています。

Maintaining a consistent persona is essential for building a human-like conversational model. However, the lack of attention to the partner makes the model more egocentric: they tend to show their persona by all means such as twisting the topic stiffly, pulling the conversation to their own interests regardless, and rambling their persona with little curiosity to the partner. In this work, we propose COSPLAY(COncept Set guided PersonaLized dialogue generation Across both partY personas) that considers both parties as a "team": expressing self-persona while keeping curiosity toward the partner, leading responses around mutual personas, and finding the common ground. Specifically, we first represent self-persona, partner persona and mutual dialogue all in the concept sets. Then, we propose the Concept Set framework with a suite of knowledge-enhanced operations to process them such as set algebras, set expansion, and set distance. Based on these operations as medium, we train the model by utilizing 1) concepts of both party personas, 2) concept relationship between them, and 3) their relationship to the future dialogue. Extensive experiments on a large public dataset, Persona-Chat, demonstrate that our model outperforms state-of-the-art baselines for generating less egocentric, more human-like, and higher quality responses in both automatic and human evaluations.
翻訳日:2022-05-05 11:35:49 公開日:2022-05-04
# デュアルネットワークを用いたモノクロ映像からの3次元マルチパーソンポーズ推定

Dual networks based 3D Multi-Person Pose Estimation from Monocular Video ( http://arxiv.org/abs/2205.00748v2 )

ライセンス: Link先を確認
Yu Cheng, Bo Wang, Robby T. Tan(参考訳) 近年,単眼の3次元ポーズ推定が進歩している。 たいていの方法は1人の人物に焦点を当てており、その人物中心の座標(つまり、対象人物の中心に基づく座標)のポーズを推定する。 したがって、これらの手法は、絶対座標(例えば、カメラ座標)が必要なマルチパーソン3Dポーズ推定には適用できない。 さらに,複数対人ポーズ推定は,対人オクルージョンと密接な人間間相互作用により,単一対人ポーズ推定よりも困難である。 既存のトップダウンマルチパーソンメソッドは、人間の検出(すなわちトップダウンアプローチ)に依存しており、検出エラーに悩まされ、マルチパーソンシーンで信頼できるポーズ推定ができない。 一方、人間の検出を使わない既存のボトムアップ手法は、検出エラーの影響を受けないが、一度にすべての人を処理しているため、特に小規模の人ではエラーが生じる傾向にある。 これらすべての課題に対処するために,我々は,トップダウンとボトムアップのアプローチの統合を提案する。 私たちのトップダウンネットワークは、画像パッチの1つではなく、すべての人から人間の関節を推定します。 我々のボトムアップネットワークは、人検出に基づく正規化ヒートマップを組み込んでおり、スケールの変動に対処する上でネットワークをより堅牢にします。 最後に、トップダウンネットワークとボトムアップネットワークから推定される3Dポーズが、最終3Dポーズのために統合ネットワークに送られます。 トレーニングデータとテストデータの共通的なギャップに対処するために,高次時間制約,再投影損失,骨長規則化を用いて推定3次元ポーズを精錬することにより,テスト時間中の最適化を行う。 提案手法の有効性について検討した。 コードとモデルは以下の通りである。

Monocular 3D human pose estimation has made progress in recent years. Most of the methods focus on single persons, which estimate the poses in the person-centric coordinates, i.e., the coordinates based on the center of the target person. Hence, these methods are inapplicable for multi-person 3D pose estimation, where the absolute coordinates (e.g., the camera coordinates) are required. Moreover, multi-person pose estimation is more challenging than single pose estimation, due to inter-person occlusion and close human interactions. Existing top-down multi-person methods rely on human detection (i.e., top-down approach), and thus suffer from the detection errors and cannot produce reliable pose estimation in multi-person scenes. Meanwhile, existing bottom-up methods that do not use human detection are not affected by detection errors, but since they process all persons in a scene at once, they are prone to errors, particularly for persons in small scales. To address all these challenges, we propose the integration of top-down and bottom-up approaches to exploit their strengths. Our top-down network estimates human joints from all persons instead of one in an image patch, making it robust to possible erroneous bounding boxes. Our bottom-up network incorporates human-detection based normalized heatmaps, allowing the network to be more robust in handling scale variations. Finally, the estimated 3D poses from the top-down and bottom-up networks are fed into our integration network for final 3D poses. To address the common gaps between training and testing data, we do optimization during the test time, by refining the estimated 3D human poses using high-order temporal constraint, re-projection loss, and bone length regularizations. Our evaluations demonstrate the effectiveness of the proposed method. Code and models are available: https://github.com/3dpose/3D-Multi-Person-Pose.
翻訳日:2022-05-05 11:35:22 公開日:2022-05-04
# TracInAD:異常検出への影響の測定

TracInAD: Measuring Influence for Anomaly Detection ( http://arxiv.org/abs/2205.01362v2 )

ライセンス: Link先を確認
Hugo Thimonier, Fabrice Popineau, Arpad Rimmel, Bich-Li\^en Doan and Fabrice Daniel(参考訳) 他の多くのタスクと同様に、ニューラルネットワークは異常検出に非常に効果的である。 しかし、テーブル型データセットで異常を検出するのに適したディープラーニングモデルはほとんどない。 本稿では,本研究で最初に導入したインフルエンス指標であるtracinに基づく異常をフラグする新しい手法を提案する。 提案手法は, 教師なし深部異常検出手法の強化に有効である。 提案手法は変動型オートエンコーダを用いてテストし,実験点に対する訓練点のサブサンプルの平均的影響が異常の指標となりうることを示した。 我々のモデルは、最先端のアプローチと比較して競争力があることを証明している。医療およびサイバーセキュリティの表型ベンチマークデータに対する検出精度において、同等またはより良いパフォーマンスを達成する。

As with many other tasks, neural networks prove very effective for anomaly detection purposes. However, very few deep-learning models are suited for detecting anomalies on tabular datasets. This paper proposes a novel methodology to flag anomalies based on TracIn, an influence measure initially introduced for explicability purposes. The proposed methods can serve to augment any unsupervised deep anomaly detection method. We test our approach using Variational Autoencoders and show that the average influence of a subsample of training points on a test point can serve as a proxy for abnormality. Our model proves to be competitive in comparison with state-of-the-art approaches: it achieves comparable or better performance in terms of detection accuracy on medical and cyber-security tabular benchmark data.
翻訳日:2022-05-05 11:33:09 公開日:2022-05-04
# マルチスケールスパース畳み込みニューラルネットワークを用いたポイントクラウド意味セグメンテーション

Point Cloud Semantic Segmentation using Multi Scale Sparse Convolution Neural Network ( http://arxiv.org/abs/2205.01550v2 )

ライセンス: Link先を確認
Yunzheng Su(参考訳) 画像処理における畳み込みニューラルネットワークの優れた性能のおかげで、点雲の非構造的性質の問題から、2次元畳み込みニューラルネットワークに基づいて点雲の特徴を抽出する。 The three-dimensional information carried in the point cloud can be converted to two-dimensional, and then processed by a two-dimensional convolutional neural network, and finally back-projected to three-dimensional.In the process of projecting 3D information to 2D and back-projection, certain information loss will inevitably be caused to the point cloud and category inconsistency will be introduced in the back-projection stage;Another solution is the voxel-based point cloud segmentation method, which divides the point cloud into small grids one by one.However, the point cloud is sparse, and the direct use of 3D convolutional neural network inevitably wastes computing resources. 本稿では,マルチスケール超スパース畳み込みに基づく特徴抽出モジュールとチャネルアテンションに基づく特徴選択モジュールを提案し,これに基づくポイントクラウドセグメンテーションネットワークフレームワークを構築し,マルチスケールスパース畳み込みを導入することにより,ネットワークは,異なるサイズのコンボリューションカーネルに基づくよりリッチな特徴情報をキャプチャし,ポイントクラウドセグメンテーションのセグメンテーション結果を改善する。

Point clouds have the characteristics of disorder, unstructured and sparseness.Aiming at the problem of the non-structural nature of point clouds, thanks to the excellent performance of convolutional neural networks in image processing, one of the solutions is to extract features from point clouds based on two-dimensional convolutional neural networks. The three-dimensional information carried in the point cloud can be converted to two-dimensional, and then processed by a two-dimensional convolutional neural network, and finally back-projected to three-dimensional.In the process of projecting 3D information to 2D and back-projection, certain information loss will inevitably be caused to the point cloud and category inconsistency will be introduced in the back-projection stage;Another solution is the voxel-based point cloud segmentation method, which divides the point cloud into small grids one by one.However, the point cloud is sparse, and the direct use of 3D convolutional neural network inevitably wastes computing resources. In this paper, we propose a feature extraction module based on multi-scale ultra-sparse convolution and a feature selection module based on channel attention, and build a point cloud segmentation network framework based on this.By introducing multi-scale sparse convolution, network could capture richer feature information based on convolution kernels of different sizes, improving the segmentation result of point cloud segmentation.
翻訳日:2022-05-05 11:32:59 公開日:2022-05-04
# ris-noma支援マルチロボット通信のためのインテリジェント軌道設計

Intelligent Trajectory Design for RIS-NOMA aided Multi-robot Communications ( http://arxiv.org/abs/2205.01647v2 )

ライセンス: Link先を確認
Xinyu Gao, Xidong Mu, Wenqiang Yi, Yuanwei Liu(参考訳) 複数の移動ロボットが非直交多重アクセス(noma)を介してアクセスポイント(ap)によってサービスされる、新しい再構成可能なインテリジェント表面支援マルチロボットネットワークが提案されている。 本研究の目的は,ロボットの軌道とNOMA復号順序,RISの位相シフト係数,APのパワーアロケーションを共同最適化することで,ロボットの初期および最終位置と各ロボットのサービス品質(QoS)を推定することにより,マルチロボットシステムにおける軌道全体の総和率を最大化することである。 この問題を解決するために,long short-term memory (lstm)-autoregressive integrated moving average (arima) モデルと dueling double deep q-network (d$^{3}$qn) アルゴリズムを組み合わせた統合機械学習 (ml) 方式を提案する。 ロボットの初期および最終位置予測のために、LSTM-ARIMAは、非定常および非線形データ列の勾配消滅の問題を克服することができる。 位相シフト行列とロボットの軌道を共同で決定するために、D$^{3}$QNはアクション値過大評価の問題を解決するために呼び出される。 提案手法に基づいて,各ロボットは,全軌道の最大総和率に基づいて,全軌道設計における長期的利益を追求するグローバルな最適軌道を保持する。 数値的な結果は、 1)LSTM-ARIMAモデルは高精度な予測モデルを提供する。 2) 提案する d$^{3}$qn アルゴリズムは高速平均収束を実現することができる。 3)高分解能ビットのRISは低分解能ビットよりもトラジェクトリの合計レートが大きい。 4)RIS-NOMAネットワークはRIS支援直交ネットワークに比べてネットワーク性能が優れている。

A novel reconfigurable intelligent surface-aided multi-robot network is proposed, where multiple mobile robots are served by an access point (AP) through non-orthogonal multiple access (NOMA). The goal is to maximize the sum-rate of whole trajectories for multi-robot system by jointly optimizing trajectories and NOMA decoding orders of robots, phase-shift coefficients of the RIS, and the power allocation of the AP, subject to predicted initial and final positions of robots and the quality of service (QoS) of each robot. To tackle this problem, an integrated machine learning (ML) scheme is proposed, which combines long short-term memory (LSTM)-autoregressive integrated moving average (ARIMA) model and dueling double deep Q-network (D$^{3}$QN) algorithm. For initial and final position prediction for robots, the LSTM-ARIMA is able to overcome the problem of gradient vanishment of non-stationary and non-linear sequences of data. For jointly determining the phase shift matrix and robots' trajectories, D$^{3}$QN is invoked for solving the problem of action value overestimation. Based on the proposed scheme, each robot holds a global optimal trajectory based on the maximum sum-rate of a whole trajectory, which reveals that robots pursue long-term benefits for whole trajectory design. Numerical results demonstrated that: 1) LSTM-ARIMA model provides high accuracy predicting model; 2) The proposed D$^{3}$QN algorithm can achieve fast average convergence; 3) The RIS with higher resolution bits offers a bigger sum-rate of trajectories than lower resolution bits; and 4) RIS-NOMA networks have superior network performance compared to RIS-aided orthogonal counterparts.
翻訳日:2022-05-05 11:32:38 公開日:2022-05-04